
上证报个证券网讯(记者罗茂林)5月21日,国内第三方大模型测评机构SuperCLUE发布商汤“日日新5.0”(SenseChat V5)中文基准测评结果,以总分80.03分的优异成绩刷新国内最好成绩,并且在中文综合成绩上超越GPT-4-Turbo-0125。

注:对比模型数据均来源于SuperCLUE,SenseChat V5和Yi-Large取自2024年5月11日,其余所有模型取自2024年4月30日。由于部分模型分数较为接近,为了减少问题波动对排名的影响,本次测评将相距0.25分区间的模型定义为并列,以上排序不代表实际排名。
据悉,SuperCLUE综合性测评基准4月评测集,有2194道多轮简答题,配资网覆盖理科与文科两大能力,包括计算、逻辑推理、代码、长文本在内的基础十大任务。
在本次测评中,SenseChat V5在各项能力上表现较为均衡,尤其在长文本、生成创作、角色扮演、安全能力、工具使用上处于全球领先位置。在文科任务上SenseChat V5表现出色,以82.20分取得国内外最高分;理科任务上SenseChat V5以76.78分取得国内最好成绩。
资料显示,商汤科技日日新5.0大模型(SenseChat V5)发布于4月23日,采用混合专家架构(MoE),参数量高达6000亿,支持200K的上下文窗口。此次SenseChat V5模型能力显著提升,其背后是训练数据的全面升级与训练方法的有效提升,以及商汤AI大装置SenseCore算力设施与算法设计的联合调优。
文章为作者独立观点,不代表华林优配观点