商汤大模型多个评测表现超ChatGPT

分析测试百科网 > 行业资讯 > 焦点事件

商汤大模型多个评测表现超ChatGPT

2023.6.26

本报讯（记者沈湫莎）商汤科技近日公布了自研中文语言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。评测显示，“商量”在这三个测试集中的表现均领先ChatGPT，实现了我国语言大模型研究的突破。全球三大权威语言模型测评基准分别为由美国加州大学伯克利分校等高校构建的多任务考试评测集MMLU、由微软研究院推出的学科考试评测集AGIEval（含中国高考、司法考试及美国SAT、LSAT、GRE和GMAT等），以及由上海交通大学、清华大学和英国爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval。截至6月，全球范围内正式发布的大语言模型已超过40款，其中由中国厂商、高校、科研院所等发布的大语言模型近20款。在MMLU测评中，“商量2.0”综合得分为68.6，超ChatGPT（67.3分），仅落后于GPT-4（86.4分）位居第二；在AGIEval测评中，“商量2.0”得分49.9分，超ChatGPT（42.9分），仅次于GPT-4的56.4分。在C-Eval测评中，“商量2.0”得分66.1分，在参评的18个大模型中，仅次于GPT-4（68.7分）。 4月，商汤发布“日日新”大模型体系以及中文语言大模型“商量”。目前，“商量”已在众多行业和场景中落地应用，已有近千家企业客户通过申请，应用和体验“商量2.0”的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力。在服务客户过程中，“商量2.0”持续迭代和提升，并实现知识的实时更新。

模型商汤 gpt

互联网

喜欢作者我要约稿

商汤大模型多个评测表现超ChatGPT

关于同源重组的Holliday模型介绍

染色质组装的多级螺旋模型介绍

染色质的组装模型介绍

共价键的分子模型介绍

关于细胞膜三明治模型和单位膜模型的介绍

实验数据及模型参数的拟合方法

Langmuir模型拟合等温吸附线

“OGD模型”是什么意思

LPS诱导的炎症反应模型

血清丙氨酸氨基转移酶（ALT或GPT）测定的临床意义

电阻、电容和电感的实际等效模型（二）

动物模型及动物疾病模型技术介绍

动物模型及动物疾病模型技术介绍

慢性不可预知温和应激 (CUMS) 模型实验

常见的疼痛研究模型及方法（六）

常见的疼痛研究模型及方法（三）

常见肿瘤动物模型介绍

肿瘤动物模型的构建——结直肠癌篇

疼痛实验动物模型制作实验——组织炎症疼痛模型

各种湍流模型

周锦帆

喜欢作者

打赏方式

商汤大模型多个评测表现超ChatGPT

周锦帆