当前快看:模型“日日新”!中文语言大模型“商量2.0”多个评测基准综合表现超ChatGPT
时间:2023-06-22 21:32:28来源:新民晚报

来源/东方IC

近日,商汤科技公布了自研中文语言大模型“商量 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。根据评测结果,“商量2.0”在三个测试集中表现均领先ChatGPT,实现了我国语言大模型研究的重要突破。

截至目前,已有近千家企业客户通过申请,应用和体验“商量2.0”的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力,并且“商量2.0”还在服务客户过程中,持续实现着快速迭代和提升,以及知识的实时更新。


(资料图片)

图说:各语言大模型在三个评测基准中的得分情况 采访对象供图(下同)

“商量2.0”综合能力超ChatGPT

商汤科技公布的评测结果,选取了全球三大权威语言模型测评基准MMLU、AGIEval、C-Eval,结果显示“商量2.0”在三个测试集中表现均领先ChatGPT,部分已十分接近GPT-4的水平。

图说:图中粗体表示结果最佳,下划线表示结果第二

MMLU是由美国加州大学伯克利分校、哥伦比亚大学、芝加哥大学及伊利诺伊大学厄巴纳-香槟分校联合打造的大规模多任务语言理解的评测基准,涵盖了科学、技术、工程、数据,人文、社会科学等领域的57个科目,难度从初级水平到高级专业水平,考验世界知识和解决问题的能力。在该评测中,“商量2.0”综合得分为68.6,超过了ChatGPT(67.3分),落后GPT-4(86.4分)。

图说:图中粗体表示结果最佳,下划线表示结果第二

AGIEval是由微软研究院发布的,专门用于评估基础模型在人类认知和问题解决相关任务中表现出的一般能力,从而实现模型智能和人类智能的对比。该基准选取20种面向普通人类考生的官方、公开、高标准往常和资格考试,包括普通大学入学考试(中国高考和美国SAT考试)、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等。在该评测中,“商量2.0”测出49.91的分数,再次超越ChatGPT(42.9分),仅次于GPT-4的56.4分。在其中一项评测子集中,“商量2.0”以58.5分仅微弱差距落后GPT-4(58.8分)。

C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集,包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。面对C-Eval评测基准,“商量2.0”拿到了66.1的分数,在参评的18个大模型中,仅次于GPT-4(68.7分),全面领先ChatGPT、Claude、Bloom等一众海内外大模型。

技术创新+应用落地 推动能力持续提升

今年4月,商汤正式发布“商汤日日新”大模型体系,以及自研中文语言大模型“商量”。截至6月,全球范围内正式发布的大语言模型已超过40款,其中由中国厂商、高校、科研院所等发布的大语言模型近20款。

在“百花齐放”的市场格局中,通过对比成绩与表现,可以了解各大预言模型的特点与差异,并且直观地了解每个大语言模型当前的智能水平。目前“商量2.0”实现了对GPT-3.5超越,并且随着商业化落地的推进,在众多行业、场景中发挥令人满意的作用。

例如在需要大量文案工作的场景中,“商量2.0”可以协助处理各类文章、报告、信函、产品信息、IT信息等,进行编辑、重写、总结、分类、提取信息、制作Q&A等,有效提高企业员工的生产效率。在客户服务场景中,“商量 2.0”还可以扮演许多不同的企业角色,如银行客服、给孩子讲故事的绘本老师等等,并进行顺畅的交流和互动,提升客户体验。

此外,“商量2.0”还拥有广泛的知识储备,能够结合企业自身所在行业的专有数据,非常高效地打造满足企业需要的高阶知识库,帮助实现更智能化的知识库管理。“商量2.0”还是高水平的AI代码助手,能够极大帮助提高开发效率,实现新的“二八定律”——80%的代码由AI生成,20%则由人工生成。

据悉,商汤大语言模型能力的提升源于更多高质量中文数据的训练学习,得益于团队在底层大模型技术上的不断创新。商汤团队在训练阶段采用自研的一系列增强复杂推理能力的方法,以及更加有效的反馈学习机制,让大模型增强推理能力的同时,减轻了传统大模型的幻觉问题。

新民晚报记者 郜阳

标签:

最新
  • 当前快看:模型“日日新”!中文语言大模型“商量2.0”多个评测基准综合表现超ChatGPT

    来源 东方IC近日,商汤科技公布了自研中文语言大模型“商量2 0”在MMLU

  • 全球快资讯丨中国气象局部署推进应对气候变化工作

    三要强化国际合作,以全球视野推动和加强应对气候变化工作

  • 打通海上智慧油田的“信息大动脉”

    看到专家组“同意通过验收”的意见后,中海油研究总

  • 世界热点!刚刚出炉!新加坡全球生活成本最贵!超过上海香港纽约!Grab裁员1000人

    刚刚出炉!新加坡全球生活成本最贵!超过上海香港纽约!Grab裁员1000人

  • vals是什么牌子_是名牌么 质量到底怎么样啊...-每日信息

    想必现在有很多小伙伴对于vals是什么牌子是名牌么质量到底怎么样啊

  • psp合金弹头xx_怎么才能使用莉安娜 我的是5.03系统 除了使用金手指 还有什么方法啊 求高手指点

    想必现在有很多小伙伴对于psp合金弹头xx怎么才能使用莉安娜我的是03系

  • 车辆年检时间最新规定是多少 全球热门

    车辆年检时间最新规定是在车辆检验合理满期前三个月内进行年检,如果当

  • 股东分红怎么做账?企业股东分红需要交哪些税?

    股东分红怎么做账?1、企业宣告发放股利时:借:利润分配——应付现

  • 百万补贴·一点就惠!6月20日起 贵惠荟商城惠民消费补贴开始发放|热文

    为进一步提升助商惠民力度,满足居民品质消费需求,在贵州省商务厅指导

  • 洗照片尺寸价格表(洗照片尺寸)

    照片尺寸价格表,洗照片尺寸这个问题很多朋友还不知道,来为大家解答以

  • 光刻胶板块高开高走,容大感光大涨超10%

    App6月19日消息,光刻胶板块早盘呈现高开高走态势,容大感光大涨超10%

  • 每日资讯:昌平区与艾赛普(北京)生物科技有限公司签署战略合作框架协议

    昌平区与艾赛普(北京)生物科技有限公司签署战略合作框架协议

  • 17岁考驾照可以吗

    17岁不可以考驾照,根据法律规定,申请不同车型的驾驶证,年龄规定也有

  • 海岛奇兵资源岛木材怎么快速获取 海岛奇兵资源岛木材获取技巧-全球报道

    海岛奇兵资源岛木材怎么快速获取海岛奇兵资源岛木材获取技巧,

  • 环球报道:太华路这处绿植过高 遮挡视线

    6月12日,有市民向华商报反映,西安市太华路与北二环立交两边匝道出口

  • 女排3消息:李盈莹疑受伤,龚翔宇复出揭谜底,蔡斌爆冷丢掉榜首-全球时快讯

    最近中国女排正在香港备战第二周第2场比赛,今天晚上八点半将会迎来保

  • 旅游
    • AI大模型紫东太初已被注册商标 中科院已注册紫东太初大模型商标 世界快播

    • 海上明月共潮生的上一句是什么_海上明月共潮生的上一句简介介绍|全球速讯

    • 巅峰追寻-每日信息

    • 全球快看点丨水井坊:预计Q2业绩重返增长轨道