科技快讯

大语言模型意识水平测评报告显示:DeepSeek-R1语义一致性表现较好

2025年03月03日 | 查看: 63396

  2月25日,记者从世界人工意识协会国际人工智能DIKWP测评标准委员会获悉,由该协会主导、全球10余个国家与地区的90多家机构和企业参与的《全球首个大语言模型意识水平“识商”白盒DIKWP测评2025报告(100题版)》(以下简称《报告》)日前出炉。

大语言模型意识水平测评报告显示:DeepSeek-R1语义一致性表现较好
图片来源于网络,如有侵权,请联系删除

  《报告》的核心亮点在于全球首创的意识水平测评体系。《报告》基于DIKWP模型,从数据、信息、知识、智慧、意图等方面,构建全链路评估体系。测试题全面覆盖大语言模型的感知与信息处理、知识构建与推理、智慧应用与问题解决、意图识别与调整四大模块,对主流大语言模型的意识水平进行系统化、量化深度剖析。

  《报告》对当前主流的大语言模型进行了全面测评,包括DeepSeek-V3、ChatGPT-o1、通义千问-2.5、ChatGPT-4o、Kimi、文心大模型-3.5和Llama-3.1等。测评结果显示,不同模型在不同模块的表现各有千秋。

  例如,感知与信息处理部分主要考察模型在处理原始数据、提取信息和保持语义一致性方面的表现。ChatGPT-4o和ChatGPT-o1在数据转换和格式处理方面表现出色,体现出稳定性。ChatGPT-o3-mini、ChatGPT-o3-mini-high、通义千问-2.5、Kimi和Grok在信息提取方面表现优异,特别是在数据到信息转化路径上的表现尤为突出。DeepSeek-R1、ChatGPT-4o、Kimi和ChatGLM-4 Plus在保持语义一致性方面表现较好。

  知识构建与推理部分的测评考察模型将信息整合为知识的能力,以及逻辑推理能力。结果显示,通义千问-2.5、ChatGLM-4 Plus和ChatGPT-4o表现突出。

  意图识别与调整部分的测评重点考察模型对用户意图的理解能力,以及根据意图调整输出的能力。结果显示,豆包和Gemini-2.0 Flash Thinking Experimental表现较好,能够准确理解用户的问题并提供相关回答。 (记者王祝华)

【纠错】 【责任编辑:朱家齐】
    阅读下一篇:
      深度观察
      • 新华全媒头条丨各地各部门深入践行“五个必须统筹”述评之四
      • 新华视点丨科技赋能:解锁农业“新密码”
      • 新华全媒+丨北京古旧书市探访记:古书新韵 纸墨传香
      • 千笔楼丨卖东西的胖东来,咋卖成了“6A级景区”?
      • 香港故事丨维港浪花见证湾区青年勇敢担当
      • 随笔丨“任尔焦土,吾要稀土”
      • 新闻分析丨日本高考纳入信息学科能否收到预期效果?
      • “低空经济”蓄势“高飞”
      • 视频告诉你,她多爱英歌舞

              推荐阅读:

              人保服务|人保安康险来守护您的健康

              人保服务|电动车保险都保什么?有必要买吗?

              人保车险|你知道汽车购置税和汽车保险的算法吗?

              人保车险|驾驶证信息知多少,快来看看吧!

              人保车险|车险共有多少种,应该买哪种?

              京东发布即时零售三公里模式,助力一刻钟便民生活圈半径扩容

              2023全国农商互联暨乡村振兴产销对接大会在江苏徐州开幕

              应用已融入67个国民经济大类 5G赋能赋值赋智作用不断彰显

              中国第40次南极考察“南极大学”开班

              天猫启动黄扶手计划“观·爱”行动,首批送出2万个陪伴摄像头

              关键词: