【资料图】
凤凰网科技讯 《AI前哨》 5月9日消息,今日,中文通用大模型综合性评测基准SuperCLUE正式发布。中文通用大模型基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准。
据介绍,SuperCLUE主要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型不同任务的效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。
与此同时,SuperCLUE评测榜单也同步公开。该榜单测试了国内外9个模型,分别为GPT4、GPT3.5-turbo、讯飞星火认知大模型、MiniMax、BELLE-138、ChatGML-68、M0SS-168、Vicuna-138、文心一言,九大模型还与人类进行了对比。
榜单显示,从人类测评角度看,基础能力(98%)+中文特性(95%),都达到了非常高的水平。除GPT-4外,人类准确率大幅超过了其他的大模型(如在基础能力上超过其他模型20多个百分点)。AI虽然进展很快,但人类还是有相对优势的, 比如在计算方面,人类比最强模型GPT-4高出了30个百分点。
目前,国际先进模型效果具有较大的领先性,而同时国产GPT模型也有不俗的表现。
榜单中,表现最好的国内大模为讯飞星火认知大模型,总分53.58分,与GPT-4相比有23个百分点的差距,与gpt-3.5-turbo在总分上有13个百分点的差距。在语义理解方面,讯飞星火认知大模型得分100分,超过GPT-4。百度文心一言在榜单中排名最后一名,得分32.61分。
据悉,SuperCLUE从基础能力、专业能力和中文特性能力三个不同的维度评价大模型。其中,基础能力包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力;专业能力包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力;中文特性能力针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等10项多种能力。
值得注意的是,SuperCLUE标明了评测基准的不足和局限,包括中文特性能力总数据量比较少,以及选取的模型较少。
标签:
-
速讯:AI前哨 | 中文通用大模型评测基准SuperCLUE发布:讯飞星火大模型国内第一
凤凰网科技讯《AI前哨》5月9日消息,今日,中文通用大模型综合性评测基准SuperCLUE正式发布。它尝试在一系
-
寻梦奇迹话剧_寻梦奇迹
1、其实寻梦奇迹还是很好的,至少很少有人可以把公益服开成长久服。2、我玩过不少私服,大多都是开几天,就
-
小米Poco F5系列在现身海外官网:搭载骁龙8+处理器|焦点热议
据悉,小米PocoF5Pro的屏幕为6 67英寸AMOLED材质,分辨率WQHD+,即3200x1440像素,像素密度为526ppi,是目前
-
每日信息:乘联会:4月新能源车市场零售同比增长85.6%
财经网汽车讯5月9日,乘联会数据显示,4月新能源车市场零售52 7万辆,同比增长85 6%,环比下降3 6%。今年以
-
长春经济圈环线高速工程进展迅速-天天热议
近日,随着长春经济圈环线高速公路二期项目双阳至伊通段GQ04工区K187+263 542-K189+500等三段主线路基纵断
-
每日快报!助力四川农村新业态发展 乡村振兴新业态专委会正式成立
封面新闻记者张越熙真实的乡村环境,质朴的人物形象,没有精致的剪辑和华丽的布景,但却可以吸引一批又一批
-
世界动态:郑州市总工会推动县级工会工作高质量发展
中工网讯据河南工人日报消息,5月5日,河南省郑州市总工会召开“县级工会加强年”专项工作现场观摩推进会,
-
5月9日人民币对美元汇率中间价下调97个基点
5月9日人民币对美元汇率中间价下调97个基点
-
环球快看:一体化治理、联保共治,上海青浦打造生态水岸线
中国青年网上海5月8日电(记者侯倩倩)一边在上海,一边在江苏,位于沪苏交界处的元荡湖,犹如一块绿宝石,
-
慕然初遇玻尿酸面膜多少钱(慕然初遇玻尿酸面膜使用什么肤质)
慕然初遇玻尿酸面膜多少钱,慕然初遇玻尿酸面膜使用什么肤质这个很多人还不知道,现在让我们一起来看看吧!1
-
当前速递!云南省玉溪市2023-05-09 10:18发布大风蓝色预警
一、云南省玉溪市天气预报1、峨山县气象台2023年5月9日10时15分发布大风蓝色预警信号。2、预计未来12小时,
-
世界消息!全省第八期“三个一批”项目建设活动 经开区交出亮眼答卷
新乡网讯5月8日,按照省委省政府、市委市政府的统一部署,为全力推进经开区项目建设,经开区举行第八期“三
-
be worth doing something的用法_be worth doing
1、Thefilmisworthseeing Theculturerelicsare
-
热资讯!福立旺不超7亿元可转债获上交所通过 中信证券建功
中国经济网北京5月9日讯上海证券交易所上市审核委员会2023年第32次审议会议于2023年5月8日召开,审议结果显
-
焦点快看:领英职场App将于8月9日起正式停服 716名员工岗位被裁撤
相关新闻:领英将逐步淘汰其中国APP领英职场裁员716人新浪科技讯5月9日上午消息,LinkedIn官微发布消息称,
-
焦点!欧比特:5月8日融资买入6289.72万元,融资融券余额5.88亿元
5月8日,欧比特(300053)融资买入6289 72万元,融资偿还6049 23万元,融资净买入240 5万元,融资余额5 88亿元。
-
多地迎来“降价潮”,种牙“自由”之后牙该怎么种? 天天百事通
今年以来,多地全面落实种植牙价格综合治理措施,种植牙价格昂贵的情况有效改观,公立医疗机构和民营机构的
-
天天热点!第二批安徽省新能源汽车动力蓄电池回收利用区域中心企业(站)试点名单
第二批安徽省新能源汽车动力蓄电池回收利用区域中心企业(站)试点名单5月6日,安徽省经信厅印发关于公布第
-
《河北省国土空间生态修复项目管理办法》印发 河北全面规范生态修复项目申报实施等环节|今日热文
近日,省自然资源厅、省财政厅联合印发《河北省国土空间生态修复项目管理办法》(以下简称《办法》),对生
-
全球即时:恒指牛熊街货比(49:51)︱5月9日
截至5月9日,恒指最新的牛熊街货比例为49:51。
-
中钢协:4月下旬重点统计钢企粗钢日均产量220.67万吨 环比下降3.63%
智通财经获悉,中钢协5月8日发布的数据显示,2023年4月下旬,重点统计钢铁企业共生产粗钢2206 68万吨、生铁202
-
娄底华达学校开展科普急救知识讲座_全球百事通
湖南日报·新湖南客户端5月8日讯(通讯员谢欢)为了提高学生的安全防范意识和应对意外伤害的能力,5月6日,娄
-
美联储发布金融稳定报告 指出存在大量流动性风险 全球微头条
美联储周一警告称,银行业对经济增长放缓的担忧可能导致贷款发放减少,进而引发经济加速下滑。这是自四家地
-
灵活风投,有多灵活?
如果在此过程中创始人希望转向传统VC,或者公司被收购,收入共享就会被暂停,flexibleVC的所有权也随之转换
-
和评理 | 日韩“和解”,不过是美国操纵下的权宜之计 焦点热门
时间5月7日,日本首相岸田文雄匆匆抵韩,开始为期两天的工作访问,韩日时隔12年重启“穿梭外交”。
-
战争的真相超详细攻略(战争的真相全关卡流程攻略)
1、训练关12、三个国家的训练关是一样的,所以其他国家的这关以后就不重复了。3、一开始你只能操纵一个人,
-
世界速读:公积金可以同时抵扣房租、房贷吗?有轨电车蓉2号线高峰时段能增加车次吗?最新回应→
公积金可以同时抵扣房租、房贷吗?有轨电车蓉2号线高峰时段能增加车次吗?最新回应→,房贷,公积金,有轨电车
-
纳微科技董监高华晓锋2023年05月08日增持11,674股,耗资50.20万元-速看料
纳微科技(688690)董监高华晓锋2023年05月08日增持11,674股,每股成交均价43 00元,耗资50 20万元,变动原
-
阿里P9下岗再就业
我是B站重度用户,在上面经常能够发现一些有趣的人和事。最近我开始留意到一位势头迅猛的职场博主的账号,t
-
铁路部门或因安检漏检担责具体是什么情况
很多人对铁路部门或因安检漏检担责具体是什么情况比较关心,现在让我们一起来瞧瞧具体是什么情况吧!1、今