您现在的位置：首页 > 商业 > 正文

SuperGLUE还是SuperCLUE，大模型评测榜单惊现“李逵李鬼”？环球聚焦

时间：2023-05-10 20:53:51 来源：科技新知

随着国内百度、阿里、讯飞等各大厂商陆续发布大语言模型，百模大战的态势愈演愈烈、一触即发。各类评测也纷纷登场，分析到底谁才是国产ChatGPT的“扛把子”。

【资料图】

评测榜单是技术圈常见的一个评估维度。不过，前提是榜单得是公开透明、且具有权威性，国内外行业巨头都参与并认可，榜单才具有公信力，否则就会成为一家之言，毫无说服力，甚至会诱导大众。近日，一份自称“中文通用大模型综合性评测基准SuperCLUE”发布，权威性待考证，存在三点较大疑问。

一、试图混淆认知：国际权威榜单SuperGLUE，而非SuperCLUE

众所周知，在国际NLP领域，有大名鼎鼎的数据集GLUE和SuperGLUE，非常权威，OpenAI、谷歌等的大模型都在上面评测，极大推动了NLP领域的发展。

这次这份SuperCLUE评测的发起方为Chinese GLUE组织（简称CLUE），CLUE是仿照GLUE由国内民间组织的评测，权威度和影响力与GLUE相比差很远，其微信账号主体属性为个人。但这也迷惑了不少圈内人，GLUE和CLUE分不清楚。从评测排名显示来看，刚发布的讯飞星火大模型在总榜单和子榜单中均排名第一位，仅次于人类排名和GPT-4、GPT-3.5。而国内发布最早、实力最强的文心一言却排在榜单最后。

二、心虚火速删除官网讯飞、杭州实在智能等相关信息

还有一点存疑，评测榜单发布当天5月9日，其官网显示信息，中文基准测评成员顾问中排名第一的是崔一鸣，身份为学术顾问委员会主任，哈工大讯飞联合实验室（HFL）资深级研究员。而5月10日，官网已删除此条顾问的信息。

而001号创始会员徐亮，是会长，相当于这个榜单的实际负责人。昵称brightmart，中文任务基准测评发起人。多个预训练模型中文版、文本分类和数据集开源项目作者。

徐亮还有另一个身份，在5月9日官网中显示，他是杭州实在智能算法专家，也就是元语智能的创始人，曾在2月份发布自称“国内首个功能对话大模型ChatYuan”，不仅无法测试，发布几天即被监管叫停。4月，又被报道套壳推出开源组件。有分析人士认为，不排除创业公司有融资压力，蹭热度吸引投资人关注。

该SpuerClue榜单发起方，001号顾问是讯飞身份背景、001号基准发起人是创业公司创始人。在榜单发布后，担心行业质疑其公平、公正，相关信息还被删除。这就有点不言而喻了。

三、评估数据、评估方式未知，评测题目恐怕只有100道，相距权威有万倍差距

最后来说下这个榜单本身，业内人士一眼就可以看出来，评测的很不合理，首先，没有公布评估数据，以及具体的评估方式。同时从它的公开表述，可推断总共题目就100道题目。这个题目量少到难以置信。专业人士可能有参与过，像国际权威SuperGlue榜单，题目一般都得有2万多道，离权威可是差了几万倍。况且，它的评测得分榜首都是人类，那这个评分的基准到底是什么？是否有很多主观性因素在里面？是否某些大模型提前在这个数据集上已经训练过？

任务设计太武断，所谓“通用”基准，是用以测试通用的人工认知能力的，那么我们自然希望，评测任务是参考了模型想要模拟的认知能力及相关理论，系统化地选择出来的。而实际上，我们观察到的则是，基准的作者们在选择任务的时候，更像是图方便、省事。以往，CLUE 中存在着部分数据集，一味考虑任务的复杂性，却在最起码的分布边界划分上（如NER各个类别的边界，如场所、景点类，组织机构及其子类），模糊不清，且数据的一致性无法保证。

要么别比，要比就来点正规的比赛。自己出题自己考，说不准还抢跑，自己还是评委，那这是欺不负了解真相的吃瓜群众吗？投机取巧，终皆散去。苦练内功，才是王道。打铁需先自身硬，国内的大语言模型厂商，还是好好“卷”研发、“卷“创新”吧。

标签：

上一篇：保荐机构现场检查，ST天顺存在关联方非经营性占用资金
下一篇：最后一页

特别关注

2023年广西田林县壮剧艺术节开幕

原标题：2023年广西田林县壮剧艺术节开幕5月8日，演员在开幕式上表演。5月8日，2023年田林县壮剧艺术节在广

2023-05-10 20:42
开心超人衍生真人剧《不是吧！我变成超人了》杀青

原标题：开心超人衍生真人剧《不是吧！我变成超人了》杀青时光如梭，经过为期一个多月紧锣密鼓的拍摄，由上

2023-05-10 18:40
《漫长的季节》带来的信号是什么

原标题：《漫长的季节》带来的信号是什么澎湃首席评论员李勤余关于《漫长的季节》有多“好”，这几天人们已

2023-05-10 17:52
中国传统戏曲展现对年轻人吸引力新动态

原标题：(神州写真)中国传统戏曲展现对年轻人吸引力中新社武汉5月10日电作者：武一力一个多月以来，在“

2023-05-10 17:40
人从众，怎么“看” 当前滚动

原标题：人从众，怎么“看”五柳七一到五一长假，“人从众”“火炎焱”的字样就开始四处飘屏。今年这个假期

2023-05-10 16:41
《激情精神》：女性书写的历史中，为一位“邪恶缪斯”正名

原标题：《激情精神》：女性书写的历史中，为一位“邪恶缪斯”正名工人日报客户端记者陈俊宇关于著名音乐家

2023-05-10 16:32
民族舞剧《红楼梦》爆火背后的逻辑_世界快看点

原标题：民族舞剧《红楼梦》爆火背后的逻辑泉子在省会大剧院演出的三场，谢幕阶段观演的互动，被大批年轻人

2023-05-10 16:45
纽约一起刑案发现两件中国古代重要石刻文物！即将“回家”

原标题：美国向我国返还2件非法流失的重要石刻文物记者5月10日从国家文物局获悉，当地时间5月9日，中国驻纽

2023-05-10 16:38
与周杰伦同行20年动感地带携“周同学”开启元宇宙新合作

原标题：与周杰伦同行20年动感地带携“周同学”开启元宇宙新合作5月8日，“我的地盘‘移’燃周同学”——中

2023-05-10 16:53
天天通讯！纪念赵慧秋京剧演唱会将举行

原标题：纪念赵慧秋京剧演唱会将举行天津日报讯（记者刘莉莉）纪念著名京剧表演艺术家赵慧秋京剧演唱会将于

2023-05-10 15:53
让文物在眼前“活起来” 天天快资讯

原标题：天津自然博物馆推出沉浸式AR导览相机（引题）让文物在眼前“活起来”（主题）今晚报讯（记者高爽）

2023-05-10 15:46
聚焦：《人生路不熟》：除了"笑声消费",我们对喜剧还有更多期待

原标题：《人生路不熟》：除了 "笑声消费 ",我们对喜剧还有更多期待王雪璞近年来，国内电影市场的“泛喜剧

2023-05-10 15:33
唐装汉服轻舞激活文旅融合新活力|今日精选

原标题：唐装汉服轻舞激活文旅融合新活力在刚结束的“五一”假期，西安旅游人气高涨，共接待游客1330 51万

2023-05-10 15:46
山东日照：文旅市场何以“超燃”

原标题：山东日照：文旅市场何以“超燃”光明日报记者赵秋丽李志臣通讯员李晓萌从景区到商圈，从海边到山野

2023-05-10 15:50
天天动态:数字技术如何赋能非遗“活”下去“潮”起来

原标题：数字技术如何赋能非遗“活”下去“潮”起来（主题）《中国非物质文化遗产数字传播研究报告（2018-2

2023-05-10 14:44
暮春时节的景观及爱情——一份对五一档院线电影的不完全盘点

原标题：暮春时节的景观及爱情（主题）——一份对五一档院线电影的不完全盘点（副题）刘永昶五一假期的中国

2023-05-10 14:33
76岁钢琴巨匠布赫宾德再访北京

原标题：9天7场奉上贝多芬作品教科书级演绎（引题）76岁钢琴巨匠布赫宾德再访北京（主题）北京日报记者高倩

2023-05-10 14:56
国际博物馆日中国主会场活动将在福建博物院举行

原标题：国际博物馆日中国主会场活动将在福建博物院举行光明日报北京5月9日电（记者李韵）国家文物局9日召

2023-05-10 14:34
天天滚动:冷门题材演绎出热血“团魂”

原标题：冷门题材演绎出热血“团魂”邱伟拔河也能拍成剧？浙江广电集团推出的“Z视介”首部自制剧《不就是

2023-05-10 13:34
自媒体时代，警惕艺术欣赏被“带歪”|世界短讯

原标题：自媒体时代，警惕艺术欣赏被“带歪”黄一迁众多艺术展接踵而来，催生了网络平台上数不清的笔记、打

2023-05-10 13:34
《人生路不熟》：除了“笑声消费”，我们对喜剧还有更多期待

原标题：《人生路不熟》：除了“笑声消费”，我们对喜剧还有更多期待王雪璞近年来，国内电影市场的“泛喜剧

2023-05-10 13:44
当我们寻访苏东坡时，我们在寻找什么？

原标题：当我们寻访苏东坡时，我们在寻找什么？杨奕（90后团员）如果一个人21岁丧母，28岁丧妻，29岁丧父，

2023-05-10 13:46
环球即时看！日益草根化的短视频，需要搭建美学阶梯

原标题：日益草根化的短视频，需要搭建美学阶梯嘉宾：王国平（国家一级导演、首届中国百佳电视艺术工作者）

2023-05-10 13:48
儿童剧《土狗老黑闯祸了》月底首演

原标题：儿童剧《土狗老黑闯祸了》月底首演北京日报讯（记者高倩）5月8日，由北京演艺集团出品、北京儿童艺

2023-05-10 11:38
剧本娱乐行业里的年轻人：在创作和表达中实现梦想

原标题：剧本娱乐行业里的年轻人：在创作和表达中实现梦想中青报·中青网记者夏瑾2018年春天，唯双偶然接触

2023-05-10 11:46

热文推荐

SuperGLUE还是SuperCLUE，大模型评测榜单惊现“李逵李鬼”？ 环球聚焦

特别关注

焦点资讯

SuperGLUE还是SuperCLUE，大模型评测榜单惊现“李逵李鬼”？环球聚焦