随着国内百度、阿里、讯飞等各大厂商陆续发布大语言模型,百模大战的态势愈演愈烈、一触即发。各类评测也纷纷登场,分析到底谁才是国产ChatGPT的“扛把子”。
【资料图】
评测榜单是技术圈常见的一个评估维度。不过,前提是榜单得是公开透明、且具有权威性,国内外行业巨头都参与并认可,榜单才具有公信力,否则就会成为一家之言,毫无说服力,甚至会诱导大众。近日,一份自称“中文通用大模型综合性评测基准SuperCLUE”发布,权威性待考证,存在三点较大疑问。
一、试图混淆认知:国际权威榜单SuperGLUE,而非SuperCLUE
众所周知,在国际NLP领域,有大名鼎鼎的数据集GLUE和SuperGLUE,非常权威,OpenAI、谷歌等的大模型都在上面评测,极大推动了NLP领域的发展。
这次这份SuperCLUE评测的发起方为Chinese GLUE组织 (简称CLUE),CLUE是仿照GLUE由国内民间组织的评测,权威度和影响力与GLUE相比差很远,其微信账号主体属性为个人。但这也迷惑了不少圈内人,GLUE和CLUE分不清楚。从评测排名显示来看,刚发布的讯飞星火大模型在总榜单和子榜单中均排名第一位,仅次于人类排名和GPT-4、GPT-3.5。而国内发布最早、实力最强的文心一言却排在榜单最后。
二、心虚火速删除官网讯飞、杭州实在智能等相关信息
还有一点存疑,评测榜单发布当天5月9日,其官网显示信息,中文基准测评成员顾问中排名第一的是崔一鸣,身份为学术顾问委员会主任,哈工大讯飞联合实验室(HFL)资深级研究员。而5月10日,官网已删除此条顾问的信息。
而001号创始会员徐亮,是会长,相当于这个榜单的实际负责人。昵称brightmart,中文任务基准测评发起人。多个预训练模型中文版、文本分类和数据集开源项目作者。
徐亮还有另一个身份,在5月9日官网中显示,他是杭州实在智能算法专家,也就是元语智能的创始人,曾在2月份发布自称“国内首个功能对话大模型ChatYuan”,不仅无法测试,发布几天即被监管叫停。4月,又被报道套壳推出开源组件。有分析人士认为,不排除创业公司有融资压力,蹭热度吸引投资人关注。
该SpuerClue榜单发起方,001号顾问是讯飞身份背景、001号基准发起人是创业公司创始人。在榜单发布后,担心行业质疑其公平、公正,相关信息还被删除。这就有点不言而喻了。
三、评估数据、评估方式未知,评测题目恐怕只有100道,相距权威有万倍差距
最后来说下这个榜单本身,业内人士一眼就可以看出来,评测的很不合理,首先,没有公布评估数据,以及具体的评估方式。同时从它的公开表述,可推断总共题目就100道题目。这个题目量少到难以置信。专业人士可能有参与过,像国际权威SuperGlue榜单,题目一般都得有2万多道,离权威可是差了几万倍。况且,它的评测得分榜首都是人类,那这个评分的基准到底是什么?是否有很多主观性因素在里面?是否某些大模型提前在这个数据集上已经训练过?
任务设计太武断,所谓“通用”基准,是用以测试通用的人工认知能力的,那么我们自然希望,评测任务是参考了模型想要模拟的认知能力及相关理论,系统化地选择出来的。而实际上,我们观察到的则是,基准的作者们在选择任务的时候,更像是图方便、省事。以往,CLUE 中存在着部分数据集,一味考虑任务的复杂性,却在最起码的分布边界划分上(如NER各个类别的边界,如场所、景点类,组织机构及其子类),模糊不清,且数据的一致性无法保证。
要么别比,要比就来点正规的比赛。自己出题自己考,说不准还抢跑,自己还是评委,那这是欺不负了解真相的吃瓜群众吗?投机取巧,终皆散去。苦练内功,才是王道。打铁需先自身硬,国内的大语言模型厂商,还是好好“卷”研发、“卷“创新”吧。
标签:
上一篇:保荐机构现场检查,ST天顺存在关联方非经营性占用资金
下一篇:最后一页
凡本网注明“XXX(非现代青年网)提供”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和其真实性负责。
原标题:2023年广西田林县壮剧艺术节开幕5月8日,演员在开幕式上表演。5月8日,2023年田林县壮剧艺术节在广
2023-05-10 20:42
原标题:开心超人衍生真人剧《不是吧!我变成超人了》杀青时光如梭,经过为期一个多月紧锣密鼓的拍摄,由上
2023-05-10 18:40
原标题:《漫长的季节》带来的信号是什么澎湃首席评论员李勤余关于《漫长的季节》有多“好”,这几天人们已
2023-05-10 17:52
原标题:(神州写真)中国传统戏曲展现对年轻人吸引力中新社武汉5月10日电 作者:武一力一个多月以来,在“
2023-05-10 17:40
原标题:人从众,怎么“看”五柳七一到五一长假,“人从众”“火炎焱”的字样就开始四处飘屏。今年这个假期
2023-05-10 16:41
原标题:《激情精神》:女性书写的历史中,为一位“邪恶缪斯”正名工人日报客户端记者陈俊宇关于著名音乐家
2023-05-10 16:32
原标题:民族舞剧《红楼梦》爆火背后的逻辑泉子在省会大剧院演出的三场,谢幕阶段观演的互动,被大批年轻人
2023-05-10 16:45
原标题:美国向我国返还2件非法流失的重要石刻文物记者5月10日从国家文物局获悉,当地时间5月9日,中国驻纽
2023-05-10 16:38
原标题:与周杰伦同行20年动感地带携“周同学”开启元宇宙新合作5月8日,“我的地盘‘移’燃周同学”——中
2023-05-10 16:53
原标题:纪念赵慧秋京剧演唱会将举行天津日报讯(记者刘莉莉)纪念著名京剧表演艺术家赵慧秋京剧演唱会将于
2023-05-10 15:53
原标题:天津自然博物馆推出沉浸式AR导览相机(引题)让文物在眼前“活起来”(主题)今晚报讯(记者高爽)
2023-05-10 15:46
原标题:《人生路不熟》:除了 "笑声消费 ",我们对喜剧还有更多期待王雪璞近年来,国内电影市场的“泛喜剧
2023-05-10 15:33
原标题:唐装汉服轻舞激活文旅融合新活力在刚结束的“五一”假期,西安旅游人气高涨,共接待游客1330 51万
2023-05-10 15:46
原标题:山东日照:文旅市场何以“超燃”光明日报记者赵秋丽李志臣通讯员李晓萌从景区到商圈,从海边到山野
2023-05-10 15:50
原标题:数字技术如何赋能非遗“活”下去“潮”起来(主题)《中国非物质文化遗产数字传播研究报告(2018-2
2023-05-10 14:44
原标题:暮春时节的景观及爱情(主题)——一份对五一档院线电影的不完全盘点(副题)刘永昶五一假期的中国
2023-05-10 14:33
原标题:9天7场奉上贝多芬作品教科书级演绎(引题)76岁钢琴巨匠布赫宾德再访北京(主题)北京日报记者高倩
2023-05-10 14:56
原标题:国际博物馆日中国主会场活动将在福建博物院举行光明日报北京5月9日电(记者李韵)国家文物局9日召
2023-05-10 14:34
原标题:冷门题材演绎出热血“团魂”邱伟拔河也能拍成剧?浙江广电集团推出的“Z视介”首部自制剧《不就是
2023-05-10 13:34
原标题:自媒体时代,警惕艺术欣赏被“带歪”黄一迁众多艺术展接踵而来,催生了网络平台上数不清的笔记、打
2023-05-10 13:34
原标题:《人生路不熟》:除了“笑声消费”,我们对喜剧还有更多期待王雪璞近年来,国内电影市场的“泛喜剧
2023-05-10 13:44
原标题:当我们寻访苏东坡时,我们在寻找什么?杨奕(90后团员)如果一个人21岁丧母,28岁丧妻,29岁丧父,
2023-05-10 13:46
原标题:日益草根化的短视频,需要搭建美学阶梯嘉宾:王国平(国家一级导演、首届中国百佳电视艺术工作者)
2023-05-10 13:48
原标题:儿童剧《土狗老黑闯祸了》月底首演北京日报讯(记者高倩)5月8日,由北京演艺集团出品、北京儿童艺
2023-05-10 11:38
原标题:剧本娱乐行业里的年轻人:在创作和表达中实现梦想中青报·中青网记者夏瑾2018年春天,唯双偶然接触
2023-05-10 11:46