【导读】 现在大语言模型们也要像王者荣耀/LoL/Dota这些游戏里的玩家一样打排位赛了!
这次,团队不仅带来了4位新玩家,而且还有一个(准)中文排行榜。
OpenAI GPT-4
OpenAI GPT-3.5-turbo
(相关资料图)
Anthropic Claude-v1
RWKV-4-Raven-14B(开源)
毫无疑问,只要GPT-4参战,必定是稳居第一。
不过,出乎意料的是,Claude不仅超过了把OpenAI带上神坛的GPT-3.5位列第二,而且只比GPT-4差了50分。
相比之下,排名第三的GPT-3.5只比130亿参数的最强开源模型Vicuna高了72分。
而140亿参数的「纯RNN模型」RWKV-4-Raven-14B凭借着卓越的表现,超越一众Transformer模型排到了第6——除Vicuna模型外,RWKV在与所有其他开源模型的非平局比赛中赢得了超过50%的比赛。
此外,团队还分别制作了「仅英语」和「非英语」(其中大部分是中文)这两个单独的排行榜。
可以看到,不少模型的排位都出现了明显的变化。
比如,用更多中文数据训练的ChatGLM-6B确实表现更好,而GPT-3.5也成功超越Claude排到了第二的位置。
本次更新的主要贡献者是盛颖、Lianmin Zheng、Hao Zhang、Joseph E. Gonzalez和Ion Stoica。
盛颖是LMSYS Org的3个创始人之一(另外两位是Lianmin Zheng和Hao Zhang),斯坦福大学计算机科学系的博士生。
她也是之前爆火的、可以在单GPU上可以跑175B模型推理的系统FlexGen的一作,目前已获8k星。
论文地址:https://arxiv.org/abs/2303.06865
项目地址:https://github.com/FMInference/FlexGen
个人主页:https://sites.google.com/view/yingsheng/home
「开源」VS「闭源」
在社区的帮助下,团队共收集了13k条匿名投票,并且有了一些有趣的发现。
专有与开源的差距
在三个专有模型中,Anthropic的Claude模型比GPT-3.5-turbo更受用户欢迎。
而且,Claude在与最强大的GPT-4竞争时,也表现得非常有竞争力。
从下面这个胜率图来看,GPT-4和Claude之间的66场非平局比赛中,Claude赢得了32场(48%)比赛。
所有非平局A vs B对战中,模型A胜利的比例
然而,其他开源模型与这三个专有模型之间,依然存在着很大的差距。
特别是,GPT-4以1274的Elo分数领跑排行榜。这比榜单上最好的开源替代——Vicuna-13B——要高出近200分。
在去掉平局后,GPT-4在与Vicuna-13B对战时赢得了82%的比赛,甚至在与前一代GPT-3.5-turbo对战时赢得了79%的比赛。
然而,值得注意的是,排行榜上的这些开源模型通常具有比专有模型更少的参数,范围在30亿 - 140亿之间。
实际上,最近在LLM和数据策划方面的进展使得使用较小模型取得显著性能改进成为可能。
谷歌的最新PaLM 2就是一个很好的例子:我们知道PaLM 2在使用较小模型大小时,比其前一代实现了更好的性能。
因此,团队对开源语言模型迎头赶上充满乐观。
GPT-4在何时会「翻车」?
在下图中,用户提出了一个需要仔细推理和规划的棘手问题。 虽然Claude和GPT-4提供了类似的答案,但Claude的回应稍微好一些。
然而,由于采样的随机性,团队发现这种情况并不能总能复刻。有时GPT-4也能像Claude一样给出相同的顺序,但在这次生成试验中失败了。
另外,团队注意到,当使用OpenAI API和ChatGPT接口时,GPT-4的行为略有不同,这可能是由于不同的提示、采样参数或其他未知因素导致的。
用户更喜欢Claude而不是GPT-4的一个例子
在下图中,尽管Claude和GPT-4都具有惊人的能力,但它们仍在处理这类复杂的推理问题上挣扎。
一个用户认为Claude和GPT-4都错了的例子
除了这些棘手的情况,还有许多并不需要复杂推理或知识的简单问题。
在这种情况下,像Vicuna这样的开源模型可以与GPT-4表现相当,因此我们可能可以使用稍微弱一些(但更小或更便宜)的大型语言模型(LLM)来替代像GPT-4这样更强大的模型。
Elo分数的变化
自从三个强大的专有模型参与以来,聊天机器人竞技场的竞争从未如此激烈。
由于在与专有模型对战时,开源模型输掉了不少比赛,因此它们的Elo分数都有所下降。
最后,团队还计划开放一些API,让用户可以注册自己的聊天机器人来参加排位赛。
标签:
-
当前报道:UC伯克利LLM准中文排行榜来了!GPT-4稳居第一,国人开源RNN模型冲进前六
自从三个强大的专有模型参与以来,聊天机器人竞技场的竞争从未如此激烈。
-
盘后2股公布分红方案-更新中
【15:55雅德科技公布2022年年度分红实施方案】雅德科技(股票代码:872982)公布2022年年度权益分派实施公
-
2023年西南医科大学自考招生简章
2023年西南医科大学自考招生简章来源:继续教育网浏览次数:6084次发布时间:2023-04-1516:25摘要西南医科大学2023
-
波音更换航天业务负责人,国防部门寻求遏制亏损 全球滚动
《华尔街日报》11月18日报道,波音公司周四表示,将更换其航天业务负责人,这是旨在扭转其国防部门亏损的更
-
表格中怎么筛选数据标颜色 表格中怎么筛选数据
今天来聊聊关于表格中怎么筛选数据标颜色,表格中怎么筛选数据的文章,现在就为大家来简单介绍下表格中怎么
-
期货知识科普:氧化铝现货市场概况_今日热门
期货知识科普|氧化铝现货市场概况1 全球氧化铝生产情况如何?全球氧化铝产能主要分布在中国、澳大利亚、巴
-
上海推“28条”助中小微企业提质增效 环球要闻
上海推“28条”助中小微企业提质增效---市级技术改造专项支持门槛降低至1000万元,发放“AI算力券”、智评
-
安宁股份(002978):第五届董事会第三十一次会议决议
证券代码:002978股票简称:安宁股份公告编号:2023-034四川安宁铁钛股份有限公司第五届董事会第
-
许嵩冯禧牵手逛街,男方主动拿包超贴心,同行好友无人陪伴显孤单 当前视讯
许嵩冯禧牵手逛街,男方主动拿包超贴心,同行好友无人陪伴显孤单,冯禧,黄龄,恋情,网红,刘美麟,许嵩冯,摄影
-
世界快讯:内蒙古自治区关于2023年第三批农机购置与应用补贴产品形式审核情况的公示
公示期为2023年5月18日—5月22日。
-
实控人双双被抓,*ST柏龙净资产已为负
雷达财经文|钱雯雯编|深海5月15日,*ST柏龙公告显示,公司收到公司实际控制人陈伟雄、陈娜娜家属的通知,其
-
盈科合肥荣获先锋青工委等多项表彰
为实现引领广大青年律师争做“有理想、敢担当、能吃苦、肯奋斗的新时代好青年”的工作目标,有效促进青工委
-
大雄让胖虎给他按摩,让静香陪他打羽毛球,还让老师做了啦啦队
总比拿零分强吧,记得漫画里面有次大雄考了三十分钟不是也被妈妈表演了吗?之后大雄就跑出去玩耍了,遇到了
-
当前信息:主会场 | 云南:2023“美好中国,幸福旅程”文旅行业数字化运营人才培训在腾冲启动
中国旅游日,域见新人才。5月17日,2023“美好中国,幸福旅程”文旅行业数字化运营人才培训在云南腾冲启动
-
盘前有料丨国家金融监管总局揭牌在即 腾讯一季度成绩单发布…重要消息还有这些
重要的消息有哪些商务部:1-4月全国吸收外资4994 6亿元同比增长2 2%2023年1-4月,全国实际使用外资金额4994
-
发挥海洋固碳作用 自然资源部发布蓝碳系列技术规程-全球即时看
自然资源部办公厅印发实施6项技术规程(以下称蓝碳系列技术规程),对红树林、滨海盐沼和海草床3类蓝碳生态
-
凭证包角怎么包(凭证包角怎么包)_全球讯息
1、凭证包角的步骤如下:包角是要被折叠的,沿着将来要形成折痕的地方用铅笔画上一条线,装订凭证打洞不能
-
笑果被罚损失千万,黄磊曾用一句话评价李诞,至今都一语中的_最新资讯
笑果被罚损失千万,黄磊曾用一句话评价李诞,至今都一语中的,黄磊,李诞,笑果,编剧,诗人,脱口秀,喜剧演员,电视
-
让鼻梁变高的自然方法有哪些_让鼻梁变高的自然方法-全球信息
1、鼻梁变高变挺的方法: 将毛巾浸在有着热水的盆子中,一定得是热水越热越好。2、之后将水稍稍拧去一些
-
岐王宅里寻常见崔九堂前几度闻写的是什么_岐王宅里寻常见崔九堂前几度闻出处介绍
1、在齐王家里经常可以看到崔唐久。前几次,他写道:乌龟。2、这首诗是杜甫与李龟年重逢时写的。据记载,他
-
我找到了阅读GitHub项目源码的最佳姿势,太舒服了! 环球看热讯
如果您跟我一样,经常上GitHub看开源项目,那么一定有这样的感觉:在线阅读代码很不方便!所以,很多时候,
-
今日最新!不愧是你!郭艾伦:由于太懒太困在家睡觉 又错过了拍冠军写真
不愧是你!郭艾伦:由于太懒太困在家睡觉又错过了拍冠军写真,写真,郭艾伦,cba总决赛,国际篮球赛事,中国体育
-
百灵杯少儿围棋赛2019_全国少儿围棋公开赛 安顺百灵杯 世界微头条
1、全国少儿围棋公开赛。2、由中国围棋协会、贵州省体育局、安顺市人民政府主办。3、贵州百灵企业集团制药
-
今日关注:福建省乡村振兴工作机制创新推进会召开
5月17日,福建省委扶贫开发成果巩固与乡村振兴工作领导小组办公室在宁德市屏南县召开福建省乡村振兴工作机
-
重庆移动数字新品发布 “千兆数字生活”图景走进现实
(杨梦逸景诗雁)16日,中国移动重庆公司(以下简称“重庆移动”)举行“千兆数字新生活”新品发布会,分享展示
-
【天天快播报】传戴威在美卖珍珠咖啡,小黄车用户:199都不还我,好意思出境?
花朵财经原创编辑|铎子子曰,道不行,乘桴浮于海。时隔两千多年,这片热土上,有一位诨名贾会计的天才,他
-
NEC和Aviat就整合无线传输业务达成一致_每日播报
NEC公司(以下简称NEC)近日宣布其已与无线传输和接入解决方案的领先专家AviatNetworks,Inc (以下简称Aviat
-
谁说没有服装素材?2023全网最全服装素材这不就来了嘛! !! 每日头条
需要的宝子们3连获取服装素材+PDF,扣“666”直接抱走啊!!!还有海量【全套笔刷库、绘画书籍、海量人体线
-
中国环塔(国际)拉力赛温宿县赛段各项保障工作有序进行
中新网新疆新闻5月17日电(郭海涛)5月21日,2023年中国环塔(国际)拉力赛SS1正赛,将在温宿县举行,主赛
-
世界快报:穆雷打趣约基奇扣篮:训练中见过好几次了 他比你们想的更能跳
直播吧5月17日讯 今日NBA季后赛西决G1,掘金在主场以132-126击败湖人。赛后掘金后卫穆雷接受了记者的采访