陳沛/文 Meta最近發(fā)布了新版大語(yǔ)言模型Llama-3,業(yè)界認(rèn)為這個(gè)開(kāi)源模型已經(jīng)接近了目前領(lǐng)先的閉源模型的性能。
從我實(shí)際使用體驗(yàn)來(lái)看,基于Llama-3的Meta AI產(chǎn)品在對(duì)話理解、推理、圖像生成等方面并沒(méi)有明顯的短板,生成體驗(yàn)平滑,能夠滿足日常使用的需求。
特別是在最新的Chatbot Arena排行榜上,Llama-3首次進(jìn)入了排行榜前10,排名第6。其它位列前10名的還包括GPT-4、Claude-3、Gemini-Pro等主流大模型,表明Llama-3的能力已經(jīng)邁入了第一梯隊(duì)。
Chatbot Arena排行榜的排名機(jī)制
Chatbot Arena是由斯坦福大學(xué)運(yùn)營(yíng)的一個(gè)大模型對(duì)戰(zhàn)平臺(tái),包括超過(guò)40個(gè)主流大模型,目前已累計(jì)超過(guò)70萬(wàn)用戶在平臺(tái)上投過(guò)票。
該平臺(tái)的運(yùn)行方法是隨機(jī)、匿名選取兩個(gè)模型。用戶可以輸入任意提示詞,然后由這兩個(gè)模型同時(shí)輸出結(jié)果。用戶在不知道這兩個(gè)模型名稱(chēng)的情況下,完全根據(jù)模型輸出質(zhì)量投票。
在用戶投票后,平臺(tái)會(huì)采用ELO機(jī)制(一種根據(jù)玩家實(shí)力計(jì)算勝負(fù)得分的游戲機(jī)制)分別計(jì)算兩個(gè)模型的得失分,并揭曉參與對(duì)戰(zhàn)的兩個(gè)模型的實(shí)際名稱(chēng)。
隨著投票用戶越來(lái)越多,各個(gè)模型得分的高低便能客觀反應(yīng)出模型的實(shí)際能力。因此這個(gè)排行榜一直以來(lái)都廣受關(guān)注。
排行榜前10名揭示全球大模型競(jìng)爭(zhēng)格局
排行榜前10名大模型分別包括GPT-4模型、Claude-3模型的不同版本,總體上可以分為以下五大類(lèi)別。
1.OpenAI的GPT-4系列。長(zhǎng)期以來(lái)GPT-4都占據(jù)榜首,ChatGPT仍是最受關(guān)注的大模型產(chǎn)品,被認(rèn)為有著廣泛的通用知識(shí)覆蓋和精細(xì)的語(yǔ)言理解能力。
2.Anthropic的Claude-3系列。Claude-3-Opus曾短暫超越GPT-4登上榜首,在實(shí)測(cè)中對(duì)于深度推理和專(zhuān)業(yè)知識(shí)的理解非常到位,且對(duì)于大模型安全有著深刻見(jiàn)解。
3.Google的Gemini系列。Gemini-Pro-1.5的表現(xiàn)已進(jìn)入第一梯隊(duì),而今年AI Index報(bào)告認(rèn)為最高級(jí)的Gemini-Ultra的訓(xùn)練成本約是GPT-4的2.5倍,實(shí)際表現(xiàn)值得期待,預(yù)計(jì)將會(huì)優(yōu)先接入Google各項(xiàng)產(chǎn)品中。
4.Meta的Llama-3系列。Meta目前堅(jiān)定走開(kāi)源路線,Llama系列每次更新都能推動(dòng)整個(gè)生成式AI行業(yè)發(fā)展。而且背靠一批成熟多模態(tài)社交產(chǎn)品,預(yù)計(jì)Meta AI將快速迭代。隨后將發(fā)布的最大版本4000億參數(shù)Llama-3,也可能會(huì)沖擊榜首。
5.Cohere的Command-R系列。與上述模型不同,Cohere并未局限于面向用戶端的產(chǎn)品,而是專(zhuān)攻企業(yè)側(cè)的應(yīng)用場(chǎng)景,在企業(yè)級(jí)解決方案和特定行業(yè)應(yīng)用中的實(shí)際表現(xiàn)可能更好。
總體上來(lái)看,雖然目前的OpenAI、Anthropic、Google可被視作“閉源派”,而Meta和Cohere則屬于“開(kāi)源派”,但它們彼此之間實(shí)際上是各自為營(yíng),各有所長(zhǎng),各有側(cè)重。
在領(lǐng)先大模型的第一梯隊(duì)中,全球生成式AI“五分天下”的格局已經(jīng)初步形成。