新V觀海外：Meta Llama-3攪動(dòng)全球領(lǐng)先大模型發(fā)展格局

陳沛2024-05-08 07:57

陳沛/文 Meta最近發(fā)布了新版大語(yǔ)言模型Llama-3，業(yè)界認(rèn)為這個(gè)開(kāi)源模型已經(jīng)接近了目前領(lǐng)先的閉源模型的性能。

從我實(shí)際使用體驗(yàn)來(lái)看，基于Llama-3的Meta AI產(chǎn)品在對(duì)話理解、推理、圖像生成等方面并沒(méi)有明顯的短板，生成體驗(yàn)平滑，能夠滿足日常使用的需求。

特別是在最新的Chatbot Arena排行榜上，Llama-3首次進(jìn)入了排行榜前10，排名第6。其它位列前10名的還包括GPT-4、Claude-3、Gemini-Pro等主流大模型，表明Llama-3的能力已經(jīng)邁入了第一梯隊(duì)。

Chatbot Arena排行榜的排名機(jī)制

Chatbot Arena是由斯坦福大學(xué)運(yùn)營(yíng)的一個(gè)大模型對(duì)戰(zhàn)平臺(tái)，包括超過(guò)40個(gè)主流大模型，目前已累計(jì)超過(guò)70萬(wàn)用戶在平臺(tái)上投過(guò)票。

該平臺(tái)的運(yùn)行方法是隨機(jī)、匿名選取兩個(gè)模型。用戶可以輸入任意提示詞，然后由這兩個(gè)模型同時(shí)輸出結(jié)果。用戶在不知道這兩個(gè)模型名稱(chēng)的情況下，完全根據(jù)模型輸出質(zhì)量投票。

在用戶投票后，平臺(tái)會(huì)采用ELO機(jī)制（一種根據(jù)玩家實(shí)力計(jì)算勝負(fù)得分的游戲機(jī)制）分別計(jì)算兩個(gè)模型的得失分，并揭曉參與對(duì)戰(zhàn)的兩個(gè)模型的實(shí)際名稱(chēng)。

隨著投票用戶越來(lái)越多，各個(gè)模型得分的高低便能客觀反應(yīng)出模型的實(shí)際能力。因此這個(gè)排行榜一直以來(lái)都廣受關(guān)注。

排行榜前10名揭示全球大模型競(jìng)爭(zhēng)格局

排行榜前10名大模型分別包括GPT-4模型、Claude-3模型的不同版本，總體上可以分為以下五大類(lèi)別。

1.OpenAI的GPT-4系列。長(zhǎng)期以來(lái)GPT-4都占據(jù)榜首，ChatGPT仍是最受關(guān)注的大模型產(chǎn)品，被認(rèn)為有著廣泛的通用知識(shí)覆蓋和精細(xì)的語(yǔ)言理解能力。

2.Anthropic的Claude-3系列。Claude-3-Opus曾短暫超越GPT-4登上榜首，在實(shí)測(cè)中對(duì)于深度推理和專(zhuān)業(yè)知識(shí)的理解非常到位，且對(duì)于大模型安全有著深刻見(jiàn)解。

3.Google的Gemini系列。Gemini-Pro-1.5的表現(xiàn)已進(jìn)入第一梯隊(duì)，而今年AI Index報(bào)告認(rèn)為最高級(jí)的Gemini-Ultra的訓(xùn)練成本約是GPT-4的2.5倍，實(shí)際表現(xiàn)值得期待，預(yù)計(jì)將會(huì)優(yōu)先接入Google各項(xiàng)產(chǎn)品中。

4.Meta的Llama-3系列。Meta目前堅(jiān)定走開(kāi)源路線，Llama系列每次更新都能推動(dòng)整個(gè)生成式AI行業(yè)發(fā)展。而且背靠一批成熟多模態(tài)社交產(chǎn)品，預(yù)計(jì)Meta AI將快速迭代。隨后將發(fā)布的最大版本4000億參數(shù)Llama-3，也可能會(huì)沖擊榜首。

5.Cohere的Command-R系列。與上述模型不同，Cohere并未局限于面向用戶端的產(chǎn)品，而是專(zhuān)攻企業(yè)側(cè)的應(yīng)用場(chǎng)景，在企業(yè)級(jí)解決方案和特定行業(yè)應(yīng)用中的實(shí)際表現(xiàn)可能更好。

總體上來(lái)看，雖然目前的OpenAI、Anthropic、Google可被視作“閉源派”，而Meta和Cohere則屬于“開(kāi)源派”，但它們彼此之間實(shí)際上是各自為營(yíng)，各有所長(zhǎng)，各有側(cè)重。

在領(lǐng)先大模型的第一梯隊(duì)中，全球生成式AI“五分天下”的格局已經(jīng)初步形成。