國內外140多個大模型誰最強？智源研究院給出了一份答案

任曉寧2024-05-18 10:59

經濟觀察網(wǎng) 記者任曉寧 5月17日下午，智源研究院在北京發(fā)布了對國內外140多個大模型的測評結果。有些令人意外的是，在一些面向三年級以下學生的測試題中，大模型的答題正確率還不如小學生。另外，根據(jù)測評結果，國產大模型在不同類別中都有突出表現(xiàn)，但并沒有一個國產大模型公司能在所有領域都獨占鰲頭，比較領先的仍是美國AI研究公司OpenAI。

根據(jù)測評結果，字節(jié)跳動的豆包模型、阿里巴巴的通義模型分別在兩個類別中排名第一名，百度的文心一言在3個類別中位列前五名，但都沒有成為第一名。在單項類別中位列前五名的國產大模型，還來自百川智能、月之暗面、智譜華章、上海人工智能實驗室、騰訊、愛詩科技等國內的公司和研究機構。

在5個細分類別中，OpenAI旗下的模型有3次位居榜首。

智源研究院院長王仲遠接受經濟觀察網(wǎng)采訪時說，測評結果說明，國內基座大模型支撐能力仍有很大的提升空間。他認為，這是當下國內大模型應用生態(tài)沒有真正繁榮的主要原因。

對大模型做測評并不罕見，為什么智源研究院現(xiàn)在做這件事？王仲遠說，市場上對大模型的測評，絕大部分是開卷考試，容易導致大模型公司刷榜、刷題，無法保證客觀公正。他研究AI長達十幾年時間，即使作為一個業(yè)內人士，也無法準確得知大模型的優(yōu)劣。長此以往，他擔心會出現(xiàn)劣幣驅逐良幣的現(xiàn)象。

智源研究院歷時3個月完成了此次測評，它聯(lián)合北京海淀教委以及中國傳媒大學，使用了超過20余個數(shù)據(jù)集、8萬道題（其中包括4000道主觀題），讓大模型作答。答案打分采取多人獨立匿名評分機制。為了保持公正，智源研究院自己研發(fā)的悟道大模型不參與測評。

智源研究院是一家非營利性科研機構，也是國內最早做大模型的機構。王仲遠說，他們沒有任何商業(yè)利益訴求，因此在模型測評中能夠保持中立的站位，這對模型測評非常重要。

國內模型能力并不均衡

為了對140多個大模型進行測評，智源研究院將它們分為語言模型、多模態(tài)理解（圖文問答）模型、多模態(tài)生成（文生圖、文生視頻）模型等多個類別。不同類別中都有表現(xiàn)突出的國產大模型，但并沒有一個國產大模型在所有領域都能獨占鰲頭。

在語言模型主觀測評中，字節(jié)跳動的豆包模型排名第一，排在其后的是GPT-4、百度的文心一言、月之暗面的Kimi、智譜華章的GLM-4。

在語言模型客觀測評中，GPT-4排名第一，排在其后的是百川智能的Baichuan3、百度的文心一言、智譜華章的GLM-4、月之暗面的Kimi。

在圖文問答模型測評中，排名第一的是阿里巴巴的通義模型，上海人工智能實驗室在該類別有兩個模型入選，其他國產模型沒有入選。在文生圖模型測評中，智譜華章、百度、字節(jié)跳動、OpenAI、Meta（臉書母公司）的模型位列前五。在文生視頻模型測評中，愛詩科技、騰訊、OpenAI、Runway（美國文生視頻公司）、Pika（美國文生視頻公司）的模型入選前五。

“在中文語境下，國內語言模型的綜合表現(xiàn)已經非常接近國際一流水平，中文大模型更懂中國人。”王仲遠說。不過他也發(fā)現(xiàn)，國產大模型在能力上存在不均衡的情況，總體來看，國產大模型的文科能力比理科能力更好一些。

在某些考題上比不過小學生

智源研究院為了開展此次測評工作，邀請北京海淀教委出了45套基礎教育（K12）階段的考試題，試題數(shù)量達到1400道。其中有一點令人意外，大模型對低年級試題的回答成績并不好。

有一道小學3年級水平的詞匯題，要求學生仿照例子將詞匯歸類，把答案寫在對應類別的橫線上。最終測評結果顯示，只有一個大模型答對了一小部分。包括OpenAI旗下GPT-4在內的大模型，都沒有答對這道題。

這道3年級詞匯題的測評結果并不是個例。智源研究院整體測評發(fā)現(xiàn)，在7年級至12年級學段里，大模型與人類之間的差異并不明顯，答題成功率很高。但在3年級試題的測評中，面對這些對人類而言比較簡單的題目，大模型回答正確率反而更低。

比如面對一道詩歌填空題，大模型并沒有根據(jù)原有詩歌做出正確回答，反而自己造了一句詩。另外有一道古文題，題目要求學生從一段古文中挑選一段能體現(xiàn)古人寬容的語句，但大模型挑選的內容，恰恰是體現(xiàn)了古人不寬容的語句。

王仲遠告訴經濟觀察網(wǎng)，大模型回答低年級題目時差錯率高，是因為低年級題目圖片更多。這說明，當前大模型的多模態(tài)技術發(fā)展程度比不上語言模型技術。同時說明，人類在多模態(tài)認知這個領域非常獨特，AI對人腦的機制還沒有完全理解透徹。

任曉寧經濟觀察報記者

TMT新聞部資深記者
關注并報道TMT（科技、傳媒、通信）領域重大事件，擅長行業(yè)分析、深度報道。
聯(lián)系郵箱：renxiaoning@eeo.com.cn
微信號：tangtangxiaomo

熱新聞

視頻推薦

總編對話｜從中國走向世界——對話松下電器中國東北亞公司總裁CEO木下步

聚焦主業(yè) 提升品牌：恒安集團接班人的長期主義理想

希捷科技全球執(zhí)行副總裁暨首席商務官鄭萬成：未來五年，中國將成為全球生成數(shù)據(jù)最多的市場

電子刊物

點擊進入

久久精品福利网站免费,亚洲色大情网站WWW在线观看,久久水蜜桃网国产免费网手机 ,男女性高视频免费观看国内,老色鬼第一页av在线,久久久久精品婷婷

用戶名登錄/手機號登錄

還沒有賬號？免費注冊

國內外140多個大模型誰最強？智源研究院給出了一份答案

熱新聞

視頻推薦

電子刊物

久久精品福利网站免费,亚洲色大情网站WWW在线观看,久久水蜜桃网国产免费网手机 ,男女性高视频免费观看国内,老色鬼第一页av在线,久久久久精品婷婷

用戶名登錄/手機號登錄 還沒有賬號？免費注冊

國內外140多個大模型誰最強？智源研究院給出了一份答案

熱新聞

視頻推薦

電子刊物

用戶名登錄/手機號登錄

還沒有賬號？免費注冊