<nav id="4uuuu"></nav>
  • <tr id="4uuuu"></tr>
  • <tr id="4uuuu"></tr>
  • <tfoot id="4uuuu"><dd id="4uuuu"></dd></tfoot>
    • <noscript id="4uuuu"><optgroup id="4uuuu"></optgroup></noscript>

      久久精品福利网站免费,亚洲色大情网站WWW在线观看,久久水蜜桃网国产免费网手机 ,男女性高视频免费观看国内,老色鬼第一页av在线,久久久久精品婷婷

      國內外140多個大模型誰最強?智源研究院給出了一份答案

      任曉寧2024-05-18 10:59

      經濟觀察網(wǎng) 記者 任曉寧 5月17日下午,智源研究院在北京發(fā)布了對國內外140多個大模型的測評結果。有些令人意外的是,在一些面向三年級以下學生的測試題中,大模型的答題正確率還不如小學生。另外,根據(jù)測評結果,國產大模型在不同類別中都有突出表現(xiàn),但并沒有一個國產大模型公司能在所有領域都獨占鰲頭,比較領先的仍是美國AI研究公司OpenAI。

      根據(jù)測評結果,字節(jié)跳動的豆包模型、阿里巴巴的通義模型分別在兩個類別中排名第一名,百度的文心一言在3個類別中位列前五名,但都沒有成為第一名。在單項類別中位列前五名的國產大模型,還來自百川智能、月之暗面、智譜華章、上海人工智能實驗室、騰訊、愛詩科技等國內的公司和研究機構。

      在5個細分類別中,OpenAI旗下的模型有3次位居榜首。

      智源研究院院長王仲遠接受經濟觀察網(wǎng)采訪時說,測評結果說明,國內基座大模型支撐能力仍有很大的提升空間。他認為,這是當下國內大模型應用生態(tài)沒有真正繁榮的主要原因。

      對大模型做測評并不罕見,為什么智源研究院現(xiàn)在做這件事?王仲遠說,市場上對大模型的測評,絕大部分是開卷考試,容易導致大模型公司刷榜、刷題,無法保證客觀公正。他研究AI長達十幾年時間,即使作為一個業(yè)內人士,也無法準確得知大模型的優(yōu)劣。長此以往,他擔心會出現(xiàn)劣幣驅逐良幣的現(xiàn)象。

      智源研究院歷時3個月完成了此次測評,它聯(lián)合北京海淀教委以及中國傳媒大學,使用了超過20余個數(shù)據(jù)集、8萬道題(其中包括4000道主觀題),讓大模型作答。答案打分采取多人獨立匿名評分機制。為了保持公正,智源研究院自己研發(fā)的悟道大模型不參與測評。

      智源研究院是一家非營利性科研機構,也是國內最早做大模型的機構。王仲遠說,他們沒有任何商業(yè)利益訴求,因此在模型測評中能夠保持中立的站位,這對模型測評非常重要。

      國內模型能力并不均衡

      為了對140多個大模型進行測評,智源研究院將它們分為語言模型、多模態(tài)理解(圖文問答)模型、多模態(tài)生成(文生圖、文生視頻)模型等多個類別。不同類別中都有表現(xiàn)突出的國產大模型,但并沒有一個國產大模型在所有領域都能獨占鰲頭。

      在語言模型主觀測評中,字節(jié)跳動的豆包模型排名第一,排在其后的是GPT-4、百度的文心一言、月之暗面的Kimi、智譜華章的GLM-4。

      在語言模型客觀測評中,GPT-4排名第一,排在其后的是百川智能的Baichuan3、百度的文心一言、智譜華章的GLM-4、月之暗面的Kimi。

      在圖文問答模型測評中,排名第一的是阿里巴巴的通義模型,上海人工智能實驗室在該類別有兩個模型入選,其他國產模型沒有入選。在文生圖模型測評中,智譜華章、百度、字節(jié)跳動、OpenAI、Meta(臉書母公司)的模型位列前五。在文生視頻模型測評中,愛詩科技、騰訊、OpenAI、Runway(美國文生視頻公司)、Pika(美國文生視頻公司)的模型入選前五。

      “在中文語境下,國內語言模型的綜合表現(xiàn)已經非常接近國際一流水平,中文大模型更懂中國人。”王仲遠說。不過他也發(fā)現(xiàn),國產大模型在能力上存在不均衡的情況,總體來看,國產大模型的文科能力比理科能力更好一些。

      在某些考題上比不過小學生

      智源研究院為了開展此次測評工作,邀請北京海淀教委出了45套基礎教育(K12)階段的考試題,試題數(shù)量達到1400道。其中有一點令人意外,大模型對低年級試題的回答成績并不好。

      有一道小學3年級水平的詞匯題,要求學生仿照例子將詞匯歸類,把答案寫在對應類別的橫線上。最終測評結果顯示,只有一個大模型答對了一小部分。包括OpenAI旗下GPT-4在內的大模型,都沒有答對這道題。

      這道3年級詞匯題的測評結果并不是個例。智源研究院整體測評發(fā)現(xiàn),在7年級至12年級學段里,大模型與人類之間的差異并不明顯,答題成功率很高。但在3年級試題的測評中,面對這些對人類而言比較簡單的題目,大模型回答正確率反而更低。

      比如面對一道詩歌填空題,大模型并沒有根據(jù)原有詩歌做出正確回答,反而自己造了一句詩。另外有一道古文題,題目要求學生從一段古文中挑選一段能體現(xiàn)古人寬容的語句,但大模型挑選的內容,恰恰是體現(xiàn)了古人不寬容的語句。

      王仲遠告訴經濟觀察網(wǎng),大模型回答低年級題目時差錯率高,是因為低年級題目圖片更多。這說明,當前大模型的多模態(tài)技術發(fā)展程度比不上語言模型技術。同時說明,人類在多模態(tài)認知這個領域非常獨特,AI對人腦的機制還沒有完全理解透徹。

      版權聲明:以上內容為《經濟觀察報》社原創(chuàng)作品,版權歸《經濟觀察報》社所有。未經《經濟觀察報》社授權,嚴禁轉載或鏡像,否則將依法追究相關行為主體的法律責任。版權合作請致電:【010-60910566-1260】。
      TMT新聞部資深記者
      關注并報道TMT(科技、傳媒、通信)領域重大事件,擅長行業(yè)分析、深度報道。
      聯(lián)系郵箱:renxiaoning@eeo.com.cn
      微信號:tangtangxiaomo
      久久精品福利网站免费
      <nav id="4uuuu"></nav>
    • <tr id="4uuuu"></tr>
    • <tr id="4uuuu"></tr>
    • <tfoot id="4uuuu"><dd id="4uuuu"></dd></tfoot>
      • <noscript id="4uuuu"><optgroup id="4uuuu"></optgroup></noscript>