AI大模型“高考”成績公布：幾乎都偏文，數(shù)學(xué)有點差，解題思路特別“軸”

張菲埡2024-07-30 07:51

2024年全國高考甫一結(jié)束，上海人工智能實驗室旗下的大模型開源開放評測體系司南（OpenCompass）選取國內(nèi)外7個AI大模型進行高考全科目測試，7名AI考生的試卷，由具有高考評卷經(jīng)驗的教師在不知考生身份的情況下判分。

日前，測試結(jié)果出爐：書生·浦語2.0系列文曲星大語言模型、阿里通義千問大模型Qwen2-72B以及GPT-4o的成績在所有AI考生中位列前三。以今年河南省分數(shù)線為參考，這三名AI考生的文科成績均超“一本線”，理科成績穩(wěn)居“二本線”之上。

分析AI考生們交上的答卷，業(yè)內(nèi)認為，在現(xiàn)階段，大模型在解決記憶類和邏輯類難題時與人類有著天差地別的思考軌跡，但這也為此后AI的進化指明了方向。

語言類考試表現(xiàn)不俗，數(shù)學(xué)簡答題成“越不過去的坎”

此次測試結(jié)果顯示，AI考生都有些偏科，且貌似都是“文科生”。

7個大模型中，有4個在新課標(biāo)I卷的英語測試中取得130以上的高分，其中GPT-4o拔得英語測試頭籌，還在作文上得到了一位英語閱卷老師的欣賞，稱其“句型豐富，語言無瑕疵”，只是字數(shù)稍少，所以酌情扣1分。

此外，AI考生的語文新課標(biāo)I卷答題表現(xiàn)也不錯：在現(xiàn)代文閱讀、古詩文閱讀、名句默寫和作文上均有高于70%的平均得分率。

AI通常被認為應(yīng)該在邏輯思維方面有著出色能力，但此次測試中，AI考生面對數(shù)學(xué)新課標(biāo)I卷幾乎“全軍覆沒”，得分均未達到總分的一半（即75分）。數(shù)學(xué)簡答題更成了這群考生“越不過去的坎”，五道簡答題的平均得分率僅為18.9%。

復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院教授張軍平介紹，此次參加測試的AI考生都是語言類大模型，接受過語料庫訓(xùn)練，因此在作答語言類試卷時較有優(yōu)勢。而在數(shù)理類科目的考查中，由于要求考生具有一定推理能力，而這項能力一直以來都是大模型的短板。

“快系統(tǒng)”思維模式，讓AI考生不會“打草稿”

為啥AI考生會偏科，還偏得如此厲害？多位深耕人工智能領(lǐng)域的研究者指出，這和現(xiàn)階段大模型的“思考”方式有很大關(guān)系。

“做題時，人一般是先形成解題思路，然后再作答。但AI則不然，不管三七二十一，直接硬做，做不出來再‘亂湊’。”上海人工智能實驗室相關(guān)負責(zé)人告訴記者，數(shù)理類題目的解題過程有極高的不確定性，因此，人類考生通常會先在草稿紙上理清思路，再開始答題。而大模型則是依次生成文本，缺乏一種“打草稿”的能力，答題時如果它們一開始思路走偏，基本就沒有挽回余地。

“AI考生和人類考生的這兩種思維模式，分別可以類比為丹尼爾·卡尼曼在《思考，快與慢》中提出的‘快系統(tǒng)’和‘慢系統(tǒng)’。”張軍平解釋說，AI總是快速輸出答案，運用概率運算模擬推理過程，而人類對問題的認識往往依賴經(jīng)驗積累，可以整體、宏觀地看事物，所以也看得更深入些。

試卷上暴露的問題，也是AI發(fā)展的“新考卷”

在高考這場選拔賽上，人類暫時還是遠超AI的。“組織AI大模型參加高考，是為了評測當(dāng)前大模型的真實水平，找準(zhǔn)問題，持續(xù)推進技術(shù)進步。”上海人工智能實驗室相關(guān)負責(zé)人強調(diào)，AI考生的成績同時暴露了大模型的優(yōu)勢及軟肋，也為其未來的發(fā)展提出了許多值得思考的方向。

上海人工智能實驗室相關(guān)負責(zé)人告訴記者，大部分模型尚不存在自行糾錯的能力，做錯了也要“硬闖”到底，甚至通過“胡說八道”圓回來。所以，提升糾錯能力或許是未來大模型訓(xùn)練中需要格外注意的。

此外，大模型的“幻覺”仍然存在，它們會“一本正經(jīng)”地虛構(gòu)內(nèi)容。“此次測試中，有的大模型會杜撰詩句，讓部分閱卷老師誤以為真的存在它們編出的某首詩，只是自己不知道。”人工智能實驗室相關(guān)負責(zé)人補充，如何提升AI的可信度，仍然在路上。

來源：文匯報作者：張菲埡

版權(quán)與免責(zé)：以上作品（包括文、圖、音視頻）版權(quán)歸發(fā)布者【張菲埡】所有。本App為發(fā)布者提供信息發(fā)布平臺服務(wù)，不代表經(jīng)觀的觀點和構(gòu)成投資等建議