新V觀海外：數(shù)據(jù)集和基準測試變革預示AI能力突變

陳沛2024-05-29 12:15

陳沛/文 縱觀AI領(lǐng)域近幾十年來的發(fā)展歷程，除了算法層面的架構(gòu)創(chuàng)新和算力層面的規(guī)模倍增，數(shù)據(jù)層面的變革也是驅(qū)動AI發(fā)展的重要一環(huán)。

例如，十幾年前ImageNet和MS COCO的出現(xiàn)，極大推動了計算機視覺和物體識別應用的發(fā)展。而近兩年以O(shè)penAI的GPT系列模型為代表的生成式AI，則是使用大規(guī)模來自網(wǎng)頁、書籍、文章的文本數(shù)據(jù)進行訓練，涌現(xiàn)出了突破性的生成能力。

在數(shù)據(jù)層面，主要涉及數(shù)據(jù)集和基準測試兩個領(lǐng)域。前者為AI模型提供訓練和微調(diào)的材料，后者提供了評估AI模型性能的標準方法。

在數(shù)據(jù)集領(lǐng)域，高質(zhì)量多模態(tài)數(shù)據(jù)集頻現(xiàn)

數(shù)據(jù)集包括了AI模型學習和模仿的數(shù)據(jù)，數(shù)據(jù)集的質(zhì)量直接影響到模型的效果。一個高質(zhì)量數(shù)據(jù)集通常兼具多樣性、代表性、平衡性、規(guī)模性等特點。

多樣性確保模型能夠處理各種輸入，代表性保證數(shù)據(jù)集真實反映現(xiàn)實世界分布情況，平衡性避免模型產(chǎn)生偏見，規(guī)模性則可以提高模型的泛化能力。

為提升AI模型處理多模態(tài)信息的能力，近期業(yè)界陸續(xù)出現(xiàn)了谷歌的DOCCI、字節(jié)跳動的COCONut、Reka AI的Vibe-Eval、MBZUAI的CVRR-ES等多模態(tài)高質(zhì)量數(shù)據(jù)集，涵蓋圖片、文本、視頻等形式，訓練AI模型識別視頻、理解圖像、分析語境和生成推理結(jié)果。

在基準測試領(lǐng)域，動態(tài)測試愈發(fā)受到重視

基準測試是評估AI模型性能的重要工具，通常包括一系列設(shè)計好的問答任務，用來系統(tǒng)評估AI模型在特定任務上的表現(xiàn)，幫助AI研究者和開發(fā)者了解模型在實際應用中的有效性和局限性，以及比較不同模型的性能得分。

但是這些基準測試都是靜態(tài)測試，如果AI模型僅針對某一基準進行訓練微調(diào)，那么可能會出現(xiàn)過擬合，用戶實際體驗到的能力反而一般。因此以Chatbot Arena為代表的實時動態(tài)測試被認為更能符合模型實際能力。

近期，Chatbot Arena背后團隊進一步推出了升級版Arena Hard排行榜，完全基于500個高質(zhì)量評估的動態(tài)測試結(jié)果進行排名，并且減少了不同模型能力置信區(qū)間重疊的情況，拉開得分差距。動態(tài)測試的理念正在受到更多關(guān)注。

數(shù)據(jù)集和基準測試開始面臨新的挑戰(zhàn)

首先，高質(zhì)量數(shù)據(jù)集的構(gòu)建非常耗時，人工標注的工作成本也非常高昂。其次，每一類基準測試，都要在效率、成本、有效性之間尋找平衡。最后，隨著AI應用快速發(fā)展，舊的數(shù)據(jù)集和基準測試可能很快就會過時，無法滿足新的需求。

在如今的AI數(shù)據(jù)層面，通過“眾包+調(diào)查”的方法廣泛收集數(shù)據(jù)和反饋，或是通過合成技術(shù)控制數(shù)據(jù)生成，成為業(yè)內(nèi)的關(guān)注焦點。研究社區(qū)也在持續(xù)發(fā)布開放的數(shù)據(jù)集和評估方法，以供研究使用。新的基準測試也在不斷被開發(fā)出來，用來評估模型在更復雜、更接近現(xiàn)實世界場景中的能力。

透過這些數(shù)據(jù)層面的變革，我們不僅可以期待出現(xiàn)更多高質(zhì)量數(shù)據(jù)集與基準測試，還可以預見AI技術(shù)能力的下一次突變或許就在不遠的未來。