陳沛/文 縱觀AI領(lǐng)域近幾十年來的發(fā)展歷程,除了算法層面的架構(gòu)創(chuàng)新和算力層面的規(guī)模倍增,數(shù)據(jù)層面的變革也是驅(qū)動AI發(fā)展的重要一環(huán)。
例如,十幾年前ImageNet和MS COCO的出現(xiàn),極大推動了計算機視覺和物體識別應用的發(fā)展。而近兩年以O(shè)penAI的GPT系列模型為代表的生成式AI,則是使用大規(guī)模來自網(wǎng)頁、書籍、文章的文本數(shù)據(jù)進行訓練,涌現(xiàn)出了突破性的生成能力。
在數(shù)據(jù)層面,主要涉及數(shù)據(jù)集和基準測試兩個領(lǐng)域。前者為AI模型提供訓練和微調(diào)的材料,后者提供了評估AI模型性能的標準方法。
在數(shù)據(jù)集領(lǐng)域,高質(zhì)量多模態(tài)數(shù)據(jù)集頻現(xiàn)
數(shù)據(jù)集包括了AI模型學習和模仿的數(shù)據(jù),數(shù)據(jù)集的質(zhì)量直接影響到模型的效果。一個高質(zhì)量數(shù)據(jù)集通常兼具多樣性、代表性、平衡性、規(guī)模性等特點。
多樣性確保模型能夠處理各種輸入,代表性保證數(shù)據(jù)集真實反映現(xiàn)實世界分布情況,平衡性避免模型產(chǎn)生偏見,規(guī)模性則可以提高模型的泛化能力。
為提升AI模型處理多模態(tài)信息的能力,近期業(yè)界陸續(xù)出現(xiàn)了谷歌的DOCCI、字節(jié)跳動的COCONut、Reka AI的Vibe-Eval、MBZUAI的CVRR-ES等多模態(tài)高質(zhì)量數(shù)據(jù)集,涵蓋圖片、文本、視頻等形式,訓練AI模型識別視頻、理解圖像、分析語境和生成推理結(jié)果。
在基準測試領(lǐng)域,動態(tài)測試愈發(fā)受到重視
基準測試是評估AI模型性能的重要工具,通常包括一系列設(shè)計好的問答任務,用來系統(tǒng)評估AI模型在特定任務上的表現(xiàn),幫助AI研究者和開發(fā)者了解模型在實際應用中的有效性和局限性,以及比較不同模型的性能得分。
但是這些基準測試都是靜態(tài)測試,如果AI模型僅針對某一基準進行訓練微調(diào),那么可能會出現(xiàn)過擬合,用戶實際體驗到的能力反而一般。因此以Chatbot Arena為代表的實時動態(tài)測試被認為更能符合模型實際能力。
近期,Chatbot Arena背后團隊進一步推出了升級版Arena Hard排行榜,完全基于500個高質(zhì)量評估的動態(tài)測試結(jié)果進行排名,并且減少了不同模型能力置信區(qū)間重疊的情況,拉開得分差距。動態(tài)測試的理念正在受到更多關(guān)注。
數(shù)據(jù)集和基準測試開始面臨新的挑戰(zhàn)
首先,高質(zhì)量數(shù)據(jù)集的構(gòu)建非常耗時,人工標注的工作成本也非常高昂。其次,每一類基準測試,都要在效率、成本、有效性之間尋找平衡。最后,隨著AI應用快速發(fā)展,舊的數(shù)據(jù)集和基準測試可能很快就會過時,無法滿足新的需求。
在如今的AI數(shù)據(jù)層面,通過“眾包+調(diào)查”的方法廣泛收集數(shù)據(jù)和反饋,或是通過合成技術(shù)控制數(shù)據(jù)生成,成為業(yè)內(nèi)的關(guān)注焦點。研究社區(qū)也在持續(xù)發(fā)布開放的數(shù)據(jù)集和評估方法,以供研究使用。新的基準測試也在不斷被開發(fā)出來,用來評估模型在更復雜、更接近現(xiàn)實世界場景中的能力。
透過這些數(shù)據(jù)層面的變革,我們不僅可以期待出現(xiàn)更多高質(zhì)量數(shù)據(jù)集與基準測試,還可以預見AI技術(shù)能力的下一次突變或許就在不遠的未來。