<nav id="4uuuu"></nav>
  • <tr id="4uuuu"></tr>
  • <tr id="4uuuu"></tr>
  • <tfoot id="4uuuu"><dd id="4uuuu"></dd></tfoot>
    • <noscript id="4uuuu"><optgroup id="4uuuu"></optgroup></noscript>

      久久精品福利网站免费,亚洲色大情网站WWW在线观看,久久水蜜桃网国产免费网手机 ,男女性高视频免费观看国内,老色鬼第一页av在线,久久久久精品婷婷

      新V觀海外:數(shù)據(jù)集和基準測試變革預示AI能力突變

      陳沛2024-05-29 12:15

      陳沛/文 縱觀AI領(lǐng)域近幾十年來的發(fā)展歷程,除了算法層面的架構(gòu)創(chuàng)新和算力層面的規(guī)模倍增,數(shù)據(jù)層面的變革也是驅(qū)動AI發(fā)展的重要一環(huán)。

      例如,十幾年前ImageNet和MS COCO的出現(xiàn),極大推動了計算機視覺和物體識別應用的發(fā)展。而近兩年以O(shè)penAI的GPT系列模型為代表的生成式AI,則是使用大規(guī)模來自網(wǎng)頁、書籍、文章的文本數(shù)據(jù)進行訓練,涌現(xiàn)出了突破性的生成能力。

      在數(shù)據(jù)層面,主要涉及數(shù)據(jù)集和基準測試兩個領(lǐng)域。前者為AI模型提供訓練和微調(diào)的材料,后者提供了評估AI模型性能的標準方法。

      在數(shù)據(jù)集領(lǐng)域,高質(zhì)量多模態(tài)數(shù)據(jù)集頻現(xiàn)

      數(shù)據(jù)集包括了AI模型學習和模仿的數(shù)據(jù),數(shù)據(jù)集的質(zhì)量直接影響到模型的效果。一個高質(zhì)量數(shù)據(jù)集通常兼具多樣性、代表性、平衡性、規(guī)模性等特點。

      多樣性確保模型能夠處理各種輸入,代表性保證數(shù)據(jù)集真實反映現(xiàn)實世界分布情況,平衡性避免模型產(chǎn)生偏見,規(guī)模性則可以提高模型的泛化能力。

      為提升AI模型處理多模態(tài)信息的能力,近期業(yè)界陸續(xù)出現(xiàn)了谷歌的DOCCI、字節(jié)跳動的COCONut、Reka AI的Vibe-Eval、MBZUAI的CVRR-ES等多模態(tài)高質(zhì)量數(shù)據(jù)集,涵蓋圖片、文本、視頻等形式,訓練AI模型識別視頻、理解圖像、分析語境和生成推理結(jié)果。

      在基準測試領(lǐng)域,動態(tài)測試愈發(fā)受到重視

      基準測試是評估AI模型性能的重要工具,通常包括一系列設(shè)計好的問答任務,用來系統(tǒng)評估AI模型在特定任務上的表現(xiàn),幫助AI研究者和開發(fā)者了解模型在實際應用中的有效性和局限性,以及比較不同模型的性能得分。

      但是這些基準測試都是靜態(tài)測試,如果AI模型僅針對某一基準進行訓練微調(diào),那么可能會出現(xiàn)過擬合,用戶實際體驗到的能力反而一般。因此以Chatbot Arena為代表的實時動態(tài)測試被認為更能符合模型實際能力。

      近期,Chatbot Arena背后團隊進一步推出了升級版Arena Hard排行榜,完全基于500個高質(zhì)量評估的動態(tài)測試結(jié)果進行排名,并且減少了不同模型能力置信區(qū)間重疊的情況,拉開得分差距。動態(tài)測試的理念正在受到更多關(guān)注。

      數(shù)據(jù)集和基準測試開始面臨新的挑戰(zhàn)

      首先,高質(zhì)量數(shù)據(jù)集的構(gòu)建非常耗時,人工標注的工作成本也非常高昂。其次,每一類基準測試,都要在效率、成本、有效性之間尋找平衡。最后,隨著AI應用快速發(fā)展,舊的數(shù)據(jù)集和基準測試可能很快就會過時,無法滿足新的需求。

      在如今的AI數(shù)據(jù)層面,通過“眾包+調(diào)查”的方法廣泛收集數(shù)據(jù)和反饋,或是通過合成技術(shù)控制數(shù)據(jù)生成,成為業(yè)內(nèi)的關(guān)注焦點。研究社區(qū)也在持續(xù)發(fā)布開放的數(shù)據(jù)集和評估方法,以供研究使用。新的基準測試也在不斷被開發(fā)出來,用來評估模型在更復雜、更接近現(xiàn)實世界場景中的能力。

      透過這些數(shù)據(jù)層面的變革,我們不僅可以期待出現(xiàn)更多高質(zhì)量數(shù)據(jù)集與基準測試,還可以預見AI技術(shù)能力的下一次突變或許就在不遠的未來。

      熱新聞

      電子刊物

      點擊進入
      久久精品福利网站免费
      <nav id="4uuuu"></nav>
    • <tr id="4uuuu"></tr>
    • <tr id="4uuuu"></tr>
    • <tfoot id="4uuuu"><dd id="4uuuu"></dd></tfoot>
      • <noscript id="4uuuu"><optgroup id="4uuuu"></optgroup></noscript>