<nav id="4uuuu"></nav>
  • <tr id="4uuuu"></tr>
  • <tr id="4uuuu"></tr>
  • <tfoot id="4uuuu"><dd id="4uuuu"></dd></tfoot>
    • <noscript id="4uuuu"><optgroup id="4uuuu"></optgroup></noscript>

      亚洲的天堂A∨无码视色,尤物久久免费一区二区三区,国产醉酒女邻居在线观看,9AⅤ高清无码免费看大片

      AI產(chǎn)業(yè)的灰色暗面:OpenAI、谷歌、META如何搞訓練語料

      史正丞2024-04-11 07:52

      種種跡象顯示,目前站在全世界AI領域潮頭浪尖的這些公司,早在幾年前就已經(jīng)陷入對訓練語料的“絕望”追逐中——為此他們不惜修改政策條款、無視互聯(lián)網(wǎng)信息的使用規(guī)則,只為了讓自家的產(chǎn)品更加先進一些。《紐約時報》在本周末刊發(fā)的調查報道中,揭露了OpenAI、谷歌、Meta等公司為了獲取訓練語料所采取的一些“走捷徑”措施,同時也展現(xiàn)了整個行業(yè)迫在眉睫的困境。

      美國科技巨頭各走“捷徑”

      2021年末,正在訓練GPT-4的OpenAI遇到了一個棘手的問題,公司已經(jīng)耗盡了互聯(lián)網(wǎng)上所有可靠的英文文本資源,而他們需要更多、更大規(guī)模的數(shù)據(jù)來訓練更強大的模型。

      為了處理這個問題,OpenAI的Whisper語音識別工具誕生了——用來轉錄谷歌旗下視頻平臺Youtube的視頻音頻,生成大量的對話文本。

      報道稱,包括OpenAI總裁布洛克曼在內的團隊總共轉錄了超過一百萬小時的Youtube視頻。隨后這些資料被輸入到GPT-4系統(tǒng)中,并成為聊天機器人ChatGPT的基礎。

      根據(jù)谷歌的政策,禁止用戶將平臺上的視頻用于“獨立”應用,同時禁止通過任何自動化手段(爬蟲等)訪問其視頻。

      有趣的是,在OpenAI偷偷扒Youtube視頻時,谷歌也在轉錄自家流媒體平臺的內容訓練大模型——同樣冒著侵犯版權的風險。正因如此,雖然有谷歌員工知道OpenAI在這么干,也沒有出手阻止。因為一旦谷歌對OpenAI提出抗議,也有可能“引火燒身”到自己身上。

      對于是否采用Youtube視頻訓練AI的詢問,OpenAI方面回應稱,他們使用了“多個來源”的數(shù)據(jù)。谷歌發(fā)言人Matt Bryant則表示,公司對OpenAI的行為一無所知,且禁止任何人“未經(jīng)授權抓取或下載Youtube視頻”。不過Bryant也表示,公司只會在有明確法律、技術依據(jù)時才會采取行動

      谷歌自家的條款,則允許平臺使用這些視頻開發(fā)視頻平臺的新功能,但這樣的措辭是否意味著谷歌能用這些資料開發(fā)商用AI,也存在不小的疑問。

      與此同時,Meta的內部會議紀要顯示,工程師和產(chǎn)品經(jīng)理討論了購買美國大型出版商Simon & Schuster以獲取長文本資料的計劃,另外他們還討論了從互聯(lián)網(wǎng)上收集受版權保護的內容,并表示“與出版商、藝術家、音樂家和新聞行業(yè)談判授權需要的時間太多了”。

      據(jù)悉,有Meta的高管表示,OpenAI似乎正在使用受版權保護的材料,所以公司也可以遵循這個“市場先例”

      更顯性的變化是,谷歌去年修改了服務條款。根據(jù)內部資料顯示,推動隱私政策變化的動機之一,包括允許谷歌利用公開的谷歌文檔、谷歌地圖上的餐廳評論,以及更多在線資料開發(fā)AI產(chǎn)品。最終谷歌趕在美國國慶節(jié)(7月4日)放假前的7月1日發(fā)布了修改后的隱私條款,將“使用公開信息訓練AI模型”首次納入其中。

      Bryant回應稱,公司不會在沒有用戶“明確許可”的情況下使用他們的谷歌文檔來訓練AI,這里指的是自愿參與的實驗性功能體驗計劃。

      即便如此還是不夠

      正因為這些操作,近些年來伴隨著人們對AI能力的驚嘆,越來越多的版權方也開始意識到自己的數(shù)據(jù)被偷偷拿走訓練AI了。包括《紐約時報》、一些電影制作人和作家已經(jīng)將這些科技公司告上法庭,美國著作權局也正在制定版權法在AI時代的適用指南。

      問題在于,即便一些作家、制片人將科技公司的行為稱為“美國史上最大盜竊案”,科技公司用來發(fā)展下一代AI的數(shù)據(jù)依然還是不夠。

      2020年初,約翰霍普金斯大學的理論物理學家(現(xiàn)Anthropic首席科學官)Jared Kaplan發(fā)布了一篇論文,明確表示訓練大語言模型用的數(shù)據(jù)越多,表現(xiàn)就會越好。自那以后,“規(guī)模就是一切”成為了人工智能行業(yè)的信條。

      2020年11月發(fā)布的GPT-3包含約3000億個Token的訓練數(shù)據(jù)。2022年,谷歌DeepMind對400個人工智能模型進行測試,其中表現(xiàn)最好的模型(之一),一個名為Chinchilla的模型用了1.4萬億個Token的數(shù)據(jù)。到2023年,中國科學家開發(fā)的Skywork大模型在訓練中使用了3.2萬億個英文和中文Token,谷歌PaLM 2的訓練數(shù)據(jù)量則達到3.6萬億個Token。

      研究機構Epoch直白地表示,現(xiàn)在科技公司使用數(shù)據(jù)的速度已經(jīng)超過數(shù)據(jù)生產(chǎn)的速度,這些公司最快會在2026年就耗盡互聯(lián)網(wǎng)上的高質量數(shù)據(jù)。

      面對這樣的問題,OpenAI掌門Sam Altman(山姆·奧爾特曼,也譯為阿爾特曼/奧特曼)已經(jīng)提出了一種解決方法:像OpenAI這樣的公司,最終會轉向使用AI生成的數(shù)據(jù)(也被稱為合成數(shù)據(jù))來訓練AI。這樣開發(fā)人員在創(chuàng)建愈發(fā)強大的技術同時,也會減少對受版權保護數(shù)據(jù)的依賴。

      目前OpenAI和一系列機構也正在研究使用兩個不同的模型,能否共同生成更有用、更可靠的合成數(shù)據(jù)——一個系統(tǒng)產(chǎn)生數(shù)據(jù),另一個系統(tǒng)對信息進行評判。當然,這種技術路徑是否可行,目前仍存爭議。

      前OpenAI研究員Jeff Clune認為,這些AI系統(tǒng)所需的數(shù)據(jù)就像是穿越叢林的路徑,如果這些公司只是在合成數(shù)據(jù)上訓練,AI可能會在叢林里迷失。


      來源:財聯(lián)社 作者:史正丞

      版權與免責:以上作品(包括文、圖、音視頻)版權歸發(fā)布者【史正丞】所有。本App為發(fā)布者提供信息發(fā)布平臺服務,不代表經(jīng)觀的觀點和構成投資等建議
      亚洲的天堂A∨无码视色
      <nav id="4uuuu"></nav>
    • <tr id="4uuuu"></tr>
    • <tr id="4uuuu"></tr>
    • <tfoot id="4uuuu"><dd id="4uuuu"></dd></tfoot>
      • <noscript id="4uuuu"><optgroup id="4uuuu"></optgroup></noscript>