<nav id="4uuuu"></nav>
  • <tr id="4uuuu"></tr>
  • <tr id="4uuuu"></tr>
  • <tfoot id="4uuuu"><dd id="4uuuu"></dd></tfoot>
    • <noscript id="4uuuu"><optgroup id="4uuuu"></optgroup></noscript>

      久久精品福利网站免费,亚洲色大情网站WWW在线观看,久久水蜜桃网国产免费网手机 ,男女性高视频免费观看国内,老色鬼第一页av在线,久久久久精品婷婷

      網(wǎng)絡(luò)抓取數(shù)據(jù)用于生成式AI訓(xùn)練?英國(guó)ICO:合法利益是可行關(guān)鍵

      鄭雪2024-01-29 07:39

      海量數(shù)據(jù)、算力和算法,使得生成式人工智能侃侃而談、無所不知。數(shù)據(jù)來源方面,不少企業(yè)的數(shù)據(jù)源于公開網(wǎng)絡(luò)抓取,也因此產(chǎn)生了相關(guān)糾紛,如OpenAI因數(shù)據(jù)抓取引發(fā)多起糾紛。糾紛背后,涉及網(wǎng)絡(luò)抓取合法性問題,即通過網(wǎng)絡(luò)抓取數(shù)據(jù)訓(xùn)練而成的生成式人工智能模型,是否具有法律依據(jù)?

      今年1月,英國(guó)ICO(theUK Information Commissioner's Office,英國(guó)信息專員辦公室)宣布啟動(dòng)生成式人工智能系列研究,探討數(shù)據(jù)保護(hù)法如何適用于生成式人工智能模型的開發(fā)和使用。通過網(wǎng)絡(luò)抓取數(shù)據(jù)訓(xùn)練而成的生成式人工智能模型是否存在法律依據(jù)?首次研究便回應(yīng)了這一問題。

      對(duì)于人工智能企業(yè)而言,何以訓(xùn)練數(shù)據(jù)如此重要?

      數(shù)據(jù),尤其是高質(zhì)量的數(shù)據(jù),成為人工智能發(fā)展關(guān)鍵。生成式人工智能模型開發(fā)的第一步,便是收集和預(yù)處理訓(xùn)練數(shù)據(jù),通過數(shù)據(jù)訓(xùn)練模型,結(jié)合微調(diào),以便在特定環(huán)境中部署。如GPT-3的數(shù)據(jù)量為45TB。同時(shí),數(shù)據(jù)又是稀缺的,根據(jù)Epoch的研究預(yù)測(cè),數(shù)據(jù)耗盡最早可能出現(xiàn)于 2026 年。此外,AIGC廠商數(shù)據(jù)來源大致分為三個(gè)面向,公開渠道爬取的數(shù)據(jù)便是其中之一。

      生成式人工智能的訓(xùn)練數(shù)據(jù)來自何處?

      ICO指出,大多數(shù)生成式人工智能開發(fā)人員都通過可公開訪問的來源獲取數(shù)據(jù),或直接從網(wǎng)絡(luò)抓取,或間接從擁有數(shù)據(jù)的第三方獲取,或兩者結(jié)合。從互聯(lián)網(wǎng)中抓取的信息包括個(gè)人數(shù)據(jù),還包括泄露的信息等。

      基于網(wǎng)絡(luò)抓取數(shù)據(jù)訓(xùn)練而成的生成式人工智能的合法基礎(chǔ)如何判定?

      ICO指出,公開抓取數(shù)據(jù)訓(xùn)練而成的生成人工智能模型,合法利益可以成為其法律依據(jù),但前提是模型開發(fā)者通過三部分測(cè)試(three-part test):

      一是,目的測(cè)試,即是否存在有效利益。開發(fā)者的利益涉及商業(yè)利益以及更廣泛的社會(huì)利益,需要對(duì)模型的使用進(jìn)行適當(dāng)控制。

      二是,必要性測(cè)試,即鑒于目的,網(wǎng)絡(luò)抓取是否必要。ICO理解,目前大多數(shù)生成式人工智能,只能使用通過大規(guī)模抓取獲得的數(shù)據(jù)量進(jìn)行訓(xùn)練。

      三是,平衡測(cè)試,即評(píng)估對(duì)個(gè)人的影響,并確定是否侵犯了個(gè)人的利益、權(quán)利和自由(此處重點(diǎn)關(guān)注對(duì)個(gè)人的潛在影響)。通過網(wǎng)絡(luò)抓取收集數(shù)據(jù)是一種“隱形處理”活動(dòng),在此情況下,公眾可能會(huì)失去對(duì)個(gè)人數(shù)據(jù)處理的控制權(quán),或者無法行使法律所授予的相關(guān)權(quán)利。ICO指出,隱形處理和人工智能相關(guān)處理都被視為高風(fēng)險(xiǎn)活動(dòng),需要在其指導(dǎo)下進(jìn)行DPIA(數(shù)據(jù)保護(hù)影響評(píng)估)。

      可以看到,生成式人工智能模型正逐漸引發(fā)風(fēng)險(xiǎn)和危害,可能是因?yàn)槭占挠?xùn)練數(shù)據(jù),也可能和模型使用相關(guān)。相關(guān)風(fēng)險(xiǎn)又該如何緩解?

      ICO列明三種情況:

      初始開發(fā)人員部署的生成式AI模型:部署在自己的平臺(tái)時(shí),期望能夠完全控制模型的生成和使用

      由第三方通過API部署的生成式AI模型:在此情況下,初始開發(fā)者可以部署特定技術(shù)(例如輸出過濾器等)或通過組織予以解決。如對(duì)API接口的限制查詢、對(duì)模型使用進(jìn)行監(jiān)控、通過合同予以限制等。

      提供給第三方的生成式人工智能模型:這種情況下,初始開發(fā)者會(huì)將底層模型副本或大量細(xì)節(jié)(如模型權(quán)重、起始代碼等)提供第三方,客戶選擇運(yùn)行自己研發(fā)的生成人工智能模型。ICO指出,合同控制措施可以減輕這種風(fēng)險(xiǎn),但仍需實(shí)踐證明上述措施可行

      值得注意的是,此次是ICO關(guān)于生成式人工智能開發(fā)和使用的新想法,不應(yīng)將其解釋為數(shù)據(jù)處理需要符合的法律規(guī)定。

      數(shù)據(jù)抓取從來都不是一個(gè)新問題,數(shù)據(jù)抓取及合法性邊界是權(quán)益衡量的結(jié)果,同時(shí)需要具體分析(case by case),對(duì)于新興的人工智能企業(yè)來說亦如此。

      來源:21世紀(jì)經(jīng)濟(jì)報(bào)道 作者:鄭雪

      版權(quán)與免責(zé):以上作品(包括文、圖、音視頻)版權(quán)歸發(fā)布者【鄭雪】所有。本App為發(fā)布者提供信息發(fā)布平臺(tái)服務(wù),不代表經(jīng)觀的觀點(diǎn)和構(gòu)成投資等建議

      熱新聞

      久久精品福利网站免费
      <nav id="4uuuu"></nav>
    • <tr id="4uuuu"></tr>
    • <tr id="4uuuu"></tr>
    • <tfoot id="4uuuu"><dd id="4uuuu"></dd></tfoot>
      • <noscript id="4uuuu"><optgroup id="4uuuu"></optgroup></noscript>