網(wǎng)絡(luò)抓取數(shù)據(jù)用于生成式AI訓(xùn)練？英國(guó)ICO：合法利益是可行關(guān)鍵

鄭雪2024-01-29 07:39

海量數(shù)據(jù)、算力和算法，使得生成式人工智能侃侃而談、無所不知。數(shù)據(jù)來源方面，不少企業(yè)的數(shù)據(jù)源于公開網(wǎng)絡(luò)抓取，也因此產(chǎn)生了相關(guān)糾紛，如OpenAI因數(shù)據(jù)抓取引發(fā)多起糾紛。糾紛背后，涉及網(wǎng)絡(luò)抓取合法性問題，即通過網(wǎng)絡(luò)抓取數(shù)據(jù)訓(xùn)練而成的生成式人工智能模型，是否具有法律依據(jù)？

今年1月，英國(guó)ICO（theUK Information Commissioner's Office，英國(guó)信息專員辦公室）宣布啟動(dòng)生成式人工智能系列研究，探討數(shù)據(jù)保護(hù)法如何適用于生成式人工智能模型的開發(fā)和使用。通過網(wǎng)絡(luò)抓取數(shù)據(jù)訓(xùn)練而成的生成式人工智能模型是否存在法律依據(jù)？首次研究便回應(yīng)了這一問題。

對(duì)于人工智能企業(yè)而言，何以訓(xùn)練數(shù)據(jù)如此重要？

數(shù)據(jù)，尤其是高質(zhì)量的數(shù)據(jù)，成為人工智能發(fā)展關(guān)鍵。生成式人工智能模型開發(fā)的第一步，便是收集和預(yù)處理訓(xùn)練數(shù)據(jù)，通過數(shù)據(jù)訓(xùn)練模型，結(jié)合微調(diào)，以便在特定環(huán)境中部署。如GPT-3的數(shù)據(jù)量為45TB。同時(shí)，數(shù)據(jù)又是稀缺的，根據(jù)Epoch的研究預(yù)測(cè)，數(shù)據(jù)耗盡最早可能出現(xiàn)于 2026 年。此外，AIGC廠商數(shù)據(jù)來源大致分為三個(gè)面向，公開渠道爬取的數(shù)據(jù)便是其中之一。

生成式人工智能的訓(xùn)練數(shù)據(jù)來自何處？

ICO指出，大多數(shù)生成式人工智能開發(fā)人員都通過可公開訪問的來源獲取數(shù)據(jù)，或直接從網(wǎng)絡(luò)抓取，或間接從擁有數(shù)據(jù)的第三方獲取，或兩者結(jié)合。從互聯(lián)網(wǎng)中抓取的信息包括個(gè)人數(shù)據(jù)，還包括泄露的信息等。

基于網(wǎng)絡(luò)抓取數(shù)據(jù)訓(xùn)練而成的生成式人工智能的合法基礎(chǔ)如何判定？

ICO指出，公開抓取數(shù)據(jù)訓(xùn)練而成的生成人工智能模型，合法利益可以成為其法律依據(jù)，但前提是模型開發(fā)者通過三部分測(cè)試（three-part test）：

一是，目的測(cè)試，即是否存在有效利益。開發(fā)者的利益涉及商業(yè)利益以及更廣泛的社會(huì)利益，需要對(duì)模型的使用進(jìn)行適當(dāng)控制。

二是，必要性測(cè)試，即鑒于目的，網(wǎng)絡(luò)抓取是否必要。ICO理解，目前大多數(shù)生成式人工智能，只能使用通過大規(guī)模抓取獲得的數(shù)據(jù)量進(jìn)行訓(xùn)練。

三是，平衡測(cè)試，即評(píng)估對(duì)個(gè)人的影響，并確定是否侵犯了個(gè)人的利益、權(quán)利和自由（此處重點(diǎn)關(guān)注對(duì)個(gè)人的潛在影響）。通過網(wǎng)絡(luò)抓取收集數(shù)據(jù)是一種“隱形處理”活動(dòng)，在此情況下，公眾可能會(huì)失去對(duì)個(gè)人數(shù)據(jù)處理的控制權(quán)，或者無法行使法律所授予的相關(guān)權(quán)利。ICO指出，隱形處理和人工智能相關(guān)處理都被視為高風(fēng)險(xiǎn)活動(dòng)，需要在其指導(dǎo)下進(jìn)行DPIA（數(shù)據(jù)保護(hù)影響評(píng)估）。

可以看到，生成式人工智能模型正逐漸引發(fā)風(fēng)險(xiǎn)和危害，可能是因?yàn)槭占挠?xùn)練數(shù)據(jù)，也可能和模型使用相關(guān)。相關(guān)風(fēng)險(xiǎn)又該如何緩解？

ICO列明三種情況：

初始開發(fā)人員部署的生成式AI模型：部署在自己的平臺(tái)時(shí)，期望能夠完全控制模型的生成和使用。

由第三方通過API部署的生成式AI模型：在此情況下，初始開發(fā)者可以部署特定技術(shù)（例如輸出過濾器等）或通過組織予以解決。如對(duì)API接口的限制查詢、對(duì)模型使用進(jìn)行監(jiān)控、通過合同予以限制等。

提供給第三方的生成式人工智能模型：這種情況下，初始開發(fā)者會(huì)將底層模型副本或大量細(xì)節(jié)（如模型權(quán)重、起始代碼等）提供第三方，客戶選擇運(yùn)行自己研發(fā)的生成人工智能模型。ICO指出，合同控制措施可以減輕這種風(fēng)險(xiǎn)，但仍需實(shí)踐證明上述措施可行。

值得注意的是，此次是ICO關(guān)于生成式人工智能開發(fā)和使用的新想法，不應(yīng)將其解釋為數(shù)據(jù)處理需要符合的法律規(guī)定。

數(shù)據(jù)抓取從來都不是一個(gè)新問題，數(shù)據(jù)抓取及合法性邊界是權(quán)益衡量的結(jié)果，同時(shí)需要具體分析（case by case），對(duì)于新興的人工智能企業(yè)來說亦如此。

來源：21世紀(jì)經(jīng)濟(jì)報(bào)道作者：鄭雪

版權(quán)與免責(zé)：以上作品（包括文、圖、音視頻）版權(quán)歸發(fā)布者【鄭雪】所有。本App為發(fā)布者提供信息發(fā)布平臺(tái)服務(wù)，不代表經(jīng)觀的觀點(diǎn)和構(gòu)成投資等建議