你聽過AI數(shù)據(jù)標注師嗎?
幾年前,寶媽群體扛起數(shù)據(jù)標注的大旗,僅需基礎(chǔ)的電腦操作能力和足夠的細心耐心,識別文本、拉個框便可勝任,被稱為人工智能末梢的“流水線民工”;而如今,大模型熱下的后半場,這一業(yè)態(tài)吸引來無數(shù)青年群體,他們憑借專業(yè)的知識儲備和個人理解,不僅要給機器“挑錯”,還要教對方“調(diào)優(yōu)”,做起了AI的首個“啟蒙師”。
求職者之變,源于市場需求之變。對AI數(shù)據(jù)標注這一新業(yè)態(tài),北京商報記者注意到,有公司花費超十億的高價投入,也有公司打出自建自管的“持久戰(zhàn)”,還有公司僅在一年中就發(fā)展出上千人的規(guī)模。
其中,不乏螞蟻、百度、字節(jié)、美團等大廠高價“挖人”,相較傳統(tǒng)的數(shù)據(jù)標注,他們更青睞有專業(yè)和經(jīng)驗多重“buff加身”的復(fù)合型人才,由此,一場從流水線民工到標注領(lǐng)域?qū)<业穆殬I(yè)巨變,正悄然鋪開……
大廠高價“挖人”,有人月薪高至5萬元
盡管出身法律專業(yè),但楊威(化名)決心進入數(shù)據(jù)標注行業(yè)。
和其他“00后”一樣,作出決策前她沒有過多猶豫,吸引她的點是覺得這個新職業(yè)比較“酷”。
“給機器人打工,接觸科技前沿,這潑天的富貴終于輪到了我頭上!”揣著對人工智能的好奇心,楊威在一家法律數(shù)據(jù)公司的駐外項目組獲得了一份“數(shù)據(jù)標注師”的實習(xí)工作,目前,她所在的公司已經(jīng)具備為客戶提供合同大模型服務(wù)的能力,而她所承擔(dān)的數(shù)據(jù)標注,則是對合同中需要提取審查的要素進行框選,進而讓大模型更具學(xué)習(xí)能力。
就像教孩子蹣跚學(xué)步,大模型的每一次進步,都有數(shù)據(jù)標注師的引導(dǎo)。楊威稱,她每天都會在掃描好的合同上框出數(shù)據(jù)“鍵值key”對應(yīng)的“屬性值value”,如合同中的雙方當事人、簽約時間地點、合同金額、驗收條款、違約責(zé)任等,一份合同大概有30-60個key與value對應(yīng)。
在建立這樣的連接和人工標注后,機器學(xué)習(xí)時就能知道合同里當事人在什么位置、保險條款如何體現(xiàn)、違約責(zé)任在合同里是否有,進而發(fā)揮合同大模型的作用——協(xié)助更高效的合同審查。
“事少錢還多,有趣又有價值”是楊威對這一職業(yè)的評價。雖然文科出身,但能接觸到前沿科技,還能實現(xiàn)財富積累和個人價值,何樂而不為?
是否“事少”未可知,不過“錢多”已有多方佐證。北京商報記者從多位受訪者處了解到,從事普通的初級AI數(shù)據(jù)標注員,一般月薪在數(shù)千元至萬元不等,但大多數(shù)人將目標瞄準的是高級AI數(shù)據(jù)標注師甚至專家,月薪一般都會過萬元,高者甚至達到5萬元。
此點從公開招聘來看同樣有所體現(xiàn)。北京商報記者注意到,有招聘網(wǎng)站設(shè)置了AI數(shù)據(jù)標注師招聘專場,新增職位1476個。其中,包括百度、字節(jié)、美團等大廠,均在AI數(shù)據(jù)標注市場花高價“挖人”,月薪多數(shù)在1.5萬元上下,專家級別能給到5萬元甚至更高。
從在招的多個崗位來看,“有相關(guān)工作經(jīng)驗、有項目管理能力”是基本要求,一些高級AI數(shù)據(jù)標注專家職位,除了數(shù)據(jù)處理、特征提取、模型訓(xùn)練外,還需負責(zé)深入研究AI數(shù)據(jù)科學(xué)領(lǐng)域、主流AI框架等,結(jié)合公司的業(yè)務(wù)場景,評估引入新技術(shù)并應(yīng)用落地。
有意思的是,和楊威有著相似想法的“00后”還有很多。北京商報記者采訪了解到,或出于對人工智能的興趣,或出于不錯的薪資水平,如今,許多正在求職中的畢業(yè)生、拓展新職業(yè)可能的年輕人,均將眼光投向了AI數(shù)據(jù)標注,為金融業(yè)、無人駕駛、智能客服、新零售等人工智能場景提供數(shù)據(jù)支撐。
對此,螞蟻集團數(shù)字天螞總經(jīng)理徐怡悅同樣向北京商報記者透露,招聘過程中確實發(fā)現(xiàn)有不少大學(xué)生逆流回歸的現(xiàn)象,不少大模型標注師中,越來越多大學(xué)生更愿意回到家鄉(xiāng)承接這類工作,她介紹,“這個職業(yè)更看重能力和經(jīng)驗,不局限于個人位置和場地,對標大城市來看還能拿到較高工資收入,確實能吸引不少年輕人群體” 。
市場偏見仍存,高學(xué)歷人才看不起流水線
求職者的選擇,離不開市場需求的擴大與產(chǎn)業(yè)的漸漸成熟。隨著人工智能的蓬勃發(fā)展,龐大的數(shù)據(jù)標注需求,推動著我國數(shù)據(jù)標注產(chǎn)業(yè)市場的快速增長。數(shù)據(jù)標注企業(yè)不斷涌現(xiàn)并相繼落地三、四線城市。
不過,對于AI數(shù)據(jù)標注師這一新業(yè)態(tài),有人向往,也有人不屑一顧。不同于楊威的新奇,來自某211高校計算機專業(yè)的王林(化名)坦言,畫框、分類、評級,這樣“機械”的數(shù)據(jù)標注工作似乎并沒有什么門檻,也不會進入人工智能、計算機、深度學(xué)習(xí)專業(yè)學(xué)生的求職意向單中。
這樣的情況并不少見,在北京商報記者的多個采訪對話中,不少人也發(fā)出疑問,數(shù)據(jù)標注不就是打打標、畫個框?難道還有什么特別高的要求嗎?
殊不知,王林口中所稱的機械式工作,僅僅是數(shù)據(jù)標注業(yè)態(tài)的“過去式”。北京商報記者了解到,傳統(tǒng)的數(shù)據(jù)標注工作,主要以“打點”和“畫框”為主,執(zhí)行的是已成客觀事實的標注行為,是什么就是什么,需嚴格按照既定的標注規(guī)范進行。
也正因此,曾經(jīng)的數(shù)據(jù)標注被稱為AI領(lǐng)域的流水線“民工”,有電腦就能做,人群主要為低學(xué)歷及兼職人群,月薪為數(shù)千元。
而現(xiàn)在市場熱招的大模型標注師,不再是計件式、簡單化,更像在做閱讀理解。由此,對于人才的需求也更偏向復(fù)合型,需要更為綜合的專業(yè)能力和表達能力。
作為人工智能算法的“燃料”,數(shù)據(jù)是人工智能實現(xiàn)應(yīng)用落地的必備要素。大多數(shù)未加工的原始數(shù)據(jù)需經(jīng)過專業(yè)的標注和處理,才能被有效轉(zhuǎn)化為有價值的信息。事實上,從更狹義的角度來看,數(shù)據(jù)標注師的工作不僅僅是簡單的分類或標記,而涉及到對原始數(shù)據(jù)進行深入理解,然后以一種機器可以識別和學(xué)習(xí)的方式進行標注。這個過程對于訓(xùn)練機器學(xué)習(xí)模型來說至關(guān)重要,因為高質(zhì)量地標注數(shù)據(jù)可以顯著提高模型的準確性和效率。
但正如王林的表態(tài),即使清楚數(shù)據(jù)標注對大模型優(yōu)化的意義,總還是認為“這一崗位與算法工程師、大模型架構(gòu)師相比沒那么高端”。“我們在招聘過程中,確實會遇到不少對數(shù)據(jù)標注師的成見,想要吸引復(fù)合型人才比較難。” 徐怡悅向北京商報記者坦言,“一方面,不少人群對數(shù)據(jù)標注崗位的認知還沒有轉(zhuǎn)變;另外,我們更需要行業(yè)專家,如具有多年從業(yè)經(jīng)驗的律師、主任醫(yī)師,但這些人才本身在自己的領(lǐng)域就十分優(yōu)秀了,要想把他們挖掘過來幫助我們做標注非常難。”
為了打破成見,將社會標簽從“工廠流水線”轉(zhuǎn)型“標注專家”,是企業(yè)側(cè)吸引復(fù)合型高學(xué)歷人才的一大手段。在螞蟻,數(shù)據(jù)標注師或許更應(yīng)該被稱作AI訓(xùn)練師。他們深度參與大模型標注的全生命周期,包括模型訓(xùn)練階段的數(shù)據(jù)準備、強化訓(xùn)練以及特定領(lǐng)域的微調(diào),模型上線之后的能力評估、對客安全管控等工作。
北京商報記者從知情人士處了解到,不少大廠招聘的大模型標注人員,本科學(xué)歷比例達到六成以上,還有的已達到100%,甚至很多專業(yè)領(lǐng)域的標注人員都是碩士或博士學(xué)歷。要求提高,自然“地位”提高。他們的身份就不再是“流水線”標注員,而是“領(lǐng)域標注專家”甚至是“解決方案架構(gòu)師”。
隨著醫(yī)療、金融、法律等專業(yè)領(lǐng)域大模型的開發(fā)應(yīng)用,如今行業(yè)對數(shù)據(jù)標注的專業(yè)性也有了更高的要求。中國信息通信研究院人工智能研究所高級工程師李蓀指出,未來大模型向行業(yè)領(lǐng)域深耕落地,對行業(yè)的數(shù)據(jù)和知識需求會更多,因此對數(shù)據(jù)標注人才的專業(yè)知識和技能要求會更高、更強。此外根據(jù)不同專業(yè)領(lǐng)域的需求,數(shù)據(jù)標注服務(wù)定制化需求更多、安全合規(guī)也會更嚴,企業(yè)端對人才培養(yǎng)體系和產(chǎn)業(yè)運作模式需要更加的創(chuàng)新,以適應(yīng)新質(zhì)生產(chǎn)力對生產(chǎn)關(guān)系的需求。
“不過,在這個過程中也會出現(xiàn)很多風(fēng)險,應(yīng)該重點注意、加強防范,例如數(shù)據(jù)隱私泄露、數(shù)據(jù)倫理安全、數(shù)據(jù)投毒檢測、數(shù)據(jù)合規(guī)審計和數(shù)據(jù)質(zhì)量控制等。” 李蓀強調(diào)。
十億級投入,新用工模式受追捧
懂算法更懂專業(yè)知識、能操作細節(jié)也能產(chǎn)出方案,這樣的“復(fù)合型人才”,成為一個合格數(shù)據(jù)標注師的培養(yǎng)方向。
從“流水線民工”進化至行業(yè)專家,對于數(shù)據(jù)標注行業(yè)的轉(zhuǎn)變,螞蟻集團智能標注專項負責(zé)人林城深有所感。“數(shù)據(jù)提質(zhì)和強化訓(xùn)練階段將直接影響大模型的訓(xùn)練效果,同時,準確的效果評測和防御能力的建設(shè)可以引導(dǎo)大模型持續(xù)優(yōu)化合規(guī)應(yīng)用。”林城說道,因此,不管是將標注人員所掌握的一些知識轉(zhuǎn)化成數(shù)據(jù)提供給大模型訓(xùn)練,還是對大模型的評測、校準,都需要行業(yè)專家才能產(chǎn)出。
以金融管家為例,大模型回答諸如金融保險的分類、資產(chǎn)如何配置等話題,所需知識在網(wǎng)絡(luò)中都不是結(jié)構(gòu)化的,沒有成文的東西可“喂養(yǎng)”。這時,AI訓(xùn)練師就可以通過自有知識的轉(zhuǎn)化,使大模型學(xué)習(xí)更多。
但“缺人”仍是目前眾多大模型研發(fā)大廠最棘手的痛點。
企業(yè)也在嘗試新的應(yīng)對之策,例如有大廠正在探索基于大模型的新用工模式,對崗位位置和場地不設(shè)限制,更多要求的是個人的經(jīng)驗和能力。
同時,也在嘗試跑通“更高端的眾包模式”,增強用人靈活性。例如,在職律師以兼職的方式參與數(shù)據(jù)標注的指導(dǎo)工作,既能獲取額外收入,也能保證較高的產(chǎn)出。
在復(fù)合型人才緊缺的情況下,自建自管自主培養(yǎng)的模式也成為不少公司的選擇。北京商報記者了解到,百度、字節(jié)等公司均在自建數(shù)據(jù)標注團隊。有知情人士表示,大廠對AI數(shù)據(jù)標注給予了極高的重視,有公司在該領(lǐng)域的投入高達上億甚至十億級別。另有公開信息顯示,百度目前已與各地政府合作共建了十多個數(shù)據(jù)標注基地,提供給上萬個就業(yè)崗位。
“將所有的大模型訓(xùn)練資源集中在一個地方,統(tǒng)一規(guī)模化管理,從而服務(wù)上游的各個大模型基座訓(xùn)練應(yīng)用,一方面方便各個項目之間的資源協(xié)調(diào),另一方面也有利于將數(shù)據(jù)標注方法論沉淀、復(fù)用,形成大模型全體系提質(zhì)增效。”林城評價。
“數(shù)據(jù)標注這個業(yè)態(tài)一直存在,人工智能的發(fā)展,對數(shù)據(jù)標注產(chǎn)業(yè)的形成和培育起到了非常重要的作用。”李蓀總結(jié)到,在發(fā)展過程中,當前數(shù)據(jù)標注產(chǎn)業(yè)已包括眾包模式、專業(yè)數(shù)據(jù)服務(wù)模式、自建團隊+外包團隊服務(wù)模式、第三方專業(yè)服務(wù)等新業(yè)態(tài)新模式。從人員結(jié)構(gòu)上來看,呈現(xiàn)多樣化、多層次、多技能型發(fā)展趨勢。
知名經(jīng)濟學(xué)者盤和林則提出,數(shù)據(jù)標注企業(yè)需要向數(shù)據(jù)服務(wù)商轉(zhuǎn)變,因為AI向多領(lǐng)域發(fā)展,機器學(xué)習(xí)所需要的數(shù)據(jù)類型將越來越豐富,預(yù)標注需要響應(yīng)客戶定制化要求。
從“挑錯”到“調(diào)優(yōu)”,背后的AI之變
從最初的“挑錯”工作,進化至高階的“調(diào)優(yōu)”,數(shù)據(jù)標注之變,源于AI需求之變。
有人說,從前的AI,僅是一種看不見摸不著的底層技術(shù),而進化后的AI,則更像是一個需要馴化的智慧生命體,需應(yīng)對千人千面的需求。
尤其是近兩年來,大模型開發(fā)進入深水區(qū),行業(yè)也從“百模大戰(zhàn)”進化到“價格戰(zhàn)”,如何實現(xiàn)大模型的商業(yè)化落地成為各大廠商的一大考題。近期,阿里、百度、字節(jié)跳動等各大廠商紛紛降價,在搶占市場的同時,也促進大模型應(yīng)用的快速落地。
可以看到,不管是在金融、醫(yī)療、教育、制造業(yè),還是身邊觸手可及的餐飲、消費、出行,人工智能在以更快的速度應(yīng)用至各行各業(yè),并以看得見摸得著的方式不斷拓寬邊界。
這背后自然帶來數(shù)據(jù)需求的擴大與精細化。李蓀將訓(xùn)練數(shù)據(jù)比作為人工智能編制高質(zhì)量的教材。傳統(tǒng)的深度學(xué)習(xí)范式下,模型訓(xùn)練是“有監(jiān)督”學(xué)習(xí),數(shù)據(jù)從定向采集、精細化標注到訓(xùn)練,是全程陪伴式課堂教學(xué),主要解決感知智能問題,教會機器對客觀信息做基礎(chǔ)性的準確判斷。在大模型時代,學(xué)習(xí)模式轉(zhuǎn)向“自學(xué)+專業(yè)培訓(xùn)式學(xué)習(xí)”,主要解決“感知+認知”智能問題,教會機器推理、涌現(xiàn),所學(xué)習(xí)的知識的廣度和深度進一步擴大了。
AI的變革,還使得大模型標注新興模式出現(xiàn),形成“用魔法打敗魔法”的風(fēng)景線。例如,通過大模型植入標注過程,逐步去做一些高效輔助,甚至是少量替代人工。
這會帶來人才與就業(yè)的焦慮嗎?答案是否定的。“本身是人訓(xùn)練了模型,模型進一步又將人不斷地替代。所以未來的趨勢是對人的要求不斷疊高,人永遠去做最頂端的最難的事情,再把這些經(jīng)驗轉(zhuǎn)化下來。” 徐怡悅說道。
“AI對行業(yè)的刺激,使得復(fù)合型人才更被市場所需要。”在林城看來,這也預(yù)示著數(shù)據(jù)標注下一個競爭維度——隨著自動化和半自動化標注工具的快速發(fā)展,能夠充分理解、熟練運用這些先進技術(shù)來提高標注效率和準確率的標注師,能將其專業(yè)知識轉(zhuǎn)化成產(chǎn)品能力、算法能力的標注師,將更具競爭力。
“隨著大模型的深化迭代,更加專家化、垂類化的數(shù)據(jù)標注需求一定會越來越多。”一資深業(yè)內(nèi)人士同樣說道。正如量子位智庫發(fā)布的《中國AIGC數(shù)據(jù)標注產(chǎn)業(yè)全景報告》顯示,大模型時代,數(shù)據(jù)標注人才缺口或達百萬,前景相當可觀。
對此,李蓀也預(yù)測,隨著大模型產(chǎn)業(yè)的持續(xù)增長、數(shù)據(jù)處理技術(shù)不斷革新升級、行業(yè)場景專業(yè)數(shù)據(jù)需求逐步增加、全球化人工智能發(fā)展等因素影響,市場對人工智能訓(xùn)練師、數(shù)據(jù)標注師、提示詞工程師、模型基準測試等人才崗位需求將會更加強烈,大模型產(chǎn)業(yè)正值爆發(fā)期,AI數(shù)據(jù)標注師后續(xù)發(fā)展前景將更加廣闊。
AI邁向大應(yīng)用時代,或已到來。
來源:北京商報 作者:劉四紅 董晗萱