經(jīng)濟(jì)觀察網(wǎng) 記者 陳月芹 大模型與云計(jì)算,正在成為AI(人工智能)時(shí)代的淘金者和賣鏟人。而作為數(shù)據(jù)的載體,數(shù)據(jù)存儲(chǔ)則是AI大模型的關(guān)鍵基礎(chǔ)設(shè)施。
4月8日,騰訊云帶來(lái)了面向AIGC(生成式人工智能)場(chǎng)景全面升級(jí)的云存儲(chǔ)解決方案,主要由對(duì)象存儲(chǔ)COS、高性能并行文件存儲(chǔ)CFS Turbo、數(shù)據(jù)加速器GooseFS和數(shù)據(jù)萬(wàn)象CI等產(chǎn)品組成。
這一系列云存儲(chǔ)產(chǎn)品瞄準(zhǔn)時(shí)下最火的大模型全鏈路數(shù)據(jù)處理難題。一般而言,AI大模型的研發(fā)生產(chǎn)流程,分成數(shù)據(jù)采集、數(shù)據(jù)清洗、模型訓(xùn)練、推理應(yīng)用四大環(huán)節(jié),各環(huán)節(jié)都涉及海量的數(shù)據(jù)處理。
不同的環(huán)節(jié),對(duì)存儲(chǔ)的要求不盡相同。騰訊云存儲(chǔ)總經(jīng)理馬文霜介紹,數(shù)據(jù)采集階段需要一個(gè)大容量、低成本、高可靠度的數(shù)據(jù)存儲(chǔ)底座,方便數(shù)據(jù)快速接入;在數(shù)據(jù)清洗階段,需要存儲(chǔ)提供一個(gè)更多協(xié)議的支持;在模型訓(xùn)練階段,通常需要每2小時(shí)至4小時(shí)保存一次訓(xùn)練成果,以便能在GPU(圖形處理器)故障時(shí)能回滾,因此快速地讀寫checkpoint(檢查點(diǎn))文件也成了能否高效利用算力資源、提高訓(xùn)練效率的關(guān)鍵,保障連續(xù)訓(xùn)練和提升CPU(中央處理器)的有效使用時(shí)長(zhǎng);在推理應(yīng)用階段,更需要存儲(chǔ)提供豐富的數(shù)據(jù)審核能力,來(lái)滿足鑒黃、鑒暴、安全合規(guī)的訴求,保證大模型生成的內(nèi)容是合法、合規(guī)的。
此次發(fā)布會(huì)上,相比其他產(chǎn)品,CFS Turbo被著墨介紹的篇幅更多。
CFS Turbo是面向AIGC訓(xùn)練場(chǎng)景進(jìn)行專門優(yōu)化的騰訊云自研產(chǎn)品,據(jù)介紹,其每秒總讀寫吞吐能達(dá)到TiB/s(太字節(jié)每秒)級(jí)別,每秒元數(shù)據(jù)性能高達(dá)百萬(wàn)OPS(算力單位)。3TB(太字節(jié))checkpoint 寫入時(shí)間從10分鐘,縮短至10秒內(nèi),能使大模型訓(xùn)練效率大幅提升。
騰訊云文件存儲(chǔ)總監(jiān)陸志剛說(shuō),AIGC業(yè)務(wù)場(chǎng)景對(duì)數(shù)據(jù)存儲(chǔ)提出了更高的挑戰(zhàn),尤其是在模型訓(xùn)練和推理方面,需要超高的寫吞吐和對(duì)小文件超高的OPS性能。
陸志剛把GPU的大模型訓(xùn)練比作是一個(gè)煉丹爐,它需要用戶喂入數(shù)據(jù)從而產(chǎn)生想要的結(jié)果,而此時(shí)文件存儲(chǔ)就是用來(lái)給大模型提供輸入和輸出的載體,一方面,輸入海量的小樣本文件,比如互聯(lián)網(wǎng)上抓取的網(wǎng)頁(yè)和PDF(便攜式文檔格式文件)書籍文檔,另一方面,輸出形式則是一個(gè)模型文件。大模型需要通過(guò)一個(gè)大的TB級(jí)模型文件來(lái)提供推理,因此對(duì)小文件的OPS和大文件的吞吐有比較高的要求。
面對(duì)這個(gè)挑戰(zhàn),文件存儲(chǔ)需要一個(gè)并行的客戶端、強(qiáng)一致緩存、后端服務(wù)端集群能提供分布式服務(wù)等技術(shù)要素。而CFS Turbo就是具備這三種要素的分布式并行文件存儲(chǔ)。
除了騰訊混元大模型,誰(shuí)是更新?lián)Q代后的騰訊云存儲(chǔ)產(chǎn)品的目標(biāo)客戶?
騰訊云存儲(chǔ)總經(jīng)理陳崢解釋,騰訊的整個(gè)自研業(yè)務(wù)里,包括混元大模型,都是基于整個(gè)AIGC云存儲(chǔ)的底座來(lái)構(gòu)建的,其中包括checkpoint是基于CFS Turbo高性能寫入的新架構(gòu),以及數(shù)據(jù)清洗基于對(duì)象存儲(chǔ)COS和存儲(chǔ)引擎YottaStore進(jìn)行構(gòu)建的。
陳崢沒(méi)有透露云存儲(chǔ)升級(jí)后的效率數(shù)據(jù):“從自研業(yè)務(wù)上看,我們的訓(xùn)練時(shí)間提升了2倍以上。外部客戶來(lái)看,AIGC清洗領(lǐng)域的一些創(chuàng)業(yè)公司應(yīng)用了我們整個(gè)AIGC云存儲(chǔ)的解決方案后,清洗、訓(xùn)練的效率也得到了提升,包括應(yīng)對(duì)讀寫大帶寬、高吞吐時(shí),跑出實(shí)際業(yè)務(wù)的值已經(jīng)超出我們當(dāng)時(shí)的想象,確實(shí)提升有數(shù)倍之多。”
馬文霜還補(bǔ)充,兩年前騰訊發(fā)布CFS Turbo第一個(gè)版本時(shí),讀寫吞吐量是100GB(千兆字節(jié)),當(dāng)時(shí)團(tuán)隊(duì)覺(jué)得這個(gè)讀寫吞吐量已經(jīng)足夠大,很多業(yè)務(wù)用不到,但2023年大模型出來(lái)后,用第一代CFS Turbo去寫checkpoint時(shí)會(huì)發(fā)現(xiàn)100GB還遠(yuǎn)遠(yuǎn)不夠,“現(xiàn)在我們把吞吐量升級(jí)到1 TB,也是希望讓大模型用戶能更快地加速訓(xùn)練,提升效率”。
據(jù)馬文霜介紹,目前已經(jīng)有80%的頭部大模型企業(yè)選擇騰訊云AIGC云存儲(chǔ)解決方案,包括百川智能、智譜AI、元象科技等明星大模型企業(yè)。
不過(guò),大模型企業(yè)不是騰訊云存儲(chǔ)解決方案的單一客戶,陳崢透露,除了AIGC領(lǐng)域,自動(dòng)駕駛領(lǐng)域的應(yīng)用案例不少。相比大模型,自動(dòng)駕駛更側(cè)重訓(xùn)練,在推理方面的要求偏少。當(dāng)AIGC訓(xùn)練出模型后,目前一些C端(個(gè)人用戶端)軟件基于智能模型再去做推理實(shí)際應(yīng)用輸出,比如月之暗面公司的大語(yǔ)言模型Kimi是To C(面向個(gè)人用戶)的,自動(dòng)駕駛更側(cè)重在B端(企業(yè)用戶端),通過(guò)路采數(shù)據(jù)做清洗、分割,再輸送到整個(gè)自動(dòng)駕駛訓(xùn)練場(chǎng)景,能夠產(chǎn)生一些模型的數(shù)據(jù),輔助車輛規(guī)避路障,最后實(shí)現(xiàn)自動(dòng)駕駛。
因此,除了大模型企業(yè),CFS Turbo也被廣泛應(yīng)用于自動(dòng)駕駛與工業(yè)仿真場(chǎng)景,包括博世汽車、蔚來(lái)等自動(dòng)駕駛廠商,上海電氣、深勢(shì)等仿真場(chǎng)景,墨鏡天合、追光等影視特效場(chǎng)景。
雖然同處在騰訊體系內(nèi),云存儲(chǔ)和混元大模型如何協(xié)同,是外界十分關(guān)心的問(wèn)題。比如,當(dāng)混元大模型提出更高需求時(shí),云存儲(chǔ)作為其底座,是否需要“花費(fèi)比較大的力氣才能達(dá)成”?
陳崢對(duì)此進(jìn)行了否認(rèn),直言“還好,沒(méi)有花很大的力氣”。
他解釋,當(dāng)客戶提出100GB量級(jí)需求的時(shí)候,騰訊云已經(jīng)在預(yù)估怎么去滿足200GB甚至500GB等需求。如果客戶給你提100GB要求時(shí),我只能提供100GB的能力,產(chǎn)品的局限性已經(jīng)存在了。
這時(shí),馬文霜還補(bǔ)充了一點(diǎn)他觀察到的變化:“今年第一季度,大模型企業(yè)在云存儲(chǔ)的消耗同比增加了,可能是大模型企業(yè)拿到的投資更多了吧。”
“云存儲(chǔ)解決方案升級(jí)后,價(jià)格會(huì)漲嗎?”馬文霜明確表示,“價(jià)格沒(méi)有變化”。