“AI源神”的AB面：小參數(shù)大模型也能“反思”，但只是有限開源

錢玉娟2024-05-08 23:26

經(jīng)濟(jì)觀察網(wǎng) 記者錢玉娟 距離Llama 3模型發(fā)布已經(jīng)過去兩個多星期，但全球開發(fā)者對這個號稱“開源之王”“AI源神”的開源大模型，仍然熱情不減。

截至5月8日發(fā)稿前，這個美國社交巨頭Meta旗下的開源大模型，在全球代碼托管服務(wù)平臺GitHub上的星標(biāo)（Stars）數(shù)值已接近19600，并且該數(shù)據(jù)還在持續(xù)增長。星標(biāo)是大模型項(xiàng)目在GitHub上的用戶收藏規(guī)模，可以反映全球開發(fā)者對該模型的關(guān)注度。

開發(fā)者對Llama 3模型的追捧，不僅在于Meta宣稱它是目前市場內(nèi)相同體量下性能最好的開源大模型，還因?yàn)镸eta提供了有力的支撐條件——Llama 3模型的兩個版本都是在含24000個英偉達(dá)顯卡（GPU）的算力集群上訓(xùn)練的，使用了15萬億個（15T）Token（文本中的最小單位）組成的高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)集。

陳天楚在浙江大學(xué)計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)實(shí)驗(yàn)室從事大模型相關(guān)研究工作。他在對Llama 3模型調(diào)優(yōu)的過程中發(fā)現(xiàn)，這個由強(qiáng)大算力、優(yōu)質(zhì)且海量數(shù)據(jù)支撐的開源大模型，確實(shí)給那些沒有足夠算力的企業(yè)或個人用戶，“打開了一個開放體驗(yàn)的窗口”。

不過，陳天楚也表示，考慮到Llama 3模型對某些領(lǐng)域的使用許可和對數(shù)據(jù)輸出再訓(xùn)練的限制，它并非一個完全意義上的開源大模型。

Llama 3究竟強(qiáng)大在哪？

4月18日，Meta發(fā)布Llama 3模型，并對開發(fā)者開放80億（8B）和700億（70B）兩個參數(shù)規(guī)模的版本——Llama 3 8B模型和Llama 3 70B模型。當(dāng)天恰好是AI行業(yè)學(xué)者吳恩達(dá)的生日。作為AI開源的倡導(dǎo)者，吳恩達(dá)感慨“（Llama 3模型是）至今為止最好的禮物”，并向Meta表示感謝。

在發(fā)布幾小時后，Llama 3模型便在AI代碼社區(qū)Hugging Face的模型排行榜單上史無前例地“霸榜”了。此后，英偉達(dá)高級科學(xué)家Jim Fan更是發(fā)出預(yù)言：“Meta 即將推出的Llama 3 400B將成為一個分水嶺。即社區(qū)將獲得開源重量級的GPT-4模型。”

Meta一直強(qiáng)調(diào)創(chuàng)新、擴(kuò)展和優(yōu)化的重要性，但它在開發(fā)Llama 3模型時，并未對上一代模型Llama 2的架構(gòu)和底層算法做出太大的調(diào)整。兩代模型間的變量更為集中地體現(xiàn)在數(shù)據(jù)工程上。

Llama 3模型使用的預(yù)訓(xùn)練數(shù)據(jù)集超過15萬億個Token，比Llama 2使用的數(shù)據(jù)集大7倍，包含的代碼量也多了4倍，這反映出Meta在開發(fā)該模型的過程中投入了豐富資源。此前Meta也表示：“數(shù)據(jù)的增多，幫助（Llama 3）模型更好地識別差異和模式。”

Llama 3 8B模型是Llama 3的小參數(shù)版本。陳天楚稱，國內(nèi)外目前開源的大多數(shù)8B體量模型，一般使用2000億個（0.2T）Token的數(shù)據(jù)集就能滿足訓(xùn)練需要，而Meta為訓(xùn)練Llama 3模型擴(kuò)充的語料出人意料。

除此之外，Llama 3模型使用的算力卡更令人驚嘆，它是在含24000個英偉達(dá)GPU的算力集群上訓(xùn)練的。超大規(guī)模的算力集群會帶來網(wǎng)絡(luò)通信優(yōu)化、電力基礎(chǔ)設(shè)施構(gòu)建等工程上的挑戰(zhàn)。陳天楚說，不論在開源還是在閉源社區(qū)，鮮見用如此多資源去訓(xùn)練一個小參數(shù)大模型的案例。

因此，Llama 3模型一經(jīng)發(fā)布，便吸引了眾多大模型玩家對它進(jìn)行測試、微調(diào)等重訓(xùn)工作。開源模型社區(qū)開源智友（OpenBuddy）就是其中之一，它由陳天楚擔(dān)任模型訓(xùn)練負(fù)責(zé)人。

Meta在官方博客上表示，Llama 3模型只針對英語輸出進(jìn)行了微調(diào)，主要提供英語方面的對話能力。而在Llama 3面市3天后，OpenBuddy團(tuán)隊(duì)就在匯集AI開發(fā)者的魔搭社區(qū)內(nèi)，發(fā)布了一個支持中文的Llama 3 8B模型優(yōu)化版本——OpenBuddy-Llama3-8B模型。陳天楚說：“我們主要優(yōu)化了它的跨語言理解能力，讓它在中文方面具備更強(qiáng)的穩(wěn)定性和認(rèn)知能力。”

陳天楚透露，一位魔搭社區(qū)用戶向OpenBuddy團(tuán)隊(duì)反饋，OpenBuddy-Llama3-8B模型對一些中國傳統(tǒng)文化或小眾的中文知識點(diǎn)掌握得不夠精確，但它比同體量的開源模型具有更大的潛力。該用戶還認(rèn)為，它對中文的認(rèn)知理解能力，已接近大參數(shù)中文原生大模型。

一般情況下，體量在70B左右的大參數(shù)大模型才具有反思、糾錯能力。但據(jù)陳天楚觀察，OpenBuddy-Llama3-8B模型“既可以對自己說過的話有認(rèn)知，意識到錯了，還能在承認(rèn)錯誤后有一個反思的過程，重新更正一個答案”。

小參數(shù)大模型多被認(rèn)為適合處理簡單的日常事務(wù)。可Llama 3 8B及其衍生模型表現(xiàn)出了更深層的反思和糾錯機(jī)制，讓開源社區(qū)的用戶們意識到，復(fù)雜認(rèn)知不再是大參數(shù)大模型的專利。陳天楚據(jù)此預(yù)判，在某些預(yù)算有限的垂直行業(yè)領(lǐng)域中應(yīng)用Llama 3 8B模型，或?qū)⒋嬖诟嗟目赡苄浴?/p>

有限開源的“開源之王”

Llama 3模型強(qiáng)大且開源的特性，更讓開發(fā)者對它冠以“開源之王”“AI源神”的稱號，但陳天楚對此有不同看法。

OpenBuddy團(tuán)隊(duì)一直致力于為開源社區(qū)提供強(qiáng)認(rèn)知智能的中文開源模型。他們在一個新的開源大模型發(fā)布后，往往會第一時間查看該模型的許可（License），看它是不是有被限制的使用方法。陳天楚說，如果它只能用在某一特定的語言，或者它不能商用，“這意味著我們基于這種開源基座（調(diào)優(yōu)）的衍生結(jié)果，也可能會受到同樣的限制”。

而OpenBuddy團(tuán)隊(duì)發(fā)現(xiàn)，Llama 3模型實(shí)際上限制了某些領(lǐng)域的使用許可，經(jīng)由它輸出的數(shù)據(jù)并不能用于訓(xùn)練其他模型。

陳天楚注意到，對于要進(jìn)行模型應(yīng)用開發(fā)的企業(yè)而言，Llama 3模型的掣肘問題并非語言，而是它并不支持用戶規(guī)模巨大的企業(yè)商用。“包含關(guān)聯(lián)公司在內(nèi)，7億月活以上的廠商都是不可行的。”

陳天楚還十分關(guān)心大模型的訓(xùn)練數(shù)據(jù)來源和數(shù)據(jù)去向。但OpenBuddy團(tuán)隊(duì)在對Llama 3模型調(diào)優(yōu)的過程中發(fā)現(xiàn)，包括Meta在內(nèi)的很多開源廠商，都不太愿意把數(shù)據(jù)來源或數(shù)據(jù)比例進(jìn)行公布。陳天楚稱，這可能是因?yàn)樗麄儠玫揭恍┯邪鏅?quán)的數(shù)據(jù)進(jìn)行訓(xùn)練。

基于上述限制因素，陳天楚從開源社區(qū)的嚴(yán)格定義上分析，Llama 3不完全是一個開源大模型。“它還是一個有所保留的開放模型，（我們）不能真正定義它為一個開源的作品。”

對于Llama 3模型的有限開源，云從科技研究院產(chǎn)品總監(jiān)孫進(jìn)認(rèn)為，開源的版本一定不是大模型最好的版本。“如果有平替GPT-4（美國AI公司OpenAI研發(fā)的大模型）的模型，即使（它）開源，也會是閹割之后（的）再開源。”

去年至今，國內(nèi)外不少廠商將旗下的大模型開源。但孫進(jìn)與一些行業(yè)客戶交流下來發(fā)現(xiàn)：“他們都經(jīng)歷了（對開源模型）從入門到放棄的過程，現(xiàn)在來找我們直接采購大模型算法。”

孫進(jìn)的團(tuán)隊(duì)也曾接到一些地方政府的需求，“給一些補(bǔ)貼，（讓）我們開源大模型技術(shù)”。但他們至今沒有實(shí)際推進(jìn)此事。在孫進(jìn)看來，如果一家廠商選擇開源大模型，需要配套的算力運(yùn)營生態(tài)來支撐盈利模式，只有云計(jì)算、算力硬件、初創(chuàng)AI企業(yè)才有開源大模型的動力。

陳天楚理解廠商對開源大模型商業(yè)模式的關(guān)注，但他并不建議所有廠商從零開始訓(xùn)練大模型。“追蹤開源社區(qū)的最新成果，可能也是一條值得考慮的路線。”

從Llama 3模型的開放模式看，陳天楚認(rèn)為，該模型為開源社區(qū)打開了一個窗口——它不僅令開發(fā)者認(rèn)識到，使用巨量的算力和數(shù)據(jù)集能夠讓大模型達(dá)到怎樣的結(jié)果，也為很多沒有足夠算力的企業(yè)或個人用戶提供了體驗(yàn)大模型能力的機(jī)會。

陳天楚說，Meta為了訓(xùn)練Llama 3 8B模型，投入了百萬小時的H100（一款英偉達(dá)GPU）算力，這是任何一家初創(chuàng)企業(yè)承受不起的。考慮到該模型實(shí)現(xiàn)了不錯的訓(xùn)練效果，他判斷，在未來很長一段時間內(nèi)，特別是在英語環(huán)境下，基于Llama 3模型的進(jìn)一步優(yōu)化、開發(fā)，會成為一些初創(chuàng)企業(yè)在商業(yè)上頗有意義的選項(xiàng)。

版權(quán)聲明：以上內(nèi)容為《經(jīng)濟(jì)觀察報(bào)》社原創(chuàng)作品，版權(quán)歸《經(jīng)濟(jì)觀察報(bào)》社所有。未經(jīng)《經(jīng)濟(jì)觀察報(bào)》社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，否則將依法追究相關(guān)行為主體的法律責(zé)任。版權(quán)合作請致電：【010-60910566-1260】。

錢玉娟經(jīng)濟(jì)觀察報(bào)記者

TMT新聞部記者
長期關(guān)注并報(bào)道TMT領(lǐng)域的重大事件，時刻保持新聞敏感，發(fā)現(xiàn)前沿趨勢。擅長企業(yè)模式、人物專訪及行業(yè)深度報(bào)道。
重要新聞線索可聯(lián)系qianyujuan@eeo.com.cn
微信號：EstherQ138279