<nav id="4uuuu"></nav>
  • <tr id="4uuuu"></tr>
  • <tr id="4uuuu"></tr>
  • <tfoot id="4uuuu"><dd id="4uuuu"></dd></tfoot>
    • <noscript id="4uuuu"><optgroup id="4uuuu"></optgroup></noscript>

      亚洲的天堂A∨无码视色,尤物久久免费一区二区三区,国产醉酒女邻居在线观看,9AⅤ高清无码免费看大片

      “AI源神”的AB面:小參數(shù)大模型也能“反思”,但只是有限開源

      錢玉娟2024-05-08 23:26

      經(jīng)濟(jì)觀察網(wǎng) 記者 錢玉娟 距離Llama 3模型發(fā)布已經(jīng)過去兩個多星期,但全球開發(fā)者對這個號稱“開源之王”“AI源神”的開源大模型,仍然熱情不減。

      截至5月8日發(fā)稿前,這個美國社交巨頭Meta旗下的開源大模型,在全球代碼托管服務(wù)平臺GitHub上的星標(biāo)(Stars)數(shù)值已接近19600,并且該數(shù)據(jù)還在持續(xù)增長。星標(biāo)是大模型項(xiàng)目在GitHub上的用戶收藏規(guī)模,可以反映全球開發(fā)者對該模型的關(guān)注度。

      開發(fā)者對Llama 3模型的追捧,不僅在于Meta宣稱它是目前市場內(nèi)相同體量下性能最好的開源大模型,還因?yàn)镸eta提供了有力的支撐條件——Llama 3模型的兩個版本都是在含24000個英偉達(dá)顯卡(GPU)的算力集群上訓(xùn)練的,使用了15萬億個(15T)Token(文本中的最小單位)組成的高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)集。

      陳天楚在浙江大學(xué)計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)實(shí)驗(yàn)室從事大模型相關(guān)研究工作。他在對Llama 3模型調(diào)優(yōu)的過程中發(fā)現(xiàn),這個由強(qiáng)大算力、優(yōu)質(zhì)且海量數(shù)據(jù)支撐的開源大模型,確實(shí)給那些沒有足夠算力的企業(yè)或個人用戶,“打開了一個開放體驗(yàn)的窗口”。

      不過,陳天楚也表示,考慮到Llama 3模型對某些領(lǐng)域的使用許可和對數(shù)據(jù)輸出再訓(xùn)練的限制,它并非一個完全意義上的開源大模型。

      Llama 3究竟強(qiáng)大在哪?

      4月18日,Meta發(fā)布Llama 3模型,并對開發(fā)者開放80億(8B)和700億(70B)兩個參數(shù)規(guī)模的版本——Llama 3 8B模型和Llama 3 70B模型。當(dāng)天恰好是AI行業(yè)學(xué)者吳恩達(dá)的生日。作為AI開源的倡導(dǎo)者,吳恩達(dá)感慨“(Llama 3模型是)至今為止最好的禮物”,并向Meta表示感謝。

      在發(fā)布幾小時后,Llama 3模型便在AI代碼社區(qū)Hugging Face的模型排行榜單上史無前例地“霸榜”了。此后,英偉達(dá)高級科學(xué)家Jim Fan更是發(fā)出預(yù)言:“Meta 即將推出的Llama 3 400B將成為一個分水嶺。即社區(qū)將獲得開源重量級的GPT-4模型。”

      Meta一直強(qiáng)調(diào)創(chuàng)新、擴(kuò)展和優(yōu)化的重要性,但它在開發(fā)Llama 3模型時,并未對上一代模型Llama 2的架構(gòu)和底層算法做出太大的調(diào)整。兩代模型間的變量更為集中地體現(xiàn)在數(shù)據(jù)工程上。

      Llama 3模型使用的預(yù)訓(xùn)練數(shù)據(jù)集超過15萬億個Token,比Llama 2使用的數(shù)據(jù)集大7倍,包含的代碼量也多了4倍,這反映出Meta在開發(fā)該模型的過程中投入了豐富資源。此前Meta也表示:“數(shù)據(jù)的增多,幫助(Llama 3)模型更好地識別差異和模式。”

      Llama 3 8B模型是Llama 3的小參數(shù)版本。陳天楚稱,國內(nèi)外目前開源的大多數(shù)8B體量模型,一般使用2000億個(0.2T)Token的數(shù)據(jù)集就能滿足訓(xùn)練需要,而Meta為訓(xùn)練Llama 3模型擴(kuò)充的語料出人意料。

      除此之外,Llama 3模型使用的算力卡更令人驚嘆,它是在含24000個英偉達(dá)GPU的算力集群上訓(xùn)練的。超大規(guī)模的算力集群會帶來網(wǎng)絡(luò)通信優(yōu)化、電力基礎(chǔ)設(shè)施構(gòu)建等工程上的挑戰(zhàn)。陳天楚說,不論在開源還是在閉源社區(qū),鮮見用如此多資源去訓(xùn)練一個小參數(shù)大模型的案例。

      因此,Llama 3模型一經(jīng)發(fā)布,便吸引了眾多大模型玩家對它進(jìn)行測試、微調(diào)等重訓(xùn)工作。開源模型社區(qū)開源智友(OpenBuddy)就是其中之一,它由陳天楚擔(dān)任模型訓(xùn)練負(fù)責(zé)人。

      Meta在官方博客上表示,Llama 3模型只針對英語輸出進(jìn)行了微調(diào),主要提供英語方面的對話能力。而在Llama 3面市3天后,OpenBuddy團(tuán)隊(duì)就在匯集AI開發(fā)者的魔搭社區(qū)內(nèi),發(fā)布了一個支持中文的Llama 3 8B模型優(yōu)化版本——OpenBuddy-Llama3-8B模型。陳天楚說:“我們主要優(yōu)化了它的跨語言理解能力,讓它在中文方面具備更強(qiáng)的穩(wěn)定性和認(rèn)知能力。”

      陳天楚透露,一位魔搭社區(qū)用戶向OpenBuddy團(tuán)隊(duì)反饋,OpenBuddy-Llama3-8B模型對一些中國傳統(tǒng)文化或小眾的中文知識點(diǎn)掌握得不夠精確,但它比同體量的開源模型具有更大的潛力。該用戶還認(rèn)為,它對中文的認(rèn)知理解能力,已接近大參數(shù)中文原生大模型。

      一般情況下,體量在70B左右的大參數(shù)大模型才具有反思、糾錯能力。但據(jù)陳天楚觀察,OpenBuddy-Llama3-8B模型“既可以對自己說過的話有認(rèn)知,意識到錯了,還能在承認(rèn)錯誤后有一個反思的過程,重新更正一個答案”。

      小參數(shù)大模型多被認(rèn)為適合處理簡單的日常事務(wù)。可Llama 3 8B及其衍生模型表現(xiàn)出了更深層的反思和糾錯機(jī)制,讓開源社區(qū)的用戶們意識到,復(fù)雜認(rèn)知不再是大參數(shù)大模型的專利。陳天楚據(jù)此預(yù)判,在某些預(yù)算有限的垂直行業(yè)領(lǐng)域中應(yīng)用Llama 3 8B模型,或?qū)⒋嬖诟嗟目赡苄浴?/p>

      有限開源的“開源之王”

      Llama 3模型強(qiáng)大且開源的特性,更讓開發(fā)者對它冠以“開源之王”“AI源神”的稱號,但陳天楚對此有不同看法。

      OpenBuddy團(tuán)隊(duì)一直致力于為開源社區(qū)提供強(qiáng)認(rèn)知智能的中文開源模型。他們在一個新的開源大模型發(fā)布后,往往會第一時間查看該模型的許可(License),看它是不是有被限制的使用方法。陳天楚說,如果它只能用在某一特定的語言,或者它不能商用,“這意味著我們基于這種開源基座(調(diào)優(yōu))的衍生結(jié)果,也可能會受到同樣的限制”。

      而OpenBuddy團(tuán)隊(duì)發(fā)現(xiàn),Llama 3模型實(shí)際上限制了某些領(lǐng)域的使用許可,經(jīng)由它輸出的數(shù)據(jù)并不能用于訓(xùn)練其他模型。

      陳天楚注意到,對于要進(jìn)行模型應(yīng)用開發(fā)的企業(yè)而言,Llama 3模型的掣肘問題并非語言,而是它并不支持用戶規(guī)模巨大的企業(yè)商用。“包含關(guān)聯(lián)公司在內(nèi),7億月活以上的廠商都是不可行的。”

      陳天楚還十分關(guān)心大模型的訓(xùn)練數(shù)據(jù)來源和數(shù)據(jù)去向。但OpenBuddy團(tuán)隊(duì)在對Llama 3模型調(diào)優(yōu)的過程中發(fā)現(xiàn),包括Meta在內(nèi)的很多開源廠商,都不太愿意把數(shù)據(jù)來源或數(shù)據(jù)比例進(jìn)行公布。陳天楚稱,這可能是因?yàn)樗麄儠玫揭恍┯邪鏅?quán)的數(shù)據(jù)進(jìn)行訓(xùn)練。

      基于上述限制因素,陳天楚從開源社區(qū)的嚴(yán)格定義上分析,Llama 3不完全是一個開源大模型。“它還是一個有所保留的開放模型,(我們)不能真正定義它為一個開源的作品。”

      對于Llama 3模型的有限開源,云從科技研究院產(chǎn)品總監(jiān)孫進(jìn)認(rèn)為,開源的版本一定不是大模型最好的版本。“如果有平替GPT-4(美國AI公司OpenAI研發(fā)的大模型)的模型,即使(它)開源,也會是閹割之后(的)再開源。”

      去年至今,國內(nèi)外不少廠商將旗下的大模型開源。但孫進(jìn)與一些行業(yè)客戶交流下來發(fā)現(xiàn):“他們都經(jīng)歷了(對開源模型)從入門到放棄的過程,現(xiàn)在來找我們直接采購大模型算法。”

      孫進(jìn)的團(tuán)隊(duì)也曾接到一些地方政府的需求,“給一些補(bǔ)貼,(讓)我們開源大模型技術(shù)”。但他們至今沒有實(shí)際推進(jìn)此事。在孫進(jìn)看來,如果一家廠商選擇開源大模型,需要配套的算力運(yùn)營生態(tài)來支撐盈利模式,只有云計(jì)算、算力硬件、初創(chuàng)AI企業(yè)才有開源大模型的動力。

      陳天楚理解廠商對開源大模型商業(yè)模式的關(guān)注,但他并不建議所有廠商從零開始訓(xùn)練大模型。“追蹤開源社區(qū)的最新成果,可能也是一條值得考慮的路線。”

      從Llama 3模型的開放模式看,陳天楚認(rèn)為,該模型為開源社區(qū)打開了一個窗口——它不僅令開發(fā)者認(rèn)識到,使用巨量的算力和數(shù)據(jù)集能夠讓大模型達(dá)到怎樣的結(jié)果,也為很多沒有足夠算力的企業(yè)或個人用戶提供了體驗(yàn)大模型能力的機(jī)會。

      陳天楚說,Meta為了訓(xùn)練Llama 3 8B模型,投入了百萬小時的H100(一款英偉達(dá)GPU)算力,這是任何一家初創(chuàng)企業(yè)承受不起的。考慮到該模型實(shí)現(xiàn)了不錯的訓(xùn)練效果,他判斷,在未來很長一段時間內(nèi),特別是在英語環(huán)境下,基于Llama 3模型的進(jìn)一步優(yōu)化、開發(fā),會成為一些初創(chuàng)企業(yè)在商業(yè)上頗有意義的選項(xiàng)。

      版權(quán)聲明:以上內(nèi)容為《經(jīng)濟(jì)觀察報(bào)》社原創(chuàng)作品,版權(quán)歸《經(jīng)濟(jì)觀察報(bào)》社所有。未經(jīng)《經(jīng)濟(jì)觀察報(bào)》社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,否則將依法追究相關(guān)行為主體的法律責(zé)任。版權(quán)合作請致電:【010-60910566-1260】。
      TMT新聞部記者
      長期關(guān)注并報(bào)道TMT領(lǐng)域的重大事件,時刻保持新聞敏感,發(fā)現(xiàn)前沿趨勢。擅長企業(yè)模式、人物專訪及行業(yè)深度報(bào)道。
      重要新聞線索可聯(lián)系qianyujuan@eeo.com.cn
      微信號:EstherQ138279
      亚洲的天堂A∨无码视色
      <nav id="4uuuu"></nav>
    • <tr id="4uuuu"></tr>
    • <tr id="4uuuu"></tr>
    • <tfoot id="4uuuu"><dd id="4uuuu"></dd></tfoot>
      • <noscript id="4uuuu"><optgroup id="4uuuu"></optgroup></noscript>