<nav id="4uuuu"></nav>
  • <tr id="4uuuu"></tr>
  • <tr id="4uuuu"></tr>
  • <tfoot id="4uuuu"><dd id="4uuuu"></dd></tfoot>
    • <noscript id="4uuuu"><optgroup id="4uuuu"></optgroup></noscript>

      亚洲的天堂A∨无码视色,尤物久久免费一区二区三区,国产醉酒女邻居在线观看,9AⅤ高清无码免费看大片

      大模型正在改變深度機(jī)器學(xué)習(xí),訓(xùn)練大模型的工程技術(shù)挑戰(zhàn)在哪里?

      崔鵬CP2023-11-28 08:23

      早在2020年,騰訊開始研發(fā)支持大模型訓(xùn)練和推理的工程技術(shù)底座時,初衷只是為了滿足騰訊廣告的需求,想通過提升參數(shù)量的方式,來提高廣告模型推理預(yù)測的能力。

      在OpenAI將生成式大模型帶入主流視野之后,幾乎所有頭部廠商都在研究和推出自己的大模型業(yè)務(wù)。今年9月騰訊對外推出自研的通用大模型“混元大模型”,成為國內(nèi)頭部科技企業(yè)中最后一個對外發(fā)布大模型業(yè)務(wù)的公司。

      推動大模型應(yīng)用落地是一項頗為復(fù)雜的工程,不僅要考慮如何降低訓(xùn)練和精調(diào)的成本,還要關(guān)注投產(chǎn)時的推理成本。因為當(dāng)所有的應(yīng)用場景都用千億級模型去做訓(xùn)練和推理時,會形成長期的成本消耗,企業(yè)需要支撐每次服務(wù)調(diào)用帶來的算力成本。

      有些廠商也推出了小尺寸模型,試圖在性能、成本和效果之間做均衡:在一些需要高度復(fù)雜推理的場景下用大模型能力,在一些不太復(fù)雜的場景使用小尺寸模型。

      任何一家廠商,如果想推出領(lǐng)先于競品的大模型服務(wù),不僅要有最好的硬件集群,還要針對新型算力集群提供訓(xùn)練推理框架、軟件框架,做軟硬適配一體化。

      對于這些話題,近日,騰訊的兩位混元大模型技術(shù)專家與界面新聞等媒體進(jìn)行了深度溝通,聊到了大模型對傳統(tǒng)深度機(jī)器學(xué)習(xí)平臺的改變,以及大模型底層技術(shù)支撐對頭部廠商的挑戰(zhàn)。

      機(jī)器學(xué)習(xí)平臺不再是從0到1

      雖然都在人工智能范疇之下,但在各大公司紛紛介入大模型研發(fā)后,即便是不久之前的深度機(jī)器學(xué)習(xí)平臺,也與大模型優(yōu)化出來的新型訓(xùn)練推理范式有著本質(zhì)區(qū)別。

      從模型的精調(diào)、評測再到部署,這些環(huán)節(jié)就是現(xiàn)在專屬模型定制的主要訓(xùn)練過程,與傳統(tǒng)機(jī)器學(xué)習(xí)平臺的區(qū)別也主要集中在這個過程中。

      比如說,傳統(tǒng)的機(jī)器學(xué)習(xí)平臺只提供各種庫和算法,訓(xùn)練都是從0到1的過程,不會提供一個帶參數(shù)的模型。

      今天由大廠提供的千億規(guī)模基礎(chǔ)模型,則包含了各種尺寸的模型矩陣,以及龐大的數(shù)據(jù)量。此時研發(fā)人員要做的就是精調(diào)專屬模型,并進(jìn)行應(yīng)用構(gòu)建。

      其中,龐大的數(shù)據(jù)量決定著應(yīng)用落地的天花板。十幾年前的機(jī)器學(xué)習(xí)平臺,數(shù)據(jù)科學(xué)家60%-80%的時間在做數(shù)據(jù)清理,只有20%左右時間在建模。

      大模型時代訓(xùn)練用的原始素材動輒以PB(1000TB)級別起步,“你不可能在任何一個環(huán)節(jié)上用手工做”,騰訊機(jī)器學(xué)習(xí)平臺部的專家工程師姚軍表示,如果沒有智能數(shù)據(jù)處理,科學(xué)家哪怕花費100%的時間都處理不完這些數(shù)據(jù)。

      這種參數(shù)規(guī)模呈現(xiàn)的是指數(shù)量級的增長,“智能不夠,數(shù)據(jù)來湊”。2020年OpenAI的一篇論文中表示,他們從研究上發(fā)現(xiàn)整個人工智能從神經(jīng)網(wǎng)絡(luò)的深度和寬度上看,數(shù)據(jù)越多、模型越大,它對知識的歸納總結(jié)以及推理泛化能力就越強(qiáng)。

      基礎(chǔ)模型的參數(shù)決定了智能能力的天花板,但否能摸到天花板,很多時候取決于它與業(yè)務(wù)場景的適配,也就是精調(diào)模型的效果。

      精調(diào)指的是企業(yè)基于大廠提供的基礎(chǔ)模型,進(jìn)行專屬模型的訓(xùn)練(二次訓(xùn)練、精調(diào)訓(xùn)練),針對企業(yè)自己的應(yīng)用場景和特有數(shù)據(jù)進(jìn)行優(yōu)化,讓大模型能理解企業(yè)的應(yīng)用指令,并且用特定方式輸出它存儲的數(shù)據(jù)。

      比如OpenAI不久之前的發(fā)布會上,首席執(zhí)行官Sam Altman演示的創(chuàng)業(yè)訓(xùn)練營案例文檔,就包含大量的傳統(tǒng)OCR和表格轉(zhuǎn)換工作,想要讓大模型看懂文檔,就需要對針對這個垂直場景進(jìn)行大量訓(xùn)練。

      對于那些參數(shù)量成百上千億的大模型來說,有多少參數(shù)在精調(diào)過程中可以改動,改動的越多,跟場景的適配越好,但也意味著更高的訓(xùn)練成本。

      大模型提供的不同尺寸、不同程度的調(diào)參能力,以及降低幻覺的需求,也是與傳統(tǒng)機(jī)器學(xué)習(xí)平臺完全不同的地方。

      數(shù)據(jù)各家都有,為何訓(xùn)練大模型這么難?

      雖然很多公司都有不少數(shù)據(jù)積累,但不是每家公司都能承擔(dān)起訓(xùn)練大模型的工作,挑戰(zhàn)主要來自四個方面:

      1、算力挑戰(zhàn)。大模型算力呈現(xiàn)指數(shù)級增長,超過了很多硬件加速器的算力。

      從早期的Bert模型,到LLamMA,再到GPT3和GPT4,深度模型網(wǎng)絡(luò)要通過反向和前向計算去得到最好的權(quán)重值,每個位置上都要進(jìn)行計算,因此模型的節(jié)點數(shù)量、網(wǎng)絡(luò)層次的規(guī)模就決定了模型需要的計算量。

      相比之下,今天的主流硬件加速器算力較為有限。以Bert模型為例,如果用一張英偉達(dá)V100卡來算,大概需要50天左右,如果用這張卡去計算GPT系列模型,可能要幾十上百年時間。

      2、顯存挑戰(zhàn)。目前大模型的規(guī)模已經(jīng)增大到TB級別,遠(yuǎn)遠(yuǎn)超過一張卡的顯存大小(GB級別),不再能像過去那樣用一張卡來跑模型,分布式訓(xùn)練框架等新技術(shù)成為必經(jīng)之路。

      3、通信挑戰(zhàn)。用多張卡做分布式訓(xùn)練時,由于卡與卡之間存在大量通信損耗,所以簡單增加顯卡不能得到線性加速結(jié)果。也就是說增加一倍的卡量,訓(xùn)練時間并不會減半。

      所以,如何解決分布式訓(xùn)練中的通信問題,讓實際的加速比盡可能貼近理論的加速比,這也是一個很大的工程問題。

      4、故障挑戰(zhàn)。所有硬件有一定的故障率,顯卡跑的時間太久也會壞,尤其是溫度問題,GPU算力使用較高后,會產(chǎn)生散熱問題,高溫會讓機(jī)器進(jìn)入自我保護(hù)狀態(tài),直接關(guān)機(jī)。

      這些都是當(dāng)下研究大模型的技術(shù)人員所要面臨的工程技術(shù)難題,騰訊機(jī)器學(xué)習(xí)平臺部總監(jiān)陶陽宇也介紹了騰訊一些此前并未公開的解決方案。

      比如通過3D多維并行提高訓(xùn)練的并行度,采用“數(shù)據(jù)并行+張量并行+流水并行”的方式,配合算子優(yōu)化技術(shù),提高并行路,降低在分布式訓(xùn)練過程中的網(wǎng)絡(luò)通信開銷,提升整體訓(xùn)練性能。

      比如在存儲層面,將GPU顯存與系統(tǒng)內(nèi)存統(tǒng)一編址、統(tǒng)一視角管理,擴(kuò)大可存儲模型的容量。顯存和主存打通后,技術(shù)人員在訓(xùn)練時可以將大量參數(shù)先放在系統(tǒng)存儲中,當(dāng)需要的時候再放到顯存里。

      目前顯存大小80G已經(jīng)算非常大,但系統(tǒng)存儲的主流容量已經(jīng)來到了2T,所以通過顯存和系統(tǒng)內(nèi)存的統(tǒng)一編址,單機(jī)存儲容量能提升90%,突破顯存限制。這樣也可以盤活大量低端顯卡存貨,用低端卡來訓(xùn)練大模型。

      在顯卡供給受阻的背景下,這一點更加重要。從實踐結(jié)果來看,騰訊目前已經(jīng)能基于40G顯存低配卡訓(xùn)練出混元千億大模型、24G低配卡實現(xiàn)模型精調(diào)。

      來源:界面新聞 作者:崔鵬CP 

      版權(quán)與免責(zé):以上作品(包括文、圖、音視頻)版權(quán)歸發(fā)布者【崔鵬CP】所有。本App為發(fā)布者提供信息發(fā)布平臺服務(wù),不代表經(jīng)觀的觀點和構(gòu)成投資等建議

      熱新聞

      電子刊物

      點擊進(jìn)入
      亚洲的天堂A∨无码视色
      <nav id="4uuuu"></nav>
    • <tr id="4uuuu"></tr>
    • <tr id="4uuuu"></tr>
    • <tfoot id="4uuuu"><dd id="4uuuu"></dd></tfoot>
      • <noscript id="4uuuu"><optgroup id="4uuuu"></optgroup></noscript>