大模型內(nèi)卷：2天發(fā)了10余款，百模大戰(zhàn)開打了

任曉寧2023-07-07 22:13

卷數(shù)量

7月6日至7日，在上海2023年世界人工智能大會召開的2天時間里，據(jù)記者不完全統(tǒng)計，有10多款大模型新品發(fā)布或宣布即將發(fā)布。發(fā)布的公司有互聯(lián)網(wǎng)科技公司、創(chuàng)業(yè)公司，還有通信公司；而在大模型新品中，有通用大模型，也有專注細分行業(yè)的行業(yè)大模型。

已經(jīng)發(fā)布的包括：阿里巴巴的繪畫大模型“通義萬相”、中國電信的類ChatGPT產(chǎn)品“TeleChat大模型”商湯科技聯(lián)合香港中文大學和清華大學等推出的“書生通用大模型體系”、第四范式專注企業(yè)軟件領(lǐng)域的“式說”大模型。

7月7日下午，華為宣布發(fā)布盤古大模型3.0。華為常務(wù)董事、華為云CEO張平安在PPT最顯眼位置寫著“不作詩只做事”，他說，盤古大模型聚焦價值場景，致力于深耕政務(wù)、金融、制造、煤礦、鐵路、制藥、氣象等行業(yè)。比如氣象行業(yè)，盤古氣象大模型可以在相同的空間分辨率下，比歐洲氣象中心的operational IFS速度提升10000倍以上，同時保持極高的精準度。

而即將發(fā)布的主要大模型產(chǎn)品也有不少。京東將在7月13日發(fā)布的千億級“言犀大模型”，中國移動將于近期發(fā)布“九天”1+N大模型，醫(yī)渡科技稱正在研發(fā)醫(yī)療大模型，并將于近期針對部分目標場景推出小范圍邀請測試。奇安信集團董事長齊向東表示，正在研發(fā)安全行業(yè)大模型，面向政府和企業(yè)客戶；10月24日，科大訊飛將發(fā)布通用大模型，全面對標ChatGPT。

在5月底舉行的中關(guān)村論壇上，有專家披露，據(jù)其統(tǒng)計到當時為止，中國10億級參數(shù)規(guī)模以上大模型已發(fā)布了79個。如今，隨著世界人工智能大會上批量發(fā)布的一批大模型，百模大戰(zhàn)也已經(jīng)正式打響。

卷垂直

年初ChatGPT在國內(nèi)爆火后，大模型的熱度持續(xù)至今。中金公司一位高管在大會論壇上說，他過去3個月參加的一半以上的會都是人工智能相關(guān)的，“似乎不談ChatGPT，大家就要玩完了似的。”

這種熱度可以解釋為何直到現(xiàn)在，仍有眾多公司還在繼續(xù)發(fā)布大模型。不過，隨著人們對大模型認知的增加，大模型的問題也逐漸凸顯，成為需要直面的挑戰(zhàn)。

圖靈獎得主、中國科學院院士、清華大學交叉信息研究院院長姚期智認為，未來大模型應(yīng)用中最直接影響的就是文書工作，作為生產(chǎn)力工具，許多文書工作可以交由大模型來完成。

作為文書領(lǐng)域的重要玩家，金山辦公也發(fā)布了他們基于大模型的AI辦公產(chǎn)品“WPS AI”，可以潤色文章，自動制作表格和PPT。用戶可以讓AI把一篇提綱制作成PPT，并能隨意更換PPT風格。

“WPS AI”搭建在MiniMax、百度文心、智譜AI等大模型之上。金山辦公CEO章慶元在大會現(xiàn)場表示，金山辦公將WPS AI定位為大語言模型的應(yīng)用方，未來錨定AIGC（內(nèi)容創(chuàng)作）、Copilot（智慧助手）、Insight（知識洞察）三個戰(zhàn)略方向發(fā)展。

同樣在7月7日當天，語言智能科技企業(yè)蜜度發(fā)布了專門針對校對垂直行業(yè)的大模型，名為“蜜度文修”。蜜度首席技術(shù)官劉益東告訴經(jīng)濟觀察報記者，蜜度深耕語言智能領(lǐng)域已有十余年時間，擁有龐大的專業(yè)數(shù)據(jù)語料。今年ChatGPT火了后，他們嘗試做了一個校對領(lǐng)域大模型，訓練出來的效果很令人震驚，在垂直領(lǐng)域的效果遠遠好于通用大模型。

劉益東還提到，做垂直行業(yè)大模型的成本比通用大模型低很多。他們的校對模型，只拿百余張卡訓了一個多月的時間，做了幾輪比對實驗，效果就已經(jīng)達到可以發(fā)布的程度了。

卷進度

新的大模型不斷涌現(xiàn)，之前已經(jīng)發(fā)布的大模型公司也不甘示弱，在7月6日、7月7日公布了最新進展。

今年4月10日，商湯發(fā)布了通用大模型產(chǎn)品“日日新”。7月7日，“日日新”更新到2.0版，商湯集團聯(lián)合創(chuàng)始人、董事長兼CEO徐立現(xiàn)場展示了大模型新能力。

徐立用他自己的照片做案例，生成了“一個戴眼鏡的男人，彈吉他”的圖片，這是他沒有做過的事情，生成后發(fā)給家人朋友，很多人都信以為真。這些AI生成圖片的細節(jié)達到了照片級。他還展示了AI繪畫的功能，現(xiàn)在商湯大模型可以幫用戶補充提示詞，比如，一個用戶輸入了“中國龍，藍色擺件，珠寶風格”關(guān)鍵詞后，AI生成了一條龍的普通圖片，大模型可以自動把提示詞補充為“一個中國龍的3D渲染圖，具有極其精細的圖案，龍站在一個藍色瑪瑙海上，添加深度和神秘感……”，AI生成的新圖片藝術(shù)感增強了許多。

徐立說，4月發(fā)布大模型后，商湯每周都在對大模型做迭代。此外，針對行業(yè)需求，他們也在大模型基礎(chǔ)上推出了小模型。

作為國內(nèi)首個發(fā)布大模型的互聯(lián)網(wǎng)大廠，百度也在人工智能大會上公布了“文心一言”最新進展。百度首席技術(shù)官、深度學習技術(shù)及應(yīng)用國家工程研究中心主任王海峰稱，文心大模型3.5效果、功能、性能全面提升，實現(xiàn)了基礎(chǔ)模型升級、精調(diào)技術(shù)創(chuàng)新、知識點增強、邏輯推理增強等，模型效果提升50%，訓練速度提升2倍，推理速度提升30倍。

此外，做大模型的公司們，當下也正在努力搭建生態(tài)，建立標準。7月7日，百度、華為、阿里巴巴等企業(yè)被工信部中國電子技術(shù)標準化研究院（簡稱“電子標準院”）授予“國家人工智能標準化總體組大模型專題組”組長單位，正在積極推動大模型國家標準體系建設(shè)，助力中國大模型產(chǎn)業(yè)發(fā)展。

卷算力

與3、4月份人們充滿期待的科幻想象相比，當下做大模型的人，關(guān)注的話題更接近現(xiàn)實。他們發(fā)現(xiàn)，數(shù)據(jù)是難題，算力也是難題，大模型這條路，前景美好但現(xiàn)實艱難。

“算力是人工智能產(chǎn)業(yè)創(chuàng)新的基礎(chǔ)，大模型的持續(xù)創(chuàng)新，驅(qū)動算力需求的爆炸式增長。可以說，大模型訓練的效率或者是創(chuàng)新的速度，根本上取決于算力的大小。”華為輪值董事長胡厚崑判斷，伴隨大模型帶來的生成式 AI 突破，人工智能正在進入一個新的時代，算力已經(jīng)成為越來越稀缺的資源。

華為目前正在著手解決算力問題。7月6日，華為宣布旗下算力解決方案昇騰AI集群全面升級，集群規(guī)模從最初的4000卡集群擴展至16000卡，為業(yè)界首個萬卡AI集群。此前，騰訊云也面向大模型發(fā)布新一代高性能計算集群，算力性能較前代提升高達3倍。

不過，當前的算力仍有很大挑戰(zhàn)。一位大模型創(chuàng)業(yè)公司人士告訴記者，大模型的研發(fā)成本非常高昂。僅算力一個領(lǐng)域，做訓練、推理、數(shù)據(jù)處理，就需要數(shù)千卡并行的能力，這是一套非常復雜，也非常費錢的系統(tǒng)工程。

清華大學電子工程系系主任汪玉舉了一個例子，若同時處理14億人的推理請求，需要10*24 FLOPs(模型計算力)，這個數(shù)字超過中國數(shù)據(jù)中心總算力的3個數(shù)量級。

“現(xiàn)有GPU硬件平臺的算力仍難滿足大模型的需求。”汪玉說。即使現(xiàn)有的最好的芯片，想解決算力問題也仍有很大挑戰(zhàn)。

算力之外，大模型數(shù)據(jù)也有挑戰(zhàn)。一位做智能汽車的創(chuàng)始人苦惱于數(shù)據(jù)量太大，他們公司剛賣了1萬輛汽車，但產(chǎn)生的數(shù)據(jù)已經(jīng)讓他覺得很龐大了，他不敢想象賣到10萬輛車時會怎樣。硬幣的另一面，也有人因為數(shù)據(jù)不夠而感到困難，一位用大模型做生物醫(yī)藥研發(fā)的人士說，他們最缺的就是數(shù)據(jù)，這阻礙了他們研發(fā)醫(yī)藥的速度。

騰訊高級執(zhí)行副總裁湯道生表示，通用大模型一般基于公開信息來訓練，在許多專業(yè)知識和行業(yè)數(shù)據(jù)積累不足。在策略上，通用大模型有點像“把大海煮沸”，不夠聚焦，可以解決80%的問題，但未必能夠滿足企業(yè)某個場景的具體需求。

徐立也提到，大模型的幻覺性問題仍很嚴重，是需要解決的問題。幻覺性問題是自然語言處理領(lǐng)域中的基礎(chǔ)問題之一，指文本生成模型的生成結(jié)果中含有與輸入事實上沖突的內(nèi)容。這些問題造成了大模型“一本正經(jīng)的胡說八道”現(xiàn)象。

除此之外，清華大學智能產(chǎn)業(yè)研究院院長、中國工程院院士張亞勤提到，當下大模型仍有自己的局限性。比如ChatGPT會有時效性問題，你問它它是什么時候發(fā)布的，它不知道，因為它使用的是2021年9月前的數(shù)據(jù)。另外，大模型還有效率低、涉嫌侵犯隱私和知識產(chǎn)權(quán)保護問題等，這些問題都將影響大模型的商用。張亞勤認為，大模型效率至少還要提高10倍，才有大規(guī)模商用的可能性。■

版權(quán)聲明：以上內(nèi)容為《經(jīng)濟觀察報》社原創(chuàng)作品，版權(quán)歸《經(jīng)濟觀察報》社所有。未經(jīng)《經(jīng)濟觀察報》社授權(quán)，嚴禁轉(zhuǎn)載或鏡像，否則將依法追究相關(guān)行為主體的法律責任。版權(quán)合作請致電：【010-60910566-1260】。