“日日新”大模型體系入局商湯想提供一個大模型的“超市”

錢玉娟2023-04-11 10:28

經濟觀察網記者錢玉娟 4月10日，商湯科技董事長兼CEO徐立對外宣布，公司在“大模型+大算力”的戰(zhàn)略下，通過AI大裝置SenseCore打造出了AGI（通用人工智能）實現的基礎設施——一個大模型體系。該體系具備自然語言處理、內容生成、自動化數據標注、自定義模型訓練等多種大模型及能力，被命名為“日日新SenseNova（下文簡稱：日日新）”。

“茍日新、日日新、又日新。”徐立分享了命名背后的寓意，他希望在模型的迭代速度及處理問題的能力上，商湯可以“日日更新”，“不斷解鎖AGI的更多可能”。

在商湯科技聯合創(chuàng)始人、首席科學家王曉剛看來，商湯的AGI催生了“新的研究范式”，即基于一個強大的多模態(tài)基模型，通過強化學習和人類反饋，不斷解鎖基模型新的能力，從而更高效地解決海量的開放式任務。

據介紹，在“日日新”大模型體系下，商湯創(chuàng)造出了一系列生成式AI模型及應用，諸如AI文生圖創(chuàng)作、2D/3D數字人生成、大場景/小物體生成等。

大模型的“超市”

自ChatGPT推出以來，人們對自然語言大模型的關注度倍增，作為人機溝通的關鍵手段，自然語言也成為國內一眾科技互聯網公司開發(fā)大模型的重要方向，商湯也不例外。

在“日日新”大模型體系下，商湯研發(fā)了一個名為“商量SenseChat”的語言大模型，通過千億級參數等大量數據訓練，充分考慮中文語境，現場演示出了其對中文文本的理解和處理。

記者了解到，“商量SenseChat”還具有編寫和調試代碼、提供個性化醫(yī)療建議以及從復雜文檔中提取和概括信息的應用體驗，商湯概括這一語言大模型可充當編程、健康咨詢以及PDF文件閱讀等場景下的“助手”角色。

不只是語言大模型，“日日新”還為政企客戶提供了API接口，既包括圖片生成，自然語言生成，視覺感知通用任務與自動化數據標注等服務，還可以提供大模型并行訓練和模型增量訓練服務，便于客戶在大模型基礎上進行自身垂直領域、行業(yè)的自定義模型開發(fā)等。

技術創(chuàng)新能力，往往是內生外化的。商湯基于“日日新”大模型體系中的基于視覺大模型，幫助自身提升了在智能駕駛領域中，對環(huán)境、行為及動機的解碼能力；它還會面向行業(yè)開發(fā)者開放大量預訓練模型及AI開發(fā)工具鏈，以此幫助客戶提升開發(fā)效率等。

在徐立的規(guī)劃里，商湯在推出“日日新”大模型體系后，便為上下游提供了一個大模型的“超市”，其中有數據、模型訓練以及部署相關。

“商湯已建立了全棧的大模型研發(fā)體系，并已在多個行業(yè)場景中落地。”王曉剛覺得，從場景的多樣性，任務的復雜度以及數據的豐富度等多個維度看，都反映出商湯大模型的能力。

這種“既要有，還得全，最后還能對外供給”的能力，在深耕人工智能產業(yè)的量子位聯合創(chuàng)始人李根看來，“這種能力不是誰都有的。”

需要提及的是，商湯早自2018年左右就洞察了大模型趨勢，也是中國較早押注進行相關規(guī)劃的公司。但“模型太大、參數太多、訓練成本太高。”李根告訴記者，商湯被迫走上了一條自建算力中心、自己造芯片的道路，由此摸索出的是一種提供模型與算力的商業(yè)模式，即“從提供掘金工具，到賣水賣服務。”

大模型的“超市”，當商湯將這個目標定位打出來，陳根只覺得，不過是當下時間點將大模型體系推到了臺前，“積累的工作，商湯早在之前就完成了。”

入局底氣何在？

徐立指出，“在AI大模型時代，數據、算法和算力這三要素也在經歷新的演變。”

首先，大模型參數量將以指數級的速率提升，而數據量隨著多模態(tài)的引入也將大規(guī)模增長，這也必然會導致對算力需求的劇增。

正因當前業(yè)界訓練大模型對大算力的需求旺盛，但真正好用的基礎設施又是稀缺的。商湯則歷時五年，不僅建設了AI大裝置SenseCore，還基于大裝置的能力，構建起了計算機視覺、自然語言處理、AI內容生成、多模態(tài)、決策智能等多個領域的大模型。

一組數據顯示，商湯的AI大裝置上共有27000塊的GPU芯片卡，可以輸出5.0 exaFLOPS的總算力，是亞洲目前最大的智能計算平臺之一。基于此，商湯實現“大模型+大算力”的融合創(chuàng)新研發(fā)體系。

記者采訪了《ChatGPT:讀懂人工智能新紀元》一書作者、前沿科技領域作家陳根，他總結認為，商湯目前階段有兩大優(yōu)勢，一是它沒有被制裁前，在算力層面比較領先，但“這種領先只能是相較同樣被制裁環(huán)境下的大廠有領先性，不代表明天和后天仍占優(yōu)勢。”

另外，商湯從人工智能技術研發(fā)與理論研究層面來講，“它擁有華人領域比較優(yōu)秀且龐大的人工智能專家團隊。”

在陳根看來，入局大模型，比拼的不僅僅是模型能力，還有模型的調參優(yōu)化、數據訓練、算力支持等多維度能力的考驗。他以谷歌為例，同樣擁有算力、數據、模型三方面優(yōu)勢，“但在模型調參優(yōu)化上沒能突破，最終挑戰(zhàn)OpenAI也失敗了。”

陳根指出，大模型的技術體系不難，甚至是公開的，有人工智能技術團隊的企業(yè)都可以快速搭出來，但能不能用卻是另一回事。從目前來看，他覺得模型愿景是否明朗以及技術實現與否的評價標準，“就是敢不敢公測。”

盡管商湯在官宣現場進行了實測，但被記者問及測試賬號信息時，相關人士回應稱，“目前這是主要面向B端的技術”，其表示，商湯日日新大模型體系開放面向政企客戶的API接口，客戶可以登錄商湯官網申請，后續(xù)或有序開放To C的測試賬號。

商湯方面表達著對大模型研發(fā)的一種期待，“在數據量上、參數結構上、以及能處理的問題上，可以日復一日的提高。”

陳根覺得，從現實來看，商湯依然面臨訓練數據、參數優(yōu)化、硬件算力等方面的硬傷，這并非孤例，他告訴記者，當下各大廠開發(fā)的大模型，都仍處于研發(fā)、訓練階段，“不日日新、不日日抓緊優(yōu)化、調參、訓練，就沒辦法實現公測，也沒辦法投入使用。”

錢玉娟經濟觀察報記者

TMT新聞部記者
長期關注并報道TMT領域的重大事件，時刻保持新聞敏感，發(fā)現前沿趨勢。擅長企業(yè)模式、人物專訪及行業(yè)深度報道。
重要新聞線索可聯系qianyujuan@eeo.com.cn
微信號：EstherQ138279

新浪微博騰訊微博微信朋友網人人網

熱新聞

視頻推薦

總編對話｜從中國走向世界——對話松下電器中國東北亞公司總裁CEO木下步

聚焦主業(yè) 提升品牌：恒安集團接班人的長期主義理想

希捷科技全球執(zhí)行副總裁暨首席商務官鄭萬成：未來五年，中國將成為全球生成數據最多的市場

電子刊物

點擊進入

久久精品福利网站免费,亚洲色大情网站WWW在线观看,久久水蜜桃网国产免费网手机 ,男女性高视频免费观看国内,老色鬼第一页av在线,久久久久精品婷婷

用戶名登錄/手機號登錄

還沒有賬號？免費注冊

“日日新”大模型體系入局商湯想提供一個大模型的“超市”

熱新聞

視頻推薦

電子刊物

久久精品福利网站免费,亚洲色大情网站WWW在线观看,久久水蜜桃网国产免费网手机 ,男女性高视频免费观看国内,老色鬼第一页av在线,久久久久精品婷婷

用戶名登錄/手機號登錄 還沒有賬號？免費注冊

“日日新”大模型體系入局 商湯想提供一個大模型的“超市”

熱新聞

視頻推薦

電子刊物

用戶名登錄/手機號登錄

還沒有賬號？免費注冊

“日日新”大模型體系入局商湯想提供一個大模型的“超市”