AI大模型要革AI的命

沈怡然2023-08-12 11:18

經(jīng)濟觀察報記者沈怡然 今年4月，一家人工智能頭部企業(yè)中的幾位研究員不約而同地關注到了一項新技術：SAM（SegmentAnythingModel）。研究員們很快將這一技術上報部門負責人，這家企業(yè)以機器視覺技術起家，研究員關注到的技術也與此有關。“隨著SAM的出現(xiàn)，越來越多AI的人意識到，大模型對于他們而言是一次沖擊”，其中一名研究員說。

一個月后，這家公司開始調(diào)配資源開發(fā)視覺大模型。

此后三個月，頭部的機器視覺AI企業(yè)關注到這一技術的潛力，截至目前，商湯科技、云從科技等人工智能公司以及傳統(tǒng)安防企業(yè)，紛紛開始投入這場新的技術競爭。

SAM，是一種面向通用場景的圖像分割模型，在今年4月由Meta推出，就像和ChatGPT對話一樣，人類可以通過一些語言指令，讓SAM自主分辨和思考圖片中的內(nèi)容，SAM被認為是出現(xiàn)在視覺領域的ChatGPT。

全世界的發(fā)燒友用它畫畫、摳圖，玩得不亦樂乎，中國研究員們卻識別出SAM的威力：若用在自動駕駛、安防監(jiān)控，以檢測人、車和道路，它就是一個從根本上打破傳統(tǒng)機器視覺玩法的大模型。

分割和識別圖像是機器視覺的核心任務。過去，每創(chuàng)建一個分割圖像的任務，都需要訓練一次算法、標注一批數(shù)據(jù)，以疊加小模型的方式讓機器“看見”圖像中的各類物體。而SAM表現(xiàn)出了一些新的特征：無需為每一個特定任務創(chuàng)建小模型，機器可以自主對任何圖像中的任何物體進行分割，甚至是未知的、影像模糊的場景，且操作極為簡單。

這意味著SAM具有更加通用的特征，且有可能利用這種通用特征，大幅度降低機器視覺識別的成本，從而改變基于原有技術的商業(yè)模式和競爭格局。

自2016年開始，擁有巨大市場的中國涌現(xiàn)了上百家人工智能公司，在市場競爭和資本助推下，逐步形成了數(shù)家AI獨角獸，商湯科技、云從科技、曠視科技、依圖科技，這些公司將AI帶入安防、政務、工業(yè)領域，并利用算法上的精進、規(guī)模上的優(yōu)勢建起了護城河。

但如今，隨著技術的更迭，這場賽事有可能重新展開。

中國移動集團首席科學家、中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟副理事長馮俊蘭對記者表示，AI大模型將帶來一種全新的人工智能范式，過去所謂的AI領域的護城河在大模型沖擊下基本不存在了。SAM的出現(xiàn)，證明視覺大模型的可實現(xiàn)性，顛覆了一直以來機器視覺的研究框架、交互和生產(chǎn)服務方式。

IEEE高級會員、天津理工大學教授、AR/VR技術專家羅訓對記者表示，之前頭部企業(yè)的AI能力優(yōu)勢，會因為通用大模型的興起而被一定程度削弱。但是這些企業(yè)是否本身會變?nèi)酰Q于它們的轉(zhuǎn)型。

技術路線

作為AI的一個重要分支，機器視覺的目標是讓計算機模仿人類視覺系統(tǒng)，實現(xiàn)圖像和視頻的理解和處理。

2000年后，被稱人工智能奠基人的Ge－offreyHinton、YannLeCun和YoshuaBengio突破了深度學習技術，讓機器可以模糊地模擬人腦，從海量圖像中自動學習并提取特征。

2012年是一個重要時間節(jié)點，斯坦福大學教授李飛飛創(chuàng)建的ImageNet項目，將深度學習推向主流：研究者可通過對大量圖片的人工標注教會計算機識別各種各樣的物體，這大幅提升了機器視覺的準確率，降低了成本，使其有了商業(yè)化的可能。

2023年4月，新的變化到來，Meta公司上線了一款名叫SAM的圖像分割模型。作為一款大模型，SAM不僅為機器安上感知外界的眼睛，還賦予機器一個真正的大腦，它學會對圖像進行觀察、感知、思考、邏輯推理、得出結果，且操作極其簡單，類似于ChatGPT用人類語言對話的方式給機器命令。

簡言之，它更容易地實現(xiàn)了機器視覺的目標，過程中無需大量圖像標注、堆疊算法，消耗的算力也更少。英偉達人工智能科學家JimFan表示，SAM大模型是機器視覺的GPT-3時刻，它已經(jīng)了解了物體的一般概念，即使對于未知對象、不熟悉的場景（例如水下圖像）、在模棱兩可的情況下也能進行圖像分割。

Meta發(fā)布SAM后，也將模型及其背后的訓練數(shù)據(jù)集一并開源，并從AR、VR、內(nèi)容創(chuàng)建等領域，介紹了SAM的應用場景。

身在中國的企業(yè)和研究人士很快判斷出SAM可能具備的商業(yè)價值若將其用在自動駕駛、安防監(jiān)控，以檢測人、車和道路，它能從根本上打破傳統(tǒng)機器視覺的玩法。

馮俊蘭表示，大模型將改變AI的供給模式，將供給方的復雜度大幅度降低，邊際成本接近于零；業(yè)務方可以用更簡單的自然語言表達需求，不再需要依托工程師用代碼等專業(yè)指令與機器交流，依據(jù)自身需求靈活部署到不同的模型上，提高了效率

宇視科技首席產(chǎn)品官朱兵對記者表示，“過去干AI的活就像是搬箱子，其實是一些技術含量相對較低的體力活，當AI賦能單點的場景，它是非常碎片化和定制化的，售前效率、售后效率、銷售效率都較低，產(chǎn)業(yè)的上下游都比較痛苦”。朱兵舉例稱，廠家投入開發(fā)、收集素材、標定、針對不同場景和地區(qū)做定制算法的投入和代價非常大，研發(fā)過程中往往面臨著素材緊缺、周期過長、指標優(yōu)化難等等問題，對客戶來說，定制開發(fā)費也是一筆不小的支出。

如今，用大模型替代原有的小模型玩法，無需堆疊算法、無需大量標注數(shù)據(jù)，過程中消耗的算力極少，可以用更簡單的人類語言給機器下命令，無需用專業(yè)的計算機編程語言。朱兵表示，大模型大幅拉低了AI的研發(fā)和部署成本，它建造了一系列新的玩法，重構了行業(yè)秩序，尤其計算機視覺行業(yè)，之前的大公司構造的技術壁壘已經(jīng)被抹平了，大家又回到同一個起跑線上。

涌入

圍繞上一代機器視覺技術，中國誕生了一批人工智能公司，這些公司提供的技術開始被廣泛用于公安、地鐵、樓宇商廈的攝像監(jiān)控識別和安檢識別。

“AI四小龍”是指在2011年至2014年間陸續(xù)成立的四家中國人工智能企業(yè)，分別是商湯科技、云從科技、曠視科技、依圖科技。他們的共同特點是以機器視覺為核心技術，此前AI在深度學習路線上的突破為這一批人工智能企業(yè)的崛起提供了技術基礎，而中國的產(chǎn)業(yè)優(yōu)勢又為這些企業(yè)的發(fā)展提供了市場。

在SAM面世后，它們開始紛紛瞄準這一技術。

記者從多位業(yè)內(nèi)人士處了解到，除了依圖科技，“AI四小龍”中商湯科技、云從科技、曠視科技都在研發(fā)視覺大模型，號稱傳統(tǒng)安防的“海大宇”中，海康威視和宇視科技也布局相關技術研發(fā)。

4月，就在Meta上線了SAM后的幾天，商湯發(fā)布“日日新”大模型。商湯智能產(chǎn)業(yè)研究院院長田豐對記者表示，“日日新”系列是包含自然語言生成、圖片生成、視覺感知等多個大模型的集合，其中“如影”、“瓊宇”、“格物”都屬于視覺相關的大模型。

5月，云從科技發(fā)布了“從容”大模型，是包含視覺在內(nèi)的多模態(tài)大模型，云從科技在最近的投資者會議上表示，視覺大模型是非常重要的，未來也將推出視覺主導的模型。因為公司在計算機視覺方面的儲備較強，也因為要解決客戶具體業(yè)務需要多模態(tài)技術。

曠視科技和依圖科技尚未推出大模型。曠視科技對記者稱，“正在研發(fā)大模型，但沒有對客戶推出和交付”。在方向上，曠視選取了通用圖像大模型、視頻理解大模型、計算攝影大模型和自動駕駛感知大模型四個研究方向，并獲得一定突破。

研究機構Omdia人工智能首席分析師蘇廉節(jié)對記者表示，在視覺大模型這一波沖擊下，“AI四小龍”快速轉(zhuǎn)型大模型，部署以視覺為主的多模態(tài)大模型，這樣的路徑相對合理。

海康威視在今年6月對投資者稱，“SAM模型在發(fā)布之初我們就關注到了，也進行了系統(tǒng)性的評測。”朱兵對記者表示，公司正在自研的AIoT行業(yè)大模型“梧桐”，就是一款以通用大模型+行業(yè)場景+訓練調(diào)優(yōu)為架構的行業(yè)大模型，在5月9日首次發(fā)布，6月已經(jīng)面向第一批伙伴測試。

海康威視和宇視科技是以設備生產(chǎn)起家的傳統(tǒng)安防企業(yè)，在“AI四小龍”殺入安防后面臨激烈競爭，一直積極擁抱機器視覺技術，但也因軟件能力不足而被奪走一定的市場份額。

目前，AI企業(yè)開始在“大模型的劃時代”意義上達成共識。

商湯智能產(chǎn)業(yè)研究院院長田豐和云從科技聯(lián)合創(chuàng)始人姚志強，都對記者表示，AI1.0是小模型時代，企業(yè)以提供專有小模型為主，運用多點技術解決特定場景需求；AI2.0是大模型時代，企業(yè)要通過統(tǒng)一的大型技術底座平臺，也就是打造一個對世界有通識感知和認知能力的多模態(tài)的基礎模型，并在此基礎上生成一系列行業(yè)小模型，以此來解決專業(yè)場景和更多海量場景的需求。

姚志強認為，如果一家AI企業(yè)還停留在上一階段，或許能解決很多場景問題，但成本難以下降，使得規(guī)模化效應無法顯現(xiàn)；田豐認為，兩個時代是長期并存的，不是誰淘汰誰的對立關系，兩者以模型協(xié)同的方式去完成。例如采用混合專家模型結構（MoE），AI2.0時代是多個模型組合成服務，1.0的模型也能嵌入進來。

在新的競爭中，原有的技術積累和硬件投入仍將發(fā)揮作用。

田豐對記者表示，“AI大裝置”智算中心具備強大的AI算力，能夠為千億參數(shù)量的20個大模型提供訓練算力，是研發(fā)和訓練大模型的關鍵裝備，商湯科技不僅自用，還開放給大模型創(chuàng)企、研發(fā)伙伴使用。

云從相關負責人對記者表示，公司的CWOS操作系統(tǒng)在整合ChatGPT這類超級語言模型方面有先天的優(yōu)勢。同時，該系統(tǒng)可以根據(jù)生產(chǎn)實際情況，反饋數(shù)據(jù)和信息到大模型中，優(yōu)化模型的訓練和調(diào)整，提高模型的準確性和效率。

大模型突圍市場

“即便沒有大模型的沖擊，“AI四小龍”也處在一個轉(zhuǎn)型的迷茫期，需要思考自身的價值和出路所在”。蘇廉節(jié)表示。

一批人工智能企業(yè)受到了資本和市場的青睞，其中商湯科技、云從科技已登陸資本市場。商湯在2018-2022年間，每年研發(fā)投入累計超過120億元，并在2021年IPO時募資超50億元。云從在2018-2022年間，每年研發(fā)投入累計超過22億元，并在2022年IPO時募資17億元。

技術和資本的良好互動也讓中國在視覺識別領域一度取得了領先的優(yōu)勢，在2018年前后，中國在人工智能論文發(fā)表量、人工智能融資額等多方面僅次于美國或已超過美國，特別是在視覺識別領域，中國人工智能公司屢屢在國際大賽中打破紀錄，取得優(yōu)良成績。

但很快，隨著市場的推動，原有技術的潛力逐漸見頂，2019年中國科學院院士張鈸在接受經(jīng)濟觀察報專訪時曾提示在現(xiàn)有技術路線上，產(chǎn)業(yè)應用的潛力可能已經(jīng)觸碰到天花板。

更重要的是，從商業(yè)角度，AI原有技術路線始終難以突破成本瓶頸，以至于更多傳統(tǒng)產(chǎn)業(yè)客戶沒有能力買單。朱兵表示，“多年以來，我們沒有看到蓬勃向上的新秩序，大量企業(yè)在人和車牌識別這兩個賽道里殘酷競爭，根本原因在于更多算法無法形成規(guī)模效應”。

一位頭部企業(yè)的AI研究員對記者稱，按照傳統(tǒng)玩法，一家AI企業(yè)為車廠服務，出售一套識別路障的算法，識別一種路障平均單算法需要十幾萬元，時間需要約2個月，還需要客戶提供上萬張用于標注的圖片，但僅僅一個算法是不夠的，實際道路場景很復雜，適用于小汽車的算法不一定適用于大卡車，換一個角度就識別不出了，當檢測目標受部分受遮擋就也難識別。

為了增加設備的智能化，AI企業(yè)要疊加多個算法，簡單說就是堆疊許多個小模型。根據(jù)財報，商湯科技已累計擁有6.7萬個商用小模型，記者從云從科技獲悉，公司也具備數(shù)千個商用小模型。

但是訓練的時間和成本也翻倍上漲。

馮俊蘭對記者表示，很多AI公司難以賺錢，一個重要原因在于AI服務的高成本，造成企業(yè)“掙一塊錢賠五塊”，“接單越多、賠的越多”這種模式讓供給方難以持續(xù)，需求方也只能是少數(shù)關鍵行業(yè)或支付能力較強的行業(yè)。

根據(jù)財報，2018至2022年間，云從科技累計虧損31億元，商湯科技累計虧損超過400億元。

為了進一步降低AI成本、提升市場，“AI四小龍”戰(zhàn)略上也出現(xiàn)分化。商湯選擇AI大裝置，云從選擇操作系統(tǒng)，曠視選擇芯片，依圖選擇物聯(lián)網(wǎng)。

從這個角度，大模型可能帶來的并不僅僅是對現(xiàn)有公司的挑戰(zhàn)，也可能帶來一個全新的商業(yè)模式和應用場景。

上述研究員稱，公司曾努力在更多市場找AI的生意，比如，公司曾和一家超市談過AI監(jiān)控，檢測售貨員是否在場，公司派出5名算法工程師，光工資就要花30萬元，但客戶的十幾個售貨員月薪加起來不到5萬元；還跟工廠主談過AI質(zhì)檢，檢測流水線上的包裝盒是否破損，對方評估下來認為雇傭工人更經(jīng)濟等等。

這些需求統(tǒng)稱為AI的長尾需求：大量的中小型客戶，支付能力不強，對AI沒有剛需，只是在某種場景下有一些特色需求，可用可不用，不愿意支付動輒上百萬的成本。在這位研究員看來，未來，可以將某類大模型或一套多模態(tài)大模型，應用于這些視覺檢測場景，利用大模型的遷移和通用能力，只需要少量數(shù)據(jù)標注和算法投入，開發(fā)周期和對算力的要求也會更低，這樣費用大幅降下來，客戶就有更大可能買單。

朱兵測算過，過去基于小模型的AI算法對碎片化需求的滿足度不足10%，未來基于大模型大概率能提升到超過50%，整體長尾算法的效率提升能達到10倍數(shù)量級，定制時間能降至1人周內(nèi)。

姚志強對記者表示，一旦技術實現(xiàn)平臺化和標準化，各AI公司通過統(tǒng)一的核心技術的底座平臺，快速適應海量場景和實現(xiàn)海量應用。

馮俊蘭表示，技術耗費的成本，遠小于技術給業(yè)務帶來的價值，當滿足了這個公式，技術就能實現(xiàn)規(guī)模化，遷移到更多、更長尾的市場。這也滿足AI企業(yè)實現(xiàn)盈利的根本邏輯，也意味著其有機會開拓更多的藍海市場。