AI大腦讓機器人更像人了

沈怡然2024-06-01 10:01

經濟觀察報記者沈怡然 “我口渴了。”“需不需要我給你倒杯水？”

這是一段人類與機器人之間的對話。焦繼超首次聽到這段對話時非常激動，因為以往機器人是不會這樣回應的，機器人可能會嘗試解釋口渴的原因，或者干脆沒有任何反應。

焦繼超是深圳市優(yōu)必選科技股份有限公司（09880.HK，下稱“優(yōu)必選”）的科技副總裁、研究院執(zhí)行院長。他說，過去，即使一個機器人詞匯量再大，也無法真正聽懂人類的語言，只會響應預設的關鍵詞。這種情況在實際互動中的局限非常明顯，例如，機器人能理解具體的命令“給我倒杯水”，但無法理解更抽象地表述“我口渴了”。

焦繼超說：“即使是三歲的小孩也知道‘口渴’意味著需要喝水。”2016年，優(yōu)必選啟動了第一代人形機器人的研發(fā)工作。盡管研發(fā)團隊能夠讓機器人的骨架和關節(jié)實現非常精準地運動，但提升其“大腦”的智能性始終是個難題。

機器人之所以能夠完成這段對話，是因為它采用了像ChatGPT（OpenAI研發(fā)的一款聊天機器人程序）這樣的人工智能大型語言模型。

大語言模型技術第一次成功模擬了人類的語言系統(tǒng)，讓機器人實現與人類自然對話。AI（人工智能）大模型技術的快速更新又讓機器人陸續(xù)擁有了類似人類的“眼睛”和“耳朵”等感官。通過視覺和語音大模型，機器人能夠更好地感知和理解周圍環(huán)境。當大模型演進到更高級的階段，不僅能夠處理和響應各種信息，還能夠自主決策和執(zhí)行任務，模擬出越來越接近人類大腦的功能。

人工智能技術起源于20世紀50年代，它朝著模仿人類大腦的方向演進了七十多年，卻始終游走于數字世界；機器人技術起源于更早的20世紀20年代，并經歷了超過一個世紀的發(fā)展，機器人已經擁有了靈活的身軀和骨架，但一直未能獲得一個聰明的大腦。

在長期發(fā)展和“雙向奔赴”后，這兩大技術終于在當前的時間點交匯，這讓人工智能以實體之軀步入現實，去觸摸和改變世界；而機器人也不再只是執(zhí)行簡單命令的機械，而是變得能夠思考、學習和適應環(huán)境，像人類一樣在工業(yè)生產線、醫(yī)療手術臺上工作。

焦繼超說：“這是一次質的躍遷，人形機器人的iPhone時刻到來了。”

讓機器人像人一樣說話

機器人“成為”人的第一關是語言。

起初，優(yōu)必選嘗試使用傳統(tǒng)的處理方法和AI小模型來實現這一目標：先給機器人預設一些關鍵詞，然后再利用傳統(tǒng)的小語言模型（SLM）進行語義分割，通過識別關鍵詞來讓機器人觸發(fā)相應的指令。

焦繼超將這個過程描述為“類似于條件反射”。盡管這種方法能夠讓機器人熟悉特定的語言命令，但對于未預設過的關鍵詞和命令，機器人很難給出正確的反應。

為了擴展機器人的“詞匯量”，企業(yè)不得不通過編程不斷添加預設程序和關鍵詞，以模擬更多的條件反射，讓機器人能響應更多的人類語言。這一過程既煩瑣又復雜，涉及數據采集、標注、訓練以及驗證推理等多個環(huán)節(jié)，工程師們還需要不斷地調整參數。

盡管團隊付出了巨大的努力，但機器人在語言理解上始終存在局限，無法達到與人類自然對話的水平。反應慢、缺乏思考和推理能力，對于預設之外的新情況和問題，機器人往往無法給出合適的反應。焦繼超說，這無疑給團隊帶來了巨大的挑戰(zhàn)。

面對這種情況，他們轉而探索另一種技術——知識圖譜技術。他們構建了一個龐大的知識圖譜庫，希望通過命中關鍵詞來搜索數據庫中的知識，并據此生成回答。這種方法在一定程度上提升了機器人對自然語言的理解能力，但仍然存在局限性，機器人的回答往往預設性強，缺乏靈活性和人性化，這與團隊追求的自然、流暢的人機交互體驗仍有很大的差距。

經歷了一系列的嘗試后，焦繼超認識到，要實現真正的突破，需要更先進的技術。

機器人有了嘴巴、眼睛和耳朵

2021年底，OpenAI發(fā)布了具有里程碑意義的ChatGPT模型。ChatGPT以其強大的語言理解和生成能力引起了廣泛關注，它在自然語言處理技術上取得了飛躍式的進步，開啟了人工智能的“大模型時代”。

商湯科技智能產業(yè)研究院院長田豐對經濟觀察報說，在IT時代，人類通過編程語言開發(fā)軟件、實現人機對話，而大語言模型的出現簡化了這一流程，通過“人類母語”就能實現人機對話，這顯著降低了軟硬件開發(fā)和使用AI的門檻。

焦繼超首次使用ChatGPT時感到非常興奮，因為這種技術為解決機器人的語言交互問題提供了新的可能性。2022年初，焦繼超團隊通過開源的方式引入了大語言模型，并嘗試將其與機器人現有的系統(tǒng)集成，利用多年積累的數據和場景來提升機器人的語言交互能力。

結果令焦繼超驚喜，他舉例稱，當用戶說“我有口腔潰瘍”時，機器能夠理解其含義并推理出“緩解癥狀需要補充維生素”“水果里有維生素”，然后詢問用戶要不要吃水果，在用戶同意的前提下去為其拿取水果。

田豐說，AI大模型不僅能讀懂語言、文字，還能讀懂語氣、情緒，能敏感地捕捉和理解上下文信息。

但這還遠遠不夠。人類有五官，大語言模型僅僅作為機器人的語言系統(tǒng)而存在，機器人還需要多種感官能力。焦繼超注意到，處理圖像和語音的大模型也相繼被開發(fā)出來，這些模型的能力可以處理和理解機器人采集的視頻、音頻，像人的大腦能夠處理眼睛和耳朵收集到的外部信息一樣。

2023年9月，OpenAI根據ChatGPT進一步發(fā)明出了具備圖像和語音識別功能的GPT-4V，這意味著AI開始模擬人腦中復雜的神經網絡來識別圖像和聲音，并將其轉換為語言指令。

田豐稱，正如人類有視覺、聽覺、觸覺、味覺、嗅覺五感，這種多模態(tài)大模型帶來了多種感知能力。

焦繼超和團隊運用技術的手段將“嘴巴”“眼睛”和“耳朵”串聯起來，并實現互通協作，機器人變得能看懂、聽懂人類的指令，也就能夠更加準確地執(zhí)行命令。

焦繼超說，當一個機器人具備了類似人類的眼睛，只要它進門在你家轉一圈，觀察一下，便會自主在“大腦”中形成一幅房屋的空間格局與陳設的地圖，過程中無須人為干預，而在過去，一個機器人觀察環(huán)境之后，還需要工程師做大量的建模和編程，才能在機器人的“大腦”中“畫”出一幅空間地圖，為后期的行動提供導航。

機器人的避障反應也更快了。

北京云跡科技股份有限公司（下稱“云跡科技”）CPO李全印稱，遇到障礙物的機器人的反應步驟非常多，要判斷是不是要減速、是不是要躲開、向右躲還是向左躲。現在，公司運用AI大模型的強大計算能力和更精細化的算法，開發(fā)了先進的動態(tài)避障算法，能夠讓機器人理解環(huán)境，并快速作出正確決策。

然而，要將語言、視覺、語音等多類大模型集成在一起，組成一個完整的大腦，這并非易事。

田豐稱，多模態(tài)大模型的挑戰(zhàn)之一是如何統(tǒng)一處理差異化的跨模態(tài)數據，以保證時間的同步和空間的對齊。

焦繼超說，人類感官收集信息的路徑是通過語言形式傳輸到大腦，機器人也應該按照這種思路來串聯它的“眼睛”“耳朵”和“嘴巴”。因此，團隊將不同維度的信息接入到AI大模型的框架里，機器人看到的圖像和聽到的聲音以語言的形式傳入“大腦”，并讓“大腦”中的語言、視覺、聽覺系統(tǒng)彼此協作，以更好地作出決策。

僅僅能看、能聽、能說還不夠，人工智能距離真正模擬出人類大腦，還有最后一步要走——使用工具、自主執(zhí)行任務。

田豐稱，當人工智能技術從單模態(tài)發(fā)展到多模態(tài)，并可以將AI大模型、記憶庫、執(zhí)行體組合到一起的時候，就進化出了一種新形態(tài)——智能體（AIAgent）。

在形態(tài)上，智能體可以是純軟件的，也可以嵌入到硬件中。相較于AI大模型，它的升級之處在于進一步模擬了人類的決策和行動過程。如果AI大模型是一臺發(fā)動機，智能體就是一輛汽車。智能體不僅依賴于AI大模型的計算能力，還需要調用各種工具和執(zhí)行部件來完成任務。

解決人的問題

李全印總結了機器人干活的三層“境界”：第一層是“你說啥我干啥”，第二層是“你稍微表達一下，我就知道要干啥”，第三層就是“你啥也不說，就我來干”。人工智能技術正讓機器人進入第三層“境界”，此時的機器人已經非常接近人類的思考和行動能力了。

借助AI大模型和超強算力的力量，一些機器人在服務人類方面解鎖了更多技能。2023年，云跡科技開發(fā)了一款用于酒店的多功能服務機器人，與上一代產品不同的是，新款機器人不僅會干活，而且可以自己用工具干活。

根據云跡科技提供數據，2024年2月，該公司的智能客服機器人和物理機器人“合作”為某一家酒店干了將近1000件工作，客人在客房內通過電話、二維碼等方式向智能客服提出需求，智能客服把命令下給物理機器人，由物理機器人取物、送物，中間不需要人參與。

云跡科技生產的數萬臺機器人應用在全球四十多個國家和地區(qū)的酒店，這些酒店對其提出的要求是：干活，干更多種類的活。

2023年，云跡科技開發(fā)了一款用于酒店的多功能服務機器人，與上一代產品不同的是，新款機器人可以自己用工具干活了。例如接到清掃任務，會主動找到吸塵器的功能倉進行組合，然后走到相應的區(qū)域進行清掃。按照這個思路，它還可以收衣服、收垃圾。

李全印認為，這是一個巨大的進步，它讓機器人具備了人的智慧——使用工具。“過去，你讓機器人去掃地，它是聽不懂的，你必須拆解任務，先拿吸塵器再掃地。但現在不同了，當你讓機器人去掃地，它會自己將任務拆分成兩步，先去拿吸塵器再進行清掃。”李全印稱。

李全印稱，過去需要人機合作的事情，未來機器人可以自閉環(huán)完成。過往在酒店場景中，清掃、收垃圾、消殺等很多任務都是機器人與服務員共同完成，現在，機器人可以自主執(zhí)行一個完整的任務。這一進步意味著更多人力被解放，可以做更多有價值的事情。

他說，在不久的將來，機器人還能學會自己找活兒干。當人類命令它把房間打掃干凈，機器人會感知環(huán)境里哪些是垃圾，知道需要拿垃圾桶收垃圾，然后拿吸塵器吸塵；機器人送過來一杯水，水灑了，它會感知到水灑了，并且知道再重新拿一杯水過來，甚至可以拿紙巾把水擦干凈。

焦繼超說，優(yōu)必選的最終目標是讓機器人走入家庭并成為其中的一員，相比一般機器人，人形機器人需要給人帶來更加極致的交互體驗。

在一些商用和養(yǎng)老服務的場景中，客戶希望機器人不僅能完成一些基礎工作，還能在情感上與客戶進行更深入地互動，提供陪伴。

優(yōu)必選以人形機器人全棧式技術為基礎，開展智能服務機器人解決方案的研發(fā)、設計、智能生產和商業(yè)化應用。每年用超過一半的營收投入到研發(fā)中。2023年，該公司營收10.55億元，人工智能教育、智慧物流、消費級機器人及其他硬件貢獻了93.7%的收入。

焦繼超稱，“隨著AI進入大模型時代，技術的發(fā)展速度超出了我們的預期。這種加速的進展可能意味著原本預計需要5年—8年才能實現場景化落地，現在有可能被縮短至2年—3年。”

沈怡然經濟觀察報記者

大科創(chuàng)新聞部記者
關注硬科技領域，包括機器人及人工智能、無人機、虛擬現實（VR/AR）、智能穿戴，以及新材料領域。擅長企業(yè)深度報道及上市公司分析報道。發(fā)現前沿技術、發(fā)展趨勢投資價值。

熱新聞

視頻推薦

總編對話｜從中國走向世界——對話松下電器中國東北亞公司總裁CEO木下步

聚焦主業(yè) 提升品牌：恒安集團接班人的長期主義理想

希捷科技全球執(zhí)行副總裁暨首席商務官鄭萬成：未來五年，中國將成為全球生成數據最多的市場

電子刊物

點擊進入

久久精品福利网站免费,亚洲色大情网站WWW在线观看,久久水蜜桃网国产免费网手机 ,男女性高视频免费观看国内,老色鬼第一页av在线,久久久久精品婷婷

用戶名登錄/手機號登錄

還沒有賬號？免費注冊

AI大腦讓機器人更像人了

熱新聞

視頻推薦

電子刊物

久久精品福利网站免费,亚洲色大情网站WWW在线观看,久久水蜜桃网国产免费网手机 ,男女性高视频免费观看国内,老色鬼第一页av在线,久久久久精品婷婷

用戶名登錄/手機號登錄 還沒有賬號？免費注冊

AI大腦讓機器人更像人了

熱新聞

視頻推薦

電子刊物

用戶名登錄/手機號登錄

還沒有賬號？免費注冊