<nav id="4uuuu"></nav>
  • <tr id="4uuuu"></tr>
  • <tr id="4uuuu"></tr>
  • <tfoot id="4uuuu"><dd id="4uuuu"></dd></tfoot>
    • <noscript id="4uuuu"><optgroup id="4uuuu"></optgroup></noscript>

      久久精品福利网站免费,亚洲色大情网站WWW在线观看,久久水蜜桃网国产免费网手机 ,男女性高视频免费观看国内,老色鬼第一页av在线,久久久久精品婷婷

      AI大腦讓機器人更像人了

      沈怡然2024-06-01 10:01

      經濟觀察報 記者 沈怡然 “我口渴了。”“需不需要我給你倒杯水?”

      這是一段人類與機器人之間的對話。焦繼超首次聽到這段對話時非常激動,因為以往機器人是不會這樣回應的,機器人可能會嘗試解釋口渴的原因,或者干脆沒有任何反應。

      焦繼超是深圳市優(yōu)必選科技股份有限公司(09880.HK,下稱“優(yōu)必選”)的科技副總裁、研究院執(zhí)行院長。他說,過去,即使一個機器人詞匯量再大,也無法真正聽懂人類的語言,只會響應預設的關鍵詞。這種情況在實際互動中的局限非常明顯,例如,機器人能理解具體的命令“給我倒杯水”,但無法理解更抽象地表述“我口渴了”。

      焦繼超說:“即使是三歲的小孩也知道‘口渴’意味著需要喝水。”2016年,優(yōu)必選啟動了第一代人形機器人的研發(fā)工作。盡管研發(fā)團隊能夠讓機器人的骨架和關節(jié)實現非常精準地運動,但提升其“大腦”的智能性始終是個難題。

      機器人之所以能夠完成這段對話,是因為它采用了像ChatGPT(OpenAI研發(fā)的一款聊天機器人程序)這樣的人工智能大型語言模型。

      大語言模型技術第一次成功模擬了人類的語言系統(tǒng),讓機器人實現與人類自然對話。AI(人工智能)大模型技術的快速更新又讓機器人陸續(xù)擁有了類似人類的“眼睛”和“耳朵”等感官。通過視覺和語音大模型,機器人能夠更好地感知和理解周圍環(huán)境。當大模型演進到更高級的階段,不僅能夠處理和響應各種信息,還能夠自主決策和執(zhí)行任務,模擬出越來越接近人類大腦的功能。

      人工智能技術起源于20世紀50年代,它朝著模仿人類大腦的方向演進了七十多年,卻始終游走于數字世界;機器人技術起源于更早的20世紀20年代,并經歷了超過一個世紀的發(fā)展,機器人已經擁有了靈活的身軀和骨架,但一直未能獲得一個聰明的大腦。

      在長期發(fā)展和“雙向奔赴”后,這兩大技術終于在當前的時間點交匯,這讓人工智能以實體之軀步入現實,去觸摸和改變世界;而機器人也不再只是執(zhí)行簡單命令的機械,而是變得能夠思考、學習和適應環(huán)境,像人類一樣在工業(yè)生產線、醫(yī)療手術臺上工作。

      焦繼超說:“這是一次質的躍遷,人形機器人的iPhone時刻到來了。”

      讓機器人像人一樣說話

      機器人“成為”人的第一關是語言。

      起初,優(yōu)必選嘗試使用傳統(tǒng)的處理方法和AI小模型來實現這一目標:先給機器人預設一些關鍵詞,然后再利用傳統(tǒng)的小語言模型(SLM)進行語義分割,通過識別關鍵詞來讓機器人觸發(fā)相應的指令。

      焦繼超將這個過程描述為“類似于條件反射”。盡管這種方法能夠讓機器人熟悉特定的語言命令,但對于未預設過的關鍵詞和命令,機器人很難給出正確的反應。

      為了擴展機器人的“詞匯量”,企業(yè)不得不通過編程不斷添加預設程序和關鍵詞,以模擬更多的條件反射,讓機器人能響應更多的人類語言。這一過程既煩瑣又復雜,涉及數據采集、標注、訓練以及驗證推理等多個環(huán)節(jié),工程師們還需要不斷地調整參數。

      盡管團隊付出了巨大的努力,但機器人在語言理解上始終存在局限,無法達到與人類自然對話的水平。反應慢、缺乏思考和推理能力,對于預設之外的新情況和問題,機器人往往無法給出合適的反應。焦繼超說,這無疑給團隊帶來了巨大的挑戰(zhàn)。

      面對這種情況,他們轉而探索另一種技術——知識圖譜技術。他們構建了一個龐大的知識圖譜庫,希望通過命中關鍵詞來搜索數據庫中的知識,并據此生成回答。這種方法在一定程度上提升了機器人對自然語言的理解能力,但仍然存在局限性,機器人的回答往往預設性強,缺乏靈活性和人性化,這與團隊追求的自然、流暢的人機交互體驗仍有很大的差距。

      經歷了一系列的嘗試后,焦繼超認識到,要實現真正的突破,需要更先進的技術。

      機器人有了嘴巴、眼睛和耳朵

      2021年底,OpenAI發(fā)布了具有里程碑意義的ChatGPT模型。ChatGPT以其強大的語言理解和生成能力引起了廣泛關注,它在自然語言處理技術上取得了飛躍式的進步,開啟了人工智能的“大模型時代”。

      商湯科技智能產業(yè)研究院院長田豐對經濟觀察報說,在IT時代,人類通過編程語言開發(fā)軟件、實現人機對話,而大語言模型的出現簡化了這一流程,通過“人類母語”就能實現人機對話,這顯著降低了軟硬件開發(fā)和使用AI的門檻。

      焦繼超首次使用ChatGPT時感到非常興奮,因為這種技術為解決機器人的語言交互問題提供了新的可能性。2022年初,焦繼超團隊通過開源的方式引入了大語言模型,并嘗試將其與機器人現有的系統(tǒng)集成,利用多年積累的數據和場景來提升機器人的語言交互能力。

      結果令焦繼超驚喜,他舉例稱,當用戶說“我有口腔潰瘍”時,機器能夠理解其含義并推理出“緩解癥狀需要補充維生素”“水果里有維生素”,然后詢問用戶要不要吃水果,在用戶同意的前提下去為其拿取水果。

      田豐說,AI大模型不僅能讀懂語言、文字,還能讀懂語氣、情緒,能敏感地捕捉和理解上下文信息。

      但這還遠遠不夠。人類有五官,大語言模型僅僅作為機器人的語言系統(tǒng)而存在,機器人還需要多種感官能力。焦繼超注意到,處理圖像和語音的大模型也相繼被開發(fā)出來,這些模型的能力可以處理和理解機器人采集的視頻、音頻,像人的大腦能夠處理眼睛和耳朵收集到的外部信息一樣。

      2023年9月,OpenAI根據ChatGPT進一步發(fā)明出了具備圖像和語音識別功能的GPT-4V,這意味著AI開始模擬人腦中復雜的神經網絡來識別圖像和聲音,并將其轉換為語言指令。

      田豐稱,正如人類有視覺、聽覺、觸覺、味覺、嗅覺五感,這種多模態(tài)大模型帶來了多種感知能力。

      焦繼超和團隊運用技術的手段將“嘴巴”“眼睛”和“耳朵”串聯起來,并實現互通協作,機器人變得能看懂、聽懂人類的指令,也就能夠更加準確地執(zhí)行命令。

      焦繼超說,當一個機器人具備了類似人類的眼睛,只要它進門在你家轉一圈,觀察一下,便會自主在“大腦”中形成一幅房屋的空間格局與陳設的地圖,過程中無須人為干預,而在過去,一個機器人觀察環(huán)境之后,還需要工程師做大量的建模和編程,才能在機器人的“大腦”中“畫”出一幅空間地圖,為后期的行動提供導航。

      機器人的避障反應也更快了。

      北京云跡科技股份有限公司(下稱“云跡科技”)CPO李全印稱,遇到障礙物的機器人的反應步驟非常多,要判斷是不是要減速、是不是要躲開、向右躲還是向左躲。現在,公司運用AI大模型的強大計算能力和更精細化的算法,開發(fā)了先進的動態(tài)避障算法,能夠讓機器人理解環(huán)境,并快速作出正確決策。

      然而,要將語言、視覺、語音等多類大模型集成在一起,組成一個完整的大腦,這并非易事。

      田豐稱,多模態(tài)大模型的挑戰(zhàn)之一是如何統(tǒng)一處理差異化的跨模態(tài)數據,以保證時間的同步和空間的對齊。

      焦繼超說,人類感官收集信息的路徑是通過語言形式傳輸到大腦,機器人也應該按照這種思路來串聯它的“眼睛”“耳朵”和“嘴巴”。因此,團隊將不同維度的信息接入到AI大模型的框架里,機器人看到的圖像和聽到的聲音以語言的形式傳入“大腦”,并讓“大腦”中的語言、視覺、聽覺系統(tǒng)彼此協作,以更好地作出決策。

      僅僅能看、能聽、能說還不夠,人工智能距離真正模擬出人類大腦,還有最后一步要走——使用工具、自主執(zhí)行任務。

      田豐稱,當人工智能技術從單模態(tài)發(fā)展到多模態(tài),并可以將AI大模型、記憶庫、執(zhí)行體組合到一起的時候,就進化出了一種新形態(tài)——智能體(AIAgent)。

      在形態(tài)上,智能體可以是純軟件的,也可以嵌入到硬件中。相較于AI大模型,它的升級之處在于進一步模擬了人類的決策和行動過程。如果AI大模型是一臺發(fā)動機,智能體就是一輛汽車。智能體不僅依賴于AI大模型的計算能力,還需要調用各種工具和執(zhí)行部件來完成任務。

      解決人的問題

      李全印總結了機器人干活的三層“境界”:第一層是“你說啥我干啥”,第二層是“你稍微表達一下,我就知道要干啥”,第三層就是“你啥也不說,就我來干”。人工智能技術正讓機器人進入第三層“境界”,此時的機器人已經非常接近人類的思考和行動能力了。

      借助AI大模型和超強算力的力量,一些機器人在服務人類方面解鎖了更多技能。2023年,云跡科技開發(fā)了一款用于酒店的多功能服務機器人,與上一代產品不同的是,新款機器人不僅會干活,而且可以自己用工具干活。

      根據云跡科技提供數據,2024年2月,該公司的智能客服機器人和物理機器人“合作”為某一家酒店干了將近1000件工作,客人在客房內通過電話、二維碼等方式向智能客服提出需求,智能客服把命令下給物理機器人,由物理機器人取物、送物,中間不需要人參與。

      云跡科技生產的數萬臺機器人應用在全球四十多個國家和地區(qū)的酒店,這些酒店對其提出的要求是:干活,干更多種類的活。

      2023年,云跡科技開發(fā)了一款用于酒店的多功能服務機器人,與上一代產品不同的是,新款機器人可以自己用工具干活了。例如接到清掃任務,會主動找到吸塵器的功能倉進行組合,然后走到相應的區(qū)域進行清掃。按照這個思路,它還可以收衣服、收垃圾。

      李全印認為,這是一個巨大的進步,它讓機器人具備了人的智慧——使用工具。“過去,你讓機器人去掃地,它是聽不懂的,你必須拆解任務,先拿吸塵器再掃地。但現在不同了,當你讓機器人去掃地,它會自己將任務拆分成兩步,先去拿吸塵器再進行清掃。”李全印稱。

      李全印稱,過去需要人機合作的事情,未來機器人可以自閉環(huán)完成。過往在酒店場景中,清掃、收垃圾、消殺等很多任務都是機器人與服務員共同完成,現在,機器人可以自主執(zhí)行一個完整的任務。這一進步意味著更多人力被解放,可以做更多有價值的事情。

      他說,在不久的將來,機器人還能學會自己找活兒干。當人類命令它把房間打掃干凈,機器人會感知環(huán)境里哪些是垃圾,知道需要拿垃圾桶收垃圾,然后拿吸塵器吸塵;機器人送過來一杯水,水灑了,它會感知到水灑了,并且知道再重新拿一杯水過來,甚至可以拿紙巾把水擦干凈。

      焦繼超說,優(yōu)必選的最終目標是讓機器人走入家庭并成為其中的一員,相比一般機器人,人形機器人需要給人帶來更加極致的交互體驗。

      在一些商用和養(yǎng)老服務的場景中,客戶希望機器人不僅能完成一些基礎工作,還能在情感上與客戶進行更深入地互動,提供陪伴。

      優(yōu)必選以人形機器人全棧式技術為基礎,開展智能服務機器人解決方案的研發(fā)、設計、智能生產和商業(yè)化應用。每年用超過一半的營收投入到研發(fā)中。2023年,該公司營收10.55億元,人工智能教育、智慧物流、消費級機器人及其他硬件貢獻了93.7%的收入。

      焦繼超稱,“隨著AI進入大模型時代,技術的發(fā)展速度超出了我們的預期。這種加速的進展可能意味著原本預計需要5年—8年才能實現場景化落地,現在有可能被縮短至2年—3年。”

       

      版權聲明:以上內容為《經濟觀察報》社原創(chuàng)作品,版權歸《經濟觀察報》社所有。未經《經濟觀察報》社授權,嚴禁轉載或鏡像,否則將依法追究相關行為主體的法律責任。版權合作請致電:【010-60910566-1260】。
      大科創(chuàng)新聞部記者
      關注硬科技領域,包括機器人及人工智能、無人機、虛擬現實(VR/AR)、智能穿戴,以及新材料領域。擅長企業(yè)深度報道及上市公司分析報道。發(fā)現前沿技術、發(fā)展趨勢投資價值。
      久久精品福利网站免费
      <nav id="4uuuu"></nav>
    • <tr id="4uuuu"></tr>
    • <tr id="4uuuu"></tr>
    • <tfoot id="4uuuu"><dd id="4uuuu"></dd></tfoot>
      • <noscript id="4uuuu"><optgroup id="4uuuu"></optgroup></noscript>