奧比中光聯(lián)合光錐智能發(fā)布深度研報：具身智能帶動百億級機器人視覺產(chǎn)業(yè)爆發(fā)

2023.06.20
orbbec

注：本報告由奧比中光×光錐智能聯(lián)合發(fā)布。

1、具身智能時代重新理解機器人

1.1 知行合一：“離身”智能逐步向“具身”智能進化

具身智能（Embodied AI）是指具備感知和理解環(huán)境的能力，能夠與物理世界進行交互，并具備行動能力以完成任務的智能體。相對而言，"離身"（Disembodiment）是指認知與身體分離，比如ChatGPT可以認為是一種離身智能，僅能對語言文本進行理解與對話，無法對真實物理世界產(chǎn)生影響。然而，離身智能必定會向具身智能發(fā)展，" 知行合一" 是必然趨勢。

1.2催生了人工智能發(fā)展新浪潮：具身智能機器人將成為人工智能終極形態(tài)

ChatGPT的出現(xiàn)使得人工智能擁有了"大腦"，而高度發(fā)達的"大腦"對于身體功能提出了更高要求。因此，在2023年的ITF World半導體大會上，英偉達CEO黃仁勛明確表示，具身智能將是人工智能發(fā)展的下一個浪潮。

智能機器人是具身智能最直接的落地應用，當成為具身智能體的時候，機器人將迎來飛速發(fā)展。特斯拉 2023 年 3 月的投資者日，馬斯克認為未來人類和人形機器人的比例將不止是 1： 1，未來人形機器人可能超過人類數(shù)量，達到100億-200億規(guī)模。

可以說，機器人將逐步演變?yōu)榫呱碇悄軝C器人，成為機器人發(fā)展的終極目標、也將成為人工智能的終極形態(tài)。

Tesla 人形機器人 Tesla Bot「Optimus」原型機正式登場

2、機器人的發(fā)展及未來趨勢

2.1機器人將完成由“不動”、到“固定動”、再到“自由動”的技術(shù)變革，從而進入具身智能機器人時代

機器人的發(fā)展大致經(jīng)歷三個階段：從初級機器人的"基本不動+重復執(zhí)行"，逐漸發(fā)展到具備"行走+獨立執(zhí)行"的中級機器人，最終發(fā)展為具備"自主行走+自主執(zhí)行"的具身智能機器人。

在初級階段，機器人主要表現(xiàn)為基本靜止狀態(tài)，僅能執(zhí)行重復性任務，通常局限于固定的工作場景，缺乏自主性和靈活性。隨著技術(shù)的進步，機器人逐漸具備了行走的能力，并能夠獨立地執(zhí)行多樣化的任務。最終，隨著具身智能的興起，機器人也發(fā)展到具身智能機器人階段，機器人不僅具備自主行走能力，還能夠自主學習、推理以及執(zhí)行各種任務。

2.2具身智能機器人需求達百億級規(guī)模，將深入人類生活、工作，極大解放生產(chǎn)力

具身智能機器人由于其類人化，將逐步替代人類完成由低級到高級的工作任務，讓人類從重復、繁瑣的工作中解放出來，將對數(shù)億工人以及對應的數(shù)萬億市場產(chǎn)生深遠的影響。如下圖所示，技術(shù)實現(xiàn)難度低、勞動力密集的職業(yè)及場景會首先被機器人取代，比如無人駕駛、建筑工人、農(nóng)業(yè)勞動、家政勞動等；隨后隨著機器人技術(shù)進步，技術(shù)實現(xiàn)難度較高、勞動力稀疏的部分職業(yè)及場景也將迎來機器人時代，比如保險代理人、教師等。

圖表來自報告：《人工智能機器人開啟第四次科技革命》（由勢乘資本和光錐智能聯(lián)合發(fā)布）

此外，在具體應用場景中，數(shù)十種傳統(tǒng)機器人也將向具身智能機器人升級迭代，例如工業(yè)搬運、拆垛機器人，物流分揀、包裝、協(xié)作機器人，農(nóng)業(yè)采摘、分選機器人，醫(yī)療康復機器人，養(yǎng)老助殘機器人，家用服務機器人，公共服務機器人，教育機器人以及人形機器人等。

具身智能機器人可以更高效、準確地完成任務，以節(jié)約時間和資源，所引領的機器人技術(shù)革命將帶來巨大的技術(shù)紅利，極大地解放生產(chǎn)力，同時也會創(chuàng)造新的經(jīng)濟增長點，推動社會發(fā)展與進步。

2.3具身智能機器人將沿“大腦先行、感知突破、身體完善”的方向迭代發(fā)展，當下迎來機器人視覺歷史發(fā)展機遇

類似ChatGPT的通用大模型賦予具身智能機器人像人類一樣的思考、推理與表達能力，但僅有"大腦"是遠遠不夠的，還需要像人類一樣具備三大核心能力：用于思考和推理的“大腦”、用于感知世界的“感覺”、用于與世界交互的“身體和手腳”。具身智能機器人的發(fā)展也一定是由"大腦"帶動，逐步向“眼睛”等視覺感知體、“手腳”等運動執(zhí)行體不斷升級迭代的過程，即沿著“大腦先行、感知突破、身體完善”的方向迭代發(fā)展。

大腦方面，GPT、數(shù)據(jù)、算力等技術(shù)的發(fā)展給大腦提供了極佳的土壤，已高度智能化。谷歌和微軟的AI團隊走在前列，2023年3月，谷歌和柏林工業(yè)大學的團隊重磅推出了史上最大的視覺-語言模型——PaLM-E（Pathways Language Model with Embodied），參數(shù)量高達5620億（GPT-3的參數(shù)量為1750億）。該模型不僅可以理解圖像，還能理解、生成語言，可以執(zhí)行各種復雜的機器人指令而無需重新訓練。谷歌研究人員計劃探索PaLM-E在現(xiàn)實世界場景中的更多應用，例如家庭自動化或工業(yè)機器人。微軟團隊也在探索如何將OpenAI研發(fā)的ChatGPT擴展到機器人領域。

目前，已經(jīng)有更為輕量化的大模型能夠獨立運行在邊緣端（如機器人、手機）上，為其提供"大腦"功能。這些大模型在某些專業(yè)領域通過專門訓練，可以接近人類的智能水平，擁有百億級甚至更低的參數(shù)，使得它們可以在邊緣設備和終端上運行，不依賴云端計算能力，從而讓終端設備也能具備智能決策的能力。比如目前已經(jīng)可以在手機上運行的大模型有：MobileBERT（Bidirectional Encoder Representations from Transformers），TinyBERT，MobileNet等。

緊隨其后的，將是人工智能“眼睛”的爆發(fā)式發(fā)展。

3、機器人視覺的發(fā)展及未來趨勢

3.1通用大模型往多模態(tài)大模型方向演進，機器視覺向機器人視覺進化

ChatGPT通用大模型僅支持自然語言處理，然而機器人大腦所要處理的信息是多模態(tài)的，例如文本、視覺圖像、語音等等，因此大模型也正逐步往多模態(tài)大模型方向演進。多模態(tài)大模型能夠?qū)⒉煌B(tài)的信息融合在一起，實現(xiàn)跨模態(tài)的理解、生成和推理，與人類大腦的功能最為接近。近期，Meta推出了多模態(tài)大模型ImageBind，能夠處理文本、音頻、3D視覺、溫度、IMU信息；華為也將在2023年7月推出 “盤古Chat” 多模態(tài)大模型。

隨著多模態(tài)大模型的發(fā)展，當“大腦”具備對視覺信息處理、推理等能力，對“眼睛”的需求便呼之欲出，一方面視覺信息是多模態(tài)信息的必要組成部分，二是與人類類比來看，視覺信息在所有感知信息中占比超過70%，也將是人工智能感知世界最重要的信息源。傳統(tǒng)機器視覺普遍是2D的模塊化視覺設備，應用在相對固定的環(huán)境，而具身智能機器人所需要的機器人視覺則是類人眼的小型化、3D的嵌入式器件，且面向的是復雜變化的環(huán)境，因此在產(chǎn)品形態(tài)以及技術(shù)實現(xiàn)上都與傳統(tǒng)機器視覺存在巨大差異，機器視覺將向機器人視覺不斷進化。

3.2產(chǎn)品形態(tài)上，機器人視覺相比傳統(tǒng)機器視覺更加 3D化、高度集成化、場景復雜化

(1) 2D視覺向3D視覺進化，3D視覺具備毫米級甚至更高精度的視覺能力，可以對真實物體場景進行高精度掃描與還原。傳統(tǒng)2D視覺只能應用在“可控規(guī)范”的環(huán)境中，比如工業(yè)產(chǎn)線，而具身智能機器人所面對的是不可控規(guī)范的場景，2D視覺無法滿足。

(2) 模塊化向高度集成嵌入式進化，傳統(tǒng)機器人例如部分工業(yè)機器人所配備的視覺設備大都是模塊化的設備，普遍包括光源、鏡頭、相機、圖像采集卡、機器視覺算法、應用軟件等模塊，其中光源跟相機分開，相機跟鏡頭分開，相機跟圖像采集卡分開，各個部件體積龐大，導致整體體積大、成本高，無法應用于需要廣泛普及的具身智能機器人中。

(3) 單一場景到復雜場景（變化場景）進化，具身智能機器人所面向的是未知的復雜場景或變化場景，這就導致單一視覺傳感器無法滿足需求，另外為了應付變化場景，要求具備極高魯棒性的智能視覺算法。

因此，具身智能機器人所需要的“眼睛”，一定是3D的、高度集成的、適應復雜變化場景的智能化“眼睛”。

3.3技術(shù)實現(xiàn)上，機器人視覺相比傳統(tǒng)機器視覺更注重多專業(yè)融合、底層元器件定制與集成、以及高度依賴智能視覺算法

(1) 多專業(yè)、跨學科、高精尖。3D視覺相對2D視覺雖然多了一個維度的信息，但要付出的是技術(shù)代價是，全新的系統(tǒng)架構(gòu)設計、被精密編碼的光學發(fā)射器、顛覆性的芯片像素架構(gòu)設計、高穩(wěn)定性的光電結(jié)構(gòu)設計、高精密的制造產(chǎn)線，需要從系統(tǒng)、芯片、光學、結(jié)構(gòu)、算法多專業(yè)進行逐一突破后進行高度融合。

(2) 定制化、集成化。設計出符合具身智能機器人的視覺系統(tǒng)，需要對所有核心元器件進行特殊定制，包括機器人視覺專用芯片，要求企業(yè)具備底層創(chuàng)新能力，并進行高度集成，才能在性能、成本、體積上實現(xiàn)最優(yōu)，以滿足具身智能機器人需要。

(3) 高度依賴智能視覺算法。面對復雜變化場景，比如高溫環(huán)境下需要適應溫度變化、在光照變化場景下需要穩(wěn)定輸出數(shù)據(jù)、多視覺傳感器之間需要高度同步與配準、在遭遇打擊跌落時可以及時恢復視覺能力，這里面將運用多種智能視覺算法，比如HDR、AF、復雜材質(zhì)成像、溫度補償算法、光照自適應算法、同步配準算法、抗變形算法等等，這些智能視覺算法都是傳統(tǒng)機器人視覺所不涉及的。

因此，隨著機器人向具身智能機器人發(fā)展，機器人視覺也朝著3D、高度集成、適應復雜變化場景的方向進化，對相關研發(fā)機構(gòu)也提出了全新的能力訴求，多專業(yè)融合、底層創(chuàng)新能力、智能視覺算法將成為企業(yè)的核心技術(shù)競爭力。

4、奧比中光的機器人視覺技術(shù)布局、產(chǎn)品與應用

奧比中光經(jīng)過10多年的發(fā)展，致力于讓所有終端看懂世界，高度契合當下具身智能機器人視覺發(fā)展需要，面向具身智能機器人，已布局了全方位的機器人視覺技術(shù)與產(chǎn)品方案。

4.1全球率先完成具身智能機器人視覺的核心技術(shù)布局

針對具身智能機器人視覺，奧比中光著眼于中長期技術(shù)發(fā)展與需求進行了全方位的技術(shù)路線布局以及技術(shù)能力布局，其中技術(shù)路線覆蓋單目結(jié)構(gòu)光、雙目視覺、TOF、LIDAR，技術(shù)能力覆蓋機器人視覺芯片、智能視覺算法、模組及方案以及規(guī)?；慨a(chǎn)等能力。

4.2 已推出面向具身智能機器人所需要的多種系統(tǒng)布局產(chǎn)品

基于機器人本身算力差別，布局了兩種系統(tǒng)方案，一種是針對機器人本身具備較高計算能力的，僅提供低成本的嵌入式視覺傳感器，傳感器本身不帶智能視覺算法；二是自帶邊緣算力的智能視覺傳感器，傳感器可自行執(zhí)行算法及軟件，可以應用在本體不具備額外算力的機器人上。

4.3全球范圍內(nèi)成功落地多種機器人視覺應用

奧比中光在過去的十年里，一直致力于給機器人提供智能化眼睛，推動機器人視覺發(fā)展，相應視覺產(chǎn)品已經(jīng)在商用清潔、配送、迎賓、教育、倉儲物流等多個領域成功落地，服務于各種類型的機器人，包括輪式機器人、機械臂、多足機器人以及人形機器人。

1) 在商用清潔領域，搭載奧比中光DaBai雙目結(jié)構(gòu)光相機的高仙清潔機器人可以自動識別、清理垃圾，并在復雜的戶外環(huán)境中自動避障，極大地提升了清潔效率。

2) 在送餐領域，搭載奧比中光DaBai Pro雙目結(jié)構(gòu)光相機的普渡送餐機器人可實現(xiàn)在餐廳復雜環(huán)境下遇障即停，隨轉(zhuǎn)即走，做到3D全向避障。

3) 在工業(yè)領域，搭載奧比中光DaBai DCW雙目結(jié)構(gòu)光相機和MS500單線激光雷達的AMR可實現(xiàn)在智慧工廠環(huán)境下的貨物自動轉(zhuǎn)運，極大提高生產(chǎn)效率。

4) CES2023，由奧比中光和微軟、英偉達聯(lián)合研發(fā)制造的深度相機Femto Mega首次亮相，該相機融合微軟第一代深度相機Azure Kinect的全部性能，并集成英偉達Jetson Nano深度算力平臺，成為物流、機器人、制造、工業(yè)、零售、醫(yī)療保健和健身解決方案等領域3D視覺開發(fā)的理想選擇。

5) COMPUTEX 2023(臺北國際電腦展)正式舉辦。NVIDIA創(chuàng)始人兼CEO黃仁勛在 COMPUTEX 2023大會主題演講中介紹了NVIDIA全球產(chǎn)業(yè)數(shù)字化生態(tài)布局,作為其合作伙伴,奧比中光正式宣布將Femto Mega和其它3D相機集成到NVIDIA Omniverse生態(tài)開發(fā)平臺中。NVIDIA Omniverse是一個開放的開發(fā)平臺,用于構(gòu)建和運行元宇宙應用。在奧比中光3D相機集成到Omniverse后,使用NVIDIA Isaac Sim(一種機器人模擬工具包)的客戶就能夠快速設計其3D視覺系統(tǒng),提高AI系統(tǒng)設計和測試的真實性和精確性。

結(jié)語

毋庸置疑，具身智能機器人將開啟全新機器人革命、引領新一代人工智能浪潮，通用大模型向多模態(tài)大模型發(fā)展，機器視覺向機器人視覺進化，站在新一輪科技革命歷史機遇上，奧比中光將通過核心技術(shù)打造機器人視覺產(chǎn)品，通過產(chǎn)品的推廣應用助力具身智能機器人視覺技術(shù)進步與行業(yè)發(fā)展。

上一條 AI 2.0時代，再看消費物聯(lián)網(wǎng)十年下一條奧比中光發(fā)布Gemini 2 L與Astra 2兩款高標準結(jié)構(gòu)光3D相機

奧比中光聯(lián)合光錐智能發(fā)布深度研報：具身智能帶動百億級機器人視覺產(chǎn)業(yè)爆發(fā)

集成NVIDIA Isaac Perceptor，奧比中光在ROSCon 2024發(fā)布即開即用AMR解決方案

2024.11.04

了解更多

奧比中光3D相機正式支持AMD Kria KR260機器人入門套件

2024.11.04

了解更多

新成員公布，豪華國際支持陣容有：NVIDIA、AMD、UR、研華......

2024.10.22

了解更多

奧比中光推出GMSL2/FAKRA雙目3D相機，為機器人視覺提供更穩(wěn)定連接方案

2024.10.21

了解更多

奧比中光攜手研華，為AMR開發(fā)者提供“開箱即用”的AI視覺解決方案

2024.10.21

了解更多

奧比中光攜手研華亮相工博會，展示AI機器人最新應用方案

2024.09.26

了解更多

奧比中光聯(lián)合光錐智能發(fā)布深度研報：具身智能帶動百億級機器人視覺產(chǎn)業(yè)爆發(fā)

推薦閱讀

集成NVIDIA Isaac Perceptor，奧比中光在ROSCon 2024發(fā)布即開即用AMR解決方案

2024.11.04

了解更多

奧比中光3D相機正式支持AMD Kria KR260機器人入門套件

2024.11.04

了解更多

新成員公布，豪華國際支持陣容有：NVIDIA、AMD、UR、研華......

2024.10.22

了解更多

奧比中光推出GMSL2/FAKRA雙目3D相機，為機器人視覺提供更穩(wěn)定連接方案

2024.10.21

了解更多

奧比中光攜手研華，為AMR開發(fā)者提供“開箱即用”的AI視覺解決方案

2024.10.21

了解更多

奧比中光攜手研華亮相工博會，展示AI機器人最新應用方案

2024.09.26

了解更多

集成NVIDIA Isaac Perceptor，奧比中光在ROSCon 2024發(fā)布即開即用AMR解決方案

新成員公布，豪華國際支持陣容有：NVIDIA、AMD、UR、研華......

奧比中光推出GMSL2/FAKRA雙目3D相機，為機器人視覺提供更穩(wěn)定連接方案

奧比中光攜手研華，為AMR開發(fā)者提供“開箱即用”的AI視覺解決方案