注:本報告由奧比中光×光錐智能聯(lián)合發(fā)布。
1、具身智能時代重新理解機器人
1.1 知行合一:“離身”智能逐步向“具身”智能進化
具身智能(Embodied AI)是指具備感知和理解環(huán)境的能力,能夠與物理世界進行交互,并具備行動能力以完成任務的智能體。相對而言,"離身"(Disembodiment)是指認知與身體分離,比如ChatGPT可以認為是一種離身智能,僅能對語言文本進行理解與對話,無法對真實物理世界產(chǎn)生影響。然而,離身智能必定會向具身智能發(fā)展," 知行合一" 是必然趨勢。
1.2催生了人工智能發(fā)展新浪潮:具身智能機器人將成為人工智能終極形態(tài)
ChatGPT的出現(xiàn)使得人工智能擁有了"大腦",而高度發(fā)達的"大腦"對于身體功能提出了更高要求。因此,在2023年的ITF World半導體大會上,英偉達CEO黃仁勛明確表示,具身智能將是人工智能發(fā)展的下一個浪潮。
智能機器人是具身智能最直接的落地應用,當成為具身智能體的時候,機器人將迎來飛速發(fā)展。特斯拉 2023 年 3 月的投資者日,馬斯克認為未來人類和人形機器人的比例將不止是 1: 1,未來人形機器人可能超過人類數(shù)量,達到100億-200億規(guī)模。
可以說,機器人將逐步演變?yōu)榫呱碇悄軝C器人,成為機器人發(fā)展的終極目標、也將成為人工智能的終極形態(tài)。
Tesla 人形機器人 Tesla Bot「Optimus」原型機正式登場
2、機器人的發(fā)展及未來趨勢
2.1機器人將完成由“不動”、到“固定動”、再到“自由動”的技術(shù)變革,從而進入具身智能機器人時代
機器人的發(fā)展大致經(jīng)歷三個階段:從初級機器人的"基本不動+重復執(zhí)行",逐漸發(fā)展到具備"行走+獨立執(zhí)行"的中級機器人,最終發(fā)展為具備"自主行走+自主執(zhí)行"的具身智能機器人。
在初級階段,機器人主要表現(xiàn)為基本靜止狀態(tài),僅能執(zhí)行重復性任務,通常局限于固定的工作場景,缺乏自主性和靈活性。隨著技術(shù)的進步,機器人逐漸具備了行走的能力,并能夠獨立地執(zhí)行多樣化的任務。最終,隨著具身智能的興起,機器人也發(fā)展到具身智能機器人階段,機器人不僅具備自主行走能力,還能夠自主學習、推理以及執(zhí)行各種任務。
2.2具身智能機器人需求達百億級規(guī)模,將深入人類生活、工作,極大解放生產(chǎn)力
具身智能機器人由于其類人化,將逐步替代人類完成由低級到高級的工作任務,讓人類從重復、繁瑣的工作中解放出來,將對數(shù)億工人以及對應的數(shù)萬億市場產(chǎn)生深遠的影響。如下圖所示,技術(shù)實現(xiàn)難度低、勞動力密集的職業(yè)及場景會首先被機器人取代,比如無人駕駛、建筑工人、農(nóng)業(yè)勞動、家政勞動等;隨后隨著機器人技術(shù)進步,技術(shù)實現(xiàn)難度較高、勞動力稀疏的部分職業(yè)及場景也將迎來機器人時代,比如保險代理人、教師等。
圖表來自報告:《人工智能機器人開啟第四次科技革命》(由勢乘資本和光錐智能聯(lián)合發(fā)布)
此外,在具體應用場景中,數(shù)十種傳統(tǒng)機器人也將向具身智能機器人升級迭代,例如工業(yè)搬運、拆垛機器人,物流分揀、包裝、協(xié)作機器人,農(nóng)業(yè)采摘、分選機器人,醫(yī)療康復機器人,養(yǎng)老助殘機器人,家用服務機器人,公共服務機器人,教育機器人以及人形機器人等。
具身智能機器人可以更高效、準確地完成任務,以節(jié)約時間和資源,所引領的機器人技術(shù)革命將帶來巨大的技術(shù)紅利,極大地解放生產(chǎn)力,同時也會創(chuàng)造新的經(jīng)濟增長點,推動社會發(fā)展與進步。
2.3具身智能機器人將沿“大腦先行、感知突破、身體完善”的方向迭代發(fā)展,當下迎來機器人視覺歷史發(fā)展機遇
類似ChatGPT的通用大模型賦予具身智能機器人像人類一樣的思考、推理與表達能力,但僅有"大腦"是遠遠不夠的,還需要像人類一樣具備三大核心能力:用于思考和推理的“大腦”、用于感知世界的“感覺”、用于與世界交互的“身體和手腳”。具身智能機器人的發(fā)展也一定是由"大腦"帶動,逐步向“眼睛”等視覺感知體、“手腳”等運動執(zhí)行體不斷升級迭代的過程,即沿著“大腦先行、感知突破、身體完善”的方向迭代發(fā)展。
大腦方面,GPT、數(shù)據(jù)、算力等技術(shù)的發(fā)展給大腦提供了極佳的土壤,已高度智能化。谷歌和微軟的AI團隊走在前列,2023年3月,谷歌和柏林工業(yè)大學的團隊重磅推出了史上最大的視覺-語言模型——PaLM-E(Pathways Language Model with Embodied),參數(shù)量高達5620億(GPT-3的參數(shù)量為1750億)。該模型不僅可以理解圖像,還能理解、生成語言,可以執(zhí)行各種復雜的機器人指令而無需重新訓練。谷歌研究人員計劃探索PaLM-E在現(xiàn)實世界場景中的更多應用,例如家庭自動化或工業(yè)機器人。微軟團隊也在探索如何將OpenAI研發(fā)的ChatGPT擴展到機器人領域。
目前,已經(jīng)有更為輕量化的大模型能夠獨立運行在邊緣端(如機器人、手機)上,為其提供"大腦"功能。這些大模型在某些專業(yè)領域通過專門訓練,可以接近人類的智能水平,擁有百億級甚至更低的參數(shù),使得它們可以在邊緣設備和終端上運行,不依賴云端計算能力,從而讓終端設備也能具備智能決策的能力。比如目前已經(jīng)可以在手機上運行的大模型有:MobileBERT(Bidirectional Encoder Representations from Transformers),TinyBERT,MobileNet等。
緊隨其后的,將是人工智能“眼睛”的爆發(fā)式發(fā)展。
3、機器人視覺的發(fā)展及未來趨勢
3.1通用大模型往多模態(tài)大模型方向演進,機器視覺向機器人視覺進化
ChatGPT通用大模型僅支持自然語言處理,然而機器人大腦所要處理的信息是多模態(tài)的,例如文本、視覺圖像、語音等等,因此大模型也正逐步往多模態(tài)大模型方向演進。多模態(tài)大模型能夠?qū)⒉煌B(tài)的信息融合在一起,實現(xiàn)跨模態(tài)的理解、生成和推理,與人類大腦的功能最為接近。近期,Meta推出了多模態(tài)大模型ImageBind,能夠處理文本、音頻、3D視覺、溫度、IMU信息;華為也將在2023年7月推出 “盤古Chat” 多模態(tài)大模型。
隨著多模態(tài)大模型的發(fā)展,當“大腦”具備對視覺信息處理、推理等能力,對“眼睛”的需求便呼之欲出,一方面視覺信息是多模態(tài)信息的必要組成部分,二是與人類類比來看,視覺信息在所有感知信息中占比超過70%,也將是人工智能感知世界最重要的信息源。傳統(tǒng)機器視覺普遍是2D的模塊化視覺設備,應用在相對固定的環(huán)境,而具身智能機器人所需要的機器人視覺則是類人眼的小型化、3D的嵌入式器件,且面向的是復雜變化的環(huán)境,因此在產(chǎn)品形態(tài)以及技術(shù)實現(xiàn)上都與傳統(tǒng)機器視覺存在巨大差異,機器視覺將向機器人視覺不斷進化。
3.2產(chǎn)品形態(tài)上,機器人視覺相比傳統(tǒng)機器視覺更加 3D化、高度集成化、場景復雜化
(1) 2D視覺向3D視覺進化,3D視覺具備毫米級甚至更高精度的視覺能力,可以對真實物體場景進行高精度掃描與還原。傳統(tǒng)2D視覺只能應用在“可控規(guī)范”的環(huán)境中,比如工業(yè)產(chǎn)線,而具身智能機器人所面對的是不可控規(guī)范的場景,2D視覺無法滿足。
(2) 模塊化向高度集成嵌入式進化,傳統(tǒng)機器人例如部分工業(yè)機器人所配備的視覺設備大都是模塊化的設備,普遍包括光源、鏡頭、相機、圖像采集卡、機器視覺算法、應用軟件等模塊,其中光源跟相機分開,相機跟鏡頭分開,相機跟圖像采集卡分開,各個部件體積龐大,導致整體體積大、成本高,無法應用于需要廣泛普及的具身智能機器人中。
(3) 單一場景到復雜場景(變化場景)進化,具身智能機器人所面向的是未知的復雜場景或變化場景,這就導致單一視覺傳感器無法滿足需求,另外為了應付變化場景,要求具備極高魯棒性的智能視覺算法。
因此,具身智能機器人所需要的“眼睛”,一定是3D的、高度集成的、適應復雜變化場景的智能化“眼睛”。
3.3技術(shù)實現(xiàn)上,機器人視覺相比傳統(tǒng)機器視覺更注重多專業(yè)融合、底層元器件定制與集成、以及高度依賴智能視覺算法
(1) 多專業(yè)、跨學科、高精尖。3D視覺相對2D視覺雖然多了一個維度的信息,但要付出的是技術(shù)代價是,全新的系統(tǒng)架構(gòu)設計、被精密編碼的光學發(fā)射器、顛覆性的芯片像素架構(gòu)設計、高穩(wěn)定性的光電結(jié)構(gòu)設計、高精密的制造產(chǎn)線,需要從系統(tǒng)、芯片、光學、結(jié)構(gòu)、算法多專業(yè)進行逐一突破后進行高度融合。
(2) 定制化、集成化。設計出符合具身智能機器人的視覺系統(tǒng),需要對所有核心元器件進行特殊定制,包括機器人視覺專用芯片,要求企業(yè)具備底層創(chuàng)新能力,并進行高度集成,才能在性能、成本、體積上實現(xiàn)最優(yōu),以滿足具身智能機器人需要。
(3) 高度依賴智能視覺算法。面對復雜變化場景,比如高溫環(huán)境下需要適應溫度變化、在光照變化場景下需要穩(wěn)定輸出數(shù)據(jù)、多視覺傳感器之間需要高度同步與配準、在遭遇打擊跌落時可以及時恢復視覺能力,這里面將運用多種智能視覺算法,比如HDR、AF、復雜材質(zhì)成像、溫度補償算法、光照自適應算法、同步配準算法、抗變形算法等等,這些智能視覺算法都是傳統(tǒng)機器人視覺所不涉及的。
因此,隨著機器人向具身智能機器人發(fā)展,機器人視覺也朝著3D、高度集成、適應復雜變化場景的方向進化,對相關研發(fā)機構(gòu)也提出了全新的能力訴求,多專業(yè)融合、底層創(chuàng)新能力、智能視覺算法將成為企業(yè)的核心技術(shù)競爭力。
4、奧比中光的機器人視覺技術(shù)布局、產(chǎn)品與應用
奧比中光經(jīng)過10多年的發(fā)展,致力于讓所有終端看懂世界,高度契合當下具身智能機器人視覺發(fā)展需要,面向具身智能機器人,已布局了全方位的機器人視覺技術(shù)與產(chǎn)品方案。
4.1全球率先完成具身智能機器人視覺的核心技術(shù)布局
針對具身智能機器人視覺,奧比中光著眼于中長期技術(shù)發(fā)展與需求進行了全方位的技術(shù)路線布局以及技術(shù)能力布局,其中技術(shù)路線覆蓋單目結(jié)構(gòu)光、雙目視覺、TOF、LIDAR,技術(shù)能力覆蓋機器人視覺芯片、智能視覺算法、模組及方案以及規(guī)?;慨a(chǎn)等能力。
4.2 已推出面向具身智能機器人所需要的多種系統(tǒng)布局產(chǎn)品
基于機器人本身算力差別,布局了兩種系統(tǒng)方案,一種是針對機器人本身具備較高計算能力的,僅提供低成本的嵌入式視覺傳感器,傳感器本身不帶智能視覺算法;二是自帶邊緣算力的智能視覺傳感器,傳感器可自行執(zhí)行算法及軟件,可以應用在本體不具備額外算力的機器人上。
4.3全球范圍內(nèi)成功落地多種機器人視覺應用
奧比中光在過去的十年里,一直致力于給機器人提供智能化眼睛,推動機器人視覺發(fā)展,相應視覺產(chǎn)品已經(jīng)在商用清潔、配送、迎賓、教育、倉儲物流等多個領域成功落地,服務于各種類型的機器人,包括輪式機器人、機械臂、多足機器人以及人形機器人。
1) 在商用清潔領域,搭載奧比中光DaBai雙目結(jié)構(gòu)光相機的高仙清潔機器人可以自動識別、清理垃圾,并在復雜的戶外環(huán)境中自動避障,極大地提升了清潔效率。
2) 在送餐領域,搭載奧比中光DaBai Pro雙目結(jié)構(gòu)光相機的普渡送餐機器人可實現(xiàn)在餐廳復雜環(huán)境下遇障即停,隨轉(zhuǎn)即走,做到3D全向避障。
3) 在工業(yè)領域,搭載奧比中光DaBai DCW雙目結(jié)構(gòu)光相機和MS500單線激光雷達的AMR可實現(xiàn)在智慧工廠環(huán)境下的貨物自動轉(zhuǎn)運,極大提高生產(chǎn)效率。
4) CES2023,由奧比中光和微軟、英偉達聯(lián)合研發(fā)制造的深度相機Femto Mega首次亮相,該相機融合微軟第一代深度相機Azure Kinect的全部性能,并集成英偉達Jetson Nano深度算力平臺,成為物流、機器人、制造、工業(yè)、零售、醫(yī)療保健和健身解決方案等領域3D視覺開發(fā)的理想選擇。
5) COMPUTEX 2023(臺北國際電腦展)正式舉辦。NVIDIA創(chuàng)始人兼CEO黃仁勛在 COMPUTEX 2023大會主題演講中介紹了NVIDIA全球產(chǎn)業(yè)數(shù)字化生態(tài)布局,作為其合作伙伴,奧比中光正式宣布將Femto Mega和其它3D相機集成到NVIDIA Omniverse生態(tài)開發(fā)平臺中。NVIDIA Omniverse是一個開放的開發(fā)平臺,用于構(gòu)建和運行元宇宙應用。在奧比中光3D相機集成到Omniverse后,使用NVIDIA Isaac Sim(一種機器人模擬工具包)的客戶就能夠快速設計其3D視覺系統(tǒng),提高AI系統(tǒng)設計和測試的真實性和精確性。
結(jié)語
毋庸置疑,具身智能機器人將開啟全新機器人革命、引領新一代人工智能浪潮,通用大模型向多模態(tài)大模型發(fā)展,機器視覺向機器人視覺進化,站在新一輪科技革命歷史機遇上,奧比中光將通過核心技術(shù)打造機器人視覺產(chǎn)品,通過產(chǎn)品的推廣應用助力具身智能機器人視覺技術(shù)進步與行業(yè)發(fā)展。
分享到