是時候給大模型造個身體了。
近期,奧比中光研發(fā)團隊結(jié)合機械臂與大模型,利用語音、語言、視覺-語言大模型,輔以O(shè)rbbec Gemini 2系列深度相機的數(shù)據(jù)輸入,打造出一個能夠理解、執(zhí)行語音任務(wù)的機械臂。
該項目以斯坦福大學(xué)李飛飛教授團隊打造的機器人智能體為基礎(chǔ),通過解決泛化、觀測、控制等一系列工程化難題,將基于多模態(tài)大模型的機械臂從仿真環(huán)境落地到現(xiàn)實世界,拓展智能機械臂應(yīng)用潛能。
融合多種大模型能力
讓機械臂理解、執(zhí)行語音指令
去年以來,各類大模型的涌現(xiàn)引發(fā)了機器人產(chǎn)業(yè)新一輪發(fā)展浪潮。盡管“大模型+機器人”還處于早期技術(shù)探索階段,但隨著二者深入融合,機器人有望具備更智能的“大腦”,配合更強大的“眼睛”與“身體”,實現(xiàn)向具身智能的進化。
奧比中光最新打造的大模型機械臂,可以通過語音Prompts作為輸入,利用多種大模型的理解能力和視覺感知能力,生成空間語義信息,讓機械臂理解、執(zhí)行動作。
首先,機械臂可借助語音大模型,識別任務(wù)下發(fā)者的語音指令;同時,通過兩臺Orbbec Gemini 2雙目結(jié)構(gòu)光相機,獲取高質(zhì)量環(huán)境RGB和Depth數(shù)據(jù);再利用SAM、CLIP等視覺-語言大模型,理解場景信息,并進行實時碰撞檢測,最終執(zhí)行任務(wù)。
基于這一原理,奧比中光可以讓機械臂完成一系列指令,比如:
· 請記住當前的狀態(tài)
· 把紅色的方塊放到黃色的框中
· 把綠色的方塊放到白色的框里面
· 把藍色的方塊逆時針旋轉(zhuǎn)30°
· 將藍色方塊朝著綠色方塊的方向移動10cm
· 把藍色方塊放到綠色的方塊上面
· 請恢復(fù)最開始的狀態(tài)
· 請把所有的方塊放到黃色的框中
目前,該項目在1.0階段打通了多模態(tài)大模型在機械臂上的應(yīng)用部署baseline。奧比中光正在進一步優(yōu)化多模態(tài)指令理解、多傳感器融合感知、機械臂軌跡規(guī)劃控制、末端抓取控制等方面,未來將推出大模型機器人控制系統(tǒng),讓機器人更加智能、靈活,適應(yīng)更加復(fù)雜的操作場景。
克服泛化、觀測、控制難題
從仿真變?yōu)楝F(xiàn)實
目前,國內(nèi)外眾多針對機器人智能體的研究多在仿真環(huán)境中完成。而從虛擬仿真到真實世界,還需要克服一系列工程化落地難題。比如,在仿真環(huán)境中,相機基于理想的成像模型,可以不受成像畸變、環(huán)境光照等影響,這就對智能體在真實場景中的泛化能力提出了挑戰(zhàn)。
奧比中光的研發(fā)團隊基于預(yù)訓(xùn)練的多模態(tài)機械臂模型,克服了泛化、觀測、控制等一系列落地難題:
1、為實現(xiàn)快速準確的語音輸入與理解,引入語音預(yù)訓(xùn)練大模型,使得機械臂靈敏響應(yīng)語音指令。
2、為確保機械臂在真實世界中具備足夠的泛化能力,采用視覺-語言大模型,使機械臂理解適應(yīng)復(fù)雜場景,在多樣化的環(huán)境中穩(wěn)健執(zhí)行任務(wù)。
3、為處理預(yù)訓(xùn)練模型的理想相機成像問題,設(shè)計全新標定方案,優(yōu)化相機自動曝光(AE)策略,解決受環(huán)境光、成像畸變、透視形變等因素帶來的挑戰(zhàn),使機械臂擁有更強的魯棒性。
4、為提高機械臂在復(fù)雜環(huán)境中的安全性,引入深度相機碰撞檢測和抓取修正,優(yōu)化機械臂控制,提高機械臂抓取場景的性能、精度和適應(yīng)性。
基于關(guān)鍵技術(shù)的引入與創(chuàng)新,奧比中光成功地克服了多模態(tài)機械臂在多個交叉領(lǐng)域的難題,打通工程化應(yīng)用落地的“最后一公里”。
在機器人視覺領(lǐng)域,奧比中光擁有超過8年的行業(yè)落地經(jīng)驗,服務(wù)超過100家機器人產(chǎn)業(yè)企業(yè)。通過多年合作,奧比中光在機器人3D傳感器、激光雷達、模型算法等方面積累了豐富的經(jīng)驗,助力機器人客戶快速實現(xiàn)創(chuàng)新應(yīng)用開發(fā)與量產(chǎn)制造。
布局多模態(tài)視覺大模型
升維機器人應(yīng)用潛力
融合多種大模型能力的機械臂,可以應(yīng)用在哪些場景?
隨著機器人的“眼睛”(視覺傳感器)、“大腦”(大模型)、“身體”(本體)不斷發(fā)展進化,智能機器人及機械臂有望在工業(yè)制造、柔性物流、商用服務(wù)等場景中率先落地。
例如,在自動化工廠場景,基于多模態(tài)大模型的機器臂可以結(jié)合無人小車,進行智能分揀、搬運;在家用服務(wù)機器人場景,人們可以通過簡單的自然語言指令,讓機器人幫忙倒水、取快遞。
當前,面向機器人產(chǎn)業(yè),奧比中光可提供單目結(jié)構(gòu)光、雙目結(jié)構(gòu)光、iToF、激光雷達、dToF等全技術(shù)路線3D視覺傳感器,并提供多傳感器融合支持。同時,針對AI大模型、具身智能機器人等科技發(fā)展趨勢,奧比中光正在致力于搭建機器人及AI視覺中臺,通過多模態(tài)視覺大模型及智能算法的研發(fā),結(jié)合機器人視覺傳感器,將形成自主移動定位導(dǎo)航和避障的完整產(chǎn)品方案,為全產(chǎn)業(yè)下游客戶提供全方位能力平臺及系列化產(chǎn)品方案,迎接智能機器人時代。
分享到