近期,全球領(lǐng)先的人工智能研究團(tuán)隊,斯坦福大學(xué)李飛飛教授團(tuán)隊發(fā)布了他們在“空間智能”領(lǐng)域的最新突破性成果——ReKep(Relational Keypoint Constraints,關(guān)系關(guān)鍵點約束),并通過試驗表明,ReKep在機(jī)器人操作、家務(wù)自動化等領(lǐng)域具有廣泛的應(yīng)用潛力。該研究中,團(tuán)隊使用了奧比中光RGB-D相機(jī)Femto Bolt,精準(zhǔn)有效捕捉實驗場景的彩色圖像及深度信息,幫助ReKep系統(tǒng)識別和定位場景中的物體及其關(guān)鍵點,為機(jī)器人動作優(yōu)化和復(fù)雜交互提供了關(guān)鍵的3D視覺數(shù)據(jù)支撐。
↑ 點擊播放視頻 ↑
根據(jù)研究論文釋義,ReKep是將復(fù)雜任務(wù)轉(zhuǎn)換為一系列關(guān)系關(guān)鍵點的約束優(yōu)化框架,以Python函數(shù)的形式表現(xiàn)。這些函數(shù)將環(huán)境中的3D關(guān)鍵點映射為數(shù)值成本,通過捕捉具有任務(wù)語義和空間意義的3D關(guān)鍵點,賦予機(jī)器人自主決策能力,從而高效應(yīng)對每個任務(wù)的核心挑戰(zhàn)?;贔emto Bolt提供的高質(zhì)量RGB和深度數(shù)據(jù),ReKep系統(tǒng)能精準(zhǔn)將環(huán)境中的3D關(guān)鍵點映射到數(shù)值成本來定義這些約束。
深度感知,精準(zhǔn)規(guī)劃
Femto Bolt是一款基于微軟先進(jìn)的ToF(飛行時間)傳感技術(shù)設(shè)計的RGB-D相機(jī)。其中,RGB圖片的生成幫助ReKep系統(tǒng)進(jìn)行目標(biāo)檢測和識別,深度圖像可以提供精確的3D信息,讓ReKep系統(tǒng)分辨目標(biāo)的空間位置和距離關(guān)系,二者結(jié)合讓ReKep系統(tǒng)充分理解操作場景,生成引導(dǎo)機(jī)器人決策與執(zhí)行關(guān)鍵點的3D坐標(biāo)。
此外,3D關(guān)鍵點的準(zhǔn)確提取對數(shù)據(jù)質(zhì)量提出了極高要求,包括深度精度和點云質(zhì)量。Femto Bolt 能輸出4K高分辨率圖像,有效減少誤識別并提升互動可靠性,這對機(jī)器人執(zhí)行精細(xì)、復(fù)雜的操作至關(guān)重要。
超低延時,流暢交互
在實驗研究中,ReKep系統(tǒng)對環(huán)境3D關(guān)鍵點的捕捉與傳輸需要具備足夠快的速度,以確保人機(jī)交互的流暢性。Femto Bolt 通過每秒30幀的高幀率捕捉深度數(shù)據(jù),并集成了多模式的深度圖像、彩色圖像模塊及慣性傳感器,以超低延時實現(xiàn)實時反饋和互動,確保機(jī)器人能夠迅速響應(yīng)ReKep系統(tǒng)的指令。
多機(jī)同步,高效協(xié)作
李飛飛團(tuán)隊在不同機(jī)器人平臺上搭建系統(tǒng)進(jìn)行多種任務(wù)實驗,包括單臂和雙臂機(jī)器人的多階段、雙手協(xié)作積極反應(yīng)性的操作任務(wù)。Femto Bolt支持多機(jī)同步,通過構(gòu)建更大范圍內(nèi)的空間采集,幫助多臺機(jī)器人協(xié)作完成共同的任務(wù)。
在多機(jī)同步方面,F(xiàn)emto Bolt使用了通用性更強(qiáng)、功能擴(kuò)展性更廣的8針GPIO接口,并配備相應(yīng)的連接器材。同時,F(xiàn)emto Bolt還配備了帶鎖的USB-C接口,確保供電和數(shù)據(jù)傳輸?shù)耐瑫r進(jìn)行,增強(qiáng)了系統(tǒng)的安全性和穩(wěn)定性。
圖片來自于李飛飛團(tuán)隊ReKep研究論文
深度融合大視覺模型
更值得關(guān)注的是,李飛飛團(tuán)隊在該研究中結(jié)合了視覺模型與視覺-語言模型,當(dāng)中包括GPT-4o(OpenAI為聊天機(jī)器人ChatGPT發(fā)布的語言模型),充分展示了視覺與機(jī)器人學(xué)習(xí)的深層次融合。在不提供特定任務(wù)數(shù)據(jù)或詳細(xì)環(huán)境模型的情況下,ReKep系統(tǒng)展示出在非結(jié)構(gòu)化環(huán)境中完成任務(wù)的良好泛化能力,具備不同任務(wù)策略的適應(yīng)性。
圖片來自于李飛飛團(tuán)隊ReKep研究論文
在機(jī)器人視覺領(lǐng)域,奧比中光擁有超過8年的商用落地經(jīng)驗,致力于打造機(jī)器人的“眼睛”。今年3月,奧比中光與英偉達(dá)攜手,將Femto Bolt先進(jìn)的iToF技術(shù)與NVIDIA Orin AGX的人工智能計算能力結(jié)合,搭配Universal Robots UR5機(jī)械臂,實現(xiàn)了高精度的物品檢測、揀選和放置,為料倉揀選樹立了新的行業(yè)標(biāo)桿。在多模態(tài)大模型技術(shù)(語音、文本、視覺)與機(jī)械臂控制技術(shù)的探索中,奧比中光研發(fā)團(tuán)隊已推出2.0版大模型機(jī)械臂,具備精準(zhǔn)識別日常物體并理解執(zhí)行指令的能力。未來,奧比中光將繼續(xù)探索機(jī)器人視覺傳感技術(shù)的應(yīng)用,助力空間智能系統(tǒng)發(fā)展,進(jìn)一步推動機(jī)器人視覺與人工智能的技術(shù)突破,開啟更廣泛的智能化應(yīng)用場景。
奧比中光相機(jī)Femto Bolt及其大模型機(jī)械臂點云效果圖
*部分內(nèi)容來源:
ReKep | Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation (https://rekep-robot.github.io/)
分享到