近期,全球領(lǐng)先的人工智能研究團(tuán)隊(duì),斯坦福大學(xué)李飛飛教授團(tuán)隊(duì)發(fā)布了他們?cè)凇翱臻g智能”領(lǐng)域的最新突破性成果——ReKep(Relational Keypoint Constraints,關(guān)系關(guān)鍵點(diǎn)約束),并通過(guò)試驗(yàn)表明,ReKep在機(jī)器人操作、家務(wù)自動(dòng)化等領(lǐng)域具有廣泛的應(yīng)用潛力。該研究中,團(tuán)隊(duì)使用了奧比中光RGB-D相機(jī)Femto Bolt,精準(zhǔn)有效捕捉實(shí)驗(yàn)場(chǎng)景的彩色圖像及深度信息,幫助ReKep系統(tǒng)識(shí)別和定位場(chǎng)景中的物體及其關(guān)鍵點(diǎn),為機(jī)器人動(dòng)作優(yōu)化和復(fù)雜交互提供了關(guān)鍵的3D視覺(jué)數(shù)據(jù)支撐。
↑ 點(diǎn)擊播放視頻 ↑
根據(jù)研究論文釋義,ReKep是將復(fù)雜任務(wù)轉(zhuǎn)換為一系列關(guān)系關(guān)鍵點(diǎn)的約束優(yōu)化框架,以Python函數(shù)的形式表現(xiàn)。這些函數(shù)將環(huán)境中的3D關(guān)鍵點(diǎn)映射為數(shù)值成本,通過(guò)捕捉具有任務(wù)語(yǔ)義和空間意義的3D關(guān)鍵點(diǎn),賦予機(jī)器人自主決策能力,從而高效應(yīng)對(duì)每個(gè)任務(wù)的核心挑戰(zhàn)。基于Femto Bolt提供的高質(zhì)量RGB和深度數(shù)據(jù),ReKep系統(tǒng)能精準(zhǔn)將環(huán)境中的3D關(guān)鍵點(diǎn)映射到數(shù)值成本來(lái)定義這些約束。
深度感知,精準(zhǔn)規(guī)劃
Femto Bolt是一款基于微軟先進(jìn)的ToF(飛行時(shí)間)傳感技術(shù)設(shè)計(jì)的RGB-D相機(jī)。其中,RGB圖片的生成幫助ReKep系統(tǒng)進(jìn)行目標(biāo)檢測(cè)和識(shí)別,深度圖像可以提供精確的3D信息,讓ReKep系統(tǒng)分辨目標(biāo)的空間位置和距離關(guān)系,二者結(jié)合讓ReKep系統(tǒng)充分理解操作場(chǎng)景,生成引導(dǎo)機(jī)器人決策與執(zhí)行關(guān)鍵點(diǎn)的3D坐標(biāo)。
此外,3D關(guān)鍵點(diǎn)的準(zhǔn)確提取對(duì)數(shù)據(jù)質(zhì)量提出了極高要求,包括深度精度和點(diǎn)云質(zhì)量。Femto Bolt 能輸出4K高分辨率圖像,有效減少誤識(shí)別并提升互動(dòng)可靠性,這對(duì)機(jī)器人執(zhí)行精細(xì)、復(fù)雜的操作至關(guān)重要。
超低延時(shí),流暢交互
在實(shí)驗(yàn)研究中,ReKep系統(tǒng)對(duì)環(huán)境3D關(guān)鍵點(diǎn)的捕捉與傳輸需要具備足夠快的速度,以確保人機(jī)交互的流暢性。Femto Bolt 通過(guò)每秒30幀的高幀率捕捉深度數(shù)據(jù),并集成了多模式的深度圖像、彩色圖像模塊及慣性傳感器,以超低延時(shí)實(shí)現(xiàn)實(shí)時(shí)反饋和互動(dòng),確保機(jī)器人能夠迅速響應(yīng)ReKep系統(tǒng)的指令。
多機(jī)同步,高效協(xié)作
李飛飛團(tuán)隊(duì)在不同機(jī)器人平臺(tái)上搭建系統(tǒng)進(jìn)行多種任務(wù)實(shí)驗(yàn),包括單臂和雙臂機(jī)器人的多階段、雙手協(xié)作積極反應(yīng)性的操作任務(wù)。Femto Bolt支持多機(jī)同步,通過(guò)構(gòu)建更大范圍內(nèi)的空間采集,幫助多臺(tái)機(jī)器人協(xié)作完成共同的任務(wù)。
在多機(jī)同步方面,F(xiàn)emto Bolt使用了通用性更強(qiáng)、功能擴(kuò)展性更廣的8針GPIO接口,并配備相應(yīng)的連接器材。同時(shí),F(xiàn)emto Bolt還配備了帶鎖的USB-C接口,確保供電和數(shù)據(jù)傳輸?shù)耐瑫r(shí)進(jìn)行,增強(qiáng)了系統(tǒng)的安全性和穩(wěn)定性。
圖片來(lái)自于李飛飛團(tuán)隊(duì)ReKep研究論文
深度融合大視覺(jué)模型
更值得關(guān)注的是,李飛飛團(tuán)隊(duì)在該研究中結(jié)合了視覺(jué)模型與視覺(jué)-語(yǔ)言模型,當(dāng)中包括GPT-4o(OpenAI為聊天機(jī)器人ChatGPT發(fā)布的語(yǔ)言模型),充分展示了視覺(jué)與機(jī)器人學(xué)習(xí)的深層次融合。在不提供特定任務(wù)數(shù)據(jù)或詳細(xì)環(huán)境模型的情況下,ReKep系統(tǒng)展示出在非結(jié)構(gòu)化環(huán)境中完成任務(wù)的良好泛化能力,具備不同任務(wù)策略的適應(yīng)性。
圖片來(lái)自于李飛飛團(tuán)隊(duì)ReKep研究論文
在機(jī)器人視覺(jué)領(lǐng)域,奧比中光擁有超過(guò)8年的商用落地經(jīng)驗(yàn),致力于打造機(jī)器人的“眼睛”。今年3月,奧比中光與英偉達(dá)攜手,將Femto Bolt先進(jìn)的iToF技術(shù)與NVIDIA Orin AGX的人工智能計(jì)算能力結(jié)合,搭配Universal Robots UR5機(jī)械臂,實(shí)現(xiàn)了高精度的物品檢測(cè)、揀選和放置,為料倉(cāng)揀選樹(shù)立了新的行業(yè)標(biāo)桿。在多模態(tài)大模型技術(shù)(語(yǔ)音、文本、視覺(jué))與機(jī)械臂控制技術(shù)的探索中,奧比中光研發(fā)團(tuán)隊(duì)已推出2.0版大模型機(jī)械臂,具備精準(zhǔn)識(shí)別日常物體并理解執(zhí)行指令的能力。未來(lái),奧比中光將繼續(xù)探索機(jī)器人視覺(jué)傳感技術(shù)的應(yīng)用,助力空間智能系統(tǒng)發(fā)展,進(jìn)一步推動(dòng)機(jī)器人視覺(jué)與人工智能的技術(shù)突破,開(kāi)啟更廣泛的智能化應(yīng)用場(chǎng)景。
奧比中光相機(jī)Femto Bolt及其大模型機(jī)械臂點(diǎn)云效果圖
*部分內(nèi)容來(lái)源:
ReKep | Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation (https://rekep-robot.github.io/)
分享到