近期,奧比中光研發(fā)團隊融合前沿多模態(tài)大模型技術(shù),推出最新2.0版大模型機械臂演示方案。新方案搭載公司最新深度相機Gemini 335L和Femto Bolt,能夠基于語音指令,自動執(zhí)行沏茶、插花、滴香薰、播放音樂等一系列復(fù)雜任務(wù)。此前在2023年底,奧比中光成功發(fā)布大模型機械臂1.0,在業(yè)界引起廣泛關(guān)注。
(點擊播放視頻)
秒懂語音指令,絲滑沏茶、倒茶
奧比中光2.0版大模型機械臂結(jié)合多模態(tài)大模型技術(shù)(語音、文本、視覺)與機械臂控制技術(shù),可以生成空間語義信息,幫助機械臂準(zhǔn)確識別、理解生活中的常見物體并執(zhí)行相應(yīng)動作,可識別物體包括日常用品、食品和工業(yè)零件等。
以最具挑戰(zhàn)性的沏茶任務(wù)為例,其難點在于流程長、步驟多,需要保證動作執(zhí)行的準(zhǔn)確性和多步驟之間的邏輯合理性。奧比中光研發(fā)團隊借助高精度Gemini 335L和Femto Bolt相機實現(xiàn)目標(biāo)抓取位姿的精確定位,結(jié)合大模型的理解能力,經(jīng)過長期算法優(yōu)化與仿真環(huán)境調(diào)試,最終實現(xiàn)對沏茶等復(fù)雜任務(wù)的理解、規(guī)劃與自動執(zhí)行。
相比1.0版本,2.0版大模型機械臂在以下幾個方面實現(xiàn)了升級:
● 語言模型:自然語言處理和理解能力顯著提升,機械臂能夠更準(zhǔn)確理解和執(zhí)行抽象的語言指令。
● 規(guī)劃能力:復(fù)雜任務(wù)規(guī)劃能力顯著提升,可以準(zhǔn)確理解高階任務(wù)并精準(zhǔn)執(zhí)行。
● 響應(yīng)速度:程序整體執(zhí)行效率優(yōu)化,任務(wù)理解與規(guī)劃時間大大縮短。
● 抓取能力:升級為夾爪設(shè)計,能夠準(zhǔn)確識別和分類不同物體,適應(yīng)更多樣化的任務(wù)和環(huán)境。
● 感知能力:配備Gemini 335L和Femto Bolt相機,雙目3D相機與ToF相機互補,提供更高分辨率和精度的3D視覺感知能力。
搭載先進深度相機,感知更精確
奧比中光2.0版大模型機械臂通過搭載公司最新深度相機和AI算法,在識別、抓取和操作復(fù)雜物體時的精度和效率顯著提升。相較于1.0版本采用的Gemini 2系列相機,2.0版本的Gemini 335L和Femto Bolt在深度精度和深度完整性方面具有更佳表現(xiàn),捕捉更精致的物體細(xì)節(jié),可重建玻璃、亞克力等透明材質(zhì)物體,從而讓機械臂能夠精準(zhǔn)定位物體,高效執(zhí)行動作。此外,公司基于仿真與實際相結(jié)合的調(diào)試優(yōu)化方式,可快速實現(xiàn)AI算法驗證與迭代。
奧比中光Gemini 335L相機可重建香薰玻璃瓶、亞克力支架等透明物體
機器人要想具備更通用的能力,需要理解真實的物理世界。作為行業(yè)領(lǐng)先的機器人視覺及AI視覺公司,奧比中光長期致力于3D視覺感知技術(shù)的研發(fā),以促進具身智能在感知技術(shù)層面的進步。未來,團隊將進一步提升大模型機械臂的理解能力,使其能夠處理更多復(fù)雜、抽象的任務(wù);提升機械臂在復(fù)雜或動態(tài)變化環(huán)境中的泛化能力,并加強人機交互與機器自我學(xué)習(xí)能力,加速其在生活服務(wù)、工業(yè)生產(chǎn)等實際場景中的落地應(yīng)用。
分享到