新京報貝殼財經(jīng)訊(記者韋博雅)1月9日,銀河通用發(fā)布端到端具身抓取基礎(chǔ)大模型 GraspVLA。


銀河通用介紹,GraspVLA 的訓(xùn)練包含預(yù)訓(xùn)練和后訓(xùn)練兩部分。其中預(yù)訓(xùn)練完全基于合成大數(shù)據(jù),訓(xùn)練數(shù)據(jù)達到十億幀“視覺-語言-動作”對,掌握泛化閉環(huán)抓取能力、達成基礎(chǔ)模型。預(yù)訓(xùn)練后,模型可直接在真實場景和物體上零樣本測試,并具有七大泛化能力;針對特別需求,后訓(xùn)練僅需小樣本學(xué)習(xí)即可遷移基礎(chǔ)能力到特定場景,滿足產(chǎn)品需求的專業(yè)技能。


銀河通用還給出了VLA((視覺-語言-動作模型))達到基礎(chǔ)模型需滿足的七大泛化標(biāo)準(zhǔn),即光照泛化、背景泛化、平面位置泛化、空間高度泛化、動作策略泛化、動態(tài)干擾泛化和物體類別泛化。


銀河通用表示,對于特定場景的特殊需求, GraspVLA 也具備對新需求的適應(yīng)及遷移能力。如在工業(yè)場景中,僅需采集少量軌跡進行快速后訓(xùn)練,GraspVLA 便可掌握諸如接線座(Wiring Base)、三角板(Triangular Panel)、黑色軟管(Black Hose)等特殊工業(yè)名詞,能從任意擺放的密集場景中找出對應(yīng)零件。


校對 柳寶慶