6月1日消息,銀河通用發(fā)布全球首個(gè)產(chǎn)品級端到端具身 FSD 大模型 —— TrackVLA,一款具備純視覺環(huán)境感知、語言指令驅(qū)動(dòng)、可自主推理、具備零樣本(Zero-Shot)泛化能力的具身大模型。
據(jù)了解,TrackVLA 是銀河通用推出的產(chǎn)品級導(dǎo)航大模型,純視覺環(huán)境感知、自然語言指令驅(qū)動(dòng)、端到端輸出語言和機(jī)器人動(dòng)作,是一個(gè)由仿真合成動(dòng)作數(shù)據(jù)訓(xùn)練的 " 視覺 - 語言 - 動(dòng)作 "(Vision-Language-Action, VLA)大模型。它讓機(jī)器人擁有 " 聽 → 看 → 懂 → 走 " 的閉環(huán)運(yùn)動(dòng)能力:一雙眼睛看世界、一個(gè)智能 " 大腦 " 做推理,無需提前建圖、不依賴遙操控制,真正實(shí)現(xiàn)語言驅(qū)動(dòng)、泛化感知、自主推理、智能交互與運(yùn)動(dòng)。
TrackVLA 八大核心能力:
1. 聽得懂你說話,還能換人跟
你只需說一句:" 跟著媽媽 ",它就能立即識別 " 媽媽 " 對應(yīng)的目標(biāo)位置。如果改口說 " 換成跟孩子 ",它也能瞬間切換對象,并通過語音回復(fù)確認(rèn)。甚至,Ta 還能跟蹤你的寵物。這背后,是模型具備的自然語言理解與目標(biāo)識別能力的協(xié)同工作。
2. 不怕人多也不跟錯(cuò)人
在人流密集的購物中心中,面對復(fù)雜的場景、多變的環(huán)境中多個(gè)相似穿著的人,它能準(zhǔn)確識別原始目標(biāo)并長時(shí)自主跟隨。通過空間理解和視覺記憶機(jī)制,避免 " 認(rèn)錯(cuò)人 "。
3. 丟了目標(biāo)能找回來
如果目標(biāo)走出視野,它不會(huì)原地 " 發(fā)呆 ",而是通過實(shí)時(shí)的空間智能和大模型推理能力根據(jù)目標(biāo)運(yùn)動(dòng)軌跡 " 分析出 " 目標(biāo)的大致位置,并規(guī)劃軌跡重新找回目標(biāo)。
4. 從沒見過的地方也能走
TrackVLA 不依賴建圖,靠純視覺輸入理解環(huán)境。可在不依賴額外采集訓(xùn)練數(shù)據(jù)的情況下,直接部署在陌生商場、電梯、游樂區(qū)等環(huán)境,實(shí)現(xiàn)長時(shí)穩(wěn)定自主跟隨。
5. 靈活避障,適應(yīng)復(fù)雜場景
在兒童游樂區(qū)、狹窄通道等復(fù)雜場景中,它能實(shí)時(shí)識別障礙物(包括兒童、玩具、地面水漬等),分析可通行區(qū)域,并可正確認(rèn)知自身本體能力,自主推理出自身構(gòu)型支持的合理路線。
6. 環(huán)境光線變化?不怕
從室外陽光到室內(nèi)昏暗、從電梯鏡面反射到超市貨架夾縫,TrackVLA 展現(xiàn)出極強(qiáng)魯棒性,無需專門調(diào)參或切換模式。
7. 遠(yuǎn)程可視守護(hù),一目了然
通過 App,你可以實(shí)時(shí)看到機(jī)器人眼中的第一視角,掌握家人動(dòng)態(tài)。系統(tǒng)還能主動(dòng)提醒風(fēng)險(xiǎn)行為(如小朋友奔跑、老人跌倒),提供 " 移動(dòng)守護(hù) "。
8. 技能涌現(xiàn)!
TrackVLA 不僅能穩(wěn)定跟隨人類,還可以泛化至任意移動(dòng)目標(biāo)。比如視頻最后展示了讓機(jī)器狗跟隨一只路上偶遇的動(dòng)物狗狗,其目標(biāo)形態(tài)、運(yùn)動(dòng)方式、遮擋情況都非常不確定。TrackVLA 也表現(xiàn)了同樣穩(wěn)定的跟隨能力,而這一能力是訓(xùn)練時(shí)從而教過的!
目前,該模型已搭載于宇樹機(jī)器狗化身 " 二寶保鏢 " 實(shí)現(xiàn)兒童看護(hù),在未訓(xùn)練過的真實(shí)場景中完成了嚴(yán)格的長程驗(yàn)證。目前 TrackVLA 已在未訓(xùn)練過的真實(shí)場景中完成了嚴(yán)格的長程驗(yàn)證:實(shí)現(xiàn)在超市中穿梭于人流和貨架之間,準(zhǔn)確跟隨母子;根據(jù)語音指令切換目標(biāo),并在兒童玩耍時(shí)發(fā)出提醒;可正確認(rèn)知自身本體能力,利用大模型自主推理分析;從電梯進(jìn)入陌生商場,完成連續(xù)跟隨任務(wù);在人群密集的服裝店中穩(wěn)定識別并避讓他人干擾 ……