銀河通用發(fā)布全球首個(gè)產(chǎn)品級端到端具身FSD大模型-AET-電子技術(shù)應(yīng)用

銀河通用發(fā)布全球首個(gè)產(chǎn)品級端到端具身FSD大模型

日期： 2025-06-03

來源：IT之家

關(guān)鍵詞： 銀河通用具身大模型 TrackVLA

6月1日消息，銀河通用發(fā)布全球首個(gè)產(chǎn)品級端到端具身 FSD 大模型 —— TrackVLA，一款具備純視覺環(huán)境感知、語言指令驅(qū)動(dòng)、可自主推理、具備零樣本（Zero-Shot）泛化能力的具身大模型。

據(jù)了解，TrackVLA 是銀河通用推出的產(chǎn)品級導(dǎo)航大模型，純視覺環(huán)境感知、自然語言指令驅(qū)動(dòng)、端到端輸出語言和機(jī)器人動(dòng)作，是一個(gè)由仿真合成動(dòng)作數(shù)據(jù)訓(xùn)練的 " 視覺 - 語言 - 動(dòng)作 "（Vision-Language-Action, VLA）大模型。它讓機(jī)器人擁有 " 聽 → 看 → 懂 → 走 " 的閉環(huán)運(yùn)動(dòng)能力：一雙眼睛看世界、一個(gè)智能 " 大腦 " 做推理，無需提前建圖、不依賴遙操控制，真正實(shí)現(xiàn)語言驅(qū)動(dòng)、泛化感知、自主推理、智能交互與運(yùn)動(dòng)。

TrackVLA 八大核心能力：

1. 聽得懂你說話，還能換人跟

你只需說一句：" 跟著媽媽 "，它就能立即識別 " 媽媽 " 對應(yīng)的目標(biāo)位置。如果改口說 " 換成跟孩子 "，它也能瞬間切換對象，并通過語音回復(fù)確認(rèn)。甚至，Ta 還能跟蹤你的寵物。這背后，是模型具備的自然語言理解與目標(biāo)識別能力的協(xié)同工作。

2. 不怕人多也不跟錯(cuò)人

在人流密集的購物中心中，面對復(fù)雜的場景、多變的環(huán)境中多個(gè)相似穿著的人，它能準(zhǔn)確識別原始目標(biāo)并長時(shí)自主跟隨。通過空間理解和視覺記憶機(jī)制，避免 " 認(rèn)錯(cuò)人 "。

3. 丟了目標(biāo)能找回來

如果目標(biāo)走出視野，它不會(huì)原地 " 發(fā)呆 "，而是通過實(shí)時(shí)的空間智能和大模型推理能力根據(jù)目標(biāo)運(yùn)動(dòng)軌跡 " 分析出 " 目標(biāo)的大致位置，并規(guī)劃軌跡重新找回目標(biāo)。

4. 從沒見過的地方也能走

TrackVLA 不依賴建圖，靠純視覺輸入理解環(huán)境。可在不依賴額外采集訓(xùn)練數(shù)據(jù)的情況下，直接部署在陌生商場、電梯、游樂區(qū)等環(huán)境，實(shí)現(xiàn)長時(shí)穩(wěn)定自主跟隨。

5. 靈活避障，適應(yīng)復(fù)雜場景

在兒童游樂區(qū)、狹窄通道等復(fù)雜場景中，它能實(shí)時(shí)識別障礙物（包括兒童、玩具、地面水漬等），分析可通行區(qū)域，并可正確認(rèn)知自身本體能力，自主推理出自身構(gòu)型支持的合理路線。

6. 環(huán)境光線變化？不怕

從室外陽光到室內(nèi)昏暗、從電梯鏡面反射到超市貨架夾縫，TrackVLA 展現(xiàn)出極強(qiáng)魯棒性，無需專門調(diào)參或切換模式。

7. 遠(yuǎn)程可視守護(hù)，一目了然

通過 App，你可以實(shí)時(shí)看到機(jī)器人眼中的第一視角，掌握家人動(dòng)態(tài)。系統(tǒng)還能主動(dòng)提醒風(fēng)險(xiǎn)行為（如小朋友奔跑、老人跌倒），提供 " 移動(dòng)守護(hù) "。

8. 技能涌現(xiàn)！

TrackVLA 不僅能穩(wěn)定跟隨人類，還可以泛化至任意移動(dòng)目標(biāo)。比如視頻最后展示了讓機(jī)器狗跟隨一只路上偶遇的動(dòng)物狗狗，其目標(biāo)形態(tài)、運(yùn)動(dòng)方式、遮擋情況都非常不確定。TrackVLA 也表現(xiàn)了同樣穩(wěn)定的跟隨能力，而這一能力是訓(xùn)練時(shí)從而教過的！

目前，該模型已搭載于宇樹機(jī)器狗化身 " 二寶保鏢 " 實(shí)現(xiàn)兒童看護(hù)，在未訓(xùn)練過的真實(shí)場景中完成了嚴(yán)格的長程驗(yàn)證。目前 TrackVLA 已在未訓(xùn)練過的真實(shí)場景中完成了嚴(yán)格的長程驗(yàn)證：實(shí)現(xiàn)在超市中穿梭于人流和貨架之間，準(zhǔn)確跟隨母子；根據(jù)語音指令切換目標(biāo)，并在兒童玩耍時(shí)發(fā)出提醒；可正確認(rèn)知自身本體能力，利用大模型自主推理分析；從電梯進(jìn)入陌生商場，完成連續(xù)跟隨任務(wù)；在人群密集的服裝店中穩(wěn)定識別并避讓他人干擾 ……

Magazine.Subscription.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時(shí)通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

銀河通用發(fā)布全球首個(gè)產(chǎn)品級端到端具身FSD大模型

日期： 2025-06-03

來源：IT之家

相關(guān)內(nèi)容