當特斯拉的Optimus人形機器人緩緩走上舞臺,當Figure 01機器人展現出與人類流暢對話、遞上蘋果的驚人能力時,全球的投資者與科技愛好者似乎都預見了一個由機器人提供服務的未來。然而,在這股熱潮之下,一個根本性的問題縈繞不去:儘管機器人的「身體」日益精巧,但它們的「大腦」真的準備好了嗎?我們距離那個能在家中為你端茶倒水、在工廠裡處理複雜任務的通用機器人,究竟還缺少哪塊關鍵拼圖?答案或許並非更強大的馬達或更靈敏的感測器,而是隱藏在演算法深處的一項核心能力——模擬與規劃。這正是當前「物理AI」(Physical AI)試圖突破的瓶頸,也是決定下一代具身智慧(Embodied Intelligence)成敗的決勝點。
借鏡生物演化:機器人智慧失落的環節
要理解機器人智慧的現況,我們可以從地球生命數億年的演化史中尋找線索。生物智慧的發展大致可分為五個階段,而當前的具身智慧,正卡在第二階段與第三階段之間的鴻溝。
第一階段是「關聯性學習」,如同最原始的線蟲學會趨吉避凶。它懂得靠近食物(正向刺激)、遠離危險(負向刺激),這種類似「條件反射」的機制,正是早期掃地機器人的核心邏輯:碰到牆壁就轉彎,偵測到階梯就後退。這是純粹的應激反應,沒有真正的「理解」。
第二階段是「強化學習」,魚類學會了「吃一塹,長一智」。牠們在迷宮中反覆試錯,最終找到出口,並在下一次更快完成。這種基於「獎勵」與「懲罰」的學習模式,是現今許多AI演算法的基礎。然而,這種學習方式效率低下且成本高昂,機器人必須在現實世界中不斷碰撞、失敗,才能累積經驗。對於自動駕駛汽車而言,每一次「試錯」的代價都可能是致命的。
真正的智慧飛躍發生在第三階段——「模擬學習」。以老鼠為代表的早期哺乳動物,在面對岔路時,不再是隨機選擇一條路去嘗試,而是會短暫停頓,彷彿在腦中「預演」走左邊或右邊可能遇到的後果。這種「謀定而後動」的能力,正是規劃與預測的雛形。牠們在腦中建立了一個簡易的「世界模型」(World Model),並在這個模型中進行替代性試錯。這就好比行為經濟學家丹尼爾·卡尼曼所說的「系統2」(慢思考),它需要消耗更多能量,但能處理更複雜、更具不確定性的問題。
當前絕大多數機器人與AI系統,仍停留在高效的「系統1」(快思考)階段,也就是無模型的強化學習。它們能對特定指令做出快速反應,卻缺乏在陌生環境中進行複雜規劃的能力。這正是具身智慧失落的關鍵環節:如何讓機器人擁有一個能夠在行動前進行模擬、預測與規劃的「大腦」。
自動駕駛的十年教訓:從「看得懂」到「能預測」
要理解這場從「快思考」到「慢思考」的變革,沒有比自動駕駛產業過去十年的發展史更生動的教材了。特別是特斯拉(Tesla)以純視覺方案推動FSD(Full Self-Driving)的歷程,幾乎完整演繹了這場智慧革命。
最初,自動駕駛系統採用「模組化」架構,感知、決策、控制各司其職,由工程師編寫大量規則程式碼來應對各種路況。這種方法的弊病顯而易見:規則永遠無法窮盡所有「長尾情境」(Corner Cases),且各模組之間的資訊傳遞會產生延遲與誤差累積。
為了突破這一瓶頸,特斯拉引入了BEV(鳥瞰視圖)和OCC(占用網路)架構。這一步至關重要,它讓車輛的感知系統從處理多個獨立的2D圖像,躍升為構建一個統一的3D向量空間。簡單來說,汽車終於能像人一樣,將眼前所見整合為一個完整的、帶有深度和空間關係的場景,解決了物體遮擋、距離判斷等難題,實現了從「看得見」到「看得懂」的跨越。
然而,「看得懂」當下還不夠,真正的智慧駕駛需要「能預測」未來。這便催生了VLM(視覺語言模型)與VLA(視覺語言動作模型)的出現。這些模型不再僅僅是辨識物體,而是開始理解場景中的因果關係與動態變化,並生成多種可能的未來行駛軌跡進行評估。這就是典型的「基於模型的強化學習」,是自動駕駛大腦中的「系統2」。當系統1(傳統端到端模型)遇到棘手的複雜路口或突發狀況時,系統2會被啟動,進行更深層次的推理與規劃,從而做出更安全、更像人類的決策。
這條技術路線的演進,也鮮明地反映出美國、日本及臺灣在產業策略上的差異。特斯拉代表的美國模式,是典型的軟體定義、大膽試錯,力求透過演算法的極致創新來顛覆產業。相比之下,日本的豐田(Toyota)、本田(Honda)等傳統車廠,則顯得謹慎許多。它們長期堅持多感測器融合(如光達LiDAR)的硬體冗餘路線,強調系統的穩定性與可靠性,發展步伐更為穩健,但在AI模型的疊代速度上則相對落後。
而臺灣的角色則更為獨特。以鴻海(Foxconn)的MIH電動車平台、台達電(Delta Electronics)的電源與馬達、聯發科(MediaTek)的車用晶片為代表,臺灣在全球自動駕駛產業鏈中,扮演著不可或缺的「軍火庫」角色。臺灣企業提供了最頂尖的硬體零組件與半導體晶片,但較少直接參與最上層的、定義終端使用者體驗的AI大腦軟體競賽。這種產業分工,既是臺灣的優勢,也揭示了未來需要思考的轉型方向。
世界模型與物理AI:為機器人打造虛擬駕訓班
如果說,是否具備「模擬與規劃」能力對於自動駕駛只是「好用」與「可用」的區別,那麼對於通用人形機器人而言,這將是「可用」與「不可用」的天壤之別。
原因很簡單:自動駕駛在本質上是「反物理交互」的。系統的全部目標,就是避免車輛與周遭環境發生任何碰撞。汽車與外界最高頻的物理交互,僅限於輪胎和地面的摩擦。但機器人完全相反,它的核心價值正在於與物理世界進行高頻、精準的交互——拿起水杯、擰開瓶蓋、搬運箱子、操作工具。
每一次交互,都涉及複雜的力回饋、摩擦力、物體重心變化等物理定律。一個未經深思熟慮的動作,後果可能不是撞到護欄,而是捏碎玻璃杯、損壞昂貴設備,甚至對周圍的人造成傷害。因此,機器人不能像自動駕駛那樣在現實世界中大量「試錯」。它迫切需要一個虛擬的「駕訓班」或「健身房」,在那裡可以安全、低成本地進行數十億次的模擬訓練。
這就是「世界模型」與「物理AI」登場的舞臺。
所謂「世界模型」,可以理解為一個由AI驅動的、高度逼真的虛擬世界。它不僅要看起來真實,更重要的是,其運行規則必須嚴格遵守現實世界的物理定律。而「物理AI」,正是賦予這個虛擬世界靈魂的物理引擎。它要能精確模擬剛體動力學、流體力學、軟體變形、電磁效應等,確保機器人在虛擬世界中的每一次抓取、推拉、碰撞,都能得到與現實世界一致的結果。
這個領域的領軍者無疑是輝達(NVIDIA)。其推出的Isaac Sim平台,正是一個專為機器人打造的、基於物理AI的虛擬訓練場。透過這個平台,開發者可以生成海量的、照片級真實的合成數據來訓練機器人的感知模型,並在符合物理規律的環境中,對機器人的控制演算法進行強化學習。這極大地降低了數據收集成本,並指數級地加速了機器人的學習進程。
放眼全球,這再次凸顯了不同區域的產業特色。美國以輝達為首,正試圖建立AI時代的底層作業系統與開發工具,掌握「賣鏟子」的話語權。日本的發那科(FANUC)、安川電機(Yaskawa)等巨頭,則在工業機器人領域深耕數十年,擁有無與倫比的精密製造工藝和硬體控制技術。他們的機器人在高度結構化的工廠環境中表現卓越,但在走向更複雜、非結構化的通用場景時,同樣面臨著智慧化的挑戰。而臺灣,憑藉著台積電(TSMC)在全球半導體製造的霸主地位,成為輝達等AI巨頭最重要的合作夥伴,為這一切宏大的模擬與計算提供了最底層的算力基石。
產業前沿佈局:誰在掌握3D數據與物理引擎的鑰匙?
要構建一個有效的物理AI世界模型,兩大核心要素缺一不可:海量的3D數據資產和強大的物理模擬引擎。
在數據獲取上,目前主要有兩條路徑。一是以美國新創公司Physical Intelligence為代表的「真實數據採集」路線。據報導,他們租下大量公寓,在真實的家居環境中,讓機器人進行操作並收集數據。這種方法數據品質高,但成本極其昂貴,且難以規模化,耗時耗力。
另一條則是更具擴展性的「合成數據」路線,即透過「Sim2Real」(從模擬到現實)與「Real2Sim2Real」(從現實到模擬再到現實)的技術,在虛擬環境中大量生成訓練數據。例如,中國的群核科技,利用其在家居設計領域累積的海量高精度3D模型數據,推出了空間智慧平台Spatial Verse,能夠生成高度逼真、符合物理特性的室內合成環境,為掃地機器人、AR/VR等設備提供訓練數據與仿真環境。這條路徑的成本主要是GPU的算力與渲染成本,其降本路徑遵循摩爾定律,潛力巨大。
而在物理模擬引擎這一更為底層的技術上,除了輝達的PhysX,中國本土也湧現出如索辰科技這樣的稀缺標的。索辰科技源自於工業CAE(電腦輔助工程)領域,其核心技術正是對複雜工業產品進行多物理場的模擬仿真。近期,該公司發布了「開物」物理AI平台,並計畫在世界人工智慧大會上推出「機器人虛擬訓練平台」,這標誌著中國企業正從工業仿真領域,切入到前景更為廣闊的通用機器人訓練賽道。
綜觀全局,一幅清晰的產業地圖已然浮現。美國在AI模型、演算法創新與生態構建上持續引領;日本憑藉其深厚的機器人硬體與精密工藝,在特定領域(尤其是工業自動化)佔據優勢;而臺灣,則以其無可替代的半導體製造能力,為全球的AI革命提供動力心臟。
對於臺灣的投資者與產業人士而言,這場由具身智慧掀起的革命,意味著巨大的機遇。未來的關鍵,不僅在於能否製造出媲美波士頓動力的靈活機器人,更在於能否掌握其背後的「大腦」技術。當前,機器人產業的真正瓶頸,正是從強化學習到模擬學習的跨越。物理AI與世界模型,正是架設在這道鴻溝上的橋樑。誰能率先掌握生成高品質3D合成數據的能力,誰能開發出高效、精準的物理模擬引擎,誰就將在這場通往通用智慧的漫長競賽中,佔據最有利的位置。這不僅是一場技術的較量,更是一場關於未來世界構建權的競賽。


