最近一段由伊隆・馬斯克發布的影片再次引爆了科技圈:影片中,特斯拉的Optimus人形機器人不再只是緩慢地行走或搬運箱子,而是能夠流暢地整理衣物、分類物品,甚至在工廠生產線上執行精細的操作。這背後代表的意義遠比展示本身更為深遠——過去數十年,機器人產業的競爭核心始終圍繞在更精密的馬達、更靈活的關節等「肢體」層面,但如今,戰場的重心已然轉移。真正決定下一代機器人價值的,不再是其鋼筋鐵骨的身軀,而是那顆能夠自主感知、理解、並與物理世界互動的「大腦」。這場圍繞「具身智能」(Embodied AI)核心的競賽,正悄然定義著未來十年全球科技與工業的版圖。
對於習慣了智慧手機和雲端運算的我們而言,AI似乎早已無所不在。然而,傳統的AI模型,例如你我熟知的ChatGPT,更像一個博學的「數位大腦」,它們生活在數據和文字構成的虛擬世界中。而具身智能,則是為這個大腦裝上「身體」,讓它能夠在真實的物理世界中行動、感知並完成任務。這不僅僅是軟體與硬體的簡單相加,而是一場徹底的革命。一個真正智能的機器人,需要理解「拿起那顆蘋果」這句指令時,不僅要辨識出哪個是蘋果,還要理解「拿起」這個動作需要多大的力道、何種角度,以及蘋果的脆弱性。這正是當前所有頂尖科技公司面臨的最大挑戰,也是人形機器人能否走出實驗室、大規模應用的關鍵瓶頸。
為何「大腦」成為兵家必爭之地?
傳統的工業機器人,就像是只會執行固定程式的計算機。它們可以在汽車生產線上日復一日地重複焊接、噴漆等動作,精準度極高,但一旦環境稍有變化,例如零件位置偏移了幾公分,它們就會束手無策。這種僵化的模式限制了機器人的應用場景。然而,搭載了先進AI模型的「大腦」,則賦予了機器人前所未有的適應性與泛化能力。
這個「大腦」與我們熟悉的語言模型(LLM)有本質上的區別。語言模型的核心任務是預測下一個詞彙,它擅長處理文字、邏輯和常識,卻不理解物理定律。你可以問它如何泡一杯咖啡,它會給你一份完美的步驟清單,但它無法親手操作咖啡機。機器人大腦則必須彌合數位指令與物理行動之間的巨大鴻溝。它需要整合視覺、聽覺、觸覺等多模態感官資訊,對三維空間進行即時理解,並將「泡咖啡」這個抽象任務拆解成一系列精確到毫米和毫秒的電機控制指令。
因此,開發具身智能的「大腦」成為了最艱鉅的任務。其困難之處在於數據的取得。語言模型可以輕易地從網路上抓取數兆字元的文本資料進行訓練,但機器人的行為數據卻極度稀缺且難以標準化。每個機器人的硬體結構、感測器配置都不同,導致數據難以共通。更重要的是,真實世界的物理互動充滿了不確定性,一個簡單的抓取動作,就可能因為物體表面的滑溜程度、光線的變化而產生千萬種不同的數據結果。這就解釋了為何當前全球科技巨頭與新創公司,都在不惜血本地建立自己的數據採集和模擬平台,因為誰掌握了高品質的數據,誰就掌握了訓練出更聰明「大腦」的鑰匙。
三大技術路徑的殊途同歸
在這場「大腦」的軍備競賽中,全球的研發團隊正兵分三路,探索著通往通用具身智能的技術路徑,儘管方法各異,但目標都是打造出一個能適應複雜現實世界的智慧體。
第一條路徑,也是目前最受矚目的,是「端到端(End-to-End)VLA模型」。VLA是「視覺-語言-動作」(Vision-Language-Action)的縮寫,其核心思想是建立一個單一的、巨大的神經網絡模型,直接將攝影機捕捉到的視覺畫面和人類的語言指令,轉化為機器人關節的具體動作指令。這種做法的優點是極為簡潔,減少了中間環節的資訊損失,理論上能達到最流暢、最接近生物本能的反應。特斯拉的Optimus和新創公司Figure AI的機器人,都是這條路線的忠實擁護者。然而,其挑戰也最大,它就像一個巨大的「黑盒子」,訓練過程難以解釋和修正,且對數據量的要求極高。
第二條路徑,是更為務實的「大腦+小腦」分層架構。這條路線將複雜的任務進行拆解。由一個大型的多模態模型擔任「大腦」,負責理解高層次的指令(例如「整理房間」),並將其規劃成一系列子任務(如「找到垃圾」、「拿起垃圾」、「扔進垃圾桶」)。而每個子任務的具體執行,則交由專門負責運動控制的「小腦」模型來完成。這種模組化的設計,如同企業中的CEO與部門經理,分工明確,更易於開發、偵錯和升級。目前,這也是最多研究機構和企業採用的主流方案,它在可靠性和可解釋性之間取得了很好的平衡。
第三條路徑,則是最具前瞻性、也最富科幻色彩的「世界模型(World Models)」。這條路線的目標,是在AI的內部建立一個能夠模擬真實世界物理規律的虛擬環境。機器人可以在這個「內心世界」中進行預演和推算,預測不同動作可能導致的後果,從而找出最優的行動方案。例如,在推一個杯子之前,它會在腦中模擬「如果我用太大的力氣,杯子會倒」,從而調整自己的動作。這條路徑一旦成功,將賦予機器人真正意義上的預判和推理能力,但目前其技術仍處於非常早期的探索階段,距離實際應用還有很長的路要走。
全球玩家大點兵:一場價值千億美元的豪賭
這場圍繞機器人大腦的競賽,吸引了從科技巨擘到靈活新創的各路玩家,估值數字不斷刷新人們的想像。
美國的兩家新創公司Physical Intelligence(PI)和Skild AI,正以驚人的速度崛起。PI專注於通用家用機器人,其開發的π系列基礎模型,旨在讓機器人能夠在從未見過的家庭環境中自主完成清潔、整理等任務,其背後的核心是利用異構數據(涵蓋真實與模擬數據)進行協同訓練,最新估值已超過24億美元。而Skild AI則更加野心勃勃,其目標是打造一個適用於所有不同形態機器人(從人形到機械臂)的通用「大腦」。他們採取軟硬體分離的策略,致力於成為機器人產業的「作業系統」供應商,賦能其他硬體製造商,公司估值在短短時間內已飆升至45億美元。
相比之下,巨頭們的佈局則更為深遠。特斯拉Optimus的核心優勢在於其與FSD自動駕駛系統同源的技術架構,這意味著特斯拉在真實世界數據採集和端到端模型訓練上擁有無可比擬的優勢。其目標是打造一個能在任何環境下工作的通用勞動力。而Figure AI則透過與OpenAI的合作,迅速補齊了其在大型語言模型上的短板,其Helix模型在多模態融合與快速技能遷移上表現出色,已經成功部署在寶馬的汽車工廠中進行測試,展示了其商業化的巨大潛力。
台灣與日本的機會與挑戰:從硬體製造到軟體賦能
這場由AI大腦引領的機器人革命,對傳統的工業強國日本和以硬體製造見長的台灣,帶來了全新的機遇與挑戰。
日本長期以來是全球工業機器人的霸主,發那科(FANUC)、安川電機(Yaskawa)等品牌在全球工廠中佔據著絕對的領導地位。然而,它們的優勢主要集中在精密機械和運動控制等「小腦」和「肢體」層面。面對這波以AI為核心的「大腦」革命,日本企業顯得有些轉身緩慢。它們擁有龐大的工業應用場景和數據,但在最前沿的大模型演算法研發上,暫時落後於美國的科技巨頭和新創公司。軟銀集團(SoftBank)曾憑藉Pepper機器人試圖敲開消費級市場的大門,但最終因智能化程度不足而未獲成功,這也反映出軟體和AI能力的短板。如今,日本企業正積極尋求合作與轉型,試圖將其深厚的硬體工藝與外部的AI技術相結合。
對於台灣而言,這場變革的意義則更為複雜。台灣在全球科技產業鏈中扮演著不可或缺的「軍火庫」角色。從台積電的頂尖晶片,到鴻海(富士康)的精密組裝,再到台達電的電源與散熱模組,台灣企業幾乎包辦了所有智慧硬體的「身體」零件。在人形機器人的浪潮中,台灣供應鏈無疑將再次成為核心的硬體提供者。鴻海也早已佈局機器人領域,並展示了自家的解決方案。
然而,真正的挑戰在於,台灣產業能否從「製造身體」成功轉向「賦能大腦」?過去,台灣的成功模式是將硬體製造的效率與成本控制做到極致。但在具身智能時代,產業的價值核心正快速向軟體、演算法和數據轉移。一個機器人的價值,可能90%取決於其AI大腦的聰明程度,而非其硬體成本。這對習慣了硬體思維的台灣企業來說,是一個巨大的轉型考驗。未來的機會,或許在於利用台灣強大的半導體與ICT產業基礎,開發專用於機器人「大腦」的高效能運算晶片,或者結合特定的工業場景(如半導體製造、精密加工),開發專用領域的具身智能解決方案,從利基市場切入,逐步建立軟體實力。
投資者的下一步:如何看懂這盤棋?
對於投資者而言,具身智能無疑是未來十年最值得關注的賽道之一。但這也是一條充滿不確定性的道路。技術路線仍在快速演進,今天的領先者可能在明天就被顛覆。高昂的研發投入和漫長的商業化週期,意味著這是一場屬於少數巨頭和頂級資本的豪賭。
然而,我們可以確定的是,產業的價值鏈正在被重塑。過去,投資機器人產業可能更關注減速器、伺服電機等核心零組件供應商。未來,目光需要更多地投向那些擁有強大AI模型研發能力、掌握高品質數據來源、並能將軟硬體進行高效整合的公司。這場競賽的終局,獲勝者將不僅僅是賣出更多的機器人,而是定義下一代勞動力的標準,其影響將滲透到製造、物流、醫療、家庭服務等社會的各個角落。最終,那個能率先打造出通用、可靠且可負擔的機器人「大腦」的企業,將開啟一個遠超當前所有科技市場的全新時代。


