當前全球汽車產業正經歷一場堪比智慧型手機取代功能型手機的典範轉移。這場變革的核心驅動力,不再是傳統的馬力或機械工藝,而是由資料、演算法與算力共同定義的「智慧駕駛」。過去,先進駕駛輔助系統(ADAS)僅是少數豪華車款的昂貴選配;如今,隨著技術的飛速演進,智慧駕駛正以驚人的速度走向普及化,並在技術路線上迎來了一個關鍵的十字路口。正如當年iOS與Android系統定義了智慧型手機的未來,今日的智慧駕駛領域也分化出兩條截然不同、卻又可能相互融合的主流路徑:一條是讓汽車能「聽懂人話」、更接近人類溝通模式的「VLA(視覺-語言-行動)」模型;另一條則是在車載系統中建立一個「虛擬物理引擎」、能夠在內部推演未來的「世界模型」。這兩條路線的競爭與演進,不僅將決定未來汽車的「大腦」是什麼模樣,更將重塑從美國矽谷的特斯拉、中國的華為與電動車新創公司,到日本的豐田,乃至台灣的鴻海與半導體供應鏈在全球產業格局中的地位與價值。對於身處台灣的投資人與產業人士而言,理解這場技術路線之爭的本質,是掌握下一個十年汽車產業價值的關鍵羅盤。
智慧駕駛的「iPhone時刻」:端到端革命與平權浪潮
在深入探討兩大技術路線之前,必須先理解催生這一切的兩大產業背景:技術架構上的「端到端」革命,以及市場趨勢上的「智慧駕駛平權」。
過去的智慧駕駛系統像一個分工精細、但溝通效率低落的工廠。系統被拆分成感知、預測、決策、規劃、控制等多個獨立模組。每個模組由不同團隊開發,彼此之間靠著預先設定好的規則與介面溝通。這種架構的缺點顯而易見:資訊在層層傳遞中會不斷損耗,就像一個傳話遊戲,最終的決策可能已經偏離了最初的感知。更重要的是,當遇到複雜或罕見的「長尾場景」(Corner Cases),例如路上突然出現一個施工用的三角錐,或是前方車輛掉落異物時,基於規則的系統很容易失靈。
「端到端(End-to-End)」架構的出現,徹底顛覆了這一模式。它就像讓一位學生從頭學習整個學科,而不是只背誦零散的公式。端到端模型用一個統一的深度神經網路,直接將攝影機、光達等感測器輸入的原始資料,轉化為方向盤轉向、煞車、加速等車輛控制指令。這中間不再有複雜的人工規則,而是由模型透過巨量資料學習,自己找到最佳的駕駛策略。這種模式不僅大幅減少了資訊損耗,更重要的是,它具備強大的學習與泛化能力,能更有效地處理複雜的長尾場景。特斯拉(Tesla)的FSD(Full Self-Driving)系統便是這一路線的堅定擁護者與早期實踐者。
與技術革命並行的是市場的快速普及,即「智慧駕駛平權」。根據中國乘聯會與相關產業研究機構的最新資料,2024年第一季度,中國新能源汽車市場L2(部分自動駕駛)及以上智慧駕駛功能的滲透率已攀升至近60%,而在20萬元人民幣以上的中高階車型中,具備高速公路領航輔助駕駛(NOA)等L2+功能的比例更是迅速提升。過去被視為豪華車專屬的智慧駕駛功能,正以前所未有的速度下放到10萬至15萬元人民幣級距的國民車款。以比亞迪(BYD)、吉利(Geely)等傳統大廠為首的「平權推手」,正透過規模化生產與供應鏈整合,將智慧駕駛的成本門檻不斷降低。這場由技術與市場共同驅動的浪潮,為更先進的VLA與世界模型提供了廣闊的商業化土壤。
VLA路線:讓汽車「能聽懂人話」的駕駛大腦
VLA,即視覺(Vision)、語言(Language)、行動(Action)模型的縮寫,是當前智慧駕駛領域最熱門的技術方向之一。它的核心思想是將人類最自然的溝通方式——語言——融入駕駛決策中,讓汽車不僅能「看見」世界,更能「理解」世界。
什麼是VLA?從視覺到行動的無縫對接
我們可以將VLA模型的工作方式類比為與一位經驗豐富的人類司機溝通。當你對司機說:「待會在那個紅色招牌的路口右轉,然後在便利商店前面靠邊停。」司機不僅聽懂了指令,還會結合眼前的視覺畫面(紅色招牌、路口車流、便利商店位置)來規劃並執行一系列複雜的駕駛動作。
VLA模型做的就是類似的事情。它將攝影機捕捉到的視覺資訊,與來自語音指令、導航地圖、交通標誌等文字資訊進行深度整合。透過大型語言模型(LLM)強大的推理能力,系統能理解抽象和複雜的指令,並將其轉化為具體的駕駛策略。例如,當系統識別到「前方道路施工,請繞行」的交通標誌時,它不僅僅是讀懂了文字,而是理解了這個「語義」背後的駕駛意涵,並自主規劃出安全的繞行路線。這種能力,是傳統基於規則或純視覺的端到端模型難以企及的。
中美玩家的競合:小鵬、理想的突圍與Google的佈局
在這條賽道上,中國的電動車新創公司展現出驚人的迭代速度。小鵬汽車(Xpeng)與理想汽車(Li Auto)在2024年相繼宣布其VLA大型模型量產上車,成為全球範圍內最早將此技術推向消費市場的車廠。小鵬汽車將其VLA模型比喻為從「小腦開車」進化到「大腦開車」,強調其在理解複雜場景與人類意圖上的優越性。理想汽車則透過雲端大型模型進行訓練,再「蒸餾」成輕量化模型佈署到車端,以平衡性能與車規級晶片的算力限制。
在大洋彼岸,Google旗下的Waymo作為自動駕駛的先驅,也早已將語言模型融入其系統中,利用其龐大的知識庫來更好地理解動態的駕駛環境。然而,相較於中國車廠直接面向消費者市場的快速迭代,Waymo的商業模式更聚焦於Robotaxi(無人計程車)的特定場景運營。
日本與台灣的角色:從保守漸進到供應鏈核心
相較於中美兩國在VLA等前沿技術上的激進佈局,日本車廠如豐田(Toyota)與本田(Honda)則採取了更為謹慎的漸進式路線。日本企業的策略核心更側重於ADAS功能的極致可靠性與安全性,例如豐田的Toyota Safety Sense和本田的Honda SENSING系統,在全球市場享有極高聲譽。它們的目標是逐步提升輔助駕駛的性能,而不是一步到位地追求完全自動駕駛。這種「步步為營」的策略,雖然在技術話題性上不如中美對手,卻也為其贏得了龐大的用戶信任。
對於台灣而言,機會則在於成為這場智慧革命的核心賦能者。儘管台灣沒有全球性的消費汽車品牌,但其在半導體與資通訊領域的深厚積累,使其在全球智慧駕駛供應鏈中扮演著不可或缺的角色。例如,聯發科(MediaTek)正積極佈局車用SoC(系統單晶片),其Dimensity Auto平台旨在為智慧座艙與自動駕駛提供強大的算力支援。而鴻海(Foxconn)推動的MIH開放電動車平台,其目標是成為電動車時代的「Android系統」,透過模組化、標準化的軟硬體平台,降低造車門檻,這其中自然也包含了智慧駕駛的解決方案。在VLA模型對算力提出更高要求的背景下,台灣的IC設計與晶圓代工(如台積電)產業鏈,無疑是所有玩家都必須依賴的戰略基石。
世界模型路線:打造車載「虛擬物理引擎」
如果說VLA是讓汽車學習人類的「語言與溝通」,那麼世界模型(World Model)路線則是讓汽車學習這個世界的「物理規律與因果關係」。這是一條更底層、更接近通用人工智慧(AGI)的技術路徑。
什麼是世界模型?在「腦中」預演未來
世界模型的核心概念是,在神經網路內部建立一個關於真實世界的微縮模擬器。這個模型不僅能理解當前的環境狀態,還能根據物理規律,預測接下來幾秒甚至更長時間內,環境中各個物體(如其他車輛、行人)可能的動態變化。
這就好比一位頂尖的棋手,他不是只看眼前這一步,而是在腦中推演出未來數十步甚至數百種棋局的可能走向,從而選擇最優的策略。搭載世界模型的汽車,在做出決策前,也能在其內部的「虛擬世界」中進行快速推演。例如,當車輛準備在一個視線被遮擋的路口左轉時,世界模型可以模擬出「如果一輛機車突然從盲區衝出會怎樣?」、「如果對向來車沒有減速會怎樣?」等多種危險情境,並提前生成最安全的因應策略。這種「預判」能力,是實現高階自動駕駛安全性的關鍵。
特斯拉的豪賭與華為的追趕
特斯拉是世界模型路線最堅定的倡議者。其FSD系統的演進方向,正是要擺脫對高精地圖等外部資訊的依賴,僅憑視覺輸入,在車端建立一個能實時運作的世界模型。執行長馬斯克多次強調,要實現真正的自動駕駛,汽車必須像人類一樣,對物理世界有著直覺式的理解。這是一場技術上的豪賭,因為它對演算法的複雜度和車載算力的要求都達到了前所未有的高度。
在中國,華為則是這一領域的強力追趕者。其ADS(Advanced Driving System)智慧駕駛系統同樣強調對場景的連續建模與時序理解。透過「雲端大型模型訓練」與「車端模型推理」的協同架構,華為試圖在車輛的「大腦」中,建立一個能理解複雜交通博弈、並做出類人化決策的內部世界模型。蔚來汽車(NIO)推出的NWM(NIO World Model)也展示了其在該領域的技術雄心,強調能夠在極短時間內推演出數百種可能的行駛軌跡。
全球視野下的挑戰與機遇
世界模型路線的實現門檻極高。它需要天文數字般的真實道路資料來進行訓練,以確保模型能準確反映真實世界的物理規律。同時,它對車載晶片的算力要求也遠超當前主流方案。這也解釋了為何NVIDIA(輝達)的車用晶片(如Drive Orin及下一代Thor)成為各大車廠競相爭搶的戰略資源。
這背後,再次凸顯了台灣在全球科技生態系中的樞紐地位。無論是特斯拉、華為還是NVIDIA,其高階晶片的生產都離不開台積電先進的製程技術。世界模型對算力的無盡渴求,實質上轉化為對台灣半導體產業鏈的持續需求。從另一個角度看,這條技術路線的發展,也為台灣的IC設計公司提供了從消費性電子跨足高價值車用市場的絕佳機會。
投資人的羅盤:在技術分岔口尋找價值
面對VLA與世界模型這兩條看似不同的技術路徑,投資人應如何看待?事實上,兩者並非完全對立,未來更有可能走向融合。VLA的語言理解能力可以成為世界模型與人類互動的介面,而世界模型的物理推演能力則能為VLA的決策提供安全底線。
在這場技術變革中,價值機會分佈在整個產業鏈的不同層級:
1. 整車廠層級:勝出的關鍵不再是產量,而是「資料閉環」的效率。誰能更快地從量產車隊中收集高品質資料,並透過雲端平台高效地訓練、迭代其模型(無論是VLA還是世界模型),誰就能建立起難以逾越的技術護城河。特斯拉、華為合作夥伴(如賽力斯)、理想、小鵬等具備全端自研能力的企業,在這方面佔有先發優勢。
2. 感知層:圍繞光達(LiDAR)與純視覺方案的爭論仍在繼續。世界模型路線的極致目標是擺脫光達,但現階段,在高階智慧駕駛方案中,光達仍被許多車廠視為不可或缺的安全冗餘。這使得速騰聚創、禾賽科技等頭部供應商迎來爆發期。而在純視覺方案中,車載鏡頭、CMOS影像感測器等領域,舜宇光學、韋爾股份等傳統手機供應鏈巨擘正加速切入。
3. 決策層:這是台灣產業鏈的核心優勢區。高階智慧駕駛域控制器與大算力晶片是兵家必爭之地。NVIDIA目前佔據主導地位,但高通(Qualcomm)、聯發科、地平線(Horizon Robotics)等正在奮力追趕。德賽西威等域控制器廠商,透過與車廠深度綁定的「Tier 0.5」合作模式,也找到了新的成長曲線。
4. 執行層:智慧駕駛的指令最終需要透過「線控底盤」(Drive-by-Wire)來執行。線控制動、線控轉向等關鍵零組件正在經歷從外資主導到國產化替代的過程。伯特利、拓普集團等本土供應商憑藉成本與服務優勢,市佔率正快速提升。
總結而言,全球智慧駕駛產業的競爭已進入深水區。VLA與世界模型之爭,本質上是關於如何構建汽車「智慧」的哲學之爭。這場競賽的終局,將誕生真正意義上的「輪式機器人」。對於台灣的投資人與產業而言,這不僅是一場遠在天邊的技術概念辯論,更是一場近在眼前的產業價值重分配。機會不僅在於押寶某一家「下一個特斯拉」,更在於洞察這兩條技術路徑對整個產業鏈——從晶片設計、製造,到感測器、軟體平台——所帶來的結構性需求。在這場通往未來的賽道上,找準自身的生態位,將是抓住下一個黃金十年的不二法門。


