在過去兩年,生成式人工智慧(Generative AI)如同一場海嘯,席捲了全球幾乎所有專業領域。從華爾街的金融分析到矽谷的軟體開發,再到醫院的醫療診斷,ChatGPT等大型語言模型(LLM)所展現出的強大能力,讓許多人相信一場顛覆性的產業革命已經到來。法律界,這個以嚴謹、保守和高度依賴人類智力著稱的古老產業,自然也成為這波浪潮衝擊的焦點。人們普遍預期,AI將能自動化審閱合約、分析判例、甚至草擬法律文件,從而徹底改變律師和法官的工作模式。
然而,當這股AI狂熱逐漸冷卻,期望開始與現實碰撞時,一個更為嚴峻且深刻的問題浮出水面:這些看似無所不知、對答如流的通用型AI,真的能勝任高度專業化、對精確度要求達到100%的法律工作嗎?或者,這場「AI震撼」只是另一場期望過高的技術泡沫?最近一項深入的實證研究,為這個問題提供了一個令人 sobering(發人深省)且極具啟示性的答案。研究結果不僅揭示了當前生成式AI在專業領域的致命弱點,更為我們指出了在AI時代,真正的價值與機會究竟在哪裡。
一場殘酷的對決:通用AI vs. 專業法律任務
為了客觀評估AI在真實法律場景中的能力,研究人員設計了一場極具挑戰性的對決。他們選擇了一項對法律專業人士至關重要,卻又極其繁瑣的核心任務:從法院的判決書中,準確地提取出「法律原則」(Principles of Law, PoLs)。
實驗的背景:從判決書中淘金的「法律原則」
對於不熟悉法律實務的讀者,我們可以將「法律原則」理解為一份判決書的「靈魂」或「核心論點」。它是一段濃縮的文字,闡述了法官在審理特定案件時所依據的核心法律見解或判例精神。這些原則如同金礦中的黃金,是後續案件中律師進行辯護、法官做出裁決的基石。精確地提取這些原則,是法律研究與實踐的基礎。這項工作不僅需要對法律術語有深刻理解,更需要能夠分辨判決書中哪些是事實陳述、哪些是程序說明,哪些才是具有指導意義的法律原則。這是一項高度依賴經驗和判斷力的認知任務。
三方角力:人類專家、ChatGPT、與「老派」的Regex
這場對決共有三組參賽者:
1. 人類專家組: 由三位資深法律領域專家組成,他們負責仔細閱讀60份義大利法院關於LGBTQIA+權益的判決書,手動標註出所有的法律原則。他們的結果被視為此次實驗的「黃金標準」(Gold Standard),是衡量其他兩組表現的基準。
2. ChatGPT組: 研究人員使用當時公開可用的ChatGPT模型,透過精心設計的提示詞(Prompt),要求它從相同的60份判決書中提取法律原則。這代表了當前最先進的通用型AI技術。
3. Regex(正規表示式)組: Regex是一種相對「老派」的電腦技術,可以將其想像成一種超高階版的「尋找與取代」功能。它並不懂得語言的「意義」,而是根據人類設定好的「規則」(例如:尋找所有被引號括起來,且附近有「法院」或「判例」等關鍵字的段落)來進行文本匹配。這代表了一種簡單、規則導向的自動化工具,技術門檻遠低於大型語言模型。
這場實驗的設計精妙之處在於,它不僅比較了AI與人類的差距,更引入了一個簡單的傳統技術作為參照,從而更清晰地揭示出不同技術路線的優劣。
驚人的結果:ChatGPT的慘敗與「笨方法」的勝利
經過對60份總頁數龐大的判決書進行分析後,結果令人大跌眼鏡。
首先,人類專家組作為基準,總共從文件中標註出了682條法律原則。
ChatGPT的表現慘不忍睹。 它總共只提取出161條正確的法律原則,準確率僅為23.5%。更致命的是,在它提取的內容中,還包含了45個嚴重錯誤。這些錯誤分為兩類:16個是將無關的判決事實或程序性文字誤判為法律原則的「非原則(Not-PoL)」;而另外29個,則是完全無中生有、憑空捏造的「幻覺(Hallucination)」。這意味著ChatGPT不僅表現差,而且極度不可靠。
相比之下,「老派」的Regex技術卻取得了驚人的勝利。 它成功提取了365條正確的法律原則,準確率高達53.2%,是ChatGPT的兩倍以上。雖然它也犯了87個錯誤,將一些法律條文或引述誤判為原則,但這些錯誤全部屬於「非原則」類別。換句話說,Regex的錯誤是「高估」了某些文本的重要性,但它從未「發明」不存在的內容。
這場對決的結果再清晰不過:在提取法律原則這項高度專業化的任務上,代表尖端科技的ChatGPT,其表現不僅遠遜於人類專家,甚至被一個簡單、規則導向的傳統工具徹底擊敗。
為何「萬能」的ChatGPT會輸給一個簡單工具?
這個結果引發了一個更深層次的問題:一個能夠寫詩、編程、通過各種專業考試的「萬能」AI,為何會在一個看似並不複雜的文本提取任務上,輸給一個連語意都不懂的簡單工具?答案藏在大型語言模型的根本運作機制及其在專業領域應用的內在矛盾之中。
知識的詛咒:擁有知識不等於懂得應用
實驗中最具諷刺意味的一點是,研究人員用來建立Regex規則的Python腳本,本身就是由ChatGPT生成的。這揭示了一個驚人的事實:ChatGPT在其龐大的知識庫中,完全「知道」如何建構一個更有效的工具來完成這項任務,但它自己卻無法運用這些知識來指導自身的行動。
這就像一位博覽群書的理論物理學家,他能完美背誦所有關於建造橋樑的力學公式,但當你請他親手設計一座橋時,他卻完全不知從何下手。ChatGPT擁有的是龐大的「陳述性知識」(知道是什麼),卻極度缺乏「程序性知識」(知道如何做)以及將二者結合的「推理能力」。它無法將一個複雜任務(提取法律原則)分解成一系列更簡單、可執行的子任務(例如:1. 識別引號;2. 尋找關鍵詞;3. 組合判斷),並整合這些步驟得出一個可靠的結果。這種「知行不一」的現象,是當前生成式AI最根本的限制之一。
通才與專才的戰爭:大型語言模型的「大而不精」
ChatGPT的設計初衷是成為一個「通才」,能夠處理來自各行各業的無數種問題。這種通用性是它最大的優勢,卻也是其在專業領域最大的弱點。為了應對廣泛的任務,它的模型在訓練過程中追求的是一種統計上的「最可能」回答,而非邏輯上的「絕對正確」。
我們可以打個比方:ChatGPT就像一個極其聰明、閱讀量驚人的大學實習生。你可以和他探討從莎士比亞到量子力學的任何話題,他總能給出聽起來頭頭是道的回答。但如果你交給他一份需要絕對精確的財務報表審核工作,他很可能會因為缺乏實務經驗和對細節的嚴謹把握而出錯。而Regex工具,則像一個只會使用Excel巨集的老會計,他不懂詩歌也不懂物理,但他執行自己被設定好的審計規則時,絕不會出錯。在法律這個不容許絲毫差錯的領域,專才的可靠性遠比通才的廣博性來得重要。
「幻覺」的致命風險:在法律與金融領域,99%正確等於100%錯誤
ChatGPT所產生的「幻覺」錯誤,對專業領域而言是災難性的。Regex的錯誤,是將一份法規條文錯誤地標記為法律原則,使用者一眼就能看出這是個分類錯誤,可以輕易忽略。但ChatGPT的「幻覺」是創造出一段看似合理、結構完整、措辭專業,但實際上在原文中根本不存在的「假原則」。
這對於一位依賴AI進行研究的律師來說,後果不堪設想。這相當於一位金融分析師在他的報告中,引用了一個自己編造的財務數據。在法律和金融這類高風險領域,對精確性的要求是絕對的。一個99%準確但會隨機產生致命錯誤的工具,其價值遠不如一個60%準確但所有錯誤都可預測、可控的工具。後者可以作為輔助,前者則是一個定時炸彈。
全球法律科技領域的啟示:美、日、台的現況與未來
這場實驗的結論,不僅僅是對ChatGPT的技術批判,它更為全球正在蓬勃發展的法律科技(Legal Tech)產業提供了極其寶貴的洞見,尤其對美國、日本和台灣的市場參與者具有重要的戰略參考價值。
美國市場:從通用平台到垂直整合的趨勢
美國作為全球AI和法律科技的領導者,其市場動態最能反映產業趨勢。以OpenAI技術為核心的Harvey AI等新創公司,代表了試圖用一個強大的通用模型解決所有法律問題的「平台化」思維。然而,上述實驗結果對這種模式提出了嚴峻挑戰。與此同時,我們看到另一股趨勢正在崛起:傳統法律資訊巨頭如Thomson Reuters(湯森路透)和LexisNexis(律商聯訊)正加速將AI整合進其深耕多年的垂直領域產品中。例如,湯森路透收購了專注於法律研究的AI公司Casetext。這種策略是將AI作為「增強器」,去優化一個已經被驗證的、高度專業化的任務,而非試圖用AI取代所有。實驗結果顯然更支持後一種「垂直整合」的模式。
日本經驗:專注於合約審查的精準打擊
日本的法律科技市場為我們提供了一個絕佳的對照。與美國市場的宏大敘事不同,日本的成功企業,如LegalOn Technologies和MNTSQ,從一開始就選擇了一條極度專注的道路:AI合約審查。它們沒有試圖打造一個無所不能的法律AI大腦,而是將所有資源投入到解決「審閱日文商業合約」這一個具體、高頻且痛點明確的任務上。它們的AI工具被訓練用來識別合約中的潛在風險條款、缺漏項目或不一致的定義。這種「精準打擊」的策略與實驗中Regex工具的勝利邏輯不謀而合——專注於解決一個定義清晰的問題,其效果遠勝於泛泛的通用模型。
台灣的機會:利基市場與數據優勢
對於台灣的投資者和創業者而言,這項研究的啟示尤為重要。試圖打造一個能與ChatGPT匹敵的基礎大型語言模型,不僅需要天文數字的資金投入,更可能陷入「大而不精」的陷阱。台灣真正的機會,在於利用本地化的法律體系與繁體中文的數據優勢,開發高度專業化的利基市場(Niche Market)工具。
例如,像「Lawsnote 法學資料庫」這樣的公司,已經在法律資料檢索和分析領域建立了深厚的基礎。未來的發展方向,不應是追求一個能與律師對話的通用AI,而應是開發出能夠精準完成特定任務的「AI增強工具」。例如:專門用於分析台灣勞動法規判例的AI模型、能自動比對政府採購合約與相關法規的工具,或是針對台灣特殊稅法進行風險提示的系統。這些應用看似「不夠性感」,卻能解決真實世界的問題,創造實質的商業價值。繁體中文的法律文件本身,就是一道天然的護城河,為專注於此的台灣企業提供了獨特的競爭優勢。
結論:投資人與企業家該如何看待AI的下一步?
ChatGPT在專業法律任務上的失敗,絕不代表AI的失敗。恰恰相反,它為我們揭示了AI技術走向成熟的必經之路:從天花亂墜的通用化炒作,回歸到腳踏實地的專業化應用。
對於投資人和企業家而言,這項研究提供了清晰的行動指南。當評估一個AI專案或公司時,我們應該拋開那些「顛覆產業」、「取代人類」的宏大敘事,轉而提出更具體的問題:
1. 這個AI工具試圖解決的是一個定義清晰的具體問題,還是一個模糊的通用問題?
2. 它在高風險環境下的可靠性如何?它的錯誤是可預測的,還是災難性的「幻覺」?
3. 它是在一個利基市場中利用數據優勢建立護城河,還是試圖在通用平台上與科技巨頭正面競爭?
AI革命的浪潮真實存在,但真正的寶藏並不在浪潮之巔的泡沫中,而在那些能夠利用AI技術,精準解決特定產業「枯燥」問題的深水區。未來,最成功的模式將不是AI取代人類專家,而是人類專家手持為他們量身打造的、高度專業化、絕對可靠的AI工具,共同提升效率與決策品質。看清這一點,才能在這場漫長的技術變革中,找到真正具備長期價值的投資標的。


