2025 年 6 月,MIT Media Lab 發表了一項令人不安的腦電波研究:當人類使用 ChatGPT 撰寫文章時,大腦的神經連結性降低了高達 55%——比使用搜尋引擎時的 34-48% 降幅更為劇烈。[1]更令人震驚的是,83% 的 ChatGPT 使用者無法回憶自己用 AI 輔助撰寫的文章中的關鍵論點——他們寫了文章,卻不記得自己寫了什麼。同年,Wharton 商學院發表於《美國國家科學院院刊》(PNAS)的田野實驗揭示了一個教育悖論:不受限制使用 GPT-4 的高中生在練習中成績提升 48%,但在隨後沒有 AI 的考試中成績反而下降了 17%。[2]Brookings Institution 的跨 50 國研究將這個現象命名為「AI 依賴的厄運循環」(doom loop of AI dependence)——學生將思考外包給 AI,認知能力萎縮,更加依賴 AI,能力進一步退化。[3]Lancet 刊登了第一篇臨床去技能化的實證研究——使用 AI 輔助大腸鏡檢查的醫師,在 AI 被移除後,腺瘤偵測率下降了 20%。[4]這些來自神經科學、教育、醫療與軟體工程的實證數據,共同指向一個深刻的警告:AI Agent 不僅在改變我們的工作方式——它正在改變我們的思考方式。而這個改變,可能不是向更好的方向。
一、認知外包的神經科學證據:你的大腦正在改變
2008 年,《大西洋月刊》的封面故事提出了一個世代性的問題:「Google 是否正在讓我們變笨?」作者 Nicholas Carr 觀察到,長期使用網際網路正在改變人類的認知模式——從深度閱讀轉向淺層掃描,從專注思考轉向分散注意力。[5]兩年後,Carr 在《The Shallows》一書中以神經可塑性(neuroplasticity)的科學理論為基礎,系統性地論證了這個觀點:大腦會根據使用模式重新塑造自身——如果我們持續以碎片化的方式獲取資訊,大腦的深度處理迴路將逐漸弱化。這個論點在當時引發了激烈辯論,但十七年後,MIT Media Lab 的腦電波研究提供了 Carr 框架最直接的神經科學驗證——只是這一次,我們面對的不是搜尋引擎,而是生成式 AI。
MIT Media Lab 的 Nataliya Kosmyna 團隊設計了一項精密的實驗。[1]54 名受試者被隨機分為三組:僅用自己大腦撰寫文章的「純腦組」、使用搜尋引擎輔助的「搜尋組」、以及使用 ChatGPT 輔助的「LLM 組」。在整個撰寫過程中,研究者使用腦電圖(EEG)即時量測受試者的大腦活動。結果呈現了一個清晰的梯度:搜尋組的腦區間連結性比純腦組降低了 34-48%,LLM 組則降低了高達 55%。用研究者的話來說,大腦連結性「隨著外部支援的增加而系統性地降低」。
更深層的發現在於事後的記憶測試。83% 的 ChatGPT 使用者無法回憶自己文章中的關鍵論點——他們生產了一篇文章,卻沒有將其內容編碼進長期記憶。這不是偶然的健忘——它反映了一個根本性的認知機制:當大腦預期外部工具會「記住」資訊時,它會降低自身的編碼努力。心理學家將這個現象稱為「Google 效應」(Google effect)或「數位健忘症」(digital amnesia),最初由 Betsy Sparrow 在 2011 年的實驗中發現。但 MIT 的研究將這個概念推進了一步——與搜尋引擎不同,生成式 AI 不僅「記住」資訊,更「生產」資訊,使得人類大腦在整個認知鏈——從構思、組織到表達——的參與度都大幅降低。
研究者使用了「認知債」(cognitive debt)這個概念來框架他們的發現——這個詞彙在不同的學術脈絡中被獨立提出:MIT Media Lab 用它描述神經認知層面的退化,而維多利亞大學的 Margaret-Anne Storey 教授在 2026 年 2 月用它描述軟體工程中開發者對程式碼理解的流失。[6]兩個用法看似不同,但指向同一個結構性問題:當 AI 代替人類執行認知任務時,人類不僅失去了產出,更失去了在產出過程中建構的理解。
這個發現的制度意涵深遠。在知識經濟中,人力資本的核心不是「知道什麼」,而是「如何思考」——批判性思考、問題框架化、跨領域整合。如果 AI 工具正在系統性地降低大腦在這些高階認知功能上的活躍程度,那麼長期使用 AI 的知識工作者可能面臨一個悖論:他們的即時產出增加了,但他們的認知能力——即生產這些產出所需的根本能力——正在退化。這就像一個運動員使用機械外骨骼跑得更快,但他自身的肌肉正在萎縮——只要外骨骼持續運作,一切看起來都很好,但一旦外骨骼故障,他可能連走路都困難。
二、教育前線的去技能化危機:從 Wharton 實驗到全球警報
如果 MIT 的研究揭示了認知外包的神經學機制,那麼 Wharton 商學院的 Hamsa Bastani 團隊發表於 PNAS 的田野實驗則揭示了其教育後果——而且後果比許多人預期的更加嚴峻。[2]
研究團隊在土耳其進行了一項大規模田野實驗,約 1,000 名高中生被隨機分為三組:無 AI 的對照組、不受限制使用 GPT-4 的「GPT Base」組、以及使用經過精心設計的「GPT Tutor」組(AI 提供引導性提示而非直接答案)。在為期數週的數學練習中,GPT Base 組的成績比對照組高出 48%,GPT Tutor 組更是高出 127%。這些數字看似是 AI 教育革命的有力證據。然而,在隨後進行的、沒有任何 AI 工具的期末考試中,結果出現了戲劇性的逆轉:GPT Base 組的成績比對照組低了 17%。
這 17% 的成績下降,不是一個統計噪音——它是一個結構性的學習傷害。當學生不受限制地使用 GPT-4 時,他們實際上跳過了學習過程中最關鍵的步驟:掙扎、犯錯、修正、理解。教育心理學的研究長期以來都表明,「合意困難」(desirable difficulties)——即學習過程中的適度挫折與挑戰——是深度學習的必要條件。AI 消除了這些困難,也同時消除了學習本身。
但 Wharton 實驗最重要的發現不是問題,而是解方。GPT Tutor 組——使用了經過精心設計的護欄的組別——在期末考試中的表現與對照組沒有顯著差異。[7]也就是說,當 AI 被設計為「提供提示而非直接答案」時,學習傷害幾乎完全消失。這個發現具有重大的政策意涵:問題不在於「是否使用 AI」,而在於「如何設計 AI 與人類的互動介面」。一個直接提供答案的 AI 工具和一個引導學生思考的 AI 工具,在表面上看起來差異不大,但對學習結果的影響卻是天壤之別。
Brookings Institution 在 2026 年 1 月發布的大規模全球研究,將個別的實驗發現連結為一幅全球性的圖景。[3]研究團隊歷時一年,在 50 多個國家進行焦點團體訪談與深度調查,涵蓋 K-12 學生、家長、教師與科技專家。結論是嚴峻的:56% 的回饋強調了 AI 的危害,僅 44% 提及好處。研究者識別出一個「AI 依賴的厄運循環」——學生使用 AI 完成作業,認知能力因缺乏練習而萎縮,萎縮的認知能力使他們更加依賴 AI,依賴進一步加速認知萎縮。這不是一個理論假說——研究者在 50 個國家的教育現場觀察到了這個循環的具體展現。
Gartner 的預測將教育問題延伸到了職場。2025 年 10 月,Gartner 在年度 IT 研討會上發布了一項引人注目的預測:到 2026 年,由於生成式 AI 的使用導致批判性思考能力退化,50% 的全球組織將被迫要求進行「無 AI」的技能評估。[8]在金融、醫療、法律等高風險產業中,能夠獨立思考的人才將變得稀缺,企業的人才取得成本將因此上升。Gartner 同時預測,到 2027 年,75% 的招聘流程將要求提供職場 AI 熟練度的認證——形成了一個「技能悖論」:企業既需要員工能夠熟練使用 AI,又需要他們能夠在沒有 AI 的情況下獨立思考。
Anthropic 的 Judy Hanwen Shen 與 Alex Tamkin 在 2026 年 1 月發表的研究,從不同角度驗證了 Wharton 實驗的發現。[9]他們招募了 52 名專業程式設計師,隨機分組學習一個新的非同步程式庫。使用 AI 輔助的組別在技能評估中得分比對照組低了 17%——這個差異在初學者、中階與專家程式設計師之間都是統計顯著的。更精細的分析揭示了六種不同的 AI 互動模式,其中三種保留了學習效果(例如向 AI 請求解釋而非直接要求答案),另外三種則嚴重損害了學習。完全委託 AI 的受試者得分最低,而向 AI 請求解釋的受試者得分最高——再一次印證了 Wharton 實驗的核心發現:決定學習結果的不是是否使用 AI,而是如何使用 AI。
三、自動化諷刺與臨床去技能化:從理論到醫療實證
1983 年,英國人因工程學(human factors)專家 Lisanne Bainbridge 在 Automatica 期刊發表了一篇僅五頁的論文,標題為「自動化的諷刺」(Ironies of Automation)。[10]這篇論文提出了自動化研究中最經典的悖論:自動化程度越高,人類操作員的角色就越關鍵——因為只有人類能處理自動化無法應對的異常狀況——但自動化同時又侵蝕了人類處理這些狀況所需的技能與警覺性。Bainbridge 用核電廠控制室的例子說明:操作員在 99% 的時間裡只是監視自動化系統的運作,但在 1% 的異常狀況中,他們必須立即做出高度複雜的判斷——而長期的監視無為恰恰削弱了他們做出這些判斷的能力。
四十二年後,Bainbridge 的理論預言在一個她未曾想像的領域——AI 輔助醫療——得到了第一個臨床實證。2025 年 8 月,Lancet Gastroenterology & Hepatology 刊登了一項多中心觀察研究,由波蘭四個醫療中心的 Krzysztof Budzyn 團隊進行。[4]研究涉及 19 名資深大腸鏡檢查醫師(內視鏡醫師),他們在參與 ACCEPT 臨床試驗期間使用了 AI 輔助偵測系統(CADe),隨後在試驗結束後回到沒有 AI 的工作環境。研究追蹤了 1,443 例大腸鏡檢查的結果。
結論令人震驚:在使用 AI 之前,這些醫師的腺瘤偵測率為 28.4%;在使用 AI 一段時間後回到無 AI 的環境,偵測率下降至 22.4%——相對下降了 20%。這不是新手醫師的數據,而是有多年經驗的資深醫師。更重要的是,這不是一個實驗室環境中的模擬結果——它是真實臨床場景中、涉及真實患者的去技能化證據。腺瘤偵測率的下降直接影響大腸癌的早期發現,進而影響患者的存活率。在人因工程學的文獻中,這是首次在臨床醫學領域觀察到自動化導致的去技能化效應,其意義遠超大腸鏡檢查的狹窄範圍。
Lancet 研究的結構性意涵值得深思。如果 AI 輔助偵測系統確實提高了使用期間的偵測率(ACCEPT 試驗中 AI 組的偵測率為 54.8%,顯著高於非 AI 組的 40.4%),但同時導致了醫師在 AI 移除後的能力退化,那麼我們面臨的是一個典型的「鎖定效應」(lock-in effect):一旦開始使用 AI,就無法安全地停止使用——因為停止使用不是「回到原點」,而是「退到比原點更差的狀態」。在Bainbridge 的框架中,這正是自動化最深刻的諷刺:我們引入自動化是為了超越人類能力的限制,但自動化的副作用是進一步縮小了人類能力的邊界,使我們對自動化的依賴不是選擇,而是必然。
這個去技能化悖論在軟體工程中同樣存在——而且可能更加嚴重。如我在先前的分析中所討論的,Vibe Coding 革命正在瓦解初階工程師的培養管道。[6]當 AI 代替初階開發者完成大部分程式碼撰寫時,這些開發者失去了培養「程式碼直覺」(code intuition)的機會——就像 Lancet 研究中的醫師失去了培養「視覺偵測直覺」的機會。不同的是,大腸鏡檢查的去技能化可以在幾個月內觀察到(因為偵測率可以直接量測),而軟體工程的去技能化可能需要數年才能顯現——當它顯現時,可能已經造成了不可逆的人才斷層。
在AI Agent 經濟的脈絡中,去技能化悖論的影響更為深遠。當 OpenClaw 等代理式 AI 框架讓使用者能夠透過自然語言指揮 AI Agent 完成完整的工作流程時,人類不僅是在外包個別的認知任務,而是在外包整個認知過程——從問題定義、方案設計到執行與評估。如果使用 ChatGPT 撰寫文章已經能使大腦連結性降低 55%,那麼使用 AI Agent 管理整個工作流程,對認知能力的影響將是什麼?目前尚未有直接的實證研究,但基於 Bainbridge 理論的邏輯推演,答案不太可能令人安心。
四、認知債的制度後果:企業、專業與國家層面
Microsoft Research 在 2025 年 CHI 大會上發表的研究,提供了認知外包在職場中最全面的實證圖景。[11]研究團隊調查了 319 名知識工作者,收集了 936 個生成式 AI 使用實例。受試者自我報告的認知努力降低程度,在 Bloom 分類法(教育心理學中評估認知層次的經典框架)的各個層次上都是驚人的:知識層次降低 72%、理解層次降低 78%、應用層次降低 70%、分析層次降低 71%、綜合層次降低 76%、評估層次降低 55%。
這些數字的結構值得細讀。降低幅度最大的是「理解」層次(78%),最小的是「評估」層次(55%)——這恰恰反映了當前 AI 的能力輪廓:生成式 AI 擅長資訊整合與摘要(對應理解層次),相對較弱於價值判斷與批判性評估(對應評估層次)。然而,即使在 AI 相對較弱的評估層次,認知努力的降低仍然達到 55%——超過一半。研究者觀察到的不僅是量的變化,更是質的轉變:批判性思考的性質從「資訊蒐集」轉變為「資訊驗證」,從「問題解決」轉變為「整合 AI 輸出」,從「高階思考」轉變為「管理 AI」(stewarding)。
這個從「思考者」到「管理者」的角色轉變,在個人層面或許是一種效率提升——正如研究者指出的,許多受試者報告自己的工作品質提高了。但在制度層面,它引發了一系列結構性的問題。
第一,專業判斷力的系統性退化。在法律、醫療、金融等專業領域,從業者的核心價值不在於資訊蒐集(AI 可以更快更全面地完成),而在於專業判斷——在不完全資訊下做出權衡、在衝突的證據間做出裁斷、在複雜的利害關係中找到平衡。當這些專業人士的認知努力在所有 Bloom 層次上都降低 55-78% 時,他們的專業判斷力是否也在同步退化?Lancet 的大腸鏡研究提供了醫療領域的實證;Shen & Tamkin 的程式設計研究提供了軟體工程領域的實證。但在法律、金融、政策分析等領域,類似的實證研究目前仍然缺乏——這本身就是一個令人擔憂的知識缺口。
第二,組織知識的脆弱化。在我過去為世界銀行、聯合國進行政策研究的經驗中,我深刻體會到:組織的核心能力不僅存在於個人的頭腦中,更存在於團隊成員之間的共享理解——對問題的共同框架、對方法論的共識、對品質標準的默契。當每個成員都將大部分認知工作外包給 AI 時,這種共享理解的建構過程被削弱了——每個人都有自己的 AI 輸出,但團隊缺乏共同的認知經歷。這在軟體工程中已被 Storey 教授識別為「認知債」的組織維度;[6]但它在所有知識密集型組織中都同樣存在。
第三,國家層面的認知韌性風險。Brookings 的 50 國研究將認知外包的問題從組織層面提升到了國家層面。[3]當一個國家的教育體系大規模採用 AI 工具,而缺乏 Wharton 實驗所揭示的那種精心設計的護欄時,整個世代的學生可能在「AI 依賴的厄運循環」中長大——他們能夠使用 AI 產出高品質的作業,但缺乏獨立思考的能力。在地緣政治日益緊張的時代,國家的認知韌性——其公民獨立思考、批判性分析、創造性解決問題的集體能力——是一種戰略資產。正如我在分析人才與國力關係時所強調的,人力資本的品質是國家競爭力的基礎。如果 AI 工具正在系統性地侵蝕這個基礎,那麼對 AI 教育應用的治理就不僅是教育政策問題,更是國家安全問題。
第四,AI 供應鏈的地緣政治脆弱性。當企業與國家將越來越多的認知功能外包給 AI 系統時,這些 AI 系統的供應鏈——從半導體製造、模型訓練到 API 服務——就成為了認知基礎設施的一部分。如同我在分析數位主權時所指出的,當核心能力依賴於外部供應商時,供應鏈的中斷將不僅是商業中斷,更是認知中斷。Lancet 研究的去技能化發現使這個風險更加嚴峻:即使 AI 服務恢復,在中斷期間暴露出的人類能力退化可能已經造成了不可逆的損失。
五、重建認知主權:AI 素養框架與人機協作的正確架構
面對認知外包的結構性風險,解方不是拒絕 AI——這既不可能也不明智——而是設計正確的人機協作架構。Wharton 實驗的核心發現提供了最重要的線索:精心設計的護欄可以消除 AI 對學習的傷害。[2]GPT Tutor 組的成功證明,關鍵不在於是否使用 AI,而在於 AI 的互動設計——一個提供提示而非直接答案的 AI,與一個直接提供答案的 AI,對人類認知的影響是根本不同的。
OECD 與歐盟委員會在 2025 年聯合發布的 AI 素養框架,為制度層面的回應提供了一個起點。[12]這個框架以 Code.org 與國際專家小組的協助開發,定義了中小學教育中 AI 素養的四大核心能力:參與 AI(Engage with AI)——理解 AI 的基本原理與限制;運用 AI 創造(Create with AI)——能夠有效地與 AI 協作完成任務;管理 AI(Manage AI)——能夠批判性地評估 AI 的輸出並識別偏見;設計 AI(Design with AI)——理解 AI 系統的設計決策及其社會影響。這個框架的核心理念是:AI 素養不僅是「如何使用 AI」的技術能力,更是「如何在 AI 時代獨立思考」的認知能力。
然而,框架只是起點。將其轉化為有效的教育實踐,需要回答幾個關鍵的設計問題。
第一,「認知健身」(cognitive fitness)的概念。就像身體健康需要定期運動——即使有電梯也應該偶爾走樓梯——認知健康也需要定期的「無 AI 思考練習」。Gartner 預測的「無 AI 技能評估」是這個概念在企業中的一種實現形式;但更系統性的做法是將「認知健身」嵌入教育課程與專業發展的設計中。[8]例如,醫學教育可以在 AI 輔助訓練與「無 AI 診斷練習」之間交替進行,確保醫師的獨立判斷力不會因 AI 輔助而退化——Lancet 研究的發現使這個建議從理論建議變成了臨床必要。
第二,互動設計的「認知保護」原則。Wharton 實驗中 GPT Tutor 的成功,以及 Shen & Tamkin 研究中「向 AI 請求解釋」策略的有效性,共同指向一個設計原則:AI 工具應該被設計為增強人類思考,而非替代人類思考。[9]具體而言,這意味著 AI 應該優先提供框架、提示與反饋,而非直接提供完成的產出。在軟體工程中,這意味著 AI 編程工具應該能夠解釋其設計決策,而不僅是生成程式碼。在醫療中,這意味著 AI 診斷輔助應該標示出它觀察到的異常特徵,而非直接給出診斷結論。這個原則的核心是:AI 的輸出應該是人類思考的「輸入」,而非「替代品」。
第三,制度層面的「認知韌性」審計。正如企業進行財務審計、資安審計,未來的企業治理可能需要加入「認知韌性審計」——評估組織在 AI 工具不可用時,其核心業務功能是否仍能維持可接受的品質水準。[13]這個概念在企業數位韌性的框架中已有討論;認知外包的實證研究使它從一個前瞻性建議變成了一個迫切的治理需求。具體的審計項目可能包括:關鍵崗位人員在無 AI 環境下的專業能力測試、AI 供應鏈中斷的應急計畫、以及組織內部知識傳承機制的健全性評估。
第四,國家層面的 AI 教育治理。台灣在 2025 年通過了人工智慧基本法,為 AI 治理提供了法律框架。但在教育領域的 AI 治理,目前仍缺乏具體的政策指引。基於 Brookings 的全球研究發現——56% 的回饋強調 AI 在教育中的危害——台灣需要一個明確的 AI 教育政策,既避免盧德主義式的全面禁止,也避免不加護欄的全面開放。OECD 的 AI 素養框架提供了一個參考架構,但需要根據台灣的教育脈絡進行本土化。
在我的觀點中,認知外包的挑戰最終指向一個更深層的問題:在 AI 時代,什麼是「人」的不可替代價值?如果 AI 可以更快、更全面地蒐集資訊,更流暢地撰寫文本,更精確地偵測異常——那麼人類在認知鏈中的角色是什麼?MIT 的研究、Wharton 的實驗、Lancet 的臨床數據、Microsoft Research 的職場調查,共同指向一個答案:人類的不可替代價值不在於「執行認知任務」的效率,而在於「理解為什麼要執行這個任務」的判斷力——目的的設定、價值的權衡、倫理的考量。但這些高階認知能力不是天生的——它們需要透過大量的「低階」認知練習來培養,就像一個指揮家需要先學會演奏至少一種樂器,才能理解樂團中每個聲部的角色。如果 AI 消除了這些「低階」練習的必要性,我們可能在提升效率的同時,切斷了培養判斷力的路徑。這才是認知外包最深層的諷刺——也是 Bainbridge 在四十二年前就預見的「自動化的諷刺」在 AI 時代的完整展現。
References
- Kosmyna, N. et al. (2025). Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task. MIT Media Lab / arXiv:2506.08872. media.mit.edu
- Bastani, H. et al. (2025). Generative AI without guardrails can harm learning: Evidence from high school mathematics. Proceedings of the National Academy of Sciences (PNAS), 122(26). pnas.org
- Burns, M. et al. (2026). A New Direction for Students in an AI World: Prosper, Prepare, Protect. Brookings Institution, Center for Universal Education. brookings.edu
- Budzyn, K. et al. (2025). Endoscopist deskilling risk after exposure to artificial intelligence in colonoscopy: a multicentre, observational study. The Lancet Gastroenterology & Hepatology, 10(10), 896-903. thelancet.com
- Carr, N. (2008). Is Google Making Us Stupid? The Atlantic. theatlantic.com; Carr, N. (2010). The Shallows: What the Internet Is Doing to Our Brains. W. W. Norton & Company.
- Storey, M.-A. (2026). Cognitive Debt: A New Challenge in AI-Assisted Development. margaretstorey.com
- Wharton Knowledge. (2025). Without Guardrails, Generative AI Can Harm Education. knowledge.wharton.upenn.edu
- Gartner. (2025). Top Strategic Predictions for IT Organizations and Users in 2026 and Beyond. gartner.com
- Shen, J. H. & Tamkin, A. (2026). How AI Impacts Skill Formation. Anthropic. arXiv:2601.20245. anthropic.com
- Bainbridge, L. (1983). Ironies of Automation. Automatica, 19(6), 775-779. doi.org
- Lee, H.-P. et al. (2025). The Impact of Generative AI on Critical Thinking: Self-Reported Reductions in Cognitive Effort and Confidence Effects From a Survey of Knowledge Workers. Microsoft Research / CHI 2025. microsoft.com
- OECD & European Commission. (2025). Empowering Learners for the Age of AI: An AI Literacy Framework for Primary and Secondary Education. ailiteracyframework.org
- Gartner. (2025). Strategic Predictions for 2026: AI-Free Skills Assessments. gartner.com