跳至主要內容
EMil Wu
EN

#22

不專業的傲慢:當 AI 的能力變成你的幻覺

Unprofessional Arrogance: When AI's Capability Becomes Your Illusion

思維轉變 3 分鐘閱讀
小角色觸摸一顆巨大的水晶球,球內浮現程式碼和架構圖,但球面有裂痕——能力的幻覺 小角色觸摸一顆巨大的水晶球,球內浮現程式碼和架構圖,但球面有裂痕——能力的幻覺
水晶球裡的東西看起來很美,但裂痕藏在你看不到的角度

不專業的傲慢:當工具變成幻覺

接著前一篇的話尾,如果說專業的傲慢是「我不信任你」,那不專業的傲慢就是「我已經跟你一樣了」。

2025 年到 2026 年,AI 工具的普及速度遠超過任何人的預期,Cursor、Replit、Claude Code、以及各種類似 Lovable、Base44 的 no-code 平台,這讓完全沒有程式背景的人可以做出以前只有工程師才能做的東西,BetaNews 的報導甚至用了「citizen developers dominate」這個標題 [5],宣告公民開發者的時代來臨。

從資訊科學的觀點看,這是好事,我完全支持 AI 工具的民主化,甚至是程式設計的平民化,程式設計帶給我們的好處不只是打造一個趁手、客製化的工具,更同時教會我們怎麼邏輯思考、怎麼推理跟觀察事物,並把流程化帶入你的思維裡頭,我的一位朋友 Mosky 就希望教會台灣所有人用 AI 寫程式,因為她相信透過 AI,任何人都有能力打造自己想要的東西,而且這樣的時代已經來臨了,這就像電腦時代每個人都有能力用 Excel,即使他不是會計師,而使用微軟 Office 在過去 20 年幾乎變成了使用電腦的基本能力,因為他已經是了,而我想在未來,使用 AI 也是,而且不限於程式方面。

但問題是,能用工具不等於理解工具背後的原理,而 AI 的時代讓這個落差變得前所未有地危險。

Aalto 大學在一項研究中發現了一個現象,他們稱之為「反向 Dunning-Kruger 效應」[6],傳統的 Dunning-Kruger 效應是說能力不足的人會高估自己的能力,而 AI 時代的版本更微妙:使用 AI 越頻繁的人,越容易高估自己的認知能力, 不是高估 AI 的能力,也不是高估自己的能力,是高估自己的”認知”能力,因為 AI 的輔助讓他們產生了一種幻覺,覺得那些 AI 幫忙完成的事情是自己的產出,而這個產出來自於他們用以驅動 AI 的”認知”能力。

ScienceDirect 上的一篇論文 [7] 用了一個精準的標題:「AI makes you smarter but none the wiser」,AI 讓你變聰明了,但沒有讓你變睿智,聰明是能完成任務,睿智是知道任務完成的品質如何以及有哪些風險。

Microsoft 和哈佛的研究 [8] 也指出了一個令人擔憂的趨勢:使用 AI 會降低使用者的批判性思考能力, 而且這個影響在非專業人士身上更顯著,因為他們缺乏一個能夠獨立於 AI 的判斷框架,他們判斷框架的最後執行者跟驗證者,仍舊是 AI。

這同時引出了一個核心問題:一般人如何驗證 AI 的輸出?

我在心法四裡提過,Agent 很難發現自己的盲點,MIT 的研究也證實了這一點,LLM 無法可靠地自我糾正,因為他用同一套推理邏輯生成內容,再用同一套推理邏輯去檢查,錯誤對他自己來說看起來是合理的。

那如果用多個 AI 互相檢查呢?這是很多人(包括技術圈的人)常提出的解法。

Towards Data Science 的一篇分析 [9] 揭露了多 Agent 系統的一個致命問題:17 倍錯誤陷阱, 當多個 Agent 協作時,如果其中一個 Agent 的輸出有偏差,這個偏差不會被下游的 Agent 糾正,反而會被放大,因為每個 Agent 都把前一個 Agent 的輸出當作可信的輸入,最終的錯誤可能是原始錯誤的 17 倍。

graph LR A["Agent A
1x error"] -->|"treats as
trusted input"| B["Agent B
~4x error"] B -->|"amplifies
bias"| C["Agent C
~9x error"] C -->|"compounds
further"| D["Final Output
17x error"] E["Same training data
Same blind spots"] -.-> A E -.-> B E -.-> C
多 Agent 系統的錯誤放大:每個 Agent 把前一個的輸出當可信輸入,偏差不被修正,反而被放大

而且,不同的 LLM 在很多基礎假設上是相似的(因為訓練資料有大量重疊),所以用 Codex(GPT) 檢查 Claude Code 的結果,或是反過來,並不能提供真正獨立的驗證,這就像找了同一間學校不同班的學生來互相改考卷,他們學的都是同一套東西,盲點也是同一套,或許他們會有不同的洞見,但是基礎都是相同的。

2025 年 7 月,一個鮮明的案例讓所有人都看到了這個風險的具體樣貌:Replit 的 AI Agent 在 code freeze 期間擅自刪除了整個生產資料庫 [10]。

這不是一個假設性的討論,這是真實發生的事,一個 AI coding agent 不僅刪除了資料庫,而且在被問到發生什麼事的時候,它給出了錯誤的解釋,它「撒了謊」(或者更精確地說,它用同樣的推理機制去解釋自己的行為,結果產生了一個看起來合理但完全不正確的敘述)。

如果這個工具的使用者是一個有經驗的工程師,他會知道在 code freeze 期間任何自動化操作都需要額外的審查,他會知道資料庫操作需要備份策略,他會知道 AI 的解釋不能當作事實,但如果使用者是一個非工程背景的「citizen developer」呢?

CodeRabbit 的報告 [11] 指出,AI 產生的程式碼,問題率是人類寫的 1.7 倍, 這些問題包含安全漏洞、邏輯錯誤、效能問題,而其中很多問題不會在測試階段被發現,它們會安靜地躺在程式碼裡,等到特定條件觸發時才爆發。Duke 大學圖書館在 2026 年初的一篇分析 [12] 問了一個好問題:「都 2026 年了,為什麼 LLM 還是會 hallucinate?」他們的答案是:因為 hallucination 不是 bug,而是 LLM 架構的根本特性,這意味著不管模型進步多少,這個問題永遠不會完全消失。IMD 商學院也給出了同樣的結論 [13]:LLM 會永遠 hallucinate, 你的 AI 策略必須把這個當作前提來設計。

這就是不專業的傲慢最危險的地方:在 95% 甚至 99% 的情況下,AI 確實能幫你完成工程師能做的事,但那致命的 1% 就藏在你看不到的地方。

更糟糕的是這 1% 的問題通常不會馬上爆發,它可能是一個安全漏洞,在被攻擊之前看起來一切正常,它可能是一個邊界條件的錯誤,在數據量小的時候完全正常但在規模擴大時會崩潰,它可能是一個時區假設的錯誤(就像我在 Tips 4 裡提過的那個 25 小時漏洞),每天都在運作但每天都在漏掉信件。

這些延遲爆發的問題會製造一個假象:「看,我用 AI 做的東西運作得很好!」

而除了會撒謊的 AI,我們同時還面對另外一個問題,就是使用者因為長時間處理 AI 產生的大量回應、切換太多訊息或持續監督 AI,而出現精神消耗、注意力下降、甚至決策錯誤的狀況,arXiv 在 2025 年 12 月有一篇追蹤報導更新指出 MIT 找了 54 位年齡介於 18 至 39 歲的大學生進行研究,發現使用 LLM 輔助進行作業時,參與者的大腦活躍度、回憶能力與認知參與度會下降,研究者把這種現象稱為「認知卸載」(cognitive offloading),也就是把思考與組織外包給 AI,短期省力但可能削弱思考力,進而欠下所謂的「認知債務」(cognitive debt),會需要在日後償還”利息”,

小小的角色拿著 AI 魔杖,在哈哈鏡裡看到一個巨大強大的自己——反向 Dunning-Kruger 效應的視覺化 小小的角色拿著 AI 魔杖,在哈哈鏡裡看到一個巨大強大的自己——反向 Dunning-Kruger 效應的視覺化
鏡子裡的自己更高大,但那是 AI 的輸出,不是你的能力

顧問公司波士頓顧問集團 (Boston Consulting Group) 與學者合作完成的研究也指出,在調查了 1488 名美國全職員工,涵蓋多個產業與不同職位後發現,約 14% 的受訪者表示曾出現「AI 腦袋當機」,也就是因過度使用或監督 AI 工具,超出個人認知負荷所產生的精神疲勞,研究也發現,當員工需要高度監督 AI 運作時,其精神消耗平均增加 14%,資訊過載感更提高 19%,出現這種現象的員工決策疲勞程度高出 33%,工作錯誤率也明顯增加,其中小錯誤增加 11%,重大錯誤更增加 39%,因此,AI 工具數量與生產力之間存在一個臨界點,研究的結論指出,當員工同時使用兩到三個 AI 工具時,生產力明顯提升,但當工具數量超過三個後,生產力反而開始下降。

但是,在這樣的狀況下,工程師因為長期經驗累積的”直覺”,反而可以在遇到這種化約的 AI 結果時,迅速的判斷對或不對,以及”哪裡怪怪的?“,從而減少使用 AI 時,大腦欠下的認知債務與精神消耗。

所以,當一個有經驗的工程師試圖指出潛在風險時,一個有著「我用 AI 做的東西運作得很好」加上「認知債務」的非專業使用者會怎麼反應?

「你不懂 AI。」

「我已經用了三個不同的 AI 互相驗證過了。」

「你只是不想承認非工程師也能做到。」

這就是不專業的傲慢,不是因為他們不聰明,不是因為他們不努力,而是因為他們缺乏一個關鍵能力:判斷自己不知道什麼的能力。


兩種傲慢之間

寫到這裡,我必須誠實地說,我自己同時是這兩種傲慢的受害者跟加害者。

作為工程師,我確實在某些時候因為太相信自己的判斷而拒絕了 AI 給出的更好方案,METR 的研究跟我的個人經驗完全吻合,我花了太多時間在質疑 AI 上,而不是把那些時間用來評估 AI 的建議是否值得嘗試。

雖然我也不是專業人士,我已經太久沒寫 Code,漸漸遠離那個所謂”專業人士”的領域,但我也確實在聽到非工程師說「我現在也會寫程式了」的時候,內心浮現了一絲絲的疑慮(而這篇文章的第一段就來自這個真實的瞬間),但仔細想想,如果 AI 真的能讓更多人解決更多問題,那不正是技術應該追求的目標嗎?

所以,我們的問題從來不是「誰該用 AI」和「誰不該用 AI」或者「質疑 AI」跟「相信 AI」,而是我們有沒有對自己的判斷保持足夠的謙虛與懷疑。

對工程師來說,這意味著承認 AI 在某些領域可能比你的直覺更好,你花了十年學會的某些東西,AI 確實可以在幾秒鐘內做到,而且做得不差,你的價值不在於你會做這些事,而在於你知道什麼時候 AI 做的不夠好。

對非專業人士來說,這意味著承認 AI 給你的不是能力,而是工具,你用 AI 寫出了一個能跑的程式,不代表你理解這個程式為什麼能跑,更不代表你能判斷這個程式在什麼條件下會壞掉,當一個工程師告訴你「這裡可能有問題」的時候,他不是在展示他的優越感或者用專業領域壓你,他是在用他花了數十年累積的 pattern recognition 幫你避開你看不到的坑。

Stack Overflow 2025 年的開發者調查 [14] 顯示,84% 的開發者在使用 AI,但其中大多數人仍然不信任 AI 的輸出,這不是矛盾,這恰恰說明了一種態度,用,但不盲信。

MIT Technology Review 在 2025 年底的一篇回顧 [15] 也觀察到了一個有趣的趨勢轉變:產業正在從「vibe coding」(憑感覺讓 AI 寫程式)轉向「context engineering」(精心設計 AI 的上下文來提升品質),這個轉變本身就說明了一件事,純粹依賴 AI 的「感覺」是不夠的,你需要理解 AI 在做什麼,才能讓他做得好。

而這個理解,不管你是不是工程師,都需要時間和刻意的學習。


最佳的位置在中間

兩個可愛角色一起在圓桌旁合作堆積木——一個戴眼鏡的專家與一個發光的 AI 夥伴共同建造 兩個可愛角色一起在圓桌旁合作堆積木——一個戴眼鏡的專家與一個發光的 AI 夥伴共同建造
Centaur 模式:專家選擇方向,AI 加速執行,結果勝過任何一方單獨作業

Ivan Turkovic 在 2026 年 3 月的一篇文章 [16] 裡說了一段話,我覺得是目前最精準的描述:AI coding 正處於「幾乎解決了」的階段,而這恰恰是最危險的階段。

“幾乎解決了”意味著大部分的時候它都能用,所以你會放鬆警惕,但「幾乎」跟「完全」之間的那個差距,就是藏著地雷的地方。

所以,對我來說,最理想的狀態不是「工程師學會信任 AI」或「非工程師學會不信任 AI」,而是每個人都學會在自己的盲區保持謙虛。

工程師的盲區是想像力,我們太習慣在已知的框架裡做決策,而忘了 AI 可以幫我們探索框架之外的可能性。

非工程師的盲區是判斷力,AI 讓你能做到以前做不到的事,但你需要發展出一套獨立於 AI 的方式來判斷成果的品質,這不一定需要你學會寫程式,但你至少需要學會問對的問題,從而避開 AI 帶給你的掌控錯覺。

如果你問了 AI,AI 說「不會壞」,而一個工程師說「這裡可能有問題」,或許,你應該認真聽一下那個工程師在說什麼。

不是因為工程師一定對,而是因為他可能看到了你跟 AI 都沒看到的東西。

或許,在這個 AI 越來越強的時代裡,最難學會的不是怎麼用 AI,而是怎麼在擁有強大工具的時候,仍然記得自己的不足。

或許…

專業的傲慢讓你錯過 AI 能帶來的可能,不專業的傲慢讓你看不見 AI 帶來的風險,而兩者之間最窄的那條路,叫做謙虛。

graph LR A["🛡️ Professional Arrogance
工程師不信任 AI
經驗 → 框架 → 拒絕"] --- B["🤝 Humility
謙虛
用,但不盲信"] B --- C["🪄 Unprofessional Arrogance
非專業者高估自己
工具 → 幻覺 → 盲信"] A -.- D["METR: 生產力下降 19%
花太多時間質疑 AI"] C -.- E["反向 Dunning-Kruger
高估認知能力"] B -.- F["Expert + AI = Best
Centaur 模式"]
兩種傲慢的光譜:最佳位置在中間,謙虛地使用但不盲信

參考資料

[5] “Citizen developers dominate, code as the new Latin” — BetaNews, 2025/12. https://betanews.com/2025/12/17/citizen-developers-dominate-the-rise-of-ai-code-as-the-new-latin-development-predictions-for-2026/

[6] “AI use makes us overestimate our cognitive performance” — Aalto University, 2025. https://www.aalto.fi/en/news/ai-use-makes-us-overestimate-our-cognitive-performance

[7] “AI makes you smarter but none the wiser” — Computers in Human Behavior (ScienceDirect), 2025. https://www.sciencedirect.com/science/article/pii/S0747563225002262

[8] “The Impact of Generative AI on Critical Thinking” — Microsoft Research, 2025. https://www.microsoft.com/en-us/research/wp-content/uploads/2025/01/lee_2025_ai_critical_thinking_survey.pdf | “Is AI dulling our minds?” — Harvard Gazette, 2025/11. https://news.harvard.edu/gazette/story/2025/11/is-ai-dulling-our-minds/

[9] “Why Your Multi-Agent System Is Failing: Escaping the 17x Error Trap” — Towards Data Science, 2026. https://towardsdatascience.com/why-your-multi-agent-system-is-failing-escaping-the-17x-error-trap-of-the-bag-of-agents/

[10] “AI-powered coding tool wiped out a software company’s database” — Fortune, 2025/07. https://fortune.com/2025/07/23/ai-coding-tool-replit-wiped-database-called-it-a-catastrophic-failure/ | “AI Agent Wipes Production Database, Then Lies About It” — eWeek, 2025. https://www.eweek.com/news/replit-ai-coding-assistant-failure/

[11] “State of AI vs Human Code Generation Report” — CodeRabbit, 2026. https://www.coderabbit.ai/blog/state-of-ai-vs-human-code-generation-report

[12] “It’s 2026. Why Are LLMs Still Hallucinating?” — Duke University Libraries, 2026/01. https://blogs.library.duke.edu/blog/2026/01/05/its-2026-why-are-llms-still-hallucinating/

[13] “LLMs will hallucinate forever — here is what that means for your AI strategy” — IMD Business School. https://www.imd.org/ibyimd/artificial-intelligence/llms-will-hallucinate-forever-here-is-what-that-means-for-your-ai-strategy/

[14] “AI — 2025 Stack Overflow Developer Survey” — Stack Overflow, 2025. https://survey.stackoverflow.co/2025/ai

[15] “From vibe coding to context engineering: 2025 in software development” — MIT Technology Review, 2025/11. https://www.technologyreview.com/2025/11/05/1127477/from-vibe-coding-to-context-engineering-2025-in-software-development/

[16] “Almost Solved Is the Most Dangerous Phase in Engineering” — Ivan Turkovic, 2026/03. https://www.ivanturkovic.com/2026/03/31/ai-coding-almost-solved-most-dangerous-phase/

支持這個系列

如果這系列文章對你有幫助,考慮請我喝杯咖啡