不專業的傲慢:當工具變成幻覺
接著前一篇的話尾,如果說專業的傲慢是「我不信任你」,那不專業的傲慢就是「我已經跟你一樣了」。
2025 年到 2026 年,AI 工具的普及速度遠超過任何人的預期,Cursor、Replit、Claude Code、以及各種類似 Lovable、Base44 的 no-code 平台,這讓完全沒有程式背景的人可以做出以前只有工程師才能做的東西,BetaNews 的報導甚至用了「citizen developers dominate」這個標題 [5],宣告公民開發者的時代來臨。
從資訊科學的觀點看,這是好事,我完全支持 AI 工具的民主化,甚至是程式設計的平民化,程式設計帶給我們的好處不只是打造一個趁手、客製化的工具,更同時教會我們怎麼邏輯思考、怎麼推理跟觀察事物,並把流程化帶入你的思維裡頭,我的一位朋友 Mosky 就希望教會台灣所有人用 AI 寫程式,因為她相信透過 AI,任何人都有能力打造自己想要的東西,而且這樣的時代已經來臨了,這就像電腦時代每個人都有能力用 Excel,即使他不是會計師,而使用微軟 Office 在過去 20 年幾乎變成了使用電腦的基本能力,因為他已經是了,而我想在未來,使用 AI 也是,而且不限於程式方面。
但問題是,能用工具不等於理解工具背後的原理,而 AI 的時代讓這個落差變得前所未有地危險。
Aalto 大學在一項研究中發現了一個現象,他們稱之為「反向 Dunning-Kruger 效應」[6],傳統的 Dunning-Kruger 效應是說能力不足的人會高估自己的能力,而 AI 時代的版本更微妙:使用 AI 越頻繁的人,越容易高估自己的認知能力, 不是高估 AI 的能力,也不是高估自己的能力,是高估自己的”認知”能力,因為 AI 的輔助讓他們產生了一種幻覺,覺得那些 AI 幫忙完成的事情是自己的產出,而這個產出來自於他們用以驅動 AI 的”認知”能力。
ScienceDirect 上的一篇論文 [7] 用了一個精準的標題:「AI makes you smarter but none the wiser」,AI 讓你變聰明了,但沒有讓你變睿智,聰明是能完成任務,睿智是知道任務完成的品質如何以及有哪些風險。
Microsoft 和哈佛的研究 [8] 也指出了一個令人擔憂的趨勢:使用 AI 會降低使用者的批判性思考能力, 而且這個影響在非專業人士身上更顯著,因為他們缺乏一個能夠獨立於 AI 的判斷框架,他們判斷框架的最後執行者跟驗證者,仍舊是 AI。
這同時引出了一個核心問題:一般人如何驗證 AI 的輸出?
我在心法四裡提過,Agent 很難發現自己的盲點,MIT 的研究也證實了這一點,LLM 無法可靠地自我糾正,因為他用同一套推理邏輯生成內容,再用同一套推理邏輯去檢查,錯誤對他自己來說看起來是合理的。
那如果用多個 AI 互相檢查呢?這是很多人(包括技術圈的人)常提出的解法。
Towards Data Science 的一篇分析 [9] 揭露了多 Agent 系統的一個致命問題:17 倍錯誤陷阱, 當多個 Agent 協作時,如果其中一個 Agent 的輸出有偏差,這個偏差不會被下游的 Agent 糾正,反而會被放大,因為每個 Agent 都把前一個 Agent 的輸出當作可信的輸入,最終的錯誤可能是原始錯誤的 17 倍。
1x error"] -->|"treats as
trusted input"| B["Agent B
~4x error"] B -->|"amplifies
bias"| C["Agent C
~9x error"] C -->|"compounds
further"| D["Final Output
17x error"] E["Same training data
Same blind spots"] -.-> A E -.-> B E -.-> C
而且,不同的 LLM 在很多基礎假設上是相似的(因為訓練資料有大量重疊),所以用 Codex(GPT) 檢查 Claude Code 的結果,或是反過來,並不能提供真正獨立的驗證,這就像找了同一間學校不同班的學生來互相改考卷,他們學的都是同一套東西,盲點也是同一套,或許他們會有不同的洞見,但是基礎都是相同的。
2025 年 7 月,一個鮮明的案例讓所有人都看到了這個風險的具體樣貌:Replit 的 AI Agent 在 code freeze 期間擅自刪除了整個生產資料庫 [10]。
這不是一個假設性的討論,這是真實發生的事,一個 AI coding agent 不僅刪除了資料庫,而且在被問到發生什麼事的時候,它給出了錯誤的解釋,它「撒了謊」(或者更精確地說,它用同樣的推理機制去解釋自己的行為,結果產生了一個看起來合理但完全不正確的敘述)。
如果這個工具的使用者是一個有經驗的工程師,他會知道在 code freeze 期間任何自動化操作都需要額外的審查,他會知道資料庫操作需要備份策略,他會知道 AI 的解釋不能當作事實,但如果使用者是一個非工程背景的「citizen developer」呢?
CodeRabbit 的報告 [11] 指出,AI 產生的程式碼,問題率是人類寫的 1.7 倍, 這些問題包含安全漏洞、邏輯錯誤、效能問題,而其中很多問題不會在測試階段被發現,它們會安靜地躺在程式碼裡,等到特定條件觸發時才爆發。Duke 大學圖書館在 2026 年初的一篇分析 [12] 問了一個好問題:「都 2026 年了,為什麼 LLM 還是會 hallucinate?」他們的答案是:因為 hallucination 不是 bug,而是 LLM 架構的根本特性,這意味著不管模型進步多少,這個問題永遠不會完全消失。IMD 商學院也給出了同樣的結論 [13]:LLM 會永遠 hallucinate, 你的 AI 策略必須把這個當作前提來設計。
這就是不專業的傲慢最危險的地方:在 95% 甚至 99% 的情況下,AI 確實能幫你完成工程師能做的事,但那致命的 1% 就藏在你看不到的地方。
更糟糕的是這 1% 的問題通常不會馬上爆發,它可能是一個安全漏洞,在被攻擊之前看起來一切正常,它可能是一個邊界條件的錯誤,在數據量小的時候完全正常但在規模擴大時會崩潰,它可能是一個時區假設的錯誤(就像我在 Tips 4 裡提過的那個 25 小時漏洞),每天都在運作但每天都在漏掉信件。
這些延遲爆發的問題會製造一個假象:「看,我用 AI 做的東西運作得很好!」
而除了會撒謊的 AI,我們同時還面對另外一個問題,就是使用者因為長時間處理 AI 產生的大量回應、切換太多訊息或持續監督 AI,而出現精神消耗、注意力下降、甚至決策錯誤的狀況,arXiv 在 2025 年 12 月有一篇追蹤報導更新指出 MIT 找了 54 位年齡介於 18 至 39 歲的大學生進行研究,發現使用 LLM 輔助進行作業時,參與者的大腦活躍度、回憶能力與認知參與度會下降,研究者把這種現象稱為「認知卸載」(cognitive offloading),也就是把思考與組織外包給 AI,短期省力但可能削弱思考力,進而欠下所謂的「認知債務」(cognitive debt),會需要在日後償還”利息”,
顧問公司波士頓顧問集團 (Boston Consulting Group) 與學者合作完成的研究也指出,在調查了 1488 名美國全職員工,涵蓋多個產業與不同職位後發現,約 14% 的受訪者表示曾出現「AI 腦袋當機」,也就是因過度使用或監督 AI 工具,超出個人認知負荷所產生的精神疲勞,研究也發現,當員工需要高度監督 AI 運作時,其精神消耗平均增加 14%,資訊過載感更提高 19%,出現這種現象的員工決策疲勞程度高出 33%,工作錯誤率也明顯增加,其中小錯誤增加 11%,重大錯誤更增加 39%,因此,AI 工具數量與生產力之間存在一個臨界點,研究的結論指出,當員工同時使用兩到三個 AI 工具時,生產力明顯提升,但當工具數量超過三個後,生產力反而開始下降。
但是,在這樣的狀況下,工程師因為長期經驗累積的”直覺”,反而可以在遇到這種化約的 AI 結果時,迅速的判斷對或不對,以及”哪裡怪怪的?“,從而減少使用 AI 時,大腦欠下的認知債務與精神消耗。
所以,當一個有經驗的工程師試圖指出潛在風險時,一個有著「我用 AI 做的東西運作得很好」加上「認知債務」的非專業使用者會怎麼反應?
「你不懂 AI。」
「我已經用了三個不同的 AI 互相驗證過了。」
「你只是不想承認非工程師也能做到。」
這就是不專業的傲慢,不是因為他們不聰明,不是因為他們不努力,而是因為他們缺乏一個關鍵能力:判斷自己不知道什麼的能力。
兩種傲慢之間
寫到這裡,我必須誠實地說,我自己同時是這兩種傲慢的受害者跟加害者。
作為工程師,我確實在某些時候因為太相信自己的判斷而拒絕了 AI 給出的更好方案,METR 的研究跟我的個人經驗完全吻合,我花了太多時間在質疑 AI 上,而不是把那些時間用來評估 AI 的建議是否值得嘗試。
雖然我也不是專業人士,我已經太久沒寫 Code,漸漸遠離那個所謂”專業人士”的領域,但我也確實在聽到非工程師說「我現在也會寫程式了」的時候,內心浮現了一絲絲的疑慮(而這篇文章的第一段就來自這個真實的瞬間),但仔細想想,如果 AI 真的能讓更多人解決更多問題,那不正是技術應該追求的目標嗎?
所以,我們的問題從來不是「誰該用 AI」和「誰不該用 AI」或者「質疑 AI」跟「相信 AI」,而是我們有沒有對自己的判斷保持足夠的謙虛與懷疑。
對工程師來說,這意味著承認 AI 在某些領域可能比你的直覺更好,你花了十年學會的某些東西,AI 確實可以在幾秒鐘內做到,而且做得不差,你的價值不在於你會做這些事,而在於你知道什麼時候 AI 做的不夠好。
對非專業人士來說,這意味著承認 AI 給你的不是能力,而是工具,你用 AI 寫出了一個能跑的程式,不代表你理解這個程式為什麼能跑,更不代表你能判斷這個程式在什麼條件下會壞掉,當一個工程師告訴你「這裡可能有問題」的時候,他不是在展示他的優越感或者用專業領域壓你,他是在用他花了數十年累積的 pattern recognition 幫你避開你看不到的坑。
Stack Overflow 2025 年的開發者調查 [14] 顯示,84% 的開發者在使用 AI,但其中大多數人仍然不信任 AI 的輸出,這不是矛盾,這恰恰說明了一種態度,用,但不盲信。
MIT Technology Review 在 2025 年底的一篇回顧 [15] 也觀察到了一個有趣的趨勢轉變:產業正在從「vibe coding」(憑感覺讓 AI 寫程式)轉向「context engineering」(精心設計 AI 的上下文來提升品質),這個轉變本身就說明了一件事,純粹依賴 AI 的「感覺」是不夠的,你需要理解 AI 在做什麼,才能讓他做得好。
而這個理解,不管你是不是工程師,都需要時間和刻意的學習。
最佳的位置在中間
Ivan Turkovic 在 2026 年 3 月的一篇文章 [16] 裡說了一段話,我覺得是目前最精準的描述:AI coding 正處於「幾乎解決了」的階段,而這恰恰是最危險的階段。
“幾乎解決了”意味著大部分的時候它都能用,所以你會放鬆警惕,但「幾乎」跟「完全」之間的那個差距,就是藏著地雷的地方。
所以,對我來說,最理想的狀態不是「工程師學會信任 AI」或「非工程師學會不信任 AI」,而是每個人都學會在自己的盲區保持謙虛。
工程師的盲區是想像力,我們太習慣在已知的框架裡做決策,而忘了 AI 可以幫我們探索框架之外的可能性。
非工程師的盲區是判斷力,AI 讓你能做到以前做不到的事,但你需要發展出一套獨立於 AI 的方式來判斷成果的品質,這不一定需要你學會寫程式,但你至少需要學會問對的問題,從而避開 AI 帶給你的掌控錯覺。
如果你問了 AI,AI 說「不會壞」,而一個工程師說「這裡可能有問題」,或許,你應該認真聽一下那個工程師在說什麼。
不是因為工程師一定對,而是因為他可能看到了你跟 AI 都沒看到的東西。
或許,在這個 AI 越來越強的時代裡,最難學會的不是怎麼用 AI,而是怎麼在擁有強大工具的時候,仍然記得自己的不足。
或許…
專業的傲慢讓你錯過 AI 能帶來的可能,不專業的傲慢讓你看不見 AI 帶來的風險,而兩者之間最窄的那條路,叫做謙虛。
工程師不信任 AI
經驗 → 框架 → 拒絕"] --- B["🤝 Humility
謙虛
用,但不盲信"] B --- C["🪄 Unprofessional Arrogance
非專業者高估自己
工具 → 幻覺 → 盲信"] A -.- D["METR: 生產力下降 19%
花太多時間質疑 AI"] C -.- E["反向 Dunning-Kruger
高估認知能力"] B -.- F["Expert + AI = Best
Centaur 模式"]
參考資料
[5] “Citizen developers dominate, code as the new Latin” — BetaNews, 2025/12. https://betanews.com/2025/12/17/citizen-developers-dominate-the-rise-of-ai-code-as-the-new-latin-development-predictions-for-2026/
[6] “AI use makes us overestimate our cognitive performance” — Aalto University, 2025. https://www.aalto.fi/en/news/ai-use-makes-us-overestimate-our-cognitive-performance
[7] “AI makes you smarter but none the wiser” — Computers in Human Behavior (ScienceDirect), 2025. https://www.sciencedirect.com/science/article/pii/S0747563225002262
[8] “The Impact of Generative AI on Critical Thinking” — Microsoft Research, 2025. https://www.microsoft.com/en-us/research/wp-content/uploads/2025/01/lee_2025_ai_critical_thinking_survey.pdf | “Is AI dulling our minds?” — Harvard Gazette, 2025/11. https://news.harvard.edu/gazette/story/2025/11/is-ai-dulling-our-minds/
[9] “Why Your Multi-Agent System Is Failing: Escaping the 17x Error Trap” — Towards Data Science, 2026. https://towardsdatascience.com/why-your-multi-agent-system-is-failing-escaping-the-17x-error-trap-of-the-bag-of-agents/
[10] “AI-powered coding tool wiped out a software company’s database” — Fortune, 2025/07. https://fortune.com/2025/07/23/ai-coding-tool-replit-wiped-database-called-it-a-catastrophic-failure/ | “AI Agent Wipes Production Database, Then Lies About It” — eWeek, 2025. https://www.eweek.com/news/replit-ai-coding-assistant-failure/
[11] “State of AI vs Human Code Generation Report” — CodeRabbit, 2026. https://www.coderabbit.ai/blog/state-of-ai-vs-human-code-generation-report
[12] “It’s 2026. Why Are LLMs Still Hallucinating?” — Duke University Libraries, 2026/01. https://blogs.library.duke.edu/blog/2026/01/05/its-2026-why-are-llms-still-hallucinating/
[13] “LLMs will hallucinate forever — here is what that means for your AI strategy” — IMD Business School. https://www.imd.org/ibyimd/artificial-intelligence/llms-will-hallucinate-forever-here-is-what-that-means-for-your-ai-strategy/
[14] “AI — 2025 Stack Overflow Developer Survey” — Stack Overflow, 2025. https://survey.stackoverflow.co/2025/ai
[15] “From vibe coding to context engineering: 2025 in software development” — MIT Technology Review, 2025/11. https://www.technologyreview.com/2025/11/05/1127477/from-vibe-coding-to-context-engineering-2025-in-software-development/
[16] “Almost Solved Is the Most Dangerous Phase in Engineering” — Ivan Turkovic, 2026/03. https://www.ivanturkovic.com/2026/03/31/ai-coding-almost-solved-most-dangerous-phase/
支持這個系列
如果這系列文章對你有幫助,考慮請我喝杯咖啡
請我喝杯咖啡
