Milla Jovovich 的 AI 記憶工具：100% 滿分神話，三天後被社群火砲擊落

上週看到一則同事分享的 AI 資訊：「Milla Jovovich 發布開源 AI 記憶系統」。

我補問了一句：「第五元素的那個很漂亮女主角？」另外一位同事立刻糾正我：「你是說惡靈古堡吧？」結果最年輕的同事無辜地問：「第五元素是什麼？」

好吧，年齡真的有代溝，但不管你和我一樣老、還是像他一樣年輕，這件事本身還是值得認真看一下，因為 MemPalace 在短短幾天內，上演了一齣從震撼登場到滿城風雨的完整劇本。

什麼是 MemPalace？

MemPalace 是 Milla Jovovich 和工程師 Ben Sigman 用 Claude Code 花了幾個月打造的開源 AI 記憶系統。它在解決的核心問題是：**AI 沒有記憶，**因為每次你開一個新的對話視窗，AI 就會忘記你之前說過的所有事情，MemPalace 要解決的就是這件事。

它的概念直接取自古希臘的「記憶宮殿術」（Method of Loci），你把想記住的事情放在一棟你熟悉的建築裡的不同位置，要回憶時再走一遍路線。MemPalace 把這套邏輯搬到 AI 上：

Wings（翼廊）：每個人或專案一個
Halls（廊道）：依記憶類型分類
Rooms（房間）：具體的想法與細節

如果你看過 BBC 的福爾摩斯(對，就是很帥的 Benedict Cumberbatch，後來演奇異博士的那個)，第三季專門用醜聞勒索人的大壞蛋就是用這個方法記憶事情，整季都以為他有個地下城堡，結果後來發現是記憶宮殿，好，離題了，其實這套利用記憶宮殿術打造的新記憶方式最關鍵的設計決策是：所有對話原文儲存，不做 AI 摘要。 不讓 AI 決定什麼值得記住，而是把所有東西完整保留，需要的時候再用 vector search 去找，再加上他們自研的 AAAK 壓縮語法，可以把 6 個月的對話紀錄從約 2000 萬 token 壓縮到 65 萬 token 左右。

整個系統跑在本地端，ChromaDB + SQLite，零 API 費用(這框架跟 mem0 一樣)，發布當天，GitHub 在 24 小時內累積 5,400 顆星，觸及超過 150 萬人次，並且 Ben Sigma 聲稱在 LongMemEval 測試拿到 100%，所以才震驚業界。

LongMemEval 是什麼，100% 又代表什麼？

LongMemEval 是 ICLR 2025 的學術基準測試，500 道題，專門測試 AI 的五種長期記憶能力：資訊提取、跨 session 推理、時間推理、知識更新、以及知道什麼時候該沉默不答，重點不是這個測試很有名，而是這個測試是有多難：目前 GPT-4o 等商業產品在這個測試上的表現只有 30–70% 的準確率，這個測試就是在看 AI 記不記得你、能不能隨時間更新對你的理解。

而 Ben Sigman 在 X 上宣布：

「LongMemEval 100% perfect score — first ever. Every question type at 100%. 500/500.」

這個說法立刻炸了。

三天後，開發者社群的火砲

「Milla Jovovich just released an AI memory system. None of the benchmark scores are real.」— Penfield Labs

不是一個兩個人的質疑，是一波系統性的技術批評，直接開到 GitHub Issue #29。

批評一：跑了錯誤的指標

LongMemEval 官方評分需要兩步驟：先取回相關資訊，再讓 AI 回答問題並由法官評分，MemPalace 只跑了第一步（retrieval），回報的是 recall_any@5，也就是取回 5 個結果中有沒有包含正確資訊，這根本不是 LongMemEval 的正式分數，而是一個容易得多的指標。

批評二：教學到考試（Teaching to the Test）

所謂的 100% 是怎麼來的？他們針對答錯的 3 道題做了「特定修正」，然後在同一份測試集上重跑，在學術界，這種做法需要獨立的 held-out 測試集才算數，但他們等於直接把考卷拿回來改錯，然後說我考滿分了。

批評三：LoCoMo 的 100% 有更根本的問題

LoCoMo 基準的 100% 成績是用 top_k=50 跑出來的，但每段對話只有 19–32 個 sessions，在這樣的 Session 數量下設定 top_k=50 等於把所有 sessions 都撈進候選池，正確答案一定在裡面，怎麼跑都是 100%，這不叫記憶力，叫帶課本進考場 Openbook 考背書。

額外爭議：Milla Jovovich 的角色

社群 Community Notes 指出，Jovovich 的參與是「概念與宣傳性質」，她的 GitHub 帳號只有 7 個 commits、2 天操作紀錄，而專案的早期貢獻者帳號 aya-thekeeper 在專案發布後被刪除。

加上 Sigman 同期推出同名 MemPalace 加密貨幣，他和 Jovovich 各持 50% 創作者獎勵，24 小時內暴漲暴跌，Kotaku 的標題直接是：「Resident Evil Movie Star Promotes Crypto Bro’s AI-Coded ‘MemPalace’ Accused Of Being Snake Oil」。(Snake Oil 就是我們小時候常說的印度神油，意指騙人或者誇大不實)

創作者的回應

Sigman 承認「24 小時內被社群批爛」，更新了分數：raw mode 96.6%、held-out split 98.4%，並在官網新增 /benchmarks 頁面說明方法論，程式碼沒有改變，措辭改了。

我的觀察

或許這件事最值得想的，不是 MemPalace 行不行，而是**這個時代的 AI 行銷到底在玩什麼？**公平地說：程式碼是真的，架構邏輯是真的，「原文儲存 + vector search」的設計思路也被部分開發者認為值得參考，這不是一個誇誇其談的假東西。

但同樣公平地說：把 recall@5 說成「LongMemEval 100% 滿分、史上第一次」，再配上好萊塢女星的臉和加密貨幣的熱度，這條路不管有沒有惡意、或者投機的心態，都踩了技術社群的底線。

我在心法篇-不專業的傲慢寫過”把 AI 工具的能力當成自己的能力”，而 MemPalace 這件事有點像另一個版本：把一個真實但有限的技術成果，用行銷語言包裝成無法獨立驗證的完美神話。

之前說過，AI 幾乎能解決所有事情的那個「幾乎」，是最危險的位置，在基準測試上也一樣，號稱 96.6% 是一個不錯的成績，但要說是 100% 完美，我們還必須驗證看看。

最後，同事再問我一次那部電影的名字跟內容，我說《第五元素》，1997 年，Luc Besson 導演，Gary Oldman 演反派(他之前都演帥反派，比如 Leon 裡頭的壞人，但近年都演好人，從哈利波特的天狼心、暗黑騎士的警察局長、到最黑暗的時刻的邱吉爾)，Milla Jovovich 穿著用膠帶做的衣服、頂著紅頭髮還有武打動作，主角是已經失智/失語的布魯斯威利(Bruce Willis)，自己講完都覺得太老了… 他說，他只對那個藍色唱歌的 Diva 有印象，這時那個最年輕的同事已經戴上耳機了。

參考資料

MemPalace 官網：https://www.mempalace.tech/
GitHub repo：https://github.com/milla-jovovich/mempalace
GitHub Issue #29（技術批評）：https://github.com/milla-jovovich/mempalace/issues/29
Penfield Labs — None of the benchmark scores are real：https://penfieldlabs.substack.com/p/milla-jovovich-just-released-an-ai
Cybernews — devs aren’t buying it：https://cybernews.com/ai-news/milla-jovovich-mempalace-memory-tool/
Kotaku — Snake Oil：https://kotaku.com/resident-evil-jovovich-mempalace-ai-github-2000685786
Nicholas Rhodes — Real Innovation, Questionable Claims：https://nicholasrhodes.substack.com/p/mempalace-ai-memory-review-benchmarks
LongMemEval 論文（ICLR 2025）：https://arxiv.org/abs/2410.10813
Ben Sigman on X：https://x.com/bensig/status/2041236952998171118

支持這個系列

如果這系列文章對你有幫助，考慮請我喝杯咖啡

請我喝杯咖啡

☕ 請我喝杯星巴克 ☕ 請我喝杯小七拿鐵

返回新聞列表