跳至主要內容
EMil Wu
EN
返回新聞列表

Milla Jovovich 的 AI 記憶工具:100% 滿分神話,三天後被社群火砲擊落

5 分鐘閱讀
Milla Jovovich 的 AI 記憶工具:100% 滿分神話,三天後被社群火砲擊落

上週看到一則同事分享的 AI 資訊:「Milla Jovovich 發布開源 AI 記憶系統」。

我補問了一句:「第五元素的那個很漂亮女主角?」另外一位同事立刻糾正我:「你是說惡靈古堡吧?」結果最年輕的同事無辜地問:「第五元素是什麼?」

好吧,年齡真的有代溝,但不管你和我一樣老、還是像他一樣年輕,這件事本身還是值得認真看一下,因為 MemPalace 在短短幾天內,上演了一齣從震撼登場到滿城風雨的完整劇本。

什麼是 MemPalace?

MemPalace 是 Milla Jovovich 和工程師 Ben Sigman 用 Claude Code 花了幾個月打造的開源 AI 記憶系統。它在解決的核心問題是:**AI 沒有記憶,**因為每次你開一個新的對話視窗,AI 就會忘記你之前說過的所有事情,MemPalace 要解決的就是這件事。

它的概念直接取自古希臘的「記憶宮殿術」(Method of Loci),你把想記住的事情放在一棟你熟悉的建築裡的不同位置,要回憶時再走一遍路線。MemPalace 把這套邏輯搬到 AI 上:

  • Wings(翼廊):每個人或專案一個
  • Halls(廊道):依記憶類型分類
  • Rooms(房間):具體的想法與細節

如果你看過 BBC 的福爾摩斯(對,就是很帥的 Benedict Cumberbatch,後來演奇異博士的那個),第三季專門用醜聞勒索人的大壞蛋就是用這個方法記憶事情,整季都以為他有個地下城堡,結果後來發現是記憶宮殿,好,離題了,其實這套利用記憶宮殿術打造的新記憶方式最關鍵的設計決策是:所有對話原文儲存,不做 AI 摘要。 不讓 AI 決定什麼值得記住,而是把所有東西完整保留,需要的時候再用 vector search 去找,再加上他們自研的 AAAK 壓縮語法,可以把 6 個月的對話紀錄從約 2000 萬 token 壓縮到 65 萬 token 左右。

整個系統跑在本地端,ChromaDB + SQLite,零 API 費用(這框架跟 mem0 一樣),發布當天,GitHub 在 24 小時內累積 5,400 顆星,觸及超過 150 萬人次,並且 Ben Sigma 聲稱在 LongMemEval 測試拿到 100%,所以才震驚業界。

LongMemEval 是什麼,100% 又代表什麼?

LongMemEval 是 ICLR 2025 的學術基準測試,500 道題,專門測試 AI 的五種長期記憶能力:資訊提取、跨 session 推理、時間推理、知識更新、以及知道什麼時候該沉默不答,重點不是這個測試很有名,而是這個測試是有多難:目前 GPT-4o 等商業產品在這個測試上的表現只有 30–70% 的準確率,這個測試就是在看 AI 記不記得你、能不能隨時間更新對你的理解。

而 Ben Sigman 在 X 上宣布:

「LongMemEval 100% perfect score — first ever. Every question type at 100%. 500/500.」

這個說法立刻炸了。

三天後,開發者社群的火砲

「Milla Jovovich just released an AI memory system. None of the benchmark scores are real.」— Penfield Labs

不是一個兩個人的質疑,是一波系統性的技術批評,直接開到 GitHub Issue #29。

批評一:跑了錯誤的指標

LongMemEval 官方評分需要兩步驟:先取回相關資訊,再讓 AI 回答問題並由法官評分,MemPalace 只跑了第一步(retrieval),回報的是 recall_any@5,也就是取回 5 個結果中有沒有包含正確資訊,這根本不是 LongMemEval 的正式分數,而是一個容易得多的指標。

批評二:教學到考試(Teaching to the Test)

所謂的 100% 是怎麼來的?他們針對答錯的 3 道題做了「特定修正」,然後在同一份測試集上重跑,在學術界,這種做法需要獨立的 held-out 測試集才算數,但他們等於直接把考卷拿回來改錯,然後說我考滿分了。

批評三:LoCoMo 的 100% 有更根本的問題

LoCoMo 基準的 100% 成績是用 top_k=50 跑出來的,但每段對話只有 19–32 個 sessions,在這樣的 Session 數量下設定 top_k=50 等於把所有 sessions 都撈進候選池,正確答案一定在裡面,怎麼跑都是 100%,這不叫記憶力,叫帶課本進考場 Openbook 考背書。

額外爭議:Milla Jovovich 的角色

社群 Community Notes 指出,Jovovich 的參與是「概念與宣傳性質」,她的 GitHub 帳號只有 7 個 commits、2 天操作紀錄,而專案的早期貢獻者帳號 aya-thekeeper 在專案發布後被刪除。

加上 Sigman 同期推出同名 MemPalace 加密貨幣,他和 Jovovich 各持 50% 創作者獎勵,24 小時內暴漲暴跌,Kotaku 的標題直接是:「Resident Evil Movie Star Promotes Crypto Bro’s AI-Coded ‘MemPalace’ Accused Of Being Snake Oil」。(Snake Oil 就是我們小時候常說的印度神油,意指騙人或者誇大不實)

創作者的回應

Sigman 承認「24 小時內被社群批爛」,更新了分數:raw mode 96.6%、held-out split 98.4%,並在官網新增 /benchmarks 頁面說明方法論,程式碼沒有改變,措辭改了。

我的觀察

或許這件事最值得想的,不是 MemPalace 行不行,而是**這個時代的 AI 行銷到底在玩什麼?**公平地說:程式碼是真的,架構邏輯是真的,「原文儲存 + vector search」的設計思路也被部分開發者認為值得參考,這不是一個誇誇其談的假東西。

但同樣公平地說:把 recall@5 說成「LongMemEval 100% 滿分、史上第一次」,再配上好萊塢女星的臉和加密貨幣的熱度,這條路不管有沒有惡意、或者投機的心態,都踩了技術社群的底線。

我在心法篇-不專業的傲慢寫過”把 AI 工具的能力當成自己的能力”,而 MemPalace 這件事有點像另一個版本:把一個真實但有限的技術成果,用行銷語言包裝成無法獨立驗證的完美神話。

之前說過,AI 幾乎能解決所有事情的那個「幾乎」,是最危險的位置,在基準測試上也一樣,號稱 96.6% 是一個不錯的成績,但要說是 100% 完美,我們還必須驗證看看。


最後,同事再問我一次那部電影的名字跟內容,我說《第五元素》,1997 年,Luc Besson 導演,Gary Oldman 演反派(他之前都演帥反派,比如 Leon 裡頭的壞人,但近年都演好人,從哈利波特的天狼心、暗黑騎士的警察局長、到最黑暗的時刻的邱吉爾),Milla Jovovich 穿著用膠帶做的衣服、頂著紅頭髮還有武打動作,主角是已經失智/失語的布魯斯威利(Bruce Willis),自己講完都覺得太老了… 他說,他只對那個藍色唱歌的 Diva 有印象,這時那個最年輕的同事已經戴上耳機了。


參考資料

支持這個系列

如果這系列文章對你有幫助,考慮請我喝杯咖啡