Mila Chojowa Vitchey bringt mit KI ein „Full-Score-Projekt“ zustande? Entwickler-Tests: Ist da wirklich Substanz drin oder nur aufgeblasenes Marketing?

Das von Milla Jovovich und Vicki entwickeltes KI-Gedächtnissystem MemPalace soll bei Tests mit voller Punktzahl geglänzt und ist viral gegangen, doch wurde von der Community damit auseinander genommen, dass bei den Tests betrogen und die Daten irreführend dargestellt worden seien. In eigenen Tests zeigte sich, dass die erzielten Erfolge übertrieben sind und es viele Fehler gibt. Das Team hat die Mängel inzwischen eingeräumt und arbeitet an der Behebung.

Milla Jovovich baut ein KI-Gedächtnisschloss – stößt auf großes Interesse

Gestern (4/7) gab es in der KI-Szene eine große Nachricht: Die Hollywood-Schauspielerin Milla Jovovich, bekannt aus „Resident Evil“ und „Das fünfte Element“, entwickelte mit dem Entwickler Ben Sigman mit Hilfe von Claude Code das Open-Source-KI-Gedächtnissystem „MemPalace“.

Eine Zeit lang verbreitete sich die Aussage „Hollywood-Superstar wechselt die Branche und liefert ein Projekt mit voller Punktzahl“ weitgehend. MemPalace hat bis heute auf GitHub über 20k Sterne erhalten, doch schon bald kam aus der Entwickler-Community der Zweifel: Steckt wirklich Substanz dahinter oder ist es nur Marketing?

Zunächst wollen wir die Motivation hinter der Entstehung von MemPalace erklären: Laut offizieller Dokumentation soll ein aktuelles Problem gelöst werden, nämlich dass Inhalte der Nutzer-KI-Dialoge, Entscheidungsprozesse und Architektur-Diskussionen bei KI-Systemen typischerweise nach der Arbeitssitzung verschwinden, wodurch die monatelange Mühe faktisch zu Auf Null setzen wird.

Um dieses Problem zu lösen, nutzt MemPalace eine räumliche Struktur zum Speichern von Erinnerungen: Informationen werden klar in Flügelbereiche eingeordnet, die für Personen oder Projekte stehen, sowie in Strukturen auf unterschiedlichen Ebenen wie Korridore, Zimmer und Schubladen. So wird der Originalwortlaut der Dialoge für die spätere semantische Suche aufbewahrt.

Das Entwicklungsteam behauptet, MemPalace habe in LongMemEval, dem Bewertungsstandard für Langzeitgedächtnis, 100% der perfekten Punktzahl erreicht und zudem 96,6% Genauigkeit erzielt, ohne irgendeine externe API aufzurufen. Außerdem könne es vollständig lokal laufen, ohne ein Abonnement für Cloud-Dienste zu benötigen, und es sei mit einem AAAK-Dialekt-System ausgestattet, das angeblich bis zu 30-fache verlustfreie Kompression erreichen kann.

Bildquelle: GitHub – Hollywood-Star Milla Jovovich baut ein KI-Gedächtnisschloss – stößt auf großes Interesse

Kollegen und Community stellen alles gemeinsam in Frage: Testmethoden und Werbeshow voller Schwächen

Doch die angeblich mit LongMemEval erzielte volle Punktzahl hat sehr schnell Kritik von Kollegen ausgelöst.

PenfieldLabs, ebenfalls bekannt für die Entwicklung von KI-Gedächtnissystemen, weist darauf hin, dass es mathematisch unmöglich sei, dass MemPalace bei dem Datensatz LoCoMo eine volle Punktzahl erhalten habe, denn die Standardantworten dieses Datensatzes selbst enthielten 99 Fehler.

PenfieldLabs analysierte und stellte fest, dass die 100%-Leistung von MemPalace auf die Einstellung der Abrufanzahl auf 50 zurückgehe. Allerdings habe die höchste Stufe der Dialoge im Testdatensatz nur 32 Durchläufe. Das bedeutet, dass das System die Abrufphase direkt umgeht und alle Daten dem KI-Modell zum Lesen übergibt.

Im Hinblick auf die 100%-Leistung bei LongMemEval wurde außerdem entdeckt, dass das Entwicklungsteam gezielt an drei bestimmten, bei der Entwicklung aufgetretenen Problemen gearbeitet hat. Dabei wurden spezielle Reparaturcodes geschrieben, was den Verdacht nahelegt, dass es sich um Betrug beim Testset handelt.

Bildquelle: Reddit – PenfieldLabs von der Konkurrenz weist darauf hin, dass es mathematisch nicht möglich ist, dass MemPalace im Datensatz LoCoMo eine volle Punktzahl erreicht

GitHub-Nutzer testen selbst nach: Die Benchmark-Tests enthalten irreführende Bestandteile

Der GitHub-Nutzer hugooconnor kommentierte nach eigenen Tests: MemPalace behaupte eine Abrufgenauigkeit von bis zu 96,6%, tatsächlich sei aber überhaupt keine der von MemPalace beworbenen Gedächtnisschloss-Strukturen verwendet worden. hugooconnor sagte, dass ihre Tests lediglich die Standardfunktionen der zugrunde liegenden Datenbank ChromaDB aufriefen und keinerlei Zusammenhang mit der vom Projekt betonten Logik der Flügelbereiche, Zimmer oder Schubladen hätten.

Nach Abschluss der Tests stellte hugooconnor fest, dass es bei aktivierter spezifischer Klassifikationslogik dieser Gedächtnisschlösser zu einem Leistungsabfall kommt. Beispielsweise sinke die Genauigkeit im Zimmer-Modus auf 89,4%; nach Aktivierung der AAAK-Kompression falle sie weiter auf 84,2%. Beides liegt unter der Leistung der voreingestellten Datenbank.

hugooconnor kritisierte außerdem die Testmethode: Die Testumgebung von MemPalace verenge absichtlich den Abrufbereich für jede einzelne Frage auf etwa 50 Dialog-Phasen und suche in einer sehr kleinen Beispiellogik nach Antworten, was zu einfach sei.

Wenn man den Bereich auf über 19.000 Dialog-Phasen in realen Szenarien ausdehnt, fällt die Genauigkeit der traditionellen Keyword-Suche auf nur noch 30% ab. Das zeige, dass die aktuelle Testmethode von MemPalace die echten Suchschwierigkeiten überdeckt.

Bildquelle: GitHub – Eigene Tests zeigen bei MemPalace irreführende Benchmark-Bestandteile

Zwar hat das Entwicklungsteam inzwischen bereits eine Berichtigung veröffentlicht, räumt ein, dass die AAAK-Technik tatsächlich als verlustbehaftete Kompression verifiziert wurde, und verspricht, die Dokumentation und Systemdesigns entsprechend den strengen Kritiken aus der Community zu überarbeiten. Doch in der Hauptbeschreibungsdokumentation des Projekts bleiben weiterhin mehrere unbereinigte Übertreibungen erhalten, darunter Aussagen wie 30-fache verlustfreie Kompression und eine 34%-Abrufsteigerung; außerdem fehlen auch in den Vergleichsgrafiken mit anderen Wettbewerbern völlig die Quellenangaben.

Der MemPalace-Quellcode steht vor mehreren Bugs

Mit immer mehr heruntergeladenen Tests tauchten auf der GitHub-Plattform zahlreiche Bug-Meldungen zum Quellcode von MemPalace auf.

Der Nutzer cktang88 listete mehrere schwerwiegende Mängel auf, darunter, dass Kompressionsbefehle nicht funktionieren und zum Absturz des Systems führen, ein Logikfehler bei der Berechnung der Zusammenfassungswortzahl, und dass die Statistikdaten für das „Ausgraben“ von Zimmern ungenau sind, sowie dass der Server bei jedem Aufruf alle Interpretationsdaten in den Arbeitsspeicher lädt, was zu massiven Ressourcenproblemen führt.

Weitere genannte Probleme umfassen, dass das System die Namen der Familienmitglieder von Entwicklern zwangsweise in die Standard-Settings schreibt, sowie eine erzwungene Anzeigeobergrenze von 10k Datensätzen beim Abfragen des Status.

Für diese Probleme hat die Open-Source-Community bereits aktiv mit der Reparatur begonnen. Der Nutzer adv3nt3 reichte mehrereReparaturanfragen ein, darunter die Korrektur der Aushub-Statistikdaten, das Entfernen der voreingestellten Namen der Familienmitglieder und das Hinauszögern der Initialisierungszeit des Wissensgraphen. Das Entwicklungsteam hat später auch diese Fehler eingeräumt und löst die Codeprobleme Schritt für Schritt im Rahmen der Zusammenarbeit mit der Community.

Milla Jovovich’ Vibe Coding ist cool, aber die Vermarktung ist nicht cool

Für dieses Projekt MemPalace zog Hacker-News-User darkhanakh ein Fazit: MemPalace vermittelt den Eindruck von OpenClaw – also dass die Benchmark-Ergebnisse künstlich manipuliert werden, sodass sie makellos wirken, und sie dann als eine Art bedeutenden Durchbruch verpackt werden, um sie zu vermarkten.

Er findet, dass die Kerntechnologie von MemPalace möglicherweise wirklich interessant sein könnte, aber wenn die Testmethode solche Schwächen aufweist und man dann trotzdem mit „dem öffentlich höchsten Score aller Zeiten“ bewirbt, sei das nicht wirklich angemessen. „Aber dass Milla Jovovich gerade Vibe Coding spielt, das finde ich trotzdem ziemlich cool.“

Weiterführende Lektüre:
KI schreibt Programme und macht einen Bock! App „惜食獵人“ (Food-Retter) mit Sicherheitsproblemen – der GPS-Standort in der Wohnung läuft nackt davon

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Kommentieren
0/400
Keine Kommentare