Benchmark · LongMemEval-S 2026-05-18 · Audit SC-HEK-2026-05-17-KNM

knowmind im Vergleich.

Drei der häufigsten Sucharchitekturen — knowmind, reine Volltext-Suche und naïve Substring-Suche — gegen einen identischen Test-Korpus, dieselben Fragen, dieselbe Umgebung. Ergänzt um Referenzwerte anderer Anbieter aus deren publizierten Whitepapers.

Wichtig zur Einordnung: Dies ist kein direkter Head-to-Head-Bench gegen Mem0, Zep, Cognee oder Letta. Die Konkurrenz- werte stammen aus deren eigenen publizierten Benchmarks (LongMemEval, LOCOMO, DMR) mit unterschiedlichen Korpora und Methoden. Die knowmind- Werte sind selbst gemessen. Direkter Vergleich nur näherungsweise möglich. Rohdaten + Bench-Script auf Anfrage zur Reproduktion.

Eigenbenchmark, Stand 23. Mai 2026

Test-Korpus mit 1.219 Erinnerungen aus dem internen Arbeitsbereich von Schübeler Consulting. 20 Held-Out-Fragen, die beim Pipeline-Tuning nicht verwendet wurden. Recall@5 bedeutet: mindestens einer der fünf besten Treffer enthält die richtige Quelle nach Goldstandard. Skripte, Goldstandard und Roh-Daten sind reproduzierbar auf github.com/Schubeler-Consulting/knowmind-benchmark. Bei einer Stichprobe von 20 liegt das 95-Prozent-Konfidenzintervall für 80 Prozent Recall rechnerisch bei etwa 56 bis 94 Prozent. Ihr eigener Korpus kann darüber oder darunter liegen.

System	Strategie	Recall@5	Latenz	Hosting	Lizenz	Eigenes KI-Abo
knowmind	Kombiniert Volltext, Bedeutungssuche und Wissensgraph; Namen und Personen werden gezielt aufgelöst (Identity-Routing)	80,0 % (n=20)	475 ms	DE (Hetzner)	Proprietär, SaaS	optional
Klassisches Vector-RAG	Reines Embedding-Retrieval ohne Hybrid-Stages	65,0 % (n=20)	491 ms	identisch	Open Source	n/a
Dateinamen-Suche	Token-Treffer im Dateinamen, Top-K nach Match-Anzahl	55,0 % (n=20)	2 ms	identisch	Open Source	n/a
Volltext-Suche (ripgrep)	Stichwort-Treffer in allen Dateien, Top-K nach Match-Anzahl	55,0 % (n=20)	27 ms	identisch	Open Source	n/a

Referenzwerte aus publizierten Benchmarks.

Andere Memory-Anbieter und Suchstacks — Werte aus deren eigenen Whitepapers bzw. unabhängigen Benchmarks. Korpora unterscheiden sich (LongMemEval, LOCOMO, DMR); direkter Vergleich nur näherungsweise möglich.

System	Strategie	Recall@5	Latenz	Hosting	Lizenz	Eigenes KI-Abo
Reine Vektorsuche (gleicher Korpus)	Bedeutung allein	55,6 %	—	DE	Open Source	n/a
Zep	Wissensgraph mit Zeitachse	~76 % (LongMemEval, Anbieterangabe)	—	US (AWS)	Apache 2.0 + SaaS	teilweise
Cognee	Graph-basiertes Wiederauffinden	~75 % (eigene Evals)	—	US / EU	MIT + SaaS	teilweise
Letta (MemGPT)	Hierarchisches Gedächtnis	~70 %	—	US	Apache 2.0 + SaaS	ja
Mem0	Faktenextraktion durch LLM	~70 % (LongMemEval, Anbieterangabe)	—	US	OSS + Cloud	ja
Pinecone (pur)	Reine Vektorsuche	~60 %	—	US (AWS/GCP)	Proprietär, SaaS	n/a
Elasticsearch	Stichwort-Suche	~25–45 %	—	self-hosted	Elastic License	n/a
ChatGPT Long-Context	Kompletter Korpus im Prompt	limitiert	—	US	Proprietär	—

Methodik

20 typische Wissensarbeits-Fragen in deutscher Sprache, Goldstandard mit zwei bis fünf erwarteten Schlüsselwörtern pro Frage.
Recall@5: einer der fünf besten Treffer enthält mindestens ein erwartetes Schlüsselwort.
knowmind über die offizielle Schnittstelle aufgerufen, Vergleichsverfahren auf demselben Test-Korpus.
Referenzwerte anderer Anbieter aus deren publizierten Whitepapers übernommen.
Antwortzeit: Mittelwert nach Aufwärmphase, gemessen am Hetzner-Standort Nürnberg.

Rohdaten und Script auf Anfrage. Die hier gezeigten Werte stammen aus einem internen Test-Korpus, alle Inhalte intern und nicht öffentlich. Für eine M&A-Diligence stellen wir den vollen Datensatz unter NDA zur Verfügung.

Jetzt kostenlos testen!

Privat-Konto anlegen, eigene Notizen einspielen, eigene Fragen stellen. Den Recall-Wert auf Ihren eigenen Daten sehen Sie direkt im Dashboard.

Kostenlos testen Tarife ansehen