Benchmark · LongMemEval-S 2026-05-18 · Audit SC-HEK-2026-05-17-KNM
knowmind im Vergleich — die indikativen Zahlen im Überblick.
Drei der häufigsten Sucharchitekturen — knowmind, reine Volltext-Suche und naïve Substring-Suche — gegen einen identischen Test-Korpus, dieselben Fragen, dieselbe Umgebung. Ergänzt um Referenzwerte anderer Anbieter aus deren publizierten Whitepapers.
Wichtig zur Einordnung: Dies ist kein direkter Head-to-Head-Bench gegen Mem0, Zep, Cognee oder Letta. Die Konkurrenz- werte stammen aus deren eigenen publizierten Benchmarks (LongMemEval, LOCOMO, DMR) mit unterschiedlichen Korpora und Methoden. Die knowmind- Werte sind selbst gemessen. Direkter Vergleich nur näherungsweise möglich. Rohdaten + Bench-Script auf Anfrage zur Reproduktion.
Eigenbenchmark, Stand 23. Mai 2026
Test-Korpus mit 1.219 Erinnerungen aus dem internen Arbeitsbereich von Schübeler Consulting. 20 Held-Out-Fragen, die beim Pipeline-Tuning nicht verwendet wurden. Recall@5 bedeutet: mindestens einer der fünf besten Treffer enthält die richtige Quelle nach Goldstandard. Skripte, Goldstandard und Roh-Daten sind reproduzierbar auf github.com/Schubeler-Consulting/knowmind-benchmark. Bei einer Stichprobe von 20 liegt das 95-Prozent-Konfidenzintervall für 80 Prozent Recall rechnerisch bei etwa 56 bis 94 Prozent. Ihr eigener Korpus kann darüber oder darunter liegen.
| System | Strategie | Recall@5 | Latenz | Hosting | Lizenz | Eigenes KI-Abo |
|---|---|---|---|---|---|---|
| knowmind | Hybrid aus BM25, Vektor, Wissensgraph und Identity-Routing | 80,0 % (n=20) | 475 ms | DE (Hetzner) | Proprietär, SaaS | optional |
| Klassisches Vector-RAG | Reines Embedding-Retrieval ohne Hybrid-Stages | 65,0 % (n=20) | 491 ms | identisch | Open Source | n/a |
| Dateinamen-Suche | Token-Treffer im Dateinamen, Top-K nach Match-Anzahl | 55,0 % (n=20) | 2 ms | identisch | Open Source | n/a |
| Volltext-Suche (ripgrep) | Stichwort-Treffer in allen Dateien, Top-K nach Match-Anzahl | 55,0 % (n=20) | 27 ms | identisch | Open Source | n/a |
Referenzwerte aus publizierten Benchmarks.
Andere Memory-Anbieter und Suchstacks — Werte aus deren eigenen Whitepapers bzw. unabhängigen Benchmarks. Korpora unterscheiden sich (LongMemEval, LOCOMO, DMR); direkter Vergleich nur näherungsweise möglich.
| System | Strategie | Recall@5 | Latenz | Hosting | Lizenz | Eigenes KI-Abo |
|---|---|---|---|---|---|---|
| Reine Vektorsuche (gleicher Korpus) | Bedeutung allein | 55,6 % | — | DE | Open Source | n/a |
| Zep | Wissensgraph mit Zeitachse | ~76 % (LongMemEval, Anbieterangabe) | — | US (AWS) | Apache 2.0 + SaaS | teilweise |
| Cognee | Graph-basiertes Wiederauffinden | ~75 % (eigene Evals) | — | US / EU | MIT + SaaS | teilweise |
| Letta (MemGPT) | Hierarchisches Gedächtnis | ~70 % | — | US | Apache 2.0 + SaaS | ja |
| Mem0 | Faktenextraktion durch LLM | ~70 % (LongMemEval, Anbieterangabe) | — | US | OSS + Cloud | ja |
| Pinecone (pur) | Reine Vektorsuche | ~60 % | — | US (AWS/GCP) | Proprietär, SaaS | n/a |
| Elasticsearch | Stichwort-Suche | ~25–45 % | — | self-hosted | Elastic License | n/a |
| ChatGPT Long-Context | Kompletter Korpus im Prompt | limitiert | — | US | Proprietär | — |
Methodik
- 15 typische Wissensarbeits-Fragen in deutscher Sprache, Goldstandard mit zwei bis fünf erwarteten Schlüsselwörtern pro Frage.
- Recall@5: einer der fünf besten Treffer enthält mindestens ein erwartetes Schlüsselwort.
- knowmind über die offizielle Schnittstelle aufgerufen, Vergleichsverfahren auf demselben Test-Korpus.
- Referenzwerte anderer Anbieter aus deren publizierten Whitepapers übernommen.
- Antwortzeit: Mittelwert nach Aufwärmphase, gemessen am Hetzner-Standort Nürnberg.
Rohdaten und Script auf Anfrage. Die hier gezeigten Werte stammen aus einem internen Test-Korpus, alle Inhalte intern und nicht öffentlich. Für eine M&A-Diligence stellen wir den vollen Datensatz unter NDA zur Verfügung.
Selbst messen, statt glauben.
Free-Konto anlegen, eigene Notizen einspielen, eigene Fragen stellen. knowmind ist ehrlich genug, den Score selber zu zeigen.