Benchmark · LongMemEval-S 2026-05-18 · Audit SC-HEK-2026-05-17-KNM

knowmind im Vergleich — die indikativen Zahlen im Überblick.

Drei der häufigsten Sucharchitekturen — knowmind, reine Volltext-Suche und naïve Substring-Suche — gegen einen identischen Test-Korpus, dieselben Fragen, dieselbe Umgebung. Ergänzt um Referenzwerte anderer Anbieter aus deren publizierten Whitepapers.

Wichtig zur Einordnung: Dies ist kein direkter Head-to-Head-Bench gegen Mem0, Zep, Cognee oder Letta. Die Konkurrenz- werte stammen aus deren eigenen publizierten Benchmarks (LongMemEval, LOCOMO, DMR) mit unterschiedlichen Korpora und Methoden. Die knowmind- Werte sind selbst gemessen. Direkter Vergleich nur näherungsweise möglich. Rohdaten + Bench-Script auf Anfrage zur Reproduktion.

Eigenbenchmark, Stand 23. Mai 2026

Test-Korpus mit 1.219 Erinnerungen aus dem internen Arbeitsbereich von Schübeler Consulting. 20 Held-Out-Fragen, die beim Pipeline-Tuning nicht verwendet wurden. Recall@5 bedeutet: mindestens einer der fünf besten Treffer enthält die richtige Quelle nach Goldstandard. Skripte, Goldstandard und Roh-Daten sind reproduzierbar auf github.com/Schubeler-Consulting/knowmind-benchmark. Bei einer Stichprobe von 20 liegt das 95-Prozent-Konfidenzintervall für 80 Prozent Recall rechnerisch bei etwa 56 bis 94 Prozent. Ihr eigener Korpus kann darüber oder darunter liegen.

SystemStrategieRecall@5LatenzHostingLizenzEigenes KI-Abo
knowmindHybrid aus BM25, Vektor, Wissensgraph und Identity-Routing80,0 % (n=20)475 msDE (Hetzner)Proprietär, SaaSoptional
Klassisches Vector-RAGReines Embedding-Retrieval ohne Hybrid-Stages65,0 % (n=20)491 msidentischOpen Sourcen/a
Dateinamen-SucheToken-Treffer im Dateinamen, Top-K nach Match-Anzahl55,0 % (n=20)2 msidentischOpen Sourcen/a
Volltext-Suche (ripgrep)Stichwort-Treffer in allen Dateien, Top-K nach Match-Anzahl55,0 % (n=20)27 msidentischOpen Sourcen/a

Referenzwerte aus publizierten Benchmarks.

Andere Memory-Anbieter und Suchstacks — Werte aus deren eigenen Whitepapers bzw. unabhängigen Benchmarks. Korpora unterscheiden sich (LongMemEval, LOCOMO, DMR); direkter Vergleich nur näherungsweise möglich.

SystemStrategieRecall@5LatenzHostingLizenzEigenes KI-Abo
Reine Vektorsuche (gleicher Korpus)Bedeutung allein55,6 %DEOpen Sourcen/a
ZepWissensgraph mit Zeitachse~76 % (LongMemEval, Anbieterangabe)US (AWS)Apache 2.0 + SaaSteilweise
CogneeGraph-basiertes Wiederauffinden~75 % (eigene Evals)US / EUMIT + SaaSteilweise
Letta (MemGPT)Hierarchisches Gedächtnis~70 %USApache 2.0 + SaaSja
Mem0Faktenextraktion durch LLM~70 % (LongMemEval, Anbieterangabe)USOSS + Cloudja
Pinecone (pur)Reine Vektorsuche~60 %US (AWS/GCP)Proprietär, SaaSn/a
ElasticsearchStichwort-Suche~25–45 %self-hostedElastic Licensen/a
ChatGPT Long-ContextKompletter Korpus im PromptlimitiertUSProprietär

Methodik

  • 15 typische Wissensarbeits-Fragen in deutscher Sprache, Goldstandard mit zwei bis fünf erwarteten Schlüsselwörtern pro Frage.
  • Recall@5: einer der fünf besten Treffer enthält mindestens ein erwartetes Schlüsselwort.
  • knowmind über die offizielle Schnittstelle aufgerufen, Vergleichsverfahren auf demselben Test-Korpus.
  • Referenzwerte anderer Anbieter aus deren publizierten Whitepapers übernommen.
  • Antwortzeit: Mittelwert nach Aufwärmphase, gemessen am Hetzner-Standort Nürnberg.

Rohdaten und Script auf Anfrage. Die hier gezeigten Werte stammen aus einem internen Test-Korpus, alle Inhalte intern und nicht öffentlich. Für eine M&A-Diligence stellen wir den vollen Datensatz unter NDA zur Verfügung.

Selbst messen, statt glauben.

Free-Konto anlegen, eigene Notizen einspielen, eigene Fragen stellen. knowmind ist ehrlich genug, den Score selber zu zeigen.