Ranking in der Suchmaschine
Haben Sie bei prometheus mal nach „kreuzigung“ gesucht? Wir haben es gerade getan und die Anfrage über das Suchfeld der einfachen Suche, über die Volltextsuche ergibt 7.525 Treffer. In dieser Trefferliste sind die Datensätze standardmäßig nach Relevanz sortiert. Doch wie ermittelt die Suchmaschine diese Relevanz?
Es gibt sogenannte „Volltext-Relevanz-Formeln“, die verschiedene Faktoren kombinieren, um einen Relevanz-Score für jeden Datensatz zu ermitteln. Die drei Faktoren term frequency, inverse document frequency und field-length norm werden während der Indexierung berechnet und gespeichert. Bei „term frequency“ wird ein Wert aus der Häufigkeit des Auftretens des Terms in einem Dokument ermittelt, bei „inverse document frequency“ die relative Häufigkeit des Vorkommens in allen Dokumenten des Index. Das Gewicht ist dabei höher, je seltener der Begriff vorkommt. Bei „field-length norm“ wird der Begriff im Verhältnis zur Feldlänge ausgewertet. Ist das Feld kürzer, dann ist das Gewicht höher, da die Wahrscheinlichkeit steigt, dass der Begriff etwa in einem knappen Titel-Feld tatsächlich inhaltlich relevant ist.
„Kreuzigung (Kaufmannsche Kreuzigung)“ als Titel ist daher relevanter als ein Titel „Kreuzigung“ und der wiederum relevanter als der Titel „Kreuzigung Christi“.
Wenn Sie mehrere Suchbegriffe eingeben, müssen auch die Gewichtungen kombiniert werden. Dazu wird das Vektorraummodell verwendet. Wir werden dieses Modell in einem späteren Newsletter näher beschreiben.