Filter für die Metadaten
Im letzten Newsletter haben wir Sie ja schon über einige Suchmöglichkeiten informiert (Boolsche Operatoren, Unscharfe Suche, Wildcards). Damit Sie einen kleinen Einblick in das Retrieval erhalten, möchten wir Ihnen nun ein paar der Filter vorstellen, die wir innerhalb der Suchmaschine einsetzen, und zwar zur Vorverarbeitung der Metadaten. Dabei werden die Metadaten teilweise homogenisiert. Das bedeutet nicht, dass die Daten selbst abgeändert werden, jedoch werden bei der Indexierung verschiedene linguistische Analyseerfahren angewendet, um die Verschiedenartigkeit der Daten auszugleichen. Der Lowercase Filter zum Beispiel legt die Metadaten in Kleinbuchstaben im Index ab, und auch die Suchanfrage wird in Kleinbuchstaben umgewandelt, so dass es keine Rolle spielt, ob Sie einen Begriff groß oder klein schreiben. Durch den Einsatz des Umlautfilters werden “Aepfel” und “Äpfel” oder “Grundriss” und Grundriß" gleichermaßen gefunden. Und auch diakritische Zeichen (ASCII folding filter) werden normalisiert, so dass eine Suche nach “Cezanne” auch Treffer mit der korrekten Schreibweise “Cézanne” liefert. Das sind natürlich längst nicht alle Möglichkeiten, die einem die Suchmaschine zur Optimierung des Retrievals bietet. Wie werden Ihnen an dieser Stelle immer mal wieder einen kleinen Einblick in einzelne Retrieval- und auch Bewertungsmechanismen unserer Suchmaschine geben.