Google findet alles. Stimmt das überhaupt, welche Technik steckt dahinter und finden verschiedene Suchmaschinen eigentlich das Gleiche? Die Welt ist längst miteinander vernetzt. Die meisten Informationen suchen und finden die Menschen im Internet, egal ob es sich um private Interessen oder berufliche Recherchen handelt. Sogar soziale Kontakte werden im Internet gepflegt. Dreh- und Angelpunkt all dieser Aktionen sind die Suchmaschinen.
Suchmaschinen erschließen das Internet
Sie sind das Hilfsmittel, um die gigantische Menge an Informationen im Internet zu erschließen. Mit der Einführung der einfachen Suche hat Google die traditionellen Suchstrategien aus der Bibliothekswelt radikal verändert. Ein einziges Suchfeld weckt hohe Erwartungen im Nutzer und verdeckt gleichzeitig die komplexen Vorgänge der Inhaltserschließung. Um eine erfolgreiche Suche durchzuführen, ist es jedoch von großem Vorteil, die Funktionsweise von Suchmaschinen zu kennen.
Die Funktionsweise einer Suchmaschine
Das Internet ist im Grunde eine Sammlung von Dokumenten, die über Hyperlinks miteinander vernetzt sind. Die Suchmaschine ist nun ein Navigationsinstrument – konkret eine Software – mit der gesuchte Dokumente gefunden werden. Sie basiert auf einem einfachen Algorithmus und drei Komponenten: dem Crawler, dem Index und dem Query Processor.
Crawler oder Web-Roboter sammeln Webdokumente
Ein Computerprogramm, der sogenannte Crawler oder auch Web-Roboter, durchstöbert die Dokumente im Internet. Dabei orientiert er sich an der Linkstruktur des Internets. Beginnend bei einer Webseite folgt er der verlinkten URL und gelangt so auf eine nächste Webseite. Systematisch kann der Crawler nun horizontal, also viele verschiedene Websites, aber auch vertikal, also die Unterseiten einer Website, durchsuchen.
Die Adressen der besuchten Seiten – die URLs – werden in einer Tabelle aufgelistet und ständig erweitert. Zusätzlich wird ein Abbild jedes Webdokuments gemacht. Beides wird auf dem Webserver des Suchmaschinenanbieters gespeichert. Um aber ein unkontrolliertes Durchsuchen dieser Web-Roboter zu verhindern, ist es dem Webmaster einer Website möglich, Zugriffsbeschränkungen für den Crawler zu formulieren. Diese werden im Wurzelverzeichnis in die Datei robots.txt geschrieben. Der beschriebene Robots-Exclusion-Standard unterliegt lediglich der Netiquette, wird aber von allen Web-Robotern beachtet.
Darüber hinaus kann der Crawler nur statische Seiten durchsuchen. Dynamische Seiten werden über Anfragen generiert und basieren auf Datenbanken. Dem Crawler einer Suchmaschine ist es nicht möglich, diese Seiten zu durchsuchen. Man spricht daher auch vom Invisible oder Deep Web.
Der Index erschließt die Inhalte der gesammelten Webdokumente
Die nun folgende Aufbereitung der Dokumente gleicht der Erschließungsarbeit in Bibliotheken. Die gesammelten Webseiten und anderen Dokumente werden analysiert und indexiert. Was heißt das? Potenzielle Suchbegriffe werden aus dem Dokument genommen und in eine alphabetische Liste eingetragen. Die Suchmaschinen speziell übernehmen nahezu alle Wörter eines Dokuments. Dabei werden die Wörter zuerst einer grammatikalischen Analyse (dem Parsing) unterzogen, d. h. die Wörter aus dem Dokument werden auf ihre grammatikalische Stammform reduziert bzw. modifiziert. Dazu sind dem Index Sprachwörterbücher hinterlegt. Das ist ein wichtiger Vorgang für das Zuordnen der Dokumente bei der Suchanfrage.
Die Analyse des Dokumentes geht aber noch weiter. Das Programm markiert für die Suche unwichtige Wörter wie Artikel, Partikel oder Konjunktionen (z.B. der, dies, eine) als Stoppwörter. In der Regel werden sie für die Suche nicht verwendet. Neben der Termextraktion werden auch die Position jedes Wortes sowie ihre Häufigkeit im einzelnen Dokument in einer Indexdatenbank gespeichert. Somit beinhaltet die Indexdatenbank zu jedem indexierten Wort Informationen zu Position und Häufigkeit innerhalb des Dokuments sowie Vorkommen in verschiedenen Dokumenten. Solch eine Zuordnung wird als invertierter Index bezeichnet. Darüber hinaus werden übergeordnete Informationen zum Dokument festgehalten wie beispielsweise die URL, das Datum und der Titel des Dokuments. Diese Informationen sind essentiell für das Ranking der Trefferliste.
Query Processor vergleicht Suchbegriffe mit den indexierten Termen
Die Wortliste oder auch der Index sind das Arbeitsmittel der Suchmaschine. Der Query Processor ist ebenfalls ein Computerprogramm und die Schnittstelle zwischen dem Benutzer und der Suchmaschine. Als wichtigste Komponente wertet der Query Processor die Suchanfragen des Nutzers aus. Worte und Phrasen genauso wie hinzugefügte Anweisungen (Bool’sche Operatoren, Trunkierungen etc.) werden analysiert und indexiert. Danach gleicht der Query Processor diese reduzierten Indexterme mit jenen in der Indexdatenbank ab. Gleiche Terme werden extrahiert und die passenden Dokumente aus der Datenbank in einer Trefferliste angeordnet. Um die Relevanz der Dokumente zu bewerten, werden verschiedene Ranking-Verfahren angewendet. Neben der Häufigkeit eines Terms in Dokumenten spielen vor allem die Anzahl und Art der Verlinkung der Webseiten eine große Rolle (PageRank-Verfahren).
Bewertung der Qualität von Suchmaschinen
Trotz dieser einfachen Funktionsweise unterscheiden sich Suchmaschinen voneinander. Das liegt zum einen an der Anzahl der indexierten Dokumente, aber auch in ihrer Aktualität. Eine Suchmaschine analysiert lediglich die Abbilder der Webdokumente. Je öfter ein Crawler eine Webseite besucht, desto aktueller sind folglich die Rechercheergebnisse in einer Suchmaschine. Doch heutzutage ist das kaum noch ein Problem. Das entscheidende Qualitätsmerkmal liegt nämlich im Ranking-Verfahren. Wie die Suchmaschinen die Relevanz ihrer Dokumente im Detail bestimmen, ist oft Betriebsgeheimnis. Nicht zuletzt liegt hier der Erfolg von Google begründet.
Kritischer Umgang mit Suchmaschinen
Mit dem Wissen über die Funktionsweise sollte man durchaus kritisch an Suchmaschinen herangehen: Liefern sie mir wirklich die relevanten Ergebnisse für meine Suchanfrage? Hat eine andere Suchmaschine eventuell bessere Ranking-Methoden oder mehr indexierte Web-Dokumente? Aber auch die eigene Suchstrategie sollte man überdenken: So sollte man die Suchbegriffe so wählen, wie sie auch im Text vorkommen. Weiterhin empfiehlt es sich, mehrere Suchanfragen zu einem Thema durchführen, dabei aber unterschiedliche Suchbegriffe zu formulieren.