TF-IDF, kurz für Term Frequency Inverse Document Frequency, ist eine einfache numerische Statistik zur Bestimmung der Relevanz eines Textes in Bezug auf die Begriffe in einer Suchanfrage. Sie liefert zwar ein grundlegendes Maß für die Relevanz, ist aber nicht die Art und Weise, wie moderne Suchmaschinen heute arbeiten.
TF-IDF, kurz für Term Frequency Inverse Document Frequency, ist eine numerische Statistik, die verwendet wird, um eine der Möglichkeiten zu beschreiben, mit denen eine Suchmaschine feststellen kann, ob ein Text in Bezug auf die in einer Suchanfrage verwendeten Begriffe relevant ist. TF-IDF ist ein grundlegendes mathematisches Modell. Moderne Suchmaschinen verwenden neben der einfachen Wortzählung auch erweiterte Versionen von TF-IDF sowie neuronales Matching.
Wie der Name schon andeutet, besteht die Funktionsweise dieser Statistik, die eine Relevanzbewertung liefert, aus zwei Teilen.
Der erste Teil ist die Bewertung der "Termfrequenz". Dieser Teil des Algorithmus geht davon aus, dass ein Begriff umso wichtiger ist, je häufiger er in einem Text verwendet wird, um zu bestimmen, worum es in dem Text geht. Wendet man nur diese Logik auf Suchmaschinen an, so sollte, wenn ein Benutzer online nach etwas wie "Website-Analyse" sucht, das erste Ergebnis die Seite mit der höchsten Häufigkeit der Wörter "Website" und "Analyse" sein.
Da aber das Wort "Website" bei so vielen Themen im Internet recht häufig vorkommt, wird dies im zweiten Teil der TF-IDF-Berechnung ebenfalls berücksichtigt. Die "inverse Dokumentenhäufigkeit" verringert das Gewicht derjenigen Begriffe, die in mehreren Texten sehr häufig vorkommen, die berücksichtigt werden. In unserem Beispiel wird der Algorithmus also den Begriff "analytics" bei der Berechnung von TF-IDF stärker gewichten. Im Allgemeinen wird dieser Teil des Algorithmus den spezifischeren Begriffen in der Suchanfrage mehr Gewicht geben.
Natürlich verwenden Suchmaschinen, wie oben erwähnt, unendlich komplexere Modelle zur Bestimmung der Relevanz. Nach heutigen Maßstäben und mit Suchmaschinen, die die Semantik verstehen, kann eine Seite selbst bei einer Häufigkeit des Begriffs von 0 % eine hohe Relevanz in Bezug auf eine Suchanfrage haben. Dies kann der Fall sein, wenn ein Synonym verwendet wird oder wenn die Suchmaschinen eine Reihe von Wörtern erkennen, die häufig in Texten zu diesem Begriff verwendet werden, auch wenn der Begriff selbst nicht vorkommt. Aus diesem Grund ist die einfache TF-IDF nicht mehr relevant.