TFIDF

TFIDF (ang. TF – term frequency, IDF – inverse document frequency; częstość słów–odwrotność częstości w dokumentach) – jedna z metod obliczania wagi słów (terminów) na podstawie liczby ich wystąpień w dokumentach^[1]. Metoda ta należy do grupy algorytmów budujących wektorową reprezentację tekstów(inne języki). Każdy dokument reprezentowany jest przez wektor, składający się z wag słów występujących w tym dokumencie. TFIDF informuje o częstości wystąpienia słów uwzględniając jednocześnie odpowiednie wyważenie znaczenia lokalnego słowa i jego znaczenia w kontekście pełnej kolekcji dokumentów^[2].

Algorytm stosowany jako metoda oceny relewantności dokumentu w wyszukiwaniu informacji^[3], w szczególności stosowany w wyszukiwarkach internetowych^[4], kolejnym zastosowaniem jest ocena podobieństwa dokumentów w systemach grupowania wyników oraz systemach typu antyplagiat. TF-IDF jest wykorzystywane jako podstawa do tworzenia reprezentacji numerycznych tekstów w algorytmach uczenia maszynowego, umożliwiając przekształcenie danych tekstowych w wektory liczbowe^[5]. Algorytmy uczenia maszynowego operują na danych numerycznych, dlatego dane tekstowe muszą być najpierw przekształcone w wektory numeryczne w procesie zwanym wektoryzacją. Wektoryzacja TF-IDF polega na obliczeniu wartości TF-IDF dla każdego słowa w korpusie względem danego dokumentu, a następnie umieszczeniu tych informacji w wektorze^[5]. Każdy dokument w korpusie posiada własny wektor zawierający wartości TF-IDF dla wszystkich słów występujących w całej kolekcji dokumentów^[5].

Motywacja

W 1972 roku Karen Spärck Jones opracowała statystyczną interpretację specyficzności terminów, nazwaną odwrotną częstością dokumentową (ang. Inverse Document Frequency, IDF), która stanowiła podwaliny wag terminów:^[6]^[7]

Specyficzność danego terminu można wyrazić ilościowo jako odwrotność do liczby dokumentów, w których on występuje.
(orig: The specificity of a term can be quantified as an inverse function of the number of documents in which it occurs.)

Przykładowe wartości df (częstotliwość dokumentowa) i idf dla niektórych słów w 37 sztukach Szekspira mogłaby być przedstawiona następująco:


Słowo	df	idf
Romeo	1	1.57
sałata	2	1.27
Falstaff	4	0.966
las	12	0.489
bitwa	21	0.246
dowcip	34	0.037
głupiec	36	0.012
dobry	37	0
słodki	37	0

Widzimy, że „Romeo”, „Falstaff” i „sałata” występują w bardzo niewielu sztukach, więc napotkanie tych słów pozwala z dużym prawdopodobieństwem określić, o którą sztukę chodzi. Natomiast słowa „dobry” i „słodki” pojawiają się we wszystkich sztukach i nie niosą żadnej informacji o tym, z której sztuki mogą pochodzić.

Definicja

Wartość TF-IDF oblicza się ze wzoru^[3]^[4]:

\mathrm {(tf{\text{-}}idf)_{i,j}} =\mathrm {tf_{i,j}} \times \mathrm {idf_{i}} ,

gdzie $\mathrm {tf_{i,j}}$ to tzw. „term frequency”, wyrażane wzorem:

\mathrm {tf_{i,j}} ={\frac {n_{i,j}}{\sum _{k}n_{k,j}}},

gdzie $n_{i,j}$ jest liczbą wystąpień słów $(t_{i})$ w dokumencie $d_{j},$ a mianownik jest sumą liczby wystąpień wszystkich słów w dokumencie $d_{j}.$ Wielkość $\mathrm {idf_{i}}$ to „inverse document frequency” wyrażana wzorem:

\mathrm {idf_{i}} =\log {\frac {|D|}{|\{d:t_{i}\in d\}|}},

gdzie:

|D|

– liczba dokumentów w korpusie,

|\{d:t_{i}\in d\}|

– liczba dokumentów zawierających przynajmniej jedno wystąpienie danego termu.

Przykład tf–idf

Załóżmy, że mamy tabele zliczeń terminów dla korpusu składającego się tylko z dwóch dokumentów:

Dokument 1: "To jest mały przykład Mały."^[a]

Dokument 2: "Przykład: To jest inny przykład Inny Przykład."^[b]

Dokument 1
Termin	Liczba wystąpień
to	1
jest	1
mały	2
przykład	1

Dokument 2
Termin	Liczba wystąpień
to	1
jest	1
inny	2
przykład	3

Obliczenie tf–idf dla terminu „to” przebiega następująco:

W surowej postaci tf to po prostu częstość występowania słowa „to” w każdym dokumencie. W obu dokumentach słowo „to” pojawia się raz, jednak ponieważ dokument 2 zawiera więcej słów, jego względna częstość jest mniejsza.

\mathrm {tf} ({\mathsf {''to''}},d_{1})={\frac {1}{5}}=0.2

\mathrm {tf} ({\mathsf {''to''}},d_{2})={\frac {1}{7}}\approx 0.14

Wartość idf jest stała dla całego korpusu i odzwierciedla stosunek liczby dokumentów zawierających słowo „to”. W tym przypadku korpus ma dwa dokumenty i oba zawierają to słowo.