TF.IDF (term frequency – inverse document frequency) è una statistica numerica che indica l’importanza di una parola o di una frase in un documento all’interno di una raccolta di documenti.
Si tratta di un punteggio proporzionale al numero di volte in cui una parola compare nel documento compensato dalla frequenza della parola nella collezione di documenti.
Viene calcolato moltiplicando la “frequenza del termine” della parola che appare nel documento e la “frequenza inversa del documento” della parola in tutti i documenti.
È stato progettato per misurare la rilevanza di un termine in un particolare documento rispetto agli altri documenti dell’insieme.
Nelle ricerche orientate alle persone, come gli annunci di lavoro, TF.IDF può aiutare a identificare le parole legate a determinate posizioni o ruoli, in modo che i datori di lavoro possano confrontare accuratamente i curriculum con le qualifiche professionali.
(Vedi anche BM25)