TF.IDF (frequência de termo – frequência do termo–inverso da frequência nos documentos) é uma estatística numérica que indica a importância de uma palavra ou frase para um documento dentro de uma coleção de documentos.
É uma pontuação proporcional ao número de vezes que uma palavra aparece no documento compensada pela frequência da palavra na coleção de documentos.
É calculado multiplicando a “frequência de termo” da palavra que aparece no documento e a “frequência do termo–inverso da frequência nos documentos” da palavra em todos os documentos.
Ele foi projetado para medir a relevância de um termo para um determinado documento em comparação com outros documentos do conjunto.
Em pesquisas voltadas para pessoas, como anúncios de emprego, o TF.IDF pode ajudar a identificar palavras relacionadas a determinados cargos ou funções, para que os empregadores possam comparar com precisão os currículos com as qualificações do trabalho.
(Veja também BM25).