Una stop list, o lista di stopword, è una lista predefinita di parole escluse dai processi di indicizzazione e reperimento di informazioni.
Utilizzo
Lo scopo di una stop list è quello di escludere le parole che sono così comuni e frequenti in una lingua da avere poca o nessuna valenza per distinguere un documento da un altro.
Operatori
Le stoplist di solito includono parole come “a”, “un”, “il”, “in”, “su”, “di” e altre preposizioni, congiunzioni e articoli. Dato che queste parole non sono portatrici in sé di significato, la includerle in una query di ricerca o in un indice porterebbe a molti risultati di ricerca irrilevanti.
Elaborazione del linguaggio
Nella elaborazione del linguaggio naturale (Natural. Language Processing – NLP), le stop list stop sono spesso utilizzate per pre-processare i dati testuali prima di attività come la classificazione dei documenti, l’analisi del sentiment o la modellazione degli argomenti.
Rimuovere le stop word da un documento o da un corpus rende le parole rimanenti più significative e permette di rivelare gli argomenti e i temi di fondo.