Stemming

Mentre debuggavo qualche pezzo di Blogoo inerente stem la ricerca, mi sono imbattuto in un algoritmo alquanto interessante data la mia viscerale passione per l’analisi lessicale: lo stemming, ovvero la riduzione di una parola alla sua radice in modo che la ricerca sia più accurata possibile.

Ho cercato di usare qualcosa di già pronto, ma si è rivelato così bacato che ho preferito riscrivere l’intero algoritmo da capo tenendo in mente che una parte dell’algoritmo deve essere molto veloce.

Anche se ad un certo punto mi son arreso per dare priorità, come dovrebbe pur essere, alla corretta funzionalità.

L’algoritmo che ho usato è una versione modificata di quello descritto in questa pagina. Modifica resasi necessaria per il corretto stemming di parole che terminano in –atrice, –atrici gestite in maniera diversa – e chissà per quale motivo – dai corrispondenti suffissi maschili. Volendo per i programmatori C# volenterosi ci si potrebbe divertire a studiare implementazioni migliori e darle in pasto ad un semplice programma di test.

Nel piccolo di questa piattaforma quindi lo stemming è pressoché completato: magari non serve a niente, ma un algoritmo interessante è difficile da ignorare.

-quack

Technorati Tags: Algoritmi,Stemming