Stemming

Stemming és un mètode per a reduir una paraula a la seua raïl o (en anglès) a un stem. Hi ha alguns algorismes de stemming que ajuden en sistemes de recuperació d'informació. L'stemming augmenta el recall, que és una mesura sobre el nombre de documents que es poden trobar amb una consulta. Per exemple una consulta sobre "biblioteques" també troba documents en els quals només aparega "bibliotecari" perquè el stem de les dues paraules és el mateix ("bibliotec").

Algorismes

L'algorisme més comú per a stemming és l'algorisme de Porter.[1] Existeixen a més mètodes basats en anàlisi lexicogràfica i altres algorismes similars (KSTEM, stemming amb cos, mètodes lingüístics…).

Programari

Snowball és un petit llenguatge de programació per al maneig de cadenes de text que permet aplicar algorismes de stemming amb facilitat. Es pot generar codi en ANSI C i Java. Les pàgines de Snowball contenen stemmers per a 12 idiomes (inclòs el català). 

Stemming en cercadors comercials

Google utilitza stemming, igual que MSN search (on ha d'activar-se explícitament). En general, els cercadors comercials no donen moltes explicacions sobre els algorismes utilitzats.

Referències

  1. Porter, Martin. «The Porter Stemming Algorithm». [Consulta: 26 maig 2021].

Enllaços externs

Aquest article té bibliografia, però no se sap quina referència verifica cada part.
Podeu millorar aquest article assignant cadascuna d'aquestes obres a frases o paràgrafs concrets.
  • «What is Stemming?» (en anglès). School of Computing and Communications. Lancaster University. Arxivat de l'original el 26 desembre 2014. [Consulta: 26 maig 2021].
  • Avaluació de la recuperació de documents (en castellà)
  • Grup de recerca en Recuperació de la Informació Automatitzada (REINA) de la Universitat de Salamanca
  • Pàgina de Snowball amb repositori a GitHub
  • Cercador de Wikipedia amb suport de stemming (en castellà)