Stemização
Em morfologia linguística e recuperação de informação a stemização (do inglês, stemming) é o processo de reduzir palavras flexionadas (ou às vezes derivadas) ao seu tronco (stem), base ou raiz, geralmente uma forma da palavra escrita. O tronco não precisa ser idêntico à raiz morfológica da palavra; ele geralmente é suficiente que palavras relacionadas sejam mapeadas para o mesmo tronco, mesmo se este tronco não for ele próprio uma raiz válida. O estudo de algoritmos para stemização tem sido realizado em ciência da computação desde a década de 60. Vários motores de buscas tratam palavras com o mesmo tronco como sinônimos como um tipo de expansão de consulta, em um processo de combinação.
É comum se referir aos programas de stemização como stemmers ou algoritmos de stemming.
História
O primeiro stemmer publicado foi escrito por Julie Beth Lovins em 1968.[1] Esse artigo foi notável por sua data antecipada e teve grande influência sobre os trabalhos posteriores nesta área.
Notas
- ↑ Lovins, Julie Beth (1968). «Development of a Stemming Algorithm». Mechanical Translation and Computational Linguistics. 11: 22–31
Referências
- Orengo, Viviane; Huyck, Christian (novembro de 2001). «A stemming algorithmm for the portuguese language». IEEE (em inglês): 186–193. doi:10.1109/SPIRE.2001.989755. Consultado em 21 de outubro de 2014 A referência emprega parâmetros obsoletos
|coautores=
(ajuda)
Leitura complementar
- Porter, Martin F. (1980). «An Algorithm for Suffix Stripping». Program (em inglês). 14 (3): 130–137
|acessodata=
requer|url=
(ajuda)
Ver também
- Radical (linguística)
- Morfologia (linguística)
- Lema (linguística)
- Lexema
- Flexão (linguística)
- Derivação (linguística)
- Processamento de linguagem natural
- Mineração de texto
- Linguística computacional
- Portal da linguística