Anotação morfológica automática de corpus de língua falada: desafios ao Aelius

Gabriel de Ávila Othero, Mônica Rigo Ayres

Resumo


RESUMO: Apresentamos, neste artigo, nosso trabalho de anotação morfológica automática de trechos de um corpus de língua falada – pertencentes ao projeto Varsul –, utilizando um etiquetador automático morfossintático gratuito, o Aelius, em 20 textos, perfazendo um total de 154.530 palavras. Basicamente, apresentamos a ferramenta de anotação automática, o processo de análise morfossintática automática efetuada pelo anotador, o trabalho de revisão manual da etiquetagem automática e as sugestões de melhorias para tratar especificamente de aspectos da oralidade. A partir dos erros do etiquetador, buscamos depreender certos padrões de anotação para superar limitações de desempenho apresentadas pelo programa, propondo algumas sugestões de implementações para que o Aelius etiquete de maneira ainda mais satisfatória um corpus de língua falada. Tratamos especialmente dos casos de interjeições, aféreses, onomatopeias e marcadores conversacionais.

PALAVRAS-CHAVE: Etiquetagem Automática. Etiquetagem Morfossintática. Linguística de Corpus.

ABSTRACT:In this paper, we present the results of our work with automatic morphological annotation of excerpts from a corpus of spoken language – belonging to the VARSUL project – using the free morphosyntatic tagger Aelius. We present 20 texts containing 154,530 words, annotated automatically and corrected manually. This paper presents the tagger Aelius and our work of manual review of the texts, as well as our suggestions for improvements of the tool, concerning aspects of oral texts. We verify the performance of morphosyntactic tagging a spoken language corpus, an unprecedented challenge for the tagger. Based on the errors of the tagger, we try to infer certain patterns of annotation to overcome limitations presented by the program, and we propose suggestions for implementations in order to allow Aelius to tag spoken language corpora in a more effective way, specially treating cases such as interjections, apheresis, onomatopeia and conversational markers.

KEYWORDS: Tagger. Morphosyntactic Tagging. Corpus Linguistics.


Palavras-chave


Etiquetagem automática; Etiquetagem morfossintática; Linguística de Corpus

Texto completo:

PDF


DOI: http://dx.doi.org/10.17851/1983-3652.7.2.44-60

Apontamentos

  • Não há apontamentos.




Texto Livre: Linguagem e Tecnologia
ISSN 1983-3652 (eletrônica)

Faculdade de Letras da Universidade Federal de Minas Gerais

Belo Horizonte - Minas Gerais (Brasil)

Licença Creative Commons

Esta obra está licenciada com uma Licença Creative Commons Atribuição 4.0 Internacional.