Extração de relações hiponímicas em um corpus de língua portuguesa

Pablo Neves Machado, Vera Lúcia Strube de Lima

Abstract


Resumo: As relações hiponímicas são importantes na construção de estruturas de conhecimento, tais como ontologias ou taxonomias, para melhorar o processo de busca. O presente trabalho estuda em detalhe padrões para extração de relações hiponímicas com base em um corpus de língua portuguesa. Para tanto, toma como base os padrões específicos propostos por Hearst (1992), Freitas e Quental (2007) e Taba e Caseli (2014). Constrói, a partir desses padrões, regras que alimentam um protótipo, o qual as aplica a um corpus e extrai, como resultado, relações hiponímicas. Avaliadores humanos avaliam as relações extraídas, utilizando a escala proposta por Freitas e Quental. A precisão das extrações é compatível com as da literatura. O trabalho ainda apresenta um minucioso estudo quanto à produtividade dos padrões e quanto à avaliação das extrações.

Palavras-chave: relações hiponímicas; extração de relações; padrões de extração de relações.

Abstract: Hyponym relations are important in the building of knowledge structures such as ontologies or taxonomies to enhance the search process. This work studies patterns for extraction of hyponym relations from a specific Portuguese language corpus. It starts from selected patterns proposed by Hearst (1992), Freitas and Quental (2007), and Taba and Caseli (2014). From these patterns, it builds up rules that feed a prototype. This prototype applies them to the corpus and extracts, as a result, hyponym relations. Human evaluators assess the extracted relations, using the scale proposed by Freitas and Quental. Precision of the extractions is consistent with the literature. The paper also describes a detailed study on the productivity of the patterns and the assessment of the extractions.

Keywords: Hyponym Relations; Relation Extraction; Relation Extraction Patterns.


Keywords


Processamento da Linguagem Natural; Relações semânticas; Linguística de corpus

References


BANKO, M. et al. Open information extraction from the web. In: INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE – IJCAI, 20, 2007, Hyderabad, India. Proceedings… Editor: Manuela M. Veloso. Hyderabad, India, January 6-12, 2007. p. 2670-2676.

BASÉGIO, T. L. Uma abordagem semiautomática para identificação de estruturas ontológicas a partir de textos na língua portuguesa do Brasil. 2007. 124 p. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós-Graduação em Ciência da Computação, Pontifícia Universidade Católica, RS, 2007.

BATISTA, D. S. et al. Extração de relações semânticas de textos em português explorando a DBpédia e a Wikipédia. Linguamática, Braga, v. 5, n.1, p. 41-57, 2013.

BICK, E. The parsing system PALAVRAS – automatic grammatical analysis of Portuguese in a constraint grammar framework. Aarhus: Aarhus University Press, 2000.

CEDERBERG, S.; WIDDOWS, D. Using LSA and noun coordination information to improve the precision and recall of automatic hyponymy extraction. In: CONFERENCE ON COMPUTATIONAL NATURAL LANGUAGE LEARNING, 7, 2003, Edmonton. Proceedings… Edmonton: Association for Computational Linguistics, 2003. CONLL, v. 4 p. 111-118. DOI: http://dx.doi.org/10.3115/1119176.1119191

CORRO, L.; GEMULLA, R. ClausIE: clause-based open information extraction. In: INTERNATIONAL WORLD WIDE WEB CONFERENCE, 22, 2013, Rio de Janeiro. Proceedings… Rio de Janeiro, 2013. p. 355-366.

DEGERATU, M.; HATZIVASSILOGLOU, V. An automatic method for constructing domain-specific ontology resources. In: LANGUAGE RESOURCES AND EVALUATION CONFERENCE, 4, 2004, Lisboa. Proceedings... Lisboa, Porutgal, 2004. p. 2001-2004.

FREITAS, M. C. Elaboração automática de ontologias de domínio. 2007. 142 p. Tese (Doutorado em Linguística) – Programa de Pós-Graduação em Letras, Pontifícia Universidade Católica, Rio de Janeiro, RJ, 2007.

FREITAS, M. C.; QUENTAL, V. Subsídios para a elaboração automática de taxonomias. In: WORKSHOP DE TECNOLOGIAS DA INFORMAÇÃO E DA LINGUAGEM HUMANA, 5, 2007, Rio de Janeiro. Anais... 2007. p. 1585-1594.

GAMALLO, P.; GARCIA, M.; FERNÁNDEZ-LANZA, S. Dependencybased open information extraction. In: JOINT WORKSHOP ON UNSUPERVISED AND SEMI-SUPERVISED LEARNING IN NLP, 9, 2012, Avignon. Proceedings… Avignon, France: Association for Computational Linguistics, 2012. p. 10-18.

GRUBER, T. Ontolingua: a mechanism to support portable ontologies. 1992. 61p. Technical Report - Knowledge Systems Laboratory, Stanford University, 1992.

HEARST, M. Automatic acquisition of hyponyms from large text corpora. In: INTERNATIONAL CONFERENCE ON COMPUTATIONAL LINGUISTICS, 14, 1992, Nantes. Proceedings… v. 2. Nantes, France: Association for Computational Linguistics. p. 539-545. DOI: http://dx.doi.org/10.3115/992133.992154

HEARST, M. Automated discovery of WordNet relations. In: FELLBAUM, C. (Org.) WordNet: an electronic lexical database. Cambridge: MIT Press, 1998. p. 131-153.

JURAFSKY, D.; MARTIN, J. Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition. 2. ed. Upper Saddle River: Prentice Hall, 2009.

MAEDCHE, A.; STAAB, S. Ontology learning for the semantic web. Massachusetts: Kluwer Academic Publishers, 2002. DOI: http://dx.doi.org/10.1007/978-1-4615-0925-7

MORIN, E.; JACQUEMIN, C. Automatic acquisition and expansion of hypernym links. Computer and the humanities, Dordrecht, v. 38, n. 4, p. 363-396, 2003.

SANTOS, N.; OLIVEIRA, C. Aplicação de aprendizado baseado em transformações na identificação de sintagmas nominais. In: CONGRESSO DA SOCIEDADE BRASILEIRA DE COMPUTAÇÃO, 25, 2005, São Leopoldo. Anais... Workshop de Tecnologias da Informação e da Linguagem Humana, 3, São Leopoldo, RS, 2005. p. 2138-2147.

TABA, L.; CASELI, H. Automatic semantic relation extraction from Portuguese texts. In: INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION, 9, 2014, Reykjavic. Proceedings… Reykjavic, 2014. p. 2739-2746.




DOI: http://dx.doi.org/10.17851/2237-2083.23.3.599-640

Refbacks

  • There are currently no refbacks.
';



Copyright (c) 2015 REVISTA DE ESTUDOS DA LINGUAGEM



e - ISSN 2237-2083 

License

Licensed through  Creative Commons Atribuição 4.0 Internacional