O papel do corpus de estudo no aprimoramento descritivo da complementaridade informacional multidocumento / The role of the study corpus in the descriptive improvement of multi-document informational complementarity

Jackson Wilke da Cruz Souza

Abstract


Resumo: Em subáreas do Processamento Automático de Línguas Naturais (PLN), como a Sumarização Automática Multidocumento (SAM), é necessário compreender o comportamento linguístico de determinados fenômenos, especialmente os de natureza semântica. A Cross-document Structure Theory (CST) é bastante utilizada em estudos do PLN por proporcionar um conjunto de relações semânticas que organizam a informação entre unidades de análise (comumente, pares de sentenças), agrupadas entre conteúdo (a saber, redundância, complementaridade e contradição) e apresentação (a saber, fonte/autoria e estilo). Até então, a caracterização das relações CST baseava-se em atributos genéricos (como a quantidade de palavras em comum entre as sentenças de um par) e específicos (como a presença de advérbios temporais) para as relações de Redundância e Complementaridade. Entretanto, percebe-se que a delimitação de tais atributos ainda é incipiente, pois não inclui atributos semânticos e pragmáticos, níveis linguísticos que são possíveis de recuperar manualmente entre as unidades de análise da CST. Nesse sentido, objetiva-se, neste artigo, reconstruir o percurso metodológico de Souza (2019) ao que se refere ao estudo em corpus das relações CST em textos jornalísticos do Português, já que o conjunto de atributos disponíveis, até o momento, ainda produzia equívocos na identificação dos subtipos de complementaridade multidocumento, a saber temporal e atemporal. Partindo do corpus CSTNews, organizou-se um subconjunto de estudo com os 10 primeiros clusters, o que contabilizou 204 pares de sentenças. Como resultado, foram obtidas a descrição detalhada da complementaridade CST e a criação de uma tipologia de sinalizadores das relações que traduzem esse fenômeno, além da proposição de uma metodologia específica para o estudo de relações CST.

Palavras-chave: Complementaridade informacional multidocumento; Processamento Automático de Línguas Naturais; Corpus de estudo.

Abstract: In sub-areas of Natural Language Processing (NLP), such as Automatic Multidocument Summarization (AMS), it is necessary to understand the linguistic behavior of certain phenomena, especially those of a semantic nature. Cross-document Structure Theory (CST) is widely used in NLP studies because it provides a set of semantic relations that organize information between units of analysis (commonly, pairs of sentences) organized between content (namely, redundancy, complementarity and contradiction) and presentation (namely, source/authorship and style). Until then, the characterization of CST relationships was based on generic attributes (such as the number of words in common between sentences of a pair) and specific attributes (such as the presence of temporal adverbs) for the relationships of Redundancy and Complementarity. However, the delimitation of such attributes is still incipient, as they do not include semantic and pragmatic attributes, linguistic levels that are possible to recover between the CST units of analysis. In this sense, the aim of this paper is to reconstruct the methodological path of Souza (2019) with regard to the study in corpus of CST relations in Portuguese journalistic texts, since the set of available attributes, until then, still produced mistakes in the identification of multi-document complementarity subtypes, namely temporal and timeless. Based on the CSTNews corpus, a subset of studies was organized with the first 10 clusters, that are represented by 204 pairs of sentences. As a result, a detailed description of CST complementarity was obtained, as well as the creation of a typology of signaling relationships that translate this phenomenon, in addition to proposing a specific methodology for the study of CST relations.

Keywords: Multi-document informational Complementarity; Processing of Natural Languages; Study corpus.


Keywords


Complementaridade informacional multidocumento; Processamento Automático de Línguas Naturais; Corpus de estudo; Multi-document informational Complementarity; Processing of Natural Languages; Study corpus.

References


ALEIXO, P.; PARDO, T. A. S. CSTNews: um corpus de textos jornalísticos anotados segundo a teoria discursiva multidocumento CST (Cross-document Structure Theory). São Carlos: USP; UFSCar; UNESP, 2008. (Série Relatórios Técnicos do Núcleo Interinstitucional de Linguística Computacional - NILC)

BIBER, D. Representatividade em planejamento de corpus. Tradução de Paula Marcolin. Cadernos de Tradução, Porto Alegre, v. 1, n. 30, p. 11-45, 2012.

CARDOSO, P. C. F.; MAZIERO, E. G.; JORGE, M. L. C.; SENO, E. M. R.; DI-FELIPPO, A.; RINO, L. H. M.; NUNES, M. G. V.; PARDO, T. A. S. CSTNews – A Discourse-Annotated Corpus for Single and Multi-Document Summarization of News Texts in Brazilian Portuguese. In: RST BRAZILIAN MEETING, 3rd., 2011, Cuiabá. Proceedings […]. Cuiabá: SBC, 2011. p. 88-105.

CASELI, H. M. O uso de corpora paralelos para a criação de um tradutor automático estatístico. In: VIANA, V.; TAGNIN, S. E. O. Corpora na Tradução. São Paulo: HUB Editorial, 2015. p. 243-267.

DAS, D.; TABOADA, M. RST Signalling Corpus: A corpus of signals of coherence relations. Language Resources and Evaluation, [S.l.], v. 52, n. 1, p. 149-184, 2018. DOI: https://doi.org/10.1007/s10579-017-9383-x

DAS, D.; TABOADA, M.; MCFETRIDGE, P. RST Signalling Corpus. Philadelphia: Linguistic Data Consortium, 2015.

DAVIES, M.; KIM, J. The Advantages and Challenges of ‘Big Data’: Insights from the 14 Billion Word iWeb Corpus. Linguistic Research, [S.l.], v. 36, p. 1-34, 2019. DOI: https://doi.org/10.17250/khisli.36.1.201903.001

DIAS, M. S.; GARAY, A. Y. B.; CHUMAN, C.; BARROS, C. D.; MAZIERO, E. G.; NOBREGA, F. A. A.; SOUZA, J. W. C.; CABEZUDO, M. A. S.; DELEGE, M.; JORGE, M. L. R. C.; SILVA, N. L.; CARDOSO, P. C. F.; BALAGE FILHO, P. P.; CONDORI, R. E. L.; MARCASSO, V.; DI-FELIPPO, A.; NUNES, M. D. G. V.; PARDO, T. A. S. Enriquecendo o corpus CSTNews: a criação de novos sumários multidocumento. In: INTERNATIONAL CONFERENCE ON COMPUTATIONAL PROCESSING OF THE PORTUGUESE LANGUAGE – PROPOR, 2014, São Carlos. Proceedings… São Carlos: SBC, 2014. p. 239-243.

DI-FELIPPO, A.; SOUZA, J. W. C. O projeto do corpus para a construção de uma wordnet terminológica. In: PINTO, M. V.; SHEPHERD, T. M. G.; SARDINHA, T. B. (org.). Caminhos da Linguística de Corpus. Campinas: Mercado de Letras, 2012. p. 225-245.

HALL, M. et al. The WEKA Data Mining Software: An Update. ACM SIGKDD Explorations Newsletter, [S.l.], v. 11, n. 1, p. 10-18, 2009. doi: https://doi.org/10.1145/1656274.1656278

HOVY, E.; LAVID, J. Towards a ‘Science’of Corpus Annotation: A New Methodological Challenge for Corpus Linguistics. International Journal of Translation, [S.l.], v. 22, n. 1, p. 13-36, 2010.

KUHN, D.; ABARCA, E.; NUNES, M. G. Corpus Nilc de português escrito no Brasil. São Carlos: São Carlos: USP; UFSCar; UNESP, 2000. (Série Relatórios Técnicos do Núcleo Interinstitucional de Linguística Computacional - NILC)

MANN, W. C.; THOMPSON, S. A. Rhetorical Structure Theory: A theory of Text Organization. Marina del Rey, CA: University of Southern California, Information Sciences Institute, 1987.

MAZIERO, E. G. Identificação automática de relações multidocumento. 2012. 118f. Tese (Doutorado em Ciências da Computação) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Paulo, 2012.

MAZIERO, E. G.; JORGE, M. L. C.; PARDO, T. A. S. Identifying Multi-Document Relations. In: INTERNATIONAL WORKSHOP ON NATURAL LANGUAGE PROCESSING AND COGNITIVE SCIENCE, 2010, Funchal. Proceedings […]. Funchal: , Polytechnic Institute of Setúbal, 2010. p. 60-69.

PEDRO, W. G.; VALE, O. A. ComentCorpus: o uso de mecanismos linguísticos na detecção de ironia e sarcasmo para o português do Brasil em um corpus opinativo. In: FINATTO, M. J. B.; REBECHI, T.; SARMENTO, S; BOCORNY, A.E.P. (org.). Linguística de corpus: perspectivas. Porto Alegre: Instituto de Letras da Universidade Federal do Rio Grande do Sul, 2018. p. 19-40.

RADEV, D. R. A Common Theory of Information Fusion from Multiple Text Sources Step One: Cross-Document Structure. In: SIGDIAL WORKSHOP ON DISCOURSE AND DIALOGUE, 1ST., 2000, Hong Kong. Proceedings… Hong Kong: Association for Computational Linguistics, 2000. p. 74-83. DOI: https://doi.org/10.3115/1117736.1117745

RODRIGUES, R. Contribuições para um léxico-gramática das construções locativas do espanhol. 2019. 174f. Tese (Doutorado em Linguística) – Programa de Pós-Graduação em Linguística, Universidade Federal de São Carlos, São Carlos, 2019.

SARDINHA, T. B. Linguística de corpus. Barueri: Editora Manole, 2004.

SARDINHA, T. B. Linguística de corpus: histórico e problemática. Delta: Documentação de Estudos em Linguística Teórica e Aplicada, São Paulo, v. 16, n. 2, p. 323-367, 2000. DOI: https://doi.org/10.1590/S0102-44502000000200005

SOUZA, J. W. C. Aprofundamento da caracterização linguístico-computacional da complementaridade em um corpus jornalístico multidocumento. 2019. 117f. Tese (Doutorado em Linguística) – Programa de Pós-Graduação em Linguística, Universidade Federal de São Carlos, São Carlos, 2019.

SOUZA, J. W. C. Descrição linguística da complementaridade para a sumarização automática multidocumento. 2015. 105f. Dissertação (Mestrado em Linguística) – Programa de Pós-Graduação em Linguística, Universidade Federal de São Carlos, São Carlos, 2015.

SOUZA, J. W. C.; DI FELIPPO, A. Caracterização linguística da complementaridade: subsídios para Sumarização Automática Multidocumento. ALFA: Revista de Linguística, São Paulo, v. 62, n.1, p. 125-150, 2018. DOI: https://doi.org/10.1590/1981-5794-1804-6

TABOADA, M.; DAS, D. Annotation upon Annotation: Adding Signalling Information to a Corpus of Discourse Relations. Dialogue Discourse, [S.l.], v. 4, n. 2, p. 249-281, 2013. DOI: https://doi.org/10.5087/dad.2013.211

TAGNIN, S. E a Linguística de Corpus vai desbravando novos horizontes. In: FINATTO, M. J. B.; REBECHI, T.; SARMENTO, S; BOCORNY, A. E. P. (org.). Linguística de corpus: perspectivas. Porto Alegre: Instituto de Letras da Universidade Federal do Rio Grande do Sul, 2018. p. 11-15.

TAGNIN, S. E. O.; BEVILACQUA, C. Corpora na Terminologia. São Paulo: HUB Editorial, 2015.

VIANA, V.; TAGNIN, S. E. O. Corpora no ensino de línguas estrangeiras. São Paulo: Hub Editorial, 2011.

ZHANG, Z.; GOLDENSHON, S. B.; RADEV, D. R. Towards CST-Enhanced Sumarization. In: NATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE (AAAI-2002), 18th., 2002, Edmonton. Proceedings […]. Edmonton: AAAI, 2002. p. 439-445.




DOI: http://dx.doi.org/10.17851/2237-2083.29.2.1059-1087

Refbacks

  • There are currently no refbacks.
';



Copyright (c) 2021 Jackson Wilke da Cruz Souza

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

e - ISSN 2237-2083 

License

Licensed through  Creative Commons Atribuição 4.0 Internacional