Uma gramática computacional de um fragmento do nheengatu / A computational grammar for a fragment of Nheengatu

Leonel Figueiredo de Alencar

Abstract


Resumo: A disponibilidade de recursos para o processamento computacional constitui um dos fatores de sobrevivência de uma língua. O objetivo deste trabalho foi implementar um fragmento do nheengatu no formalismo Grammatical Framework, especialmente projetado para o desenvolvimento de aplicações multilíngues. Outrora mais falado que o português na Amazônia, o nheengatu está ameaçado de extinção, embora ainda conte com estimados 14000 falantes. O fragmento restringe-se a orações que expressam estados contingentes e não-contingentes, mas inclui fenômenos gramaticais estruturalmente complexos típicos da família tupi-guarani, os quais contrastam fortemente com as construções equivalentes em português e inglês. Constitui um dos módulos da GrammYEP, uma gramática computacional multilíngue que integra módulos análogos do inglês e do português. A implementação tomou como ponto de partida as descrições gramaticais não formalizadas de Navarro (2011) e Cruz (2011). A formalização revelou lacunas e inconsistências nessas abordagens, em parte sanados por meio de uma reanálise dos dados. A GrammYEP alcançou resultados bastantes satisfatórios na tradução do e para o nheengatu. Traduziu para o português e o inglês a totalidade de um conjunto-teste de 142 sentenças dessa língua. Inversamente, verteu para o nheengatu 98,18% e 84,11% dos conjuntos-teste correspondentes em português e inglês. Por outro lado, analisou apenas dois exemplos de um conjunto-teste negativo com 171 construções agramaticais em nheengatu. Desta avaliação resultou um treebank com 243 sentenças do nheengatu, emparelhadas com as sentenças equivalentes em português e inglês.

Palavras-chave: língua geral amazônica (LGA); tupi moderno; predicação qualificativa; construção possessiva; tradução automática; linguística computacional; processamento de linguagem natural.

Abstract: The availability of resources for computational processing is one of the survival factors of a language. The goal of this work was to implement a fragment of Nheengatu in the Grammatical Framework formalism, specially designed for the development of multilingual applications. Once more widely spoken than Portuguese in the Amazon region, Nheengatu is threatened with extinction, although it still has an estimated number of 14,000 speakers. The fragment is restricted to sentences that express contingent and non-contingent states, but includes structurally complex grammatical phenomena typical of the Tupí-Guaraní family, which strongly contrast with the equivalent constructions in Portuguese and English. It constitutes one of the modules of GrammYEP, a multilingual computational grammar comprising equivalent English and Portuguese modules. The starting point of the implementation was the non-formalized grammatical descriptions of Navarro (2011) and Cruz (2011). The formalization revealed gaps and inconsistencies in these approaches, which were partly remedied through a reanalysis of the data. GrammYEP achieved quite satisfactory results in the translation from and to Nheengatu. It translated into Portuguese and English all examples from a test set with 142 Nheengatu sentences. Conversely, 98.18% and 84.11% of the corresponding Portuguese and English test sets were rendered into Nheengatu. On the other hand, it parsed only two examples from a negative test set with 171 ungrammatical constructions in Nheengatu. This evaluation resulted in a treebank with 243 Nheengatu sentences, paired with the equivalent sentences in Portuguese and English.

Keywords: Amazonian Lingua Franca; Modern Tupí; qualifying predication; possessive construction; machine translation; computational linguistics; natural language processing.


Keywords


língua geral amazônica (LGA); tupi moderno; predicação qualificativa; construção possessiva; tradução automática; linguística computacional; processamento de linguagem natural; Amazonian Lingua Franca; Modern Tupí; qualifying predication.

References


ÁVILA, M. T. Estudo e prática da tradução da obra infantil A terra dos meninos pelados, de Graciliano Ramos, do português para o nheengatu. 2016. 199f. Dissertação (Mestrado em Estudos da Tradução) – FFLCH, Universidade de São Paulo, São Paulo, 2016.

BENDER, E. M. Grammar Engineering for Linguistic Hypothesis Testing. In: GAYLORD, N. et al. (org.). The Proceedings of the Texas Linguistics Society 10: Computational Linguistics for Less-Studied Languages. Stanford: CSLI, 2008. p. 16-36.

BENDER, E. M. Reweaving a Grammar for Wambaya. Linguistic Issues in Language Technology, Stanford, v. 3, n. 3, p. 1-36, 2010.

BENTLEY, D. Copular and Existential Constructions. In: DUFTER, A.; STARK, E. (org.). Manual of Romance Morphosyntax and Syntax. Berlin: De Gruyter, 2017. p. 332-366. DOI: https://doi.org/10.1515/9783110377088-009

BERNSTEIN, J. B. The DP Hypothesis: Identifying Clausal Properties in the Nominal Domain. In: BALTIN, M.; COLLINS, C. (org.). The Handbook of Contemporary Syntactic Theory. Malden: Blackwell, 2003. p. 536-561. DOI: https://doi.org/10.1111/b.9781405102537.2003.00019.x

BRESNAN, J. Lexical-Functional Syntax. Malden: Blackwell, 2001.

BUSSMANN, H. (org.). Lexikon der Sprachwissenschaft. 3. ed. Stuttgart: Kröner, 2002.

CARNIE, A. Syntax: A Generative Introduction. 3. ed. Malden: Blackwell, 2012.

CASASNOVAS, A. Noções de língua geral ou nheengatú: gramática, lendas e vocabulário. 2. ed. Manaus: Editora da Universidade Federal do Amazonas; Faculdade Salesiana Dom Bosco, 2006.

COMBINING Demonstrative and Possessive Pronoun. [S.l.]: [S.n.], 2019. Disponível em: https://english.stackexchange.com/questions/476384/combining-demonstrative-and-possessive-pronoun. Acesso em: 19 jun. 2020.

COMRIE, B. Language Universals and Linguistic Typology: Syntax and Morphology. Oxford: Blackwell, 1983.

CRUZ, A. Fonologia e gramática do nheengatú: a língua falada pelos povos Baré, Warekena e Baniwa. Utrecht: LOT, 2011.

CRUZ, A. The Rise of Number Agreement in Nheengatu. Boletim do Museu Paraense Emílio Goeldi. Ciências Humanas, Belém, v. 10, n. 2, p. 419-439, 2015. DOI: https://doi.org/10.1590/1981-81222015000200011

DUCHIER, D.; PARMENTIER, Y. High-level Methodologies for Grammar Engineering, Introduction to the Special Issue. Journal of Language Modelling, Warszawa, Poland, v. 3, n. 1, p. 5-19, 2015. DOI: https://doi.org/10.15398/jlm.v3i1.117

EBERHARD, D. M.; SIMONS, G. F.; FENNIG, C. D. (org.). Ethnologue: Languages of the World. 23. ed. Dallas: SIL International, 2020. Disponível em: http://www.ethnologue.com. Acesso em: 12 jun. 2020.

FÁBREGAS, A. Adjectival and Genitival Modification. In: DUFTER, A.; STARK, E. (org.). Manual of Romance Morphosyntax and Syntax. Berlin: De Gruyter, 2017. p. 771-803. DOI: https://doi.org/10.1515/9783110377088-021

FRANCEZ, N.; WINTNER, S. Unification Grammars. Cambridge: CUP, 2012.

FREIRE, J. R. B. Rio Babel: a história das línguas na Amazônia. 2. ed. Rio de Janeiro: EdUERJ, 2011.

GYNAN, S. Morphological Glossing Conventions for the Representation of Paraguayan Guaraní. In: ESTIGARRIBIA, B.; PINTA, J. (org.). Guarani Linguistics in the 21st Century. Leiden: Brill, 2017. p. 86-130.

HAJIČOVÁ, E. et al. Treebank Annotation. In: INDURKHYA, N.; DAMERAU, F. J. (org.). Handbook of Natural Language Processing. 2. ed. Boca Raton: Chapman & Hall/CRC, 2010. p. 167-188.

JURAFSKY, D.; MARTIN, J. H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 2. ed. Upper Saddle River: Prentice Hall, 2009.

KARVOVSKAYA, L. The Typology and Formal Semantics of Adnominal Possession. Utrecht: LOT, 2018.

LEANDRO, W. M.; AMARAL, L. A. The Interpretation of Multiple Embedded Genitive Constructions by Wapichana and English Speakers. Revista LinguíStica, Rio de Janeiro, v. 10, n. 2, p. 149-162, 2014.

LJUNGLÖF, P.; WIRÉN, M. Syntactic Parsing. In: INDURKHYA, N.; DAMERAU, F. J. (org.). Handbook of Natural Language Processing. 2. ed. Boca Raton: Chapman & Hall/CRC, 2010. p. 59-91.

LYONS, J. Linguistic Semantics: An Introduction. Cambridge: CUP, 1995. DOI: https://doi.org/10.1017/CBO9780511810213

MATHESIUS, V. A Functional Analysis of Present Day English on a General Linguistic Basis. Haia: Mouton, 1975. DOI: https://doi.org/10.1515/9783110813296

MÜLLER, S. The CoreGram Project: Theoretical Linguistics, Theory Development and Verification. Journal of Language Modelling, Warszawa, Poland, v. 3, n. 1, p. 21-86, 2015. DOI: https://doi.org/10.15398/jlm.v3i1.91

NAVARRO, E. A. Curso de Língua Geral (nheengatu ou tupi moderno): a língua das origens da civilização amazônica. São Bernardo do Campo: Paym, 2011.

NAVARRO, E. A.; ÁVILA, M. T.; TREVISAN, R. G. O Nheengatu, entre a vida e a morte: a tradução literária como possível instrumento de sua revitalização lexical. Revista Letras Raras, Campina Grande, v. 6, n. 2, p. 9-29, 2017. DOI: https://doi.org/10.35572/rlr.v6i2.768

PIRINEN, T. et al. Introduction. In: INTERNATIONAL WORKSHOP FOR COMPUTATIONAL LINGUISTICS OF URALIC LANGUAGES, 3., 2017, St. Petersburg. Proceedings […]. Stroudsburg, USA: Association for Computational Linguistics, 2017. p. iii.

PRAÇA, W. N.; MAGALHÃES, M. M. S.; CRUZ, A. Indicativo II da família Tupi-Guaraní: uma questão de modo? Liames, Campinas, v. 17, n. 1, p. 39-58, 2017. DOI: https://doi.org/10.20396/liames.v17i1.8646480

RANTA, A. Grammatical Framework Tutorial. [S.l.]: [S.n.], 2010. Disponível em: https://www.grammaticalframework.org/doc/tutorial/gf-tutorial.html. Acesso em: 15 jun. 2020.

RANTA, A. Grammatical Framework: Programming with Multilingual Grammars. Stanford: CSLI, 2011.

RODRIGUES, A. D. As línguas gerais sul-americanas. Papia, São Paulo, v. 4, n. 2, p. 6-18, 1996.

RODRIGUES, A. D. Prefácio. In: FREIRE, J. R. B. Rio Babel: a história das línguas na Amazônia. 2. ed. Rio de Janeiro: EdUERJ, 2011. p. 13-14.

SAG, I. A.; WASOW, T.; BENDER, E. Syntactic Theory: A Formal Introduction. 2. ed. Stanford: CSLI, 2003.

SYMPSON, P. L. Grammatica da lingua brazilica geral, fallada pelos aborigines das provincias do Pará e Amazonas. Manaus: Typographia do Commercio do Amazonas, 1877.

ZOMPI, S. Case Decomposition Meets Dependent-Case Theories. 2017. 108 f. Dissertacão (Mestrado em Linguística) – Corso di Laurea Magistrale in Linguistica, Dipartimento di Filologia, Letteratura e Linguistica, Università di Pisa, Pisa, 2017. Disponível em: https://ling.auf.net/lingbuzz/003421. Acesso em: 14 jun. 2020.




DOI: http://dx.doi.org/10.17851/2237-2083.29.3.1717-1777

Refbacks

  • There are currently no refbacks.
';



Copyright (c) 2021 Leonel Figueiredo de Alencar

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

e - ISSN 2237-2083 

License

Licensed through  Creative Commons Atribuição 4.0 Internacional