Procedimentos para construção do Corpus da Computação da Língua Inglesa (CoCLI) e cálculo do esforço na construção manual de corpora / Procedures for Corpus of Computing in English (CoCLI) construction and effort calculation in manual construction of corpora

Fernando Paulino de Oliveira

Abstract


Resumo: O presente trabalho tem como objetivo descrever os procedimentos metodológicos da pesquisa intitulada “ToGatherUp: um protótipo de ferramenta para a construção de corpora” que verificou o efeito da incorporação da ferramenta ToGatherUp no tempo e no esforço necessários para a construção manual de um corpus que elaboramos: o Corpus da Computação da Língua Inglesa (CoCLI). Para tanto, discorremos sobre como os autores da pesquisa desenvolveram um conjunto de métricas de medição de esforço – Esforço da Atividade (EA), Esforço Total de Coleta do Texto (ETCT) e Esforço Total do Projeto (ETP) – que serviram de base para a realização de um experimento estatístico comparativo entre os projetos de elaboração manual de duas versões idênticas do CoCLI que se diferenciam por em um deles utilizar o ToGatherUp e o outro não. O resultado do experimento demonstrou uma redução média de 7,47% no ETP do projeto em que o ToGatherUp foi incorporado em relação ao ETP do projeto em que a ferramenta não foi utilizada, o que corroborou a hipótese de que ela reduz o tempo e o esforço despendidos pelo pesquisador em projetos de elaboração manual de corpora.

Palavras-chave: Linguística de Corpus; construção manual de corpus; métricas de medição de esforço; ToGatherUp.

Abstract: The present work aims to describe the methodological procedures of the research entitled “ToGatherUp: a prototype of a tool for corpora construction” that verified the effect of incorporating ToGatherUp in necessary time and effort invested in manual construction of Corpus of Computing in English (CoCLI). To this end, we discuss how the research authors developed a set of metrics for measuring effort – Activity Effort (EA), Total Effort for Text Collection (ETCT) and Total Project Effort (ETP) – which served as the basis for conducting a comparative statistical experiment between the manual elaboration of two identical versions of the CoCLI: which differ from each other by one of them using the ToGatherUp and the other one not using it. The experiment shows an average reduction of 7.47% in the ETP when using ToGatherUp compared to the ETP when not using the tool. This result corroborates the hypothesis that the tool reduces the time and effort spent by the researcher on manual elaboration projects of corpora.

Keywords: Corpus Linguistics; manual construction of corpus; effort measurement metrics; ToGatherUp.


Keywords


Linguística de Corpus; construção manual de corpus; métricas de medição de esforço; ToGatherUp; Corpus Linguistics; manual construction of corpus; effort measurement metrics; ToGatherUp.

References


ALUÍSIO, S. M.; ALMEIDA, G. M. B. O que é e como se constrói um corpus? Lições aprendidas na compilação de vários corpora para pesquisa linguística. Calidoscópio, São Leopoldo, v. 4, n. 3, p. 156-178, 2006. Disponível em: http://revistas.unisinos.br/index.php/calidoscopio/article/view/6002. Acesso em: 2 abr. 2019.

ALVES, R. C. V. Metadados como elementos do processo de catalogação. 2010. 132f. Tese (Doutorado em Ciência da Informação) – Faculdade de Filosofia e Ciências, Universidade Estadual Paulista, 2010. Disponível em: https://repositorio.unesp.br/handle/11449/103361. Acesso em: 2 abr. 2019.

ANTHONY, L. EncodeAnt. Version 1.2.0. [Computer Software]. Tokyo: Waseda University, 2016. Disponível em: http://www.laurenceanthony.net. Acesso em: 2 abr. 2019.

ATKINS, S.; CLEAR, J.; OSTLER, N. Corpus design criteria. Literary and Linguistic Computing, Oxford, v. 7, n. 1, p. 1-16, 1992. DOI: https://doi.org/10.1093/llc/7.1.1. Disponível em: https://academic.oup.com/dsh/article-abstract/7/1/1/1028498?redirectedFrom=fulltext. Acesso em: 17 abr. 2019.

BAKER, P. Corpus Methods in Linguistics. In: LITOSSELITI, L. (ed.). Research Methods in Linguistics. New York: Continnum International Publishing Group, 2010. p. 93-113.

BARONI, M.; BERNARDINI, S. BootCaT. Version 1.08. [Computer Software]. Trento/Forlì: Universities of Bologna, 2004. Disponível em: http://bootcat.dipintra.it. Acesso em: 2 abr. 2019.

BARONI, M. et al. WebBootCaT: A Web Tool for Instant Corpora. In: EURALEX INTERNATIONAL CONGRESS, 12th., 2006, Torino. Proceedings […]. Torino: Edizioni dell’Orso s.r.l., 2006. p. 123-131. Disponível em: https://euralex.org/publications/webbootcat-a-web-tool-for-instant-corpora/. Acesso em: 2 abr. 2019.

BARREAU, D.; NARDI, B. Finding and Reminding: File Organization from the Desktop. ACM SIGCHI Bulletin, New York, v. 27, n. 3, p. 39-43, 1995. DOI: https://doi.org/10.1145/221296.221307. Disponível em: https://dl.acm.org/citation.cfm?id=221307. Acesso em: 17 abr. 2019.

BERBER SARDINHA, T. A influência do tamanho do corpus de referência da obtenção de palavras-chave usando o Programa Computacional Wordsmith Tools. The ESPecialist, São Paulo, v. 26, n. 2, p. 188, 2005. Disponível em: https://revistas.pucsp.br/esp/article/view/9290. Acesso em: 27 nov. 2020.

BERBER SARDINHA, T. Linguística de Corpus. São Paulo: Manole, 2004.

BERGH, G.; ZANCHETTA, E. Web linguistics. In: LÜDELING, A.; KYTÖ, M. (ed.). Corpus Linguistics: An International Handbook. Berlin: Mouton de Gruyter, 2008. p. 309-327.

BIANCHI, F. Culture, Corpora and Semantics: Methodological Issues in Using Elicited and Corpus Data for Cultural Comparison. Lecce: ESE Salento University Publishing, 2012. Disponível em: http://siba-ese.unisalento.it/index.php/culturecorpora/article/viewFile/12427/11066. Acesso em: 10 jan. 2019.

BIBER, D. Representativeness in Corpus Design. Literary and Linguistic Computing, Oxford, v. 8, n. 4, p. 223-257, 1993. DOI: https://doi.org/10.1093/llc/8.4.243. Disponível em: http://otipl.philol.msu.ru/media/biber930.pdf. Acesso em: 2 abr. 2019.

BLECHA, J. Building Specialized Corpora. 2012. 159f. Thesis (Master in English Language and Literature) – Faculty of Arts, Department of English and American Studies, Masaryk University, Brno, República Tcheca, 2012. Disponível em: https://is.muni.cz/th/aki90/179991_Building_Specialized_Corpora.pdf. Acesso em: 2 abr. 2019.

BRASE, C. H.; BRASE, C. P. Understandable Statistics: Concepts and Methods, 10. ed. Boston: Cengage Learning, 2011.

CORREIA, M. S. B. B. Probabilidade e estatística. 2. ed. Belo Horizonte: PUC Minas Virtual, 2003. Disponível em: http://estpoli.pbworks.com/f/livro_probabilidade_estatistica_2a_ed.pdf. Acesso em: 25 fev. 2019.

DASU, T.; JOHNSON, T. Exploratory Data Mining and Data Cleaning. Hoboken: John Wiley & Sons, 2003. DOI: https://doi.org/10.1002/0471448354.

DODGE, Y. The Concise Encyclopedia of Statistics. New York: Springer-Verlag, 2008.

DOURISH, P. The Appropriation of Interactive Technologies: Some Lessons from Placeless Documents. Computer Supported Cooperative Work (CSCW), Dordrecht, v. 12, n. 4, p. 465-490, 2003. DOI: https://doi.org/10.1023/A:1026149119426. Disponível em: https://link.springer.com/article/10.1023/A:1026149119426. Acesso em: 17 abr. 2019.

EDWARD, R. P. Computational Tools and Methods for Corpus Compilation and Analysis. In: BIBER, D; REPPEN, R. (ed.). The Cambridge Handbook of English Corpus Linguistics. Cambridge: Cambridge University Press, 2015. p. 32-49.

ESCARTÍN, C. P. Design and compilation of a specialized Spanish-German parallel corpus. In: LANGUAGE RESOURCES AND EVALUATION CONFERENCE (LREC), 2012, Istanbul. Proceedings […]. Istanbul: European Language Resources Association (ELRA), 2012. p. 2199-2206. Disponível em: http://www.lrec-conf.org/proceedings/lrec2012/pdf/577_Paper.pdf. Acesso em: 2 abr. 2019.

FENTON, N.; BIEMAN, J. Software Metrics: A Rigorous and Practical Approach. 3. ed. Boca Raton: CRC Press, 2014. DOI: https://doi.org/10.1201/b17461.

FRANKENBERG-GARCIA, A. Prefácio. In: SHEPHERD, T. M. G.; BERBER SARDINHA, T.; PINTO, M. V. (org.). Caminhos da linguística de corpus. São Paulo: Mercado de Letras, 2012. p. 11-14.

FROMM, G. O uso de corpora na análise linguística. Revista Factus, São Paulo, v. 1, n. 1, p. 69-76, 2003. Disponível em: http://www.ileel.ufu.br/guifromm/upload/ousodecorporanaproducaolinguistica.pdf. Acesso em: 17 abr. 2019.

FROMM, G. VoTec: a construção de vocabulários eletrônicos para aprendizes de tradução. 2007. 214 f. Tese (Doutorado em Letras) – Faculdade de Filosofia, Letras e Ciências Humanas, Universidade de São Paulo, 2007. Disponível em: http://www.teses.usp.br/teses/disponiveis/8/8147/tde-08072008-150855/pt-br.php. Acesso em: 2 abr. 2019.

GARRETSON, G. Desiderata for Linguistic Software Design. Internatinal Journal of English Studies (IJES), Murcia, v. 8, n. 1, 67-94, 2008. Disponível em: http://revistas.um.es/ijes/article/view/49101. Acesso em: 2 abr. 2019.

GARSIDE, R.; SMITH, N. A Hybrid Grammatical Tagger: CLAWS 4. In: GARSIDE, R.; LEECH, G.; MCENERY, T. (eds.). Corpus annotation: Linguistic Information from Computer Text Corpora. London: Routledge; Taylor & Francis, 1997. p. 102-121. DOI: https://doi.org/10.4324/9781315841366

GOOGLE. Refinar pesquisas na Web, 2019. Disponível em: https://support.google.com/websearch/answer/2466433?hl=pt-BR. Acesso em: 1 abr. 2019.

GRIES, S. T. What is Corpus Linguistics? Language and Linguistics Compass, Hoboken, v. 3, n. 5, p. 1225-1241, 2009. DOI: https://doi.org/10.1111/j.1749-818X.2009.00149.x. Disponível em: https://onlinelibrary.wiley.com/doi/full/10.1111/j.1749-818X.2009.00149.x. Acesso em: 2 abr. 2019.

KAPTELININ, V. Creating Computer-Based Work Environments: An Empirical Study of Macintosh Users. In: ACM SIGCPR/SIGMIS CONFERENCE ON COMPUTER PERSONNEL RESEARC, 1996, Denver. Proceedings […]. Denver: ACM, 1996. p. 360-366. DOI: https://doi.org/10.1145/238857.238921. Disponível em: https://dl.acm.org/citation.cfm?id=238921. Acesso em: 17 abr. 2019.

KEHOE, A.; GEE, M. New Corpora from the Web: Making Web Text More ‘Text-Like’. Studies in Variation, Contacts and Change in English, Helsinki, v. 2, [s.p.], 2007. Disponível em: http://www.helsinki.fi/varieng/series/volumes/02/kehoe_gee/. Acesso em: 18 jan. 2019.

KENNEDY, G. An Introduction to Corpus Linguistics. New York: Longman, 1998.

KLEIBER, I.; BERBERICH, K. Corpus Analysis. Heidelberg: Heidelberg University, 2018. Disponível em: https://corpus-analysis.com/. Acesso em: 25 jan. 2019.

KÜBLER, N.; ASTON, G. Using Corpora in Translation. In: O’KEEFFE, A.; MCCARTHY, M. J. (org.). The Routledge Handbook of Corpus Linguistics. London: Routledge, 2010. p. 501-515. DOI: https://doi.org/10.4324/9780203856949-36

LEECH, G. Adding Linguistic Annotation. In: WYNNE, M. (ed.). Developing Linguistic Corpora: A Guide to Good Practice. Oxford: Oxbow Books, 2005. p. 17-29. Disponível em: http://ota.ox.ac.uk/documents/creating/dlc/. Acesso em: 2 abr. 2019.

MACMILLAN DICTIONARY. Gather Up. 2018. Disponível em: https://www.macmillandictionary.com/dictionary/british/gather-up. Acesso em: 21 jun. 2018.

MACMULLEN, W. J. Requirements Definition and Design Criteria for Test Corpora in Information Science. SILS Technical Report 2003-03. School of Information and Library Science: University of North Carolina at Chapel Hill. p. 3-21, 2003. Disponível em: https://sils.unc.edu/sites/default/files/general/research/TR-2003-03.pdf. Acesso em: 10 jan. 2019.

MARTINET, A. Elementos de linguística geral. 8. ed. Lisboa: Martins Fontes, 1978.

MCENERY, T.; HARDIE, A. Corpus Linguistics: Method, Theory and Practice. Cambridge: Cambridge University Press, 2011. DOI: https://doi.org/10.1017/CBO9780511981395.

MCENERY, T.; XIAO, R.; TONO, Y. Corpus-Based Language Studies: An Advanced Resource Book. London; New York: Routledge, 2006. Disponível em: https://www.lancaster.ac.uk/fass/projects/corpus/ZJU/xCBLS/chapters/A10.pdf. Acesso em: 10 jan. 2019.

MEYER, C. F. English Corpus Linguistics: An Introduction. Cambridge: Cambridge University Press, 2004.

MINSHALL, D. E. A Computer Science Word List. 2013. 98f. Dissertation (Master of Arts - MA TEFL) – University of Swansea, Swansea, UK, 2013. Disponível em: https://www.baleap.org/wp-content/uploads/2016/03/Daniel-Minshall.pdf. Acesso em: 10 jan. 2019.

NELSON, M. Building a Written Corpus: What Are the Basics? In: O’KEEFFE, A.; MCCARTHY, M. J. (org.). The Routledge Handbook of Corpus Linguistics. London: Routledge, 2010. p. 53-65. DOI: https://doi.org/10.4324/9780203856949-5

NEUMANN, S.; HANSEN-SCHIRRA, S. Corpus Methodology and Design. In: HANSEN-SCHIRRA, S.; NEUMANN, S.; STEINER, E. (org.). Cross-Linguistic Corpora for the Study of Translations: Insights from the Language Pair English-German. Berlin: De Gruyter Mouton, 2012. p. 21-34. DOI: https://doi.org/10.1515/9783110260328.

OLIVEIRA, F. P. ToGatherUp: um protótipo de ferramenta para a construção de corpora a produção de vocabulários bilíngues direcionada por corpus. 2019. 219f. Dissertação (Mestrado em Estudos Linguísticos) – Instituto de Letras e Linguística, Universidade Federal de Uberlândia, 2019. Disponível em: https://repositorio.ufu.br/bitstream/123456789/25433/1/ToGatherUpProtótipoFerramenta. Acesso em: 2 abr. 2019.

PROJECT MANAGEMENT INSTITUTE. Um Guia do Conhecimento em Gerenciamento de Projetos (Guia PMBOK). 5. ed. Newtown Square: Project Management Institute, 2013.

RENOUF, A. Corpus Development 25 Years on: From Super-Corpus to Cybercorpus. Language and Computers: Studies in Practical Linguistics, [S.l.], v. 62, n. 1, p. 27-49, 2007. DOI: https://doi.org/10.1163/9789401204347_004.

RUBI, M. P. Os princípios da política de indexação na análise de assunto para catalogação: especificidade, exaustividade, revocação e precisão na perspectiva dos catalogadores e usuários. In: FUJITA, M. S. L. et al. (org.). A indexação de livros: a percepção de catalogadores e usuários de bibliotecas universitárias: um estudo de observação do contexto sociocognitivo com protocolos verbais. São Paulo: Cultura Acadêmica, 2009. p. 81-93.

RUMSEY, D. Statistics Essentials for Dummies. Hoboken: John Wiley & Sons, 2010.

RUNDELL, M.; KILGARRIFF, A. Automating the Creation of Dictionaries: Where Will It All End? In: MEUNIER, F. et al. (ed.). A Taste for Corpora: A Tribute to Professor Sylviane Granger. Amsterdam: Benjamins, 2011. p. 257-281. DOI: https://doi.org/10.1075/scl.45.15run.

SANTOS, A. Contributions for Building a Corpora-Flow System. 2011. 100f. Dissertação (Master in Informatics Engineering) – Escola de Engenharia, Universidade do Minho, Guimarães, PT, 2011. Disponível em: https://repositorium.sdum.uminho.pt/bitstream/1822/28122/1/eeum_di_dissertacao_pg15973.pdf. Acesso em: 17 abr. 2019.

SCHÄFER, R.; BILDHAUER, F. Web Corpus Construction. Toronto: University of Toronto, 2013. DOI: https://doi.org/10.2200/S00508ED1V01Y201305HLT022.

SEDLAR, E. Database-Managed File System. US Pat. US20050091287A1. Redwood Shores, CA: Oracle International Corporation, 2005.

SEMINO, E.; SHORT, M. Corpus Stylistics: Speech, Writing and Thought Presentation in a Corpus of English Writing. London: Routledge, 2004. DOI: https://doi.org/10.4324/9780203494073.

SIMSKE, S. J. Systems and Methods for Processing Text-Based Electronic Documents. U.S. Patent n. 7,106, 905. [S.l.]: Hewlett-Packard Development Company, 2006.

SINCLAIR, J. McH. Corpus, Concordance, Collocation. Oxford: Oxford University Press, 1991.

SINCLAIR, J. McH. Corpus and Text – Basic Principles. In: WYNNE, M. (ed.). Developing Linguistic Corpora: A Guide to Good Practice. Oxford: Oxbow Books, 2005. [s.p.]. Disponível em: https://ota.ox.ac.uk/documents/creating/dlc/chapter1.htm. Acesso em: 2 abr. 2019.

TAGNIN, S. E. O. Glossário de linguística de corpus. In: VIANA, V.; TAGNIN, S. E. O. (org.). Corpora no ensino de línguas estrangeiras. São Paulo: HUB Editorial, 2010. p. 349-353.

TAGNIN, S. E. O. Corpora na tradução. São Paulo: Hub Editorial, 2015.

VOORMANN, H.; GUT, U. Agile Corpus Creation. Corpus Linguistics and Linguistic Theory, Berlin, v. 4, n. 2, p. 235-251, 2008. DOI: https://doi.org/10.1515/CLLT.2008.010.

WIDDOWSON, H.G. Linguistics. Oxford: Oxford University Press, 1996.

ZANETTIN, F. Translation-driven corpora: Corpus resources for descriptive and applied translation studies. London: Routledge, 2014. DOI: https://doi.org/10.4324/9781315759661.




DOI: http://dx.doi.org/10.17851/2237-2083.29.2.909-958

Refbacks

  • There are currently no refbacks.
';



Copyright (c) 2021 Fernando Paulino de Oliveira

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

e - ISSN 2237-2083 

License

Licensed through  Creative Commons Atribuição 4.0 Internacional