Wordsmith Tools e Sketch Engine: um estudo analítico-comparativo para pesquisas científicas com uso de corpora / Wordsmith Tools and Sketch Engine: an analytical-comparative study for scientific research with corpora manipulation

Guilherme Fromm, Daniela Faria Grama, Neubiana Silva Veloso Beilke, Candice Guarato Santos

Abstract


Resumo: O presente trabalho consiste na descrição e comparação de dois softwares de análise lexical, o WordSmith Tools (WST) e o Sketch Engine (SE). O corpus de estudo selecionado para a realização da análise comparativa entre os programas denomina-se LexTest, é composto por artigos, dissertações, resenhas e teses da área da Lexicologia, escritos em língua portuguesa, e apresenta 552.903 tokens. Os aspectos analisados no WST e no SE são: interface, configuração de línguas, upload de corpus, número de tokens e types, etiquetagem do corpus, lista de palavras, lista de palavras-chave; acesso às linhas de concordância, entre outros. A partir das análises comparativas, foi possível concluir que o WST e o SE são eficazes no que se propõem, uma vez que, por exemplo, processam palavras-chave, permitem configurar a língua conforme o corpus de estudo e calculam o número de tokens de um corpus. Entretanto, dependendo do objetivo da pesquisa, um desses softwares pode ser mais apropriado que o outro. A escolha pela utilização de um deles é de responsabilidade do pesquisador, que poderá consultar o quadro comparativo entre o WST e o SE apresentado no final deste artigo para fundamentar a sua preferência.

Palavras-chave: Linguística de Corpus; WordSmith Tools; Sketch Engine.

Abstract: The present work consists of the description and comparison of two lexical analysis software, WordSmith Tools (WST) and Sketch Engine (SE). The study corpus selected for the comparative analysis between the programs is called LexTest which is composed of articles, dissertations, reviews and theses about Lexicology. These texts are written in Portuguese, and the corpus has 552,903 tokens. The aspects analyzed in the WST and in the SE are: interface, language settings, corpus upload, number of tokens and types, corpus tagging, word list, keyword list, access to concordance lines, and so on. Based on the comparative analyzes, it was possible to conclude that the WST and the SE are effective in their purpose, because, for example, they process the keywords and allow configuring the language according to the study corpus and calculate the number of tokens; however, depending on the purpose of the research, one of these programs may be more appropriate than the other. The choice of one of them will be responsibility of the researcher, who may consult the comparative table between the WST and the SE, presented at the end of this paper to substantiate his or her preference.

Keywords: Corpus Linguistics; WordSmith Tools; Sketch Engine. 


Keywords


Linguística de Corpus; WordSmith Tools; Sketch Engine.

References


ALMEIDA, G. M. B.; VALE, O. A. Do texto ao termo: interação entre Terminologia, Morfologia e Linguística de Corpus na extração semi-automática de termos. In: ISQUERDO, A. N.; FINATTO, M. J. B. (org.). As ciências do Léxico: Lexicologia, Lexicografia e Terminologia. Campo Grande: Editora da UFMS, 2008. v. IV, p. 483-499.

ALMEIDA, G. M. B. Fazer Terminologia é fazer Linguística. In: PERNA, C. L.; DELGADO, H. K.; FINATTO, M. J. (org.). Linguagens especializadas em corpora: modos de dizer e interfaces de pesquisa. Porto Alegre: Editora da PUCRS, 2010. v. 1, p. 72-90.

BEILKE, N. S. V. Pommersche Korpora: Uma proposta metodológica para compilação de corpora dialetais. 2016. 286 f. Dissertação (Mestrado em Estudos Linguísticos) – Instituto de Letras e Linguística, Universidade Federal de Uberlândia, Uberlândia, 2016. Disponível em: https://repositorio.ufu.br/handle/123456789/18022. Acesso em: 27 set. 2019.

BEILKE, N. S. V. Pommersche korpora: um conjunto de corpora dialetais da variedade brasileira do pomerano. In: FINATTO, M. J. B.; REBECHI, R. R.; SARMENTO, S.; BOCORNY, A. E. P. (org.). Linguística de Corpus: Perspectivas. Porto Alegre: Instituto de Letras – UFRGS, 2018. p. 365-398. Disponível em: https://lume.ufrgs.br/handle/10183/177640. Acesso em: 15 nov. 2019.

BERBER SARDINHA, T. Linguística de Corpus. Barueri: Manole, 2004.

BERBER SARDINHA, T. Linguística forense. In: ______. Pesquisa em Linguística de Corpus com WordSmith Tools. Campinas: Mercado das Letras, 2009.

BEVILACQUA, C. R.; FINATTO, M. J. B. Lexicografia e Terminologia: Alguns contrapontos fundamentais. Alfa, São Paulo, v. 50, n. 2, p. 43-54, 2006. Disponível em: http://seer.fclar.unesp.br/alfa/article/view/1410/1111. Acesso em: 31 jul. 2019.

BIDERMAN, M. T. C. Teoria linguística. São Paulo: Martins Fontes, 2001.

BIDERMANN, M. T. C. Análise de dois dicionários gerais do português brasileiro contemporâneo: o Aurélio e o Houaiss. Filologia e Linguística Portuguesa, São Paulo, n. 5, p. 85-116, 2003. DOI: https://doi.org/10.11606/issn.2176-9419.v0i5p85-116. Disponível em: http://www.revistas.usp.br/flp/article/view/59701. Acesso em: 31 jul. 2019.

BORBA, F. S. Organização de Dicionários: Uma introdução à Lexicografia. São Paulo: UNESP, 2003.

CABRÉ, M. T. La terminología hoy: concepciones, tendências y aplicaciones. Ciência da Informação, Brasília, v. 24, n. 3, p. 1-15, 1995. Disponível em: http://revista.ibict.br/ciinf/article/view/567/568. Acesso em: 29 de jul. 2019.

CABRÉ, M. T. Terminology: theory, methods, and applications. Philadelphia, PA: John Benjamins, 1999. DOI: https://doi.org/10.1075/tlrp.1

DANTAS, W. Disponível em: https://www.youtube.com/user/CorpusLael/videos. 2010. Acesso em: 25 jul. 2019.

DAVIES, M. O Corpus do Português. 2019. Disponível em: https://www.corpusdoportugues.org/compare_larger.asp. Acesso em: 22 jul. 2019.

FROMM, G. Proposta para um modelo de glossário de informática para tradutores. 2002. 82 f. Dissertação (Mestrado em Letras) – Faculdade de Filosofia, Letras e Ciências Humanas, Universidade de São Paulo, São Paulo, 2002. Disponível em: http://www.ileel.ufu.br/guifromm/wp-content/uploads/2014/05/dissertacao.pdf. Acesso em: 2 abr. 2019.

FROMM, G. VoTec: a construção de vocabulários eletrônicos para aprendizes de tradução. 2007. 214 f. Tese (Doutorado em Letras) – Faculdade de Filosofia, Letras e Ciências Humanas, Universidade de São Paulo, São Paulo, 2007. Disponível em: http://www.teses.usp.br/teses/disponiveis/8/8147/tde-08072008-150855/pt-br.php. Acesso em: 2 abr. 2019.

FROMM, G. Vocabulário de Linguística: treinamento em Terminografia Bilíngue, uso de corpora e Ambiente de Gestão Terminológica. In: ISQUERDO, A. N.; DAL CORNO, G. O. M. (org.). As ciências do léxico: lexicologia, lexicografia, terminologia. Campo Grande: Ed. UFMS, 2018. v. 7, p. 309-328.

FROMM, G; YAMAMOTO, M. I. Terminologia, Terminografia, Tradução e Linguística de Corpus: a criação de um vocabulário bilíngue sobre Linguística. In: TAGNIN, S.; BEVILACQUA, C. (org.). Corpora na Terminologia. São Paulo: Hub Editorial, 2013. p. 129-152.

GOMIDE, A. R. Contrastando duas ferramentas para análise de corpus de aprendizes: AntConc e Pacote tm. In: CONGRESSO NACIONAL UNIVERSIDADE, EAD E SOFTWARE LIVRE, 2015, Belo Horizonte. Anais... Belo Horizonte: Faculdade de Letras da UFMG, 2015. p. 1-5. Disponível em: http://www.periodicos.letras.ufmg.br/index.php/ueadsl/article/view/8659/7604. Acesso em: 10 mar. 2019.

GONÇALVES, L. B. Dubliners sob a lupa da Linguística de Corpus: Uma contribuição para a análise e a avaliação da tradução literária. 2006. 328 f. Tese (Doutorado em Estudos Linguísticos e Literários em Inglês) – Departamento de Letras Modernas da Faculdade de Filosofia, Letras e Ciências Humanas, Universidade de São Paulo, São Paulo, 2006. Disponível em: http://www.teses.usp.br/teses/disponiveis/8/8147/tde-08112007-154609/pt-br.php. Acesso em: 31 jul. 2019.

GRAMA, D. F. Uma análise lexicográfica dos elementos coesivos sequenciais do português para a elaboração de uma proposta de definição: um estudo com base em corpus. 2016. 371 f. Dissertação (Mestrado em Estudos Linguísticos) – Instituto de Letras e Linguística, Universidade Federal de Uberlândia, Uberlândia, 2016. Disponível em: https://repositorio.ufu.br/handle/123456789/18084. Acesso em: 27 set. 2019.

KILGARRIFF, A.; RYCHLÝ, P. Sketch Engine. East Sussex: Lexical Computing Limited, 2003. Disponível em: http://www.sketchengine.eu. Acesso em: 31 jul. 2019.

KRIEGER, M. G.; FINATTO, M. J. B. Introdução à Terminologia. São Paulo: Contexto, 2004.

NAVARRO, S. Corpora e variantes culturais: um estudo de caso da hotelaria. In: TAGNIN, S.; BEVILACQUA, C. (org.). Corpora na Terminologia. São Paulo: HUB, 2013. v. 1, p. 115-130.

PERINI, M. A. Princípios de linguística descritiva: introdução ao pensamento gramatical. São Paulo: Parábola Editorial, 2006.

PERINI, M. A. Estudos de gramática descritiva: as valências verbais. São Paulo: Parábola Editorial, 2008.

SCOTT, M. WordSmith Tools. Versão 7. Stroud: Lexical Analysis Software, 2016.

SEABRA, M. C. T. C. de. Questões teóricas genéricas. In: XATARA, C.; BELIVACQUA, C. R.; HUMBLÉ, P. R. M. (org.). Dicionários na teoria e na prática: como e para quem são feitos. São Paulo: Parábola Editorial, 2011. p. 29-37.

SINCLAIR, J. McH. Corpus, Concordance, Collocation. Oxford: Oxford University Press, 1991.

TEIXEIRA, E. D. A Linguística de Corpus a serviço do tradutor: proposta de um dicionário de culinária voltado para a produção textual. 2008. 439 f. Tese (Doutorado em Estudos Linguísticos e Literários em Inglês) – Universidade de São Paulo, São Paulo, 2008. Disponível em: http://www.teses.usp.br/teses/disponiveis/8/8147/tde-16022009-141747/pt-br.php. Acesso em: 02 fev. 2016.

TELINE, M. F.; ALMEIDA, G. M. B.; ALUÍSIO, S. M. Extração manual e automática de Terminologia: comparando abordagens e critérios. In: WORKSHOP EM TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (TIL), 1., 2003, São Carlos. Anais [...] São Carlos: UFSCAR, 2003. p. 1-12. Disponível em: http://www.nilc.icmc.usp.br/til/til2003/oral/Teline_Almeida_Aluisio_37.pdf. Acesso em: 31 jul. 2019.

WELKER, H. A. Questões de lexicografia pedagógica. In: XATARA, C.; BELIVACQUA, C. R.; HUMBLÉ, P. R. M. (org.). Dicionários na teoria e na prática: como e para quem são feitos. São Paulo: Parábola Editorial, 2011. p. 103-113.

WILKENS, R.; PEREIRA BOCORNY, A. E.; KRAUSE KILIAN, C.; VILLAVICENCIO, A. Ambientes web de gestão terminológica para a criação de produtos terminológicos on-line. Debate Terminológico, Porto Alegre, n. 8, p. 16-22, 2012. Disponível em: https://seer.ufrgs.br/riterm/article/view/29877/18474. Acesso em: 31 jul. 2019.

YAMAMOTO, M. I. Vocabulário bilíngue Português/Inglês de Linguística Geral. Revista Philologus, Rio de Janeiro, ano 24, n. 70, p. 272-297, jan./abr. 2018. Disponível em: http://www.filologia.org.br/x_sinefil/completos/vocabulario_bilingue_MARCIO.pdf. Acesso em: 31 jul. 2019.




DOI: http://dx.doi.org/10.17851/2237-2083.28.3.1191-1248

Refbacks

  • There are currently no refbacks.
';



Copyright (c) 2020 Guilherme Fromm, Daniela Faria Grama, Neubiana Silva Veloso Beilke, Candice Guarato Santos

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

e - ISSN 2237-2083 

License

Licensed through  Creative Commons Atribuição 4.0 Internacional