Mudança semântica e word embeddings: estudos de caso na diacronia do português/ Semantic change and word embeddings: case studies on the diachrony of Portuguese

Lucas Fonseca Lage, Evandro Landulfo Teixera Paradela Cunha

Abstract


Resumo: De acordo com Givón (2001) o léxico é um repositório de conceitos relativamente estáveis no tempo, compartilhados socialmente e bem codificados, além de ser organizado em forma de rede, onde conceitos similares estão agrupados próximos uns aos outros. Em viés similar, o lexicólogo Georges Matoré propõe que palavras estabelecem relações associativas entre si e define os conceitos de campos nocionais e palavras-testemunho, elementos em torno dos quais o léxico se organiza. Com o uso de técnicas computacionais como word embeddings, que permitem a representação de palavras como vetores em um espaço vetorial, é possível analisar palavras agrupadas pelos mesmos traços semânticos. Este trabalho se propõe investigar a viabilidade de tais métodos para análise de mudança semântica. Para isso, foram analisadas ocorrências das formas “deus”, “homem”, “mulher”, “pai”, “mae” e “terra” no corpus Tycho Brahe do português. Através do algoritmo Skip-gram foram gerados Word Embeddings, e, posteriormente, visualizações para a rede de relações semânticas de cada palavra em três diferentes recortes temporais. Através das visualizações foram observadas evidências da organização semântica do léxico, além de sua reorganização através do tempo.


Palavras-chave: Linguística Computacional; Estudos Diacrônicos; Processamento de Língua Natural; Mudança Linguística; Vetorização de Palavras.


Abstract: According to Givón (2001), the lexicon is a repository of concepts which are relatively stable in time, socially shared and well encoded. They are well organized in a network where similar concepts are grouped next to each other. On a similar note, the lexicographer Georges Matoré proposes associative relationships between words and defines the concepts of notional field and testimonial words, which are organizational elements of the lexicon. Using computational techniques such as Word Embeddings, which represent words as vectors in a vector space, it is possible to analyze groupings of words based on their semantic features. This paper aims to explore the viability of such methods in semantic change. The occurrences of the word forms “deus”, “homem”, “mulher”, “pai”, “mae” and “terra” were analyzed in the Tycho Brahe corpus for Portuguese. Word Embeddings were created using the Skip-gram algorithm, and visualizations for a semantic feature network were created for each word in three different time slices. Evidence of the semantic organization of the lexicon and its reorganization was observed through the generated visualizations.


Keywords: Computational Linguistics; Diachronic Studies; Natural Language Processing; Linguistic Change; Word Embeddings.


Keywords


Linguística Computacional; Estudos Diacrônicos; Processamento de Língua Natural; Mudança Linguística; Vetorização de Palavras; Computational Linguistics; Diachronic Studies; Natural Language Processing; Linguistic Change; Word Embeddings.

References


BĂLAN, O. et al. Emotion classification based on biophysical signals and machine learning techniques. Symmetry, [s.l.], v. 12, n. 1, 2020. DOI: . Acesso em: 31 jan. 2022.

BECHARA, E. As fases históricas da língua portuguesa: tentativa de proposta de nova periodização. Niterói: Universidade Federal Fluminense, 1985.

BIRD, S.; KLEIN, E.; LOPER, E. Natural language processing with Python: analyzing text with the natural language toolkit. [s.l.]: O’Reilly Media, Inc., 2009.

BOCHKAREV, V.; SOLOVYEV, V.; WICHMANN, S. Universals versus historical contingencies in lexical evolution. Journal of The Royal Society Interface, [s.l.], v. 11, n. 101, 2014. DOI: . Acesso em: 31 jan. 2022

CAMBRAIA, C. N. Da lexicologia social a uma lexicologia sócio-histórica: caminhos possíveis. Revista de Estudos da Linguagem, Belo Horizonte, v. 21, n. 1, p. 157–188, 2013. DOI: . Acesso em: 31 jan. 2022.

CUNHA, A. F. DA. Funcionalismo. In: MARTELOTTA, M.E. (org.). Manual de linguística. São Paulo: Contexto, 2008. p. 157–176.

DE SOUSA, M. C. P. O corpus Tycho Brahe: contribuições para as humanidades digitais no Brasil. Filologia e Linguística Portuguesa, São Paulo, v. 16, n. esp., p. 53–93, 2014. DOI: https://doi.org/10.11606/issn.2176-9419.v16ispep53-93

DORES, M. V. P. das; TOLEDO, C. V. S. De “lepra” a “hanseníase”: uma análise lexicológica de base sócio-histórica. Diacrítica, [s.l.], v. 32, n. 1, p. 179–208, 2018.

FIRTH, J. R. A synopsis of linguistic theory, 1930-1955. In: FIRTH, J. R. Studies in linguistic analysis. Oxford: Blackwell, 1957. p. 1-32.

GALVES, C.; ANDRADE, A. L.; FARIA, P. Tycho Brahe Parsed Corpus of Historical Portuguese. Disponível em . Acesso em: dez. 2017.

GIVÓN, T. Functionalism and grammar. [s.l.]: John Benjamins Publishing, 1995.

GIVÓN, T. Syntax: an introduction. v. 1. [s.l.]: John Benjamins Publishing, 2001.

GRIFFIN, C. Graph Theory: Penn State Math 485 Lecture Notes. 2017. Disponível em: . Acesso em: 22 fev. 2022.

HAMILTON, W. L.; LESKOVEC, J.; JURAFSKY, D. Diachronic word embeddings reveal statistical laws of semantic change. In: 1ST INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS, 2016. Disponível em: . Acesso em: 31 jan. 2022.

HARTMANN, N. S. Solo queue at ASSIN: Combinando abordagens tradicionais e emergentes. Linguamática, [s.l.], v. 8, n. 2, p. 59-64, 2016

JURAFSKY, D.; MARTIN, J. H. Speech and Language Processing: An introduction to speech recognition, computational linguistics and natural language processing. Upper Saddle River: Prentice Hall, 2008.

LABOV, W. Some principles of linguistic methodology. Language in Society, [s.l.], v. 1, n. 1, p. 97–120, 1972. DOI:

MATORÉ, G. La lexicologie sociale. L ́Information Littéraire, Paris, n. 2, mar./abr. 1949.

MICHEL, J. B. et al. Quantitative analysis of culture using millions of digitized books. Science, [s.l.], v. 331, n. 6014, p. 176–182, 2011. DOI: <10.1126/science.1199644> Disponível em: . Acesso em: 31 jan. 2022.

MIKOLOV, T. et al. Efficient estimation of word representations in vector space. In: 1ST INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS, ICLR 2013.

OSGOOD, C. E.; SUCI, G. J.; TANNENBAUM, P. H. The measurement of meaning. [s.l.] University of Illinois Press, 1957.

RAFAEL, G. C. R. A.; SIMIÃO, D. P. Aidético e soropositivo: análise sócio-histórica da concorrência entre qualificadores utilizados em referência a portadores do HIV. Inventário, n. 23, p. 45–68, 2019.

ROBIN, R.; DE MENESES BOLLE, A. B. História e lingüística. São Paulo: Editora Cultrix, 1977.

SWINNEY, D. A. Lexical access during sentence comprehension: (Re) consideration of context effects. Journal of verbal learning and verbal behavior, v. 18, n. 6, p.645-659, 1979. DOI: https://doi.org/10.1016/S0022-5371(79)90355-4

ZIPF, G. K. Human behavior and the principle of least effort: An introduction to human ecology. [s.l.] Books, 2016.




DOI: http://dx.doi.org/10.17851/2237-2083.30.4.2043-2086

Refbacks

  • There are currently no refbacks.
';



Copyright (c) 2022 Lucas Fonseca Lage, Evandro Landulfo Teixeira Paradela Cunha

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

e - ISSN 2237-2083 

License

Licensed through  Creative Commons Atribuição 4.0 Internacional