Reconhecimento do vocabulário de jornais populares brasileiros por um dicionário computacional de acesso livre
DOI:
https://doi.org/10.1590/1981-5794-1904-3Palavras-chave:
Jornais populares, Léxico, Vocabulário, Dicionário computacional, Cobertura lexical, Reconhecimento de palavras, Português brasileiro,Resumo
Relata-se um experimento de verificação da identificação de um universo de palavras do português popular escrito por duas versões de um dicionário computacional do português brasileiro (PB), DELAF PB 2004 e DELAF PB 2015. Esse dicionário computacional é gratuitamente acessível para ser utilizado em análises linguísticas do Português do Brasil e em outras pesquisas, o que justifica um estudo crítico. O universo vocabular provém do corpus PorPopular, composto por jornais populares, o Diário Gaúcho (DG) e o jornal baiano Massa! (MA). Do DG, partiu-se de um conjunto de textos com 984.465 palavras (tokens), publicados em 2008, com ortografia desatualizada frente ao Acordo Ortográfico da Língua Portuguesa adotado em 2009. Do MA, examinou-se um universo com 215.776 palavras (tokens), em publicações de 2012, 2014 e 2015, com todo o material na nova ortografia. A verificação envolveu: a) gerar listas de palavras diferentes empregadas em DG e MA; b) comparar essas listas com as listas de entradas das duas versões do DELAF PB; c) avaliar a cobertura desse vocabulário; d) propor modos de inclusão de itens não cobertos. Os resultados do trabalho mostraram, no DG, uma média de 19% de palavras diferentes (types) desconhecidas pelos DELAF PB 2004 e 2015. No MA, essa média ficou em 13%. A versão do dicionário repercutiu ligeiramente sobre o desempenho do reconhecimento de itens.
Downloads
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Os manuscritos aceitos e publicados são de propriedade da Alfa: Revista de Linguística. É vedada a submissão integral ou parcial do manuscrito a qualquer outro periódico. A responsabilidade do conteúdo dos artigos é exclusiva dos autores. É vedada a tradução para outro idioma sem a autorização escrita do Editor ouvida a Comissão Editorial.