Caracterização da complementaridade temporal: subsídios para sumarização automática multidocumento

Autores

  • Jackson Wilke da Cruz Souza Universidade Federal de São Carlos (UFSCar) / Núcleo Interinstitucional de Linguística Computacional (NILC), São Carlos - São Paulo
  • Ariani Di Felippo Universidade Federal de São Carlos (UFSCar) / Núcleo Interinstitucional de Linguística Computacional (NILC), São Carlos - São Paulo - Brasil.

DOI:

https://doi.org/10.1590/1981-5794-1804-6

Palavras-chave:

Descrição linguística, Complementaridade, CST, Sumarização Multidocumento, Processamento Automático de Língua Natural,

Resumo

A complementaridade é um fenômeno multidocumento comumente observado entre notícias que versam sobre um mesmo evento. A partir de um corpus em português composto por um conjunto de pares de sentenças manualmente anotadas com as relações da Cross-Document Structure Theory (CST) que explicitam a complementaridade temporal (Historical background e Follow-up), identificou-se um conjunto potencial de atributos linguísticos desse tipo de complementaridade. Por meio de algoritmos de Aprendizado de Máquina, testou-se o potencial dos atributos em distinguir as referidas relações. O classificador simbólico gerado pelo algoritmo JRip obteve o melhor desempenho ao se considerar a precisão e o tamanho reduzido do conjunto de regras. Somente com base em 5 regras, tal classificador identificou Follow-up e Historical background com precisão aproximada de 80%. Ademais, as regras do classificador indicam que o atributo ocorrência de expressão temporal na sentença 2 é o mais relevante para a tarefa. Como contribuição, salienta-se que o classificador JRip aqui gerado pode ser utilizado nos analisadores discursivos multidocumento para o português do Brasil que são baseados na CST.

Downloads

Não há dados estatísticos.

Biografia do Autor

Jackson Wilke da Cruz Souza, Universidade Federal de São Carlos (UFSCar) / Núcleo Interinstitucional de Linguística Computacional (NILC), São Carlos - São Paulo

Doutorando em Linguística pelo Programa de Pós-Graduação (PPGL) da Universidade Federal de São Carlos (UFSCar), na linha de pesquisa Descrição, Análise e Processamento Automático de Línguas Naturais (PLN). Mestre e Bacharel em Linguística pela UFSCar, com ênfase em PLN, atuando principalmente nas subáreas de Linguística de corpus, Semântica, Teminologia e Sumarização Automática. Este último tópico faz parte dos seus últimos desenvolvimentos acadêmicos, como Dissertação de Mestrado, projetos de Iniciação Científica e Trabalho de Conclusão de Curso e atual projeto de doutorado, sob orientação da profa Ariani Di Felippo (DL/UFSCar). Integrante do Núcleo Interinstitucional de Linguística Computacional (NILC), com sede na Universidade de São Paulo (USP/São Carlos).

Publicado

25/04/2018

Edição

Seção

Artigos Originais