Characterization of temporal complementarity: fundamentals for multi-document summarization

Authors

  • Jackson Wilke da Cruz Souza Universidade Federal de São Carlos (UFSCar) / Núcleo Interinstitucional de Linguística Computacional (NILC), São Carlos - São Paulo
  • Ariani Di Felippo Universidade Federal de São Carlos (UFSCar) / Núcleo Interinstitucional de Linguística Computacional (NILC), São Carlos - São Paulo - Brasil.

DOI:

https://doi.org/10.1590/1981-5794-1804-6

Keywords:

Linguistic description, Complementarity, CST, Multi-document Summarization, Natural Language Processing,

Abstract

Complementarity is a usual multi-document phenomenon that commonly occurs among news texts about the same event. From a set of sentence pairs (in Portuguese) manually annotated with CST (Cross-Document Structure Theory) relations (Historical background and Follow-up) that make explicit the temporal complementary among the sentences, we identified a potential set of linguistic attributes of such complementary. Using Machine Learning algorithms, we evaluate the capacity of the attributes to discriminate between Historical background and Follow-up. JRip learned a small set of rules with high accuracy. Based on a set of 5 rules, the classifier discriminates the CST relations with 80% of accuracy. According to the rules, the occurrence of temporal expression in sentence 2 is the most discriminative feature in the task. As a contribution, the JRip classifier can improve the performance of the CST-discourse parsers for Portuguese.

Downloads

Download data is not yet available.

Author Biography

Jackson Wilke da Cruz Souza, Universidade Federal de São Carlos (UFSCar) / Núcleo Interinstitucional de Linguística Computacional (NILC), São Carlos - São Paulo

Doutorando em Linguística pelo Programa de Pós-Graduação (PPGL) da Universidade Federal de São Carlos (UFSCar), na linha de pesquisa Descrição, Análise e Processamento Automático de Línguas Naturais (PLN). Mestre e Bacharel em Linguística pela UFSCar, com ênfase em PLN, atuando principalmente nas subáreas de Linguística de corpus, Semântica, Teminologia e Sumarização Automática. Este último tópico faz parte dos seus últimos desenvolvimentos acadêmicos, como Dissertação de Mestrado, projetos de Iniciação Científica e Trabalho de Conclusão de Curso e atual projeto de doutorado, sob orientação da profa Ariani Di Felippo (DL/UFSCar). Integrante do Núcleo Interinstitucional de Linguística Computacional (NILC), com sede na Universidade de São Paulo (USP/São Carlos).

Published

25/04/2018

How to Cite

SOUZA, J. W. da C.; FELIPPO, A. D. Characterization of temporal complementarity: fundamentals for multi-document summarization. ALFA: Revista de Linguística, São Paulo, v. 62, n. 1, 2018. DOI: 10.1590/1981-5794-1804-6. Disponível em: https://periodicos.fclar.unesp.br/alfa/article/view/9204. Acesso em: 26 nov. 2024.

Issue

Section

Papers