Título: Adapting text simplification decisions to different text genres and target users
Adaptación de algoritmos de toma de decisiones de simplificación de textos a diferentes corpus y audiencias
Autores: Štajner, Sanja
Saggion, Horacio
Fecha: 2013-09-11
2013-09-11
2013-09
Publicador: RUA Docencia
Fuente:
Tipo: info:eu-repo/semantics/article
Tema: Simplificación de textos
Clasificación de oraciones
Adaptación de métodos
Text simplification
Sentence classification
Method adaptation
Lenguajes y Sistemas Informáticos
Descripción: Hemos analizado las alineaciones a nivel de oración de dos corpus paralelos de textos originales y sus simplificaciones creados con diferentes objetivos. Hemos clasificado las alineaciones que se observan y diseñado un algoritmo de clasificación capaz de predecir si las oraciones de un texto serán eliminadas, segmentadas, o transformadas durante el proceso de simplificación. Hemos realizado una evaluación cruzada en cada uno de los corpus así como una evaluación en la cual se entrena en algoritmo en un corpus y se lo evalúa en el otro.
We investigate sentence deletion and split decisions in Spanish text simplification for two different corpora aimed at different groups of users. We analyse sentence transformations in two parallel corpora of original and manually simplified texts for two different types of users and then conduct two classification experiments: classifying between those sentences to be deleted and those to be kept; and classifying between sentences to be split and those to be left unsplit. Both experiments were first run on each of the two corpora separately and then run by using one corpus for the training and the other for testing. The results indicated that both sentence decision systems could be successfully trained on one corpus and then used for a different text genre in a text simplification system aimed at a different target population.
The research described in this paper was partially funded by the European Commission under the Seventh (FP7 - 2007-2013) Framework Programme for Research and Technological Development (FIRST 287607). This work is supported by an Advanced Research Fellowship from Programa Ramón y Cajal (RYC-2009-04291) and by the project SKATER: Scenario Knowledge Acquisition - Knowledge-based Concise Summarization (TIN2012-38584-C06-03) , Ministerio de Economía y Competitividad, Secretaria de Estado de Investigación, Desarrollo e Innovación, Spain.
Idioma: Inglés

Artículos similares:

Choosing the correct paradigm for unknown words in rule-based machine translation systems por Sánchez Cartagena, Víctor Manuel,Esplà Gomis, Miquel,Sánchez Martínez, Felipe,Pérez Ortiz, Juan Antonio
Using external sources of bilingual information for on-the-fly word alignment por Esplà Gomis, Miquel,Sánchez Martínez, Felipe,Forcada Zubizarreta, Mikel L.
10