Título: Clustering iterativo de textos cortos con representaciones basadas en conceptos
Iterative clustering of short texts with concept-based representations
Autores: Ingaramo, Diego Alejandro
Rosas, María Verónica
Errecalde, Marcelo Luis
Rosso, Paolo
Fecha: 2011-04-05
2011-04-05
2011-04
Publicador: RUA Docencia
Fuente:
Tipo: info:eu-repo/semantics/article
Tema: Agrupamiento iterativo
Desambiguación
Colecciones de textos cortos
Iterative clustering
Word sense disambiguation
Short-text corpora
Lenguajes y Sistemas Informáticos
Descripción: La tendencia actual a trabajar con documentos cortos (blogs, mensajes de textos, y otros), ha generado un interés creciente en las técnicas de procesamiento automáticas de documentos con estas características. En este contexto, el "clustering" (agrupamiento) de textos cortos es un área muy importante de investigación, que puede jugar un rol fundamental en organizar estos grandes volúmenes de textos cortos, en un número pequeño de grupos significativos. Recientemente, el uso de métodos de clustering bio-inspirados iterativos, ha producido resultados muy interesantes utilizando representaciones de vector de términos clásicas. En este trabajo, extendemos este enfoque utilizando representaciones de documentos enriquecidas con información semántica (conceptos) obtenida con métodos de desambiguación basados en conocimiento. Los resultados experimentales, permiten concluir que el enfoque de clustering iterativo utilizado puede verse beneficiado significativamente con la incorporación de información semántica en la representación de documentos, mostrando un desempeño superior al exhibido por varios de los métodos de clustering más difundidos en el área, en la mayoría de las instancias experimentales.
The current trend to work with short documents (e.g. blogs, text messaging and others), has produced an increasing interest in automatic processing techniques of documents with these features. In this context, short-text clustering is a very important research area, which can play a fundamental role in organizing these large volumes of short texts in a small number of meaningful groups. Recently, the use of bio-inspired, iterative clustering methods has produced very interesting results with standard term-vector representations. In this work, we extend this approach by using representations of documents that also include semantic information (concepts) obtained with knowledge-based WSD methods. The experimental results allow to conclude that our iterative clustering approach can be significantly improved with the addition of this semantic information in the representation of documents, showing a better performance than several well-known methods in this area, in most of the considered experimental instances.
El trabajo del tercer y cuarto autor ha sido soportado por el proyecto MICINN TEXT-ENTERPRISE 2.0 TIN2009-13391-C04-03 (Plan I+D+i).
Idioma: Español

Artículos similares:

Choosing the correct paradigm for unknown words in rule-based machine translation systems por Sánchez Cartagena, Víctor Manuel,Esplà Gomis, Miquel,Sánchez Martínez, Felipe,Pérez Ortiz, Juan Antonio
Using external sources of bilingual information for on-the-fly word alignment por Esplà Gomis, Miquel,Sánchez Martínez, Felipe,Forcada Zubizarreta, Mikel L.
10