Título: Agrupamiento en grandes conjuntos de datos mezclados
Autores: RICARDO MERLO GALEAZZI
Fecha: 2013-12
Publicador: INAOE
Fuente:
Tipo: info:eu-repo/semantics/masterThesis
info:eu-repo/semantics/acceptedVersion
Tema: info:eu-repo/classification/Clustering/Clustering
info:eu-repo/classification/Los datos mixtos/Mixed data
info:eu-repo/classification/Datos grandes/Large data
info:eu-repo/classification/K-means/K-means
info:eu-repo/classification/Dividir y conquistar el método/Divide and conquer method
info:eu-repo/classification/Convex clustering/Convex clustering
info:eu-repo/classification/cti/1
info:eu-repo/classification/cti/12
info:eu-repo/classification/cti/1203
Descripción: En clasificación no supervisada (agrupamiento) se parte de un conjunto de datos no etiquetados para realizar la clasificación de los mismos. Existe una gran variedad de algoritmos para abordar el problema de clasificación no supervisada. Sin embargo, hoy en día el uso de diferentes dispositivos permite recabar fácilmente grandes canti-dades de información, lo que origina que muchos de los algoritmos de agrupamiento no puedan ser aplicados a grandes conjuntos de datos. Además, existen muchos pro-blemas en los cuales los objetos de estudio están descritos por variables numéricas y no numéricas (objetos mezclados), en donde para agrupar conjuntos datos mezclados es necesario aplicar un tratamiento especial de acuerdo al tipo de datos. Dar solución a estos problemas es la motivación para la búsqueda de un método de agrupamiento en grandes conjuntos de datos mezclados. En la literatura podemos encontrar buenos algoritmos de agrupamiento para datos mezclados que generan agrupamientos con formas convexas. Por ejemplo, el algo-ritmo de agrupamiento Fast Global k-Means permite construir agrupamientos con buena calidad en un tiempo razonable. Sin embargo, estos algoritmos resultan inapli-cables en grandes conjuntos de datos. Por esta razón, en esta tesis hemos propuesto un método de agrupamiento para grandes conjuntos de datos mezclados basado enuna estrategia divide y vencerás, teniendo como base al algoritmo Fast Global k-Means. El método propuesto es evaluado y comparado contra otros métodos de agrupamiento para grandes conjuntos de datos numéricos, reportados recientemente. El método pro-puesto ha mostrado obtener buenos resultados en términos de la calidad de los agru-pamientos construidos y del tiempo para construirlos, teniendo poca sensibilidad al orden del conjunto de datos a agrupar. También, se muestra la escalabilidad del mé-todo propuesto al agrupar grandes conjuntos de datos mezclados.
Idioma: spa