Descripción: |
En diferentes aplicaciones prácticas es común que se presente desbalance entre
clases. Este problema aparece cuando la cantidad de objetos en una clase
es mucho menor que en la otra. Esta diferencia en el tamaño de las clases
causa que los métodos de clasificación favorezcan a la clase con mayor cantidad
de objetos (mayoritaria), produciendo un mal desempeño de clasificación
para la clase con menor cantidad de objetos (minoritaria).
Las soluciones propuestas en la literatura, para el problema de desbalance
entre clases, pueden dividirse en dos tipos: soluciones a nivel algorítmico
y soluciones a nivel de datos. Las soluciones a nivel algorítmico modifican los
algoritmos de clasificación para mejorar la clasificación en la clase minoritaria.
Por otra parte, las soluciones a nivel de datos utilizan métodos de
re-muestreo para balancear el conjunto de datos.
Dentro de los métodos de re-muestreo podemos encontrar 3 tipos: submuestreo,
sobre-muestreo y re-muestreo híbrido. Los métodos de sub-muestreo
reducen la cantidad de objetos en la clase mayoritaria con el objetivo de balancear
el conjunto de datos, esto tiene la ventaja de que los modelos de
clasificación sean más simples y rápidos. Los métodos de sobre-muestreo incrementan
la cantidad de objetos de la clase minoritaria al generar nuevos
objetos sintéticos. Dicha generación tiene como objetivo balancear el conjunto
de datos, resultando a la vez en una mejora de la clasificación para
los objetos de la clase minoritaria, los cuales usualmente son los de mayor
interés. Finalmente, los métodos de re-muestreo híbrido combinan los dos
tipos de métodos anteriores, persiguiendo las ventajas de ambos.
En esta tesis se propone una versión determinista de SMOTE (Synthetic
Minority Over-sampling Technique), uno de los métodos de sobre-muestreo
más conocidos de la literatura, el cual genera objetos sintéticos de forma aleatoria
entre dos objetos de la clase minoritaria. En esta tesis no estudiamos
los métodos de sub-muestreo, ya que nuestro principal interés es mejorar la
clasificación de objetos de la clase minoritaria, sin eliminar objetos de la clase
mayoritaria, lo cual puede producir pérdida de información importante. Finalmente,
se realizó una comparación del método propuesto contra SMOTE
y algunos métodos de sobre-muestreo basados en SMOTE, utilizando conjuntos
de datos con desbalance obtenidos del repositorio KEEL, mostrando
las bondades del método propuesto. |