Título: Evaluación de la calidad de la Información extraída por wrappers, de un sitio web
Autores: Vargas, Alejandro
Sánchez Rivero, David
Valdéz, Ángel
Bernechea, Miguel
Castillo, Natalia
Colqui, Reinaldo
Fecha: 2013-06-10
2013-04
2013-06-10
Publicador: Unversidad Nacional de La Plata
Fuente:

Tipo: Objeto de conferencia
Objeto de conferencia
Tema: extracción de datos
datos semi-estructurados
calidad de datos
medidas de calidad
wrappers
Ciencias Informáticas
informática y tratamiento de datos
Descripción: La complejidad creciente de la estructura y la cantidad de datos presentes en un sitio web determinado, torna necesaria la existencia de herramientas para la recuperación de información (RI), la cual se considera pertinente y adecuada, para su posterior análisis. En tal sentido los wrappers, programas para extracción de datos de la web, cumplen tal función, y pueden ser generados, mediante herramientas, en forma automática o desarrollados en forma artesanal (utilizando los lenguajes de programación python o perl, por ejemplo). Los wrappers son los encargados de transformar la información semi-estructurada (presente en un sitio web) en información estructurada, a través del lenguaje XML (eXtensible Markup Language). El carácter dinámico de los sitios web posiblemente degrade la calidad de la información extraída por los wrappers, programas que trabajan en base a ciertos criterios, como ser color, posición en la página, fuente, tags, entre otros; los cuales pueden cambiar por el dinamismo propio del sitio. Los resultados del presente trabajo, van a permitir establecer un criterio de evaluación y comparación de las calidad de los datos extraídos de un sitio web, a medida que este presenta cambio y/o modificaciones.
Eje: Bases de Datos y Minería de Datos
Idioma: Español