Título: Estudio de las técnicas de detección de plagio textual y análisis de sinonimia en ensayos y desarrollo de un sistema prototipo
Autores: Flores Vega, Andrea Elizabeth
León Ullauri, Benito Bernardo
Fecha: 2012-07-10
2012-07-10
2012-04
Publicador: Universidad Politécnica Salesiana
Fuente:
Tipo: Thesis
Tema: Plagio – Educación
Imitación Literaria
Derechos de Autor
Software para Computadores
Descripción: Entendemos como plagio la inserción de ideas que no nos pertenecen y darlas como nuestras al no reconocer mediante citas referenciales a los autores originales de un texto sobre el cual nos basamos para sustentar nuestros trabajos. Existen varias formas de plagio, sin embargo en nuestro trabajo nos hemos enfocado en analizar plagio textual y plagio por sinonimia. Se considera que el plagio textual es la forma más común y fácil de plagio. Consiste en copiar desde un documento ajeno ideas sin cambiar ninguna palabra y darlas como nuestras. Por otro lado, plagio por sinonimia consiste en cambiar ciertas palabras por sus respectivos sinónimos con la finalidad de que el plagio no resulte muy notorio. Para poder identificar cualquiera de estos tipos de plagio nos apoyaremos en los motores de búsqueda Bing, Google, Ask, Yahoo y Yandex mediante los cuales buscaremos frases exactas para detección de plagio textual y/o buscaremos un conjunto de palabras clave para detección de plagio por sinonimia. El sistema que desarrollamos admite archivos DOC, DOCX, PDF y archivos de texto los cuales son convertidos a texto plano en caso de ser necesario. Una vez obtenido el archivo plano, procedemos a seleccionar frases en el caso de análisis textual y se procede a buscar en internet si existe otro documento con la misma frase textual, en caso de encontrar un resultado se almacena su URL junto con la frase que originó la búsqueda, esto con el objetivo de presentarlo en el informe final que el sistema entrega. Para el caso de análisis por sinonimia se debe realizar un proceso previo antes de analizar el documento, como son la utilización de N-gramas y filtrado de stop words. Una vez realizado el pre-proceso, se efectúa la comparación entre 2 archivos. El primero será una página del documento a analizar, de dicha página extraemos las palabras más importantes para usarlas como palabras clave en una búsqueda por internet, para cada búsqueda (que representa una página del texto) extraemos el texto del primer resultado del buscador. A este texto también se lo convierte a un archivo de texto plano, se eliminan sus stop words y finalmente se crean sus N-gramas para realizar la comparación. Ahora que tenemos 2 conjuntos de N-gramas procedemos a verificar el nivel de copia existente entre dichos conjuntos, para ello se utiliza medida conocida como: Coeficiente de Overlap, el mismo que mediante una operación de intersección pretende demostrar que tan contenido esta un conjunto dentro del otro. El nivel de copia que este coeficiente indica se presenta en un rango de 0 a 1, donde 0 significa que no existe copia alguna y 1 significa que todo el texto ha sido plagiado. Una vez que obtenemos nuestra medida de similitud procedemos a almacenarla junto con la URL desde donde se ha extraído el texto comparado y finalmente agregamos además el texto de la página que contiene el plagio, estos datos se presentan en el informe final. Para facilidad de los usuarios finales se creó un sitio web que permite analizar uno o varios archivos y buscar plagio textual y/o plagio por sinonimia. También se incluyen parámetros de configuración como son: número de gramas, tiempo máximo de descarga, tamaño máximo de descarga, entre otros. Para medir la eficiencia del sistema se analizó precisión, cobertura y F-Measure, los resultados son los siguientes: Precisión de plagio textual: 1 Precisión de análisis por sinonimia: 0.63 Cobertura de plagio textual: 0.52 Cobertura de análisis por sinonimia: 0.37 F-Measure para plagio textual: 0.70 F-Measure de análisis por sinonimia: 0.45
Idioma: Español

Artículos similares:

Estudio, diseño y construcción de una pata para un robot cuadrúpedo escalador por Galán Auquilla, Boris Antonio,Guillén López, Diego Esteban,Tello Crespo, Diego Fernando
10