Título: Reconocimiento y Consulta de Imágenes Textuales en Bibliotecas Digitales
Autores: Dircio Palacios Macedo, Roberto
Fecha: 1998-12-09
Publicador: CIRIA
Fuente:
Tipo: Electronic Thesis or Dissertation
Tesis
Tema: Ingeniería en Sistemas Computacionales
Digital libraries
Information storage and retrieval systems
Libraries--Data processing
Descripción: Las bibliotecas digitales abarcan una gran área de investigación en la que convergen múltiples disciplinas. Las facilidades que dichas bibliotecas proveen a sus usuarios incluyen y extienden los servicios provistos por las bibliotecas convencionales. Entre estas están las consultas, que prometen un aprovechamiento mayor de la información, dando al usuario opciones de referenciar hasta la más mínima unidad de información contenida en su acervo, que para el caso de las imágenes que contienen texto, son los caracteres que las componen. El reconocimiento óptico de caracteres (OCR) es una herramienta que permite transformar éstos datos en información útil. Los sistemas comerciales de reconocimiento que existen actualmente no siempre se adaptan al gran volúmen de información a ser procesada para la construcción de bibliotecas digitales. Por ello, es necesario crear alternativas que se adapten a la tarea. En la biblioteca digital florística, cuya misión es fomentar la investigación y el conocimiento general de las plantas, hay colecciones voluminosas de documentos de texto que son de gran utilidad para la investigación botánica. Esta tesis conjunta un sistema de procesamiento en paralelo para el reconocimiento de tarjetas con texto y un módulo de consultas. La conjunción de ambos se denominó HuSystem y su objetivo es facilitar al usuario las consultas de 350,000 tarjetas que contienen información acerca de la flora de China. Este trabajo presenta un diseño y la implementación de una herramienta que permite introducir el texto de las tarjetas en la base de datos. Esta herramienta aprovecha el poder de cómputo en paralelo, al distribuir el trabajo a diferentes máquinas llamadas esclavos, cuya labor es reconocer texto en cada tarjeta. Además del anterior, un módulo de consultas facilita al usuario el acceso a la información en las tarjetas mediante búsqueda textual. Debido a la inexactitud del reconocimiento se agrega funcionalidad para mejorar el texto por medios humanos.
Idioma: Español