Descripción: |
Las bibliotecas digitales abarcan una gran área de investigación
en la que convergen múltiples disciplinas. Las facilidades que dichas
bibliotecas proveen a sus usuarios incluyen y extienden los servicios provistos
por las bibliotecas convencionales. Entre estas están las consultas,
que prometen un aprovechamiento mayor de la información, dando al
usuario opciones de referenciar hasta la más mínima unidad
de información contenida en su acervo, que para el caso de las
imágenes que contienen texto, son los caracteres que las componen.
El reconocimiento óptico de caracteres (OCR) es una herramienta que
permite transformar éstos datos en información útil.
Los sistemas comerciales de reconocimiento que existen actualmente no siempre
se adaptan al gran volúmen de información a ser procesada para
la construcción de bibliotecas digitales. Por ello, es necesario crear
alternativas que se adapten a la tarea.
En la biblioteca digital florística, cuya misión es fomentar
la investigación y el conocimiento general de las plantas, hay colecciones
voluminosas de documentos de texto que son de gran utilidad para la
investigación botánica. Esta tesis conjunta un sistema de
procesamiento en paralelo para el reconocimiento de tarjetas con texto y
un módulo de consultas. La conjunción de ambos se denominó
HuSystem y su objetivo es facilitar al usuario las consultas de 350,000 tarjetas
que contienen información acerca de la flora de China.
Este trabajo presenta un diseño y la implementación de una
herramienta que permite introducir el texto de las tarjetas en la base de
datos. Esta herramienta aprovecha el poder de cómputo en paralelo,
al distribuir el trabajo a diferentes máquinas llamadas esclavos,
cuya labor es reconocer texto en cada tarjeta.
Además del anterior, un módulo de consultas facilita al usuario
el acceso a la información en las tarjetas mediante búsqueda
textual. Debido a la inexactitud del reconocimiento se agrega funcionalidad
para mejorar el texto por medios humanos. |