Título: Analizador morfosintáctico de nombres propios y siglas
Autores: Miranda García, Antonio
Fecha: 2008-01-25
2008-01-25
1994-07
Publicador: RUA Docencia
Fuente:
Tipo: info:eu-repo/semantics/article
Tema: Analizador morfosintáctico
Nombres propios
Siglas
Descripción: El procesamiento del lenguaje natural dirigido a tareas de extracción de información o a la creación de bases de datos a partir de textos informativos, tiene que superar el problema de la falta de recursos léxicos suficientes, también conocido como embotellamiento léxico. Aunque el empleo de diccionarios computarizados y el desarrollo de sistemas expertos para el aprendizaje de palabras desconocidas han supuesto un notable avance, sin embargo, la cobertura léxica no es total, especialmente en el caso de los nombres propios. El reconocimiento de los nombres propios y su posterior análisis y clasificación es una tarea bastante compleja, debido fundamentalmente a su elevado número, a la gran variedad de formas que adoptan y a la ambigüedad que algunos de ellos presentan. El simple reconocimiento ya resulta difícil, porque el único distintivo con el que se cuenta es el empleo de la mayúscula, pista que no es válida para las palabras que van detrás de punto. Este estudio pretende una aproximación al tratamiento de los nombres propios y de las siglas en español a partir de textos que previamente han sido etiquetados morfológicamente.
Natural Language Processing systems developed to extract information from news texts or aimed at the creation of databases, are bound to overcome what is known as the lexical bottleneck. Although the employment of Machine Readable Dictionaries and the development of expert systems for lexical acquisition represent a remarkable progress, full lexical coverage is unlikely to be achieved, especially in the case of proper names. The recognition, analysis and classification of proper names is complex largely due to the vast amount and types of proper names in existence, the varying forms that they can adopt and to the ambiguity that some of them present. Recognition of proper names is difficult because their only distinguishing feature is the they all being with a capital letter, a path that is not valid for the words that go after a full stop. This study will attempt to deal with proper names and abbreviations in Spanish texts after a previous morphological tagging.
Idioma: Español

Artículos similares:

Choosing the correct paradigm for unknown words in rule-based machine translation systems por Sánchez Cartagena, Víctor Manuel,Esplà Gomis, Miquel,Sánchez Martínez, Felipe,Pérez Ortiz, Juan Antonio
Using external sources of bilingual information for on-the-fly word alignment por Esplà Gomis, Miquel,Sánchez Martínez, Felipe,Forcada Zubizarreta, Mikel L.
10