Título: Approximating the disambiguation of some German nominalizations by use of weak structural, lexical and corpus information
Hacia la desambiguación de nominalizaciones en alemán a partir de información estructural, léxica y de corpus
Autores: Eberle, Kurt
Heid, Ulrich
Faaß, Gertrud
Fecha: 2011-04-05
2011-04-05
2011-04
Publicador: RUA Docencia
Fuente:
Tipo: info:eu-repo/semantics/article
Tema: Información de corpus
Desambiguación
Representación semántica superficial
Fiabilidad
Anotación de corpus
Corpus information
Disambiguation
Shallow semantic representation
Reliability
Corpus annotation
Lenguajes y Sistemas Informáticos
Descripción: Entre el método clásico y simbólico de desambiguación de sentidos (WSD) que utiliza representaciones semánticas profundas de oraciones y textos, y el método estadístico que utiliza información relativa a la co-ocurrencia de palabras, existe una tendencia reciente a usar métodos híbridos. De manera similar a la llamada semántica light-weight (Marek, 2009), en este artículo se propone hacer uso de escasa información semántica. Describimos un modelo de aproximación sobre la base de Flat Underspecified Discourse Representation Structures (FUDRSs, cf. Eberle 2004) que valora conocimiento sobre estructura contextual, restricciones de semántica léxica e interpretaciones preferenciales. Presentamos una guía de anotación para la anotación por humanos de textos con los correspondientes indicadores. Mediante su uso, la fiabilidad de la herramienta que implementa el modelo puede ser testada con respecto a la precisión de anotación y a la predicción de desambiguación, y cómo ambas pueden ser mejoradas mediante el bootstrapping del conocimiento del sistema usando información de corpus. Para el corpus set de test considerado, la tasa de reconocimiento de la lectura preferida es del 80-90% (dependiendo de la compensación de errores de análisis sintáctico).
Between classical symbolic word sense disambiguation (wsd) using explicit deep semantic representations of sentences and texts and statistical wsd using word co-occurrence information, there is a recent tendency towards mediating methods. Similar to so-called light-weight semantics (Marek, 2009) we suggest to only make sparse use of semantic information. We describe an approximation model based upon flat underspecified discourse representation structures (FUDRSs, cf. Eberle, 2004) that weighs knowledge about context structure, lexical semantic restrictions and interpretation preferences. We give a catalogue of guidelines for human annotation of texts by corresponding indicators. Using this, the reliability of an analysis tool that implements the model can be tested with respect to annotation precision and disambiguation prediction and how both can be improved by bootstrapping the knowledge of the system using corpus information. For the balanced test corpus considered the recognition rate of the preferred reading is 80-90% (depending on the smoothing of parse errors).
Idioma: Inglés

Artículos similares:

Choosing the correct paradigm for unknown words in rule-based machine translation systems por Sánchez Cartagena, Víctor Manuel,Esplà Gomis, Miquel,Sánchez Martínez, Felipe,Pérez Ortiz, Juan Antonio
Using external sources of bilingual information for on-the-fly word alignment por Esplà Gomis, Miquel,Sánchez Martínez, Felipe,Forcada Zubizarreta, Mikel L.
10