Título: Un corpus anotado de 100.000.000 palabras del español histórico y moderno
Autores: Davies, Mark
Fecha: 2007-09-12
2007-09-12
2002-09
Publicador: RUA Docencia
Fuente:
Tipo: info:eu-repo/semantics/article
Tema: Corpus
Histórico
Base de datos relacional
Historical
Relational database
Descripción: En http://www.corpusdelespanol.org se encuentra el Corpus del Español – 100.000.000 palabras en el primer corpus anotado del español histórico y moderno. A diferencia de otros corpus del español histórico, el “Corpus del Español” permite búsquedas por 35 categorías gramaticales, 20.000 lemas, y 30.000 grupos de sinónimos y antónimos, además de búsquedas por etimología, frecuencia, y por categorías semánticas y sintácticas creadas por el usuario mismo. Con todo esto, puede haber búsquedas tan complejas como “complemento directo pronominal + todas las formas de cualquier sinónimo de querer + infinitivo, que ocurre en el siglo XX pero no en los siglos XIII o XIX”. También se pueden producir fácilmente listados completos de colocaciones. La flexibilidad y el poder del corpus (juntos con la velocidad– menos de 2-3 segundos para casi todas las búsquedas) se deben a la arquitectura innovadora del corpus – varias bases de datos relacionales que están ligadas y que tienen anotación para los 45.000.000 n-grams distintos en el corpus.
The first annotated corpus of historical and modern Spanish – the 100,000,000 word Corpus del Español – is now online at http://www.corpusdelespanol.org. Unlike other corpora of historical Spanish, the “Corpus del Español” allows searches by 35 grammatical categories, 20,000 lemmata, and 30,000 groups of synonyms and antonyms, in addition to searches by etymology, frequency, and by user-defined semantic and syntactic categories. All of this allows searches as complex as “pronominal direct object + all forms of any synonym of querer + infinitive, which occurs in the 1900s but not in the 1700s or 1800s”. It is also possible to easily produce complete lists of collocations. The flexibility and power of the corpus (as well as the speed – 2-3 seconds for nearly all searches) are due to the innovative architecture of the corpus – several relational databases that are linked together and which contain annotation for the 45,000,000 distinct n-grams in the corpus.
Idioma: Español

Artículos similares:

Choosing the correct paradigm for unknown words in rule-based machine translation systems por Sánchez Cartagena, Víctor Manuel,Esplà Gomis, Miquel,Sánchez Martínez, Felipe,Pérez Ortiz, Juan Antonio
Using external sources of bilingual information for on-the-fly word alignment por Esplà Gomis, Miquel,Sánchez Martínez, Felipe,Forcada Zubizarreta, Mikel L.
10