Descripción: |
En http://www.corpusdelespanol.org se encuentra el Corpus del Español –
100.000.000 palabras en el primer corpus anotado del español histórico y moderno. A
diferencia de otros corpus del español histórico, el “Corpus del Español” permite búsquedas por
35 categorías gramaticales, 20.000 lemas, y 30.000 grupos de sinónimos y antónimos, además
de búsquedas por etimología, frecuencia, y por categorías semánticas y sintácticas creadas por el
usuario mismo. Con todo esto, puede haber búsquedas tan complejas como “complemento
directo pronominal + todas las formas de cualquier sinónimo de querer + infinitivo, que ocurre
en el siglo XX pero no en los siglos XIII o XIX”. También se pueden producir fácilmente
listados completos de colocaciones. La flexibilidad y el poder del corpus (juntos con la
velocidad– menos de 2-3 segundos para casi todas las búsquedas) se deben a la arquitectura
innovadora del corpus – varias bases de datos relacionales que están ligadas y que tienen
anotación para los 45.000.000 n-grams distintos en el corpus. The first annotated corpus of historical and modern Spanish – the 100,000,000 word
Corpus del Español – is now online at http://www.corpusdelespanol.org. Unlike other corpora
of historical Spanish, the “Corpus del Español” allows searches by 35 grammatical categories,
20,000 lemmata, and 30,000 groups of synonyms and antonyms, in addition to searches by
etymology, frequency, and by user-defined semantic and syntactic categories. All of this allows
searches as complex as “pronominal direct object + all forms of any synonym of querer +
infinitive, which occurs in the 1900s but not in the 1700s or 1800s”. It is also possible to easily
produce complete lists of collocations. The flexibility and power of the corpus (as well as the
speed – 2-3 seconds for nearly all searches) are due to the innovative architecture of the corpus
– several relational databases that are linked together and which contain annotation for the
45,000,000 distinct n-grams in the corpus. |