Metabuscador

Inicio Atrás
Título:	Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas Web text corpus extraction system for linguistic tasks
Autores:	Cadavid Rengifo Héctor Fabio Gómez Perdomo Jonatan
Fecha:	2009-12-01
Publicador:	Ingeniería e investigación
Fuente:
Tipo:
Tema:	corpus web; crawler; aprendizaje no supervisado de lenguajes; programación concurrente Web Corpus; crawler; unsupervised language learning; concurrent programming
Descripción:	En este artículo se describe un sistema desarrollado para la extracción de grandes cuerpos de texto de Internet, teniendo como motivación el valor que ofrecen los ejemplos de lenguaje natural disponibles en la red para las tareas de aprendizaje no supervi- sado de dichos naturales, dado por características como su enorme volumen, permanente actualización respecto de las altera- ciones del lenguaje, y bajo costo, en tiempo y recursos, en cuanto a los mecanismos tradicionales de construcción de corpus pa- ra esas tareas de aprendizaje. Se presentan las estrategias incorporadas al sistema con el fin de maximizar el aprovechamiento de los recursos de hardware y así reducir los tiempos de extracción, al igual que se presentan las características de extensibilidad para los formatos soportados, y adaptabilidad respecto a la manera como el sistema limpia los contenidos para obtener mues- tras de lenguaje natural puras. Al final del artículo se presentan los resultados experimentales obtenidos con uno de los dominios de contenido en español más grande de Internet: es.wikipedia.org, a través de los cuales se concluye sobre la validez y aplicabi- lidad de un corpus extraído directamente de la Internet para un eventual proceso de aprendizaje de morfología o sintaxis. Internet content, used as text corpus for natural language learning, offers important characteristics for such task, like its huge vo- lume, being permanently up-to-date with linguistic variants and having low time and resource costs regarding the traditional way that text is built for natural language machine learning tasks. This paper describes a system for the automatic extraction of large bodies of text from the Internet as a valuable tool for such learning tasks. A concurrent programming-based, hardware-use opti- misation strategy significantly improving extraction performance is also presented. The strategies incorporated into the system for maximising hardware resource exploitation, thereby reducing extraction time are presented, as are extendibility (supporting digi- tal-content formats) and adaptability (regarding how the system cleanses content for obtaining pure natural language samples). The experimental results obtained after processing one of the biggest Spanish domains on the internet, are presented (i.e. es.wikipedia.org). Such results are used for presenting initial conclusions about the validity and applicability of corpus directly ex- tracted from Internet as morphological or syntactical learning input.
Idioma:	Español

1 Aplicación del método de elementos naturales a problemas estructurales,Natural elements’ methods applied to structural problems por González Torres Libardo Andrés ,Garzón Alvarado Diego Alexander ,Roa Garzón Máximo Alejandro	6 Ensayos de biodegradabilidad anaerobia de efluentes cerveceros con lodo granular y lodo floculento,Anaerobic biodegradability essays from brewery wastewater using granular and flocculent sludges por Collazos Chávez C J ,Díaz Báez M C
2 The performance of relational and object-relational SQL queries when using Oracle,Desempeño de consultas SQL relacionales y objeto-relacionales en Oracle por Moreno Arboleda Francisco Javier ,Ospina Romero Guillermo ,Larios Restrepo Rafael	7 Alternativas de modificación del método de Somogyi-Nelson para la determinación de azúcares reductores a partir de sus posibilidades químicas,Alternatives for modifying the Somogyi-Nelson method for determining reducing sugars by using their thermical possibilities por González Blair Gloria Helena ,Castellanos Domínguez Óscar Fernando
3 Creatividad en los Sistemas,Creativity in Computer Systems por Torres Soler Luis Carlos	8 Prospectiva de la producción de oleoquímicos derivados del aceite de palma y de palmiste en Colombia,Prospective study for the production of oleochemicals derivates from palm and palm kernel oil in Colombia por Jaimes Moreno Diana Ibeth ,Romero Pineda Carlos Alexander ,Narváez Rincón Paulo César
4 Evaluación de un método para la determinación de humedad en un medio poroso empleando ultrasonido,Evaluation of a method to measure water content in porous media by employing ultrasound por Sáenz Cruz Luis Leonardo ,Gómez Acero Édgar	9 Estudio granulométrico y su aplicación a los procesos industriales de residuos de corcho y corcho de baja calidad,Study granulometric and their application to the industrial processes of cork residuals and cork of low quality por Macías García Antonio ,Hernández Jiménez Ángel ,Hernández Santiago Javier
5 Estudio del comportamiento de cables amarrados con prensacables,Study of the behavior of tied cables with clips por Takeuchi Tam Caori Patricia	10 Comportamiento estructural de la guadua angustifolia. Uniones en Guadua.,Structural behavior of the guadua angustifolia. Connections in Guadua. por Takeuchi Tam Caori Patricia