Metabuscador

Inicio Atrás
Título:	Knowledge-poor approach to constructing word frequency lists, with examples from romance languages
Autores:	Alexandrov, Mikhail Blanco Escoda, Xavier Gelbukh Khan, Alexander Felixovitch Makagonov, Pavel
Fecha:	2007-09-03 2007-09-03 2004-09
Publicador:	RUA Docencia
Fuente:
Tipo:	info:eu-repo/semantics/article
Tema:	Stemming Indexación Métodos independientes de lenguaje Métodos estadísticos Indexing Language-independent methods Statistical methods
Descripción:	Las listas de palabras con sus frecuencias se usan ampliamente en muchos procedimientos de agrupamiento y categorización de textos. Usualmente para la compilación de tales listas se usan las aproximaciones basadas en morfología (como el stemmer de Porter) para unir las palabras con el mismo significado. Desafortunadamente, tales aproximaciones requieren de muchos recursos lingüísticos dependientes de lenguaje cuando se trabaja con datos multilingües y colecciones multitemáticas de documentos. En este artículo se proponen dos procedimientos basados en formulas empíricas de similitud entre palabras. Un simple ajuste de los parámetros de las fórmulas permita su adecuación a diferentes lenguajes europeos. Se demuestra la aplicación de las fórmulas con ejemplos reales del francés, italiano, portugués y español. Word frequency lists extracted from documents are widely used in many procedures of text clustering and categorization. Usually for compilation of such lists morphological-based approaches (such as the Porter stemmer) to join the words having the same base meaning are used. However such an approach needs many language-dependent linguistic resources or knowledge when working with multilingual data and multithematic document collections. We suggest two procedures based on empirical formulae of word similarity. Simple adjustment of the parameters of the formulae allows tuning them to different European languages. We demonstrate the application of our formulae on real examples from French, Italian, Portuguese, and Spanish. The work was done under partial support of Mexican Government (CONACyT, SNI, CGPIIPN).
Idioma:	Inglés

1 Choosing the correct paradigm for unknown words in rule-based machine translation systems por Sánchez Cartagena, Víctor Manuel,Esplà Gomis, Miquel,Sánchez Martínez, Felipe,Pérez Ortiz, Juan Antonio	6 Análisis Real de Varias Variables II. Problemas (27-3-2013) por Conde Calero, Juan Manuel
2 Using external sources of bilingual information for on-the-fly word alignment por Esplà Gomis, Miquel,Sánchez Martínez, Felipe,Forcada Zubizarreta, Mikel L.	7 Introducción a mirada/s trans/identitarias,Introduction to trans-identitary look(s) por Amaro Quintas, Ángel Manuel
3 Motivos del creciente uso de traducción automática seguida de posedición,Motius del creixent ús de la traducció automàtica seguida de postedició,Reasons for the increasing use of machine translation followed by post-editing por Sánchez Martínez, Felipe	8 El «romance familiar» sale del armario: la fantasía femenina en Sévigné (Julia Berkowitz),The “family romance” comes out of the closet: the female fantasy in Sévigné (Julia Berkowitz) por Ituarte Pérez, Leire
4 Nuevas perspectivas sobre las relaciones púnicas con la costa ibérica del sureste peninsular,New perspectives on Punic relations with the Iberian coast of Peninsular Southeast por Sala Sellés, Feliciana	9 De la tradición sáfica a los círculos tribádicos: la búsqueda de las identidades lésbicas desde una perspectiva histórica (De la antigüedad clásica a la edad moderna),From the Sapphic tradition to the tribadic circles: the search of lesbic identities from a historical perspective (From antiquity to the modern age) por Beteta Martín, Yolanda
5 Los espacios periurbanos en el área ibérica contestana: las novedades y algunas reflexiones históricas por Sala Sellés, Feliciana	10 Matrimonio igualitario y parentesco: discursos, hegemonías y acontecimiento,Egalitarian marriage and kinship: discourses, hegemony and event por Buzaglo, Analía,Morandi, Mariela,Culla, Mónica