Título: Conceptos relacionados con estrella. Lingüística de corpus de astronomía
Autores: Hansen Ruiz, Cristina Silvia
Fecha: 2011
Publicador: Dialnet (Tesis)
Fuente:
Tipo: text (thesis)
Tema: Didáctica de la ciencia
Astronomía
Lingüística de corpus
Análisis de textos
Análisis de conceptos
Science teaching
Astronomy
Corpus linguistics
Text analysis
Concept analysis
Descripción: The PhD. thesis was made within the line of research of the GICEC (Group of Research of Concepts in Science Teaching). The research focus on the improvement and justification of the methodology used for determining frequent vocabularies, specific vocabularies, collocations and relations between lexical units. This requires the use of the software PAFE (Software for Frequency Analysis and Environment Studies) and techniques based on corpus linguistics for detecting specific vocabularies, frequent vocabularies and collocations. The methodology has been tested applying it to a particular text of more of 1000 words: a text of Astronomy made by the Hubble European Space Agency Information Centre (ESA/ESO) for Secondary Education. The frequency data of the lexical units obtained with the PAFE software is used to propose a mathematical way of obtaining frequent vocabularies based on the analysis of the absolute frequencies distribution. Specific vocabularies are found comparing the relative frequencies of a given text with the ones of a general corpus following techniques developed in corpus linguistics. Collocations are found comparing frequencies and relations between lexical units. Frequencies and relations are then used to build the semantic networks enriched with the previously detected information. The research concludes the need of: removing all functional words; unifying synonyms spellings only for words which are in the high and medium intervals; not removing the mathematical language due to its importance in frequencies and semantic networks; an expert in the subject being analyzed to correct the data obtained when finding collocations and specific vocabulary; the mathematical determination of the frequent vocabulary; determining the optimal system analyzing the conservation of relations for each lemma and the conservation of total relations within the system; and enriching semantic networks with the data about specific vocabularies and relation conservation. Moreover possible errors in the methodology are delimited, the limitations that affect the results are analyzed and possible errors in each of the phases of the methodology are quantified.
La tesis se enmarca en la línea de investigación del GICEC (Grupo de Investigación de Conceptos en la Enseñanza de las Ciencias).La investigación se centra en la mejora y justificación de la metodología usada para la determinación de vocabularios frecuentes, vocabularios específicos, colocaciones y relaciones entre unidades léxicas. Ello requiere el uso conjunto del PAFE (Programa de Análisis de Frecuencias y Estudios de Entorno) y técnicas de detección de vocabularios específicos, vocabularios frecuentes y colocaciones, provenientes o basadas en la lingüística de corpus. La evaluación de la metodología se ha hecho aplicándola a un caso particular de más de 1000 palabras: un texto de Astronomía realizado por El Centro de Información de la Agencia Espacial Europea del Hubble (ESA/ESO) para la Educación Secundaria. Los datos de frecuencia estadística de las unidades léxicas obtenidos con el PAFE son usados para proponer una forma matemática de obtener vocabularios frecuentes basados en el análisis de la distribución de frecuencias absolutas. Los vocabularios específicos se hallan comparando las frecuencias relativas del texto particular con las de un corpus general siguiendo técnicas desarrolladas en la lingüística de corpus. Se obtienen colocaciones comparando frecuencias y relaciones entre unidades léxicas. Las frecuencias y relaciones se usan para construir las redes semánticas enriquecidas por la información detectada previamente. La investigación concluye la necesidad de: eliminar todas las palabras funcionales; unificar grafías de sinónimos sólo para palabras situadas en las franjas alta y media; no eliminar el lenguaje matemático debido a su importancia tanto en frecuencias como en las redes semánticas; requerir de un experto en el tema abordado para corregir los datos obtenidos al hallar colocaciones y vocabulario específico; determinar matemáticamente el vocabulario más frecuente; determinar el sistema óptimo mediante el estudio de la conservación de relaciones por cada lema además de la conservación de relaciones globales del sistema; e incorporar en las redes semánticas la información de vocabulario específico y conservación de relaciones. Además se acotan los errores posibles en la metodología, se precisan las limitaciones que afectan a los resultados y se cuantifican los posibles errores de cada una de las fases del proceso.
Idioma: spa