Título: Smoothing methods for the analysis of mortality development
Autores: Camarda, Carlo Giovanni
Fecha: 2008
Publicador: Dialnet (Tesis)
Fuente:
Tipo: text (thesis)
Tema:
Descripción: La mortalidad, entendida como el riesgo de muerte, cambia con la edad, y además presenta cambios sistemticos con el tiempo, al menos durante los últimos 150 años. Comprender la dinámica de la mortalidad con respecto a la edad y al tiempo es un aspecto esencial de la demografía, ya que estos factores son las fuerzas que rigen los cambios en las problaciones. El continuo descenso de la mortalidad, y por lo tanto, el aumento de la longevidad, tiene importantes consecuencias, tanto para el individuo, como para la sociedad en su conjunto. En el primer capítulo de esta tesis, se hace una revisión de los modelos clásicos que han venido siendo utilizados con el objetivo de capturar los cambios en mortalidad. Estos modelos abarcan desde las distribuciones paramétricas clásicas de Gomperz y Makeman, que sólo estudian los cambios en mortalidad de edades adultas, hasta los modelos de edad-periodo-cohorte, que sufren de problemas de identificabilidad. Como alternativa, el modelo bilineal introducido por Lee y Carter es considerado como el modelo estándar con el que nuevos modelos han de ser comparados. El punto de partida de esta tesis son lo métodos de suavizado bidimensionales para datos de conteo que siguen una distrbución de Poisson, en concreto, los splines con penalizaciones o P- splines que se presentan en el segundo capítulo. En el caso unidimensional, este enfoque combina un número apropiado de bases de B-splines con una penalización sobre los coeficientes. Por un lado, los B-splines proporcionan la suficiente flexibilidad para capturar las tendencias presentes en los datos; y por otro, la penalización, aplicada sobre los coeficientes vecinos, aseguran la suavidad y reducen el número de parámetros, además de evitar los problemas de selección de número de nodos y el uso del método de backfitting. Los P-splines pueden entenderse como una genaralización de los modelos de regresión, en la que los B-splines actúan como regresores. El método de mínimos cuadrados (en el caso de datos normales), o el IRLS (iteratively reweighted least-squares para el caso generalizado) han sido modificados e incluyen la penalización controlada por un parámetro, el parámetro de suavizado. La penalización utilizada, está basada en una matriz de diferencias de order d (en general, d = 2), y fijado el parámetro de suavizado, los parámetros de regresión se estiman de modo sencillo, de forma simular al modelo clásico de regresión. En este mismo capítulo se muestra el cálculo de los errores estándar y los residuos asociados modelos de P-splines y se hace una revisión de los residuos más utilizados en el caso de datos de Poisson. Se propone el uso de los mapas de contorno de los residuos con respecto a la edad y año de muerte para localizar las zonas en las que los modelos utilizados no son capaces de capturar las tendencias, y poder así detectar aspectos demográficos interesantes. Mediante el uso de estas técnicas se ha demostrado que los P-splines capturan las tendencias de mortalidad de forma más propiada que los modelos de Lee-Carter, a pesar de que el número de parámetros utilizados en los modelos de P-splines es muy inferior al utilizado por estos últimos. El hecho de que el tamaño de las muestras con las que se trabaja sea grande, afecta de forma significativa a la inferencia, los intervalos de confianza son muy estrechos, y las medidas de bondad de ajuste usuales no aportan ninguna información, y por lo tanto, no son capaces de discriminar entre modelos de distinta complejidad. En el tercer capítulo de la tesis se proponen medias alternativas de bondad de ajuste. Primero se adaptan las medidas existentes, como el R2 en el caso Normal, al caso de datos provenientes de familias exponenciales. La reducción proporcional de la incertidumbre debida a la inclusión de nuevos regresores en el modelo está basada en la divergencia de Kullback-Leibler. Además, se proponen medidas del tipo R2 en el contexto de los P-splines, en concreto, se utiliza la relación entre el número de parámetros de un modelo y su dimensión efectiva para derivar una medida R2 para modelos de suavizado. La idea básica ha sido considerar un modelo distinto bajo la hipótesis nula, que sea más apropiado para el caso de datos de mortalidad. Este modelo, es lineal o bilineal para el caso de datos unidimensionales y bidimensionales respectivamente. Se ha demostrado que el modelo bilineal está anidado en un modelo de P-splines, así como en un modelo de Lee-Carter, esta demostración está basada en la representación de los P-splines como modelos mixtos, y en el hecho de que la parte fija del modelo, corresponde con un modelos lineal o bilineal. Además se ha estudiado la relación entre esta nueva medida de bondad de ajuste y los métodos anteriormente mencionados (AIC, BIC), probándose que es muy similar al AIC. El comportamiento de esta medida ha sido evaluado mediante un ejercicio de simulación y con el análisis de datos procedentes del Human Mortality Database (HMD), en ambos casos, los modelos de P-splines dieron un mejor ajuste de los datos que los modelos de Lee-Carter. En el cuarto capítulo se aborda un problema recurrente cuando se trabaja con datos históricos de mortalidad, o con países donde se recogen pocos datos, es la preferencia por dígitos, es decir, la tendencia a redondear números en torno a ciertos dígitos, en particular, en la distribución de muertes por edad aparecen picos en números que terminan en 0 (a veces en 5). Para solucionar este problema se ha propuesto un modelo que combina los conceptos de verosimilitud penalizada con el de modelos con función enlace compuesta: composite link models. Estos modelos permiten describir el modo en que la distribución latente de muertes por edad se mezcla con la preferencia de dígitos, mediante la redistribución de ciertos datos en torno a las edades preferidas, de modo que la distribución que se obtiene es preciamente la observada. La única restricción impuesta a la distribución latente es que sea suave, y se impone mediante una penalización similar a la utilizada en el caso de los P-splines. La estimación del modelo se ha llevado a cabo mediante una generalización del algoritmo IRLS, que incluye la matriz en la que se representan las probabilidades de redistribución. Estos modelos se han generalizado al caso en el que la preferencia puede aparecer entre dígitos que son vecinos, de modo que la tendencia a redondear no tiene por qué ser la misma para dígitos que terminan en un mismo número, sino que puede variar con la edad, como ocurre frecuentemente en datos demográficos. Las aplicaciones con datos simulados y datos reales han demostrado que este nuevo enfoque proporciona resultados excepcionales (Camarda, Eilers y Gampe (2008b)). La reducción de la mortalidad a lo largo del tiempo puede considerarse como ganancia en esperanza de vida. Las muertes que ocurrían hace tiempo a edades tempranas, ocurren ahora mucho más tarde. Esta manera de describir la mejora en mortalidad se ocupa de la distribución de la edad de muerte (la densidad) en vez del riesgo. El capítulo quinto de esta tesis está dedicado al desarrollo de métodos que permitar encontrar una transformación del eje de la edad para transformar una distribución de muerte por edad en otra. Nuevamente, estos métodos se han basado en la hipótesis de suavidad de esta transformación. Se ha considerado una transformación no-lineal mediante un modelo que utiliza la idea de suavizado y deformación del eje de la edad, esto modelos han sido llamados: Warped Failure Time model (WaFT). La metodología propuesta se basa en la elección de una distribución objetivo que se supone fija, y se busca una transformación tal que, una vez transformado el eje de la edad, la densidad de la distribución observada se corresponde con la distribución objetivo. Se ha demostrado que el uso de los P-splines para representar la transformación permite controlar la suavidad de la misma de forma satisfactoria. Esta metodología ha sido extendida al caso en el que la distribución objetivo es desconocida, siendo estimada también mediante métodos de regresión no paramétrica. Los estudios de simulación han probado que los modelos WaFT pueden capturar transformaciones no-lineales, y el análisis de datos reales ha puesto de manifiesto que este tipo de modelos son necesarios, ya que una simple transformación lineal no es satisfactoria. En resumen, esta tesis ha demostrado la utilidad de los métodos de suavizado, en particular de los P-splines, para el análisis de varios aspectos de relacionados con la mortalidad. Se ha propuesto una nueva medida de la variabilidad explicada para comparar distintos modelos en el caso de superficies de mortalidad, y se han desarrollado dos nuevos modelos: uno cuyo objetivo es salvar los problemas de preferencia de dígitos que pueden aparecer cuando se cuantifica el número de muertes a una cierta edad; y otro que ofrece un modo alternativo de explorar los cambios en la mortalidad centrándose en la ganancia (o pérdida) en esperanza de vida, como altrenativa al estudio del riesgo. Ambos modelos pueden ser utilizados de forma inmediata en otros contextos. __________________________________________________________________ Populations change through three processes: mortality, fertility, and migration. Changes in mortality contribute considerably to population dynamics and variation in the levels of mortality lead to changes in the age distribution of the population. This has repercussions on almost all areas of a society, including its health-care system, health and life insurance, as well as pension schemes. The consequences of such transformations are also experienced on the more individual level such as changing kinship sizes, marriage squeezes, the value of children, genetic disease, family living arrangements and women's status. Demographic research investigates levels and trends of mortality, fertility and migration processes and develops numerous techniques to measure and analyze them (Keyfitz and Caswell, 2005). While medical and epidemiological research usually deals with samples of moderate sizes, including quite detailed information on the individual level, demographic studies often use data on whole populations, or large subgroups within populations, with only a few, if any, additional covariates available. Hence demographic mortality studies are often performed on an aggregate level of analysis. During the last decades, statistical perspective on demographic and mortality developments has received increased attention. This interest has lead to statistical techniques for modeling the data generation process that gave rise to demographic observations. Along this line of research, this dissertation attempts to further bridge the gap between demography and statistics, proposing novel statistical methods for investigating mortality processes on an aggregate level. The focus is on smoothing methods, in particular with regard to appropriate measures of fit for large samples, models based on transforming age-at-death distributions, and modeling digit preferences via smooth latent distributions. The first chapter reviews traditional and well-established models in mortality analysis. First, source and structure of the mortality data used in this dissertation are introduced. The Lexis diagram is presented as a standard tool for summarizing demographic data. The fundamental Poisson assumption for the total number of deaths over a specified age- and year-interval will be introduced. Over the last two centuries, researchers aimed at reducing the dimensionality of the data to a smaller number of parameters by directly modeling some of the systematic patterns demographers have uncovered. Simple models for portraying mortality over age, and more sophisticated approaches for modeling mortality over both age and times will be reviewed in detail toward the end of the chapter. Overparameterization is a typical feature in recent demographic models. The use of such an amount of parameters may often seem unnecessary. Therefore, smoothing approaches are a natural alternative to analyzing mortality over age and time. Chapter 2 introduces smoothing methods in a demographic context. Among di®erent methods, the so-called P-splines are particularly suitable for two-dimensional regression contexts. Introduced by Eilers and Marx (1996), this approach is well-established as a means of smoothing Poisson data such as death counts. The chapter gives a detailed introduction in both one- and two-dimensional settings. Particular emphasis is given to residual analysis and measurement of the variability for P-splines in a demographic context. Mortality data on an aggregate level are characterized by (very) large sample sizes. For this reason, uninformative outcomes are evident in common goodness-of-fit measures. Following a review of the common measures of goodness-of-fit, Chapter 3 proposes a new measure that allows comparison of di®erent mortality models even for large sample sizes. Particularly, we will propose a new measure which uses a null model specifically designed for mortality data. Several simulation studies and actual applications will demonstrate the performances of this new measure with special emphasis on previously introduced demographic models and P-spline approach. The mentioned Poisson assumption can be relatively strong in demographic data and, in peculiar situations, the presence of overdispersion cannot be neglected. Digit preference, a tendency to round counts to pleasant digits, is a typical source of overdispersion for mortality data. Chapter 4 presents a new approach for dealing with this issue. In the last part of the chapter, we will propose a generalization of the original model which allows more general patterns of misreporting. Simulation studies and actual applications will be used to test both the original and the extended version of the model. In Chapter 5, we consider a new approach to analyzing mortality data in a di®erent way. This model operates directly on the probability density function of the life-times instead of the more common consideration of the hazard function. It can be considered an extension of the accelerated failure time model for comparison of density functions. With this model, one can study how the time-axis would have to be transformed so that one age-at death distribution conforms to another. Smoothing methodologies are employed for describing and estimating the transformation function. Simulated and actual examples illustrate the performances of this model, which allows alternative interpretations of observed mortality development over time. A brief critical discussion of the various methods and models proposed in the dissertation is given in the final Chapter 6
Idioma: eng