Enfoque: Métodos contemporáneos en bioestadística (I)
Estrategias para la elaboración de modelos estadísticos de regresiónRegression Modeling Strategies

https://doi.org/10.1016/j.recesp.2011.01.019Get rights and content

Resumen

Actualmente los modelos multivariables de regresión son parte importante del arsenal de la investigación clínica, ya sea para la creación de puntuaciones con fines pronósticos o en investigación dedicada a generar nuevas hipótesis. En la creación de estos modelos, se debe tener en cuenta: a) el uso apropiado de la técnica estadística, que ha de ser acorde con el tipo de información disponible; b) mantener el número de variables por evento no mayor de 10:1 para evitar la sobresaturación del modelo, relación que se puede considerar una medida grosera de la potencia estadística; c) tener presentes los inconvenientes del uso de los procesos automáticos en la selección de las variables, y d) evaluar el modelo final con relación a las propiedades de calibración y discriminación. En la creación de modelos de predicción, en la medida de lo posible se debe evaluar estas mismas medidas en una población diferente.

Abstract

Multivariable regression models are widely used in health science research, mainly for two purposes: prediction and effect estimation. Various strategies have been recommended when building a regression model: a) use the right statistical method that matches the structure of the data; b) ensure an appropriate sample size by limiting the number of variables according to the number of events; c) prevent or correct for model overfitting; d) be aware of the problems associated with automatic variable selection procedures (such as stepwise), and e) always assess the performance of the final model in regard to calibration and discrimination measures. If resources allow, validate the prediction model on external data.

Full English text available from: www.revespcardiol.org.

Section snippets

Introducción

Los modelos de regresión multivariables se utilizan ampliamente en la investigación de ciencias de la salud. Con frecuencia, el objetivo en la recolección de datos obedece al afán de explicar las interrelaciones que existen entre ciertas variables o a determinar los factores que afectan a la presencia o ausencia de un episodio adverso determinado. Es ahí donde los modelos de regresión multivariables pasan a ser un instrumento útil, al suministrar una explicación matemática simplificada de dicha

Estructura de los datos y tipo de análisis de regresión

Los modelos de regresión tienen en general una estructura común que debe resultar familiar a la mayoría; generalmente siguen este patrón: respuesta = ponderación1 × predictor1 + ponderación2 × predictor2 + … ponderaciónk × predictork | término de error normal. La variable a explicar se denomina variable dependiente (o variable de evaluación). Cuando la variable dependiente es binaria, la literatura médica se refiere a ella en términos de eventos clínicos o episodios adversos. Los factores que explican la

Manipulación de los datos

No es infrecuente que los datos requieran una depuración antes de iniciar el análisis estadístico. Hay tres puntos importantes que considerar en este caso:

  • 1.

    Valores perdidos. Este es un problema universal en la investigación en ciencias de la salud. Se han diferenciado tres tipos de mecanismos19: valores perdidos completamente aleatorios (MCAR), valores perdidos aleatorios (MAR) y valores perdidos no aleatorios (NMAR) (tabla 3). La imputación múltiple se desarrolló para abordar la ausencia de

Estrategias de creación de modelos

La selección de variables es un paso crucial en el proceso de creación del modelo (tabla 1). La inclusión de variables adecuadas es un proceso intensamente influido por el equilibrio preespecificado entre complejidad y simplicidad (tabla 3). Los modelos predictivos deben incluir las variables que reflejen el patrón de la asociación en estudio en la población representada en los datos. En este caso, lo que importa es la información que el conjunto del modelo representa. Por otra parte, en

Evaluación del modelo final

Un elemento central en el proceso de crear un modelo de regresión es su evaluación en cuanto al rendimiento. En este sentido, se han propuesto diversas medidas, que pueden agruparse en dos categorías principales: medidas de calibración y de discriminación (Tabla 1, Tabla 3). Independientemente del objetivo para el que se ha creado el modelo, estas dos medidas del rendimiento deben derivarse de los datos que le han dado origen, y preferiblemente deben estimarse utilizando técnicas de remuestreos

Presentación de los resultados

Las consideraciones finales en el proceso de creación de un modelo corresponden a la forma en la que se presentarán los parámetros estimados. Con frecuencia, los programas informáticos de estadística expresan la magnitud del efecto de la variable explicativa en unidades relativas, al comparar dos grupos respecto a un resultado binario. Para la regresión logística y la regresión de Cox, la OR y la HR son las unidades tradicionales utilizadas para indicar el grado de asociación entre una variable

Conflicto de intereses

Ninguno.

Bibliografía (45)

  • I. Annesi et al.

    Efficiency of the logistic regression and Cox proportional hazards models in longitudinal studies

    Stat Med

    (1989)
  • T. Martinussen et al.

    Dynamic regression models for survival data

    (2006)
  • P.C. Lambert et al.

    Further development of flexible parametric models for survival analysis

    Stata J

    (2009)
  • M. Pintilie

    Competing risks: a practical perspective

    (2007)
  • J.P. Fine et al.

    A proportional hazard model for the subdistribution of a competing risk

    J Am Stat Assoc

    (1999)
  • J.G. Ibrahim et al.

    Basic concepts and methods for joint models of longitudinal and survival data

    J Clin Oncol

    (2010)
  • D. Rizopoulos

    Joint modelling of longitudinal and time-to-event data: challenges and future directions

  • G. Touloumi et al.

    A comparison of two methods for the estimation of precision with incomplete longitudinal data, jointly modelled with a time-to-event outcome

    Stat Med

    (2003)
  • G. Touloumi et al.

    Impact of missing data due to selective dropouts in cohort studies and clinical trials

    Epidemiology

    (2002)
  • D. Rizopoulos

    JM: An R package for the joint modelling of longitudinal and time-to-event data

    J Stat Soft

    (2010)
  • N. Pantazis et al.

    Analyzing longitudinal data in the presence of informative drop-out: The jmre1 command

    Stata J

    (2010)
  • L. Meira-Machado et al.

    Multi-state models for the analysis of time-to-event data

    Stat Methods Med Res

    (2009)
  • Cited by (182)

    View all citing articles on Scopus
    View full text