El cálculo bayesiano aproximado (ABC) es un método computacional, basado en la estadística bayesiana, para estimar la distribución posterior de los parámetros del modelo. En toda inferencia estadística basada en modelos, la función de verosimilitud juega un papel central porque expresa la probabilidad de observar datos bajo un modelo estadístico específico, cuantificando así el grado en que los datos respaldan un valor de parámetro específico. Para modelos simples, normalmente es posible derivar una fórmula analítica para la función de verosimilitud. Pero para modelos más complejos, las fórmulas analíticas pueden ser difíciles de obtener, o calcular la función de probabilidad puede ser prohibitivamente costoso. El método ABC pasa por alto la evaluación de la función de verosimilitud, ampliando así la gama de modelos de inferencia estadística que pueden considerarse.
El método ABC tiene una base matemática sólida, pero inevitablemente hace algunas suposiciones y aproximaciones, y el impacto de estas suposiciones debe evaluarse cuidadosamente.
No solo eso, el alcance de aplicación más amplio de ABC también aumenta los desafíos de la estimación de parámetros y la selección de modelos. En los últimos años, el ABC ha ido recibiendo atención en el campo de las ciencias biológicas, especialmente en el análisis de cuestiones como la genética de poblaciones, la ecología, la epidemiología y la biología de sistemas.
Las primeras ideas para ABC se remontan a la década de 1980. En 1984, al discutir la interpretación de las declaraciones bayesianas, Donald Rubin describió un mecanismo de muestreo hipotético para obtener muestras de la distribución posterior. Este esquema es más bien un experimento mental conceptual para demostrar lo que se hace al inferir la distribución posterior de parámetros.
Con el tiempo, el método ABC evolucionó. Peter Diggle y Richard Grattan sugirieron en 1984 el uso de esquemas de simulación de sistemas para aproximar la función de verosimilitud, especialmente cuando su forma analítica no es factible. Su esquema se basa en definir una cuadrícula en el espacio de parámetros y ejecutar varias simulaciones en cada punto de la cuadrícula para aproximar la probabilidad.
ABC se considera una versión bayesiana de la inferencia y se introdujeron varios métodos basados en Monte Carlo para tomar muestras de la distribución posterior ABC.
Por lo tanto, el método ABC no sólo cambia la forma de estimación de parámetros, sino que también abre nuevos horizontes en los campos de la biología, el medio ambiente y la ciencia de sistemas.
Una forma común del método ABC está estrechamente relacionada con el teorema de Bayes. El teorema de Bayes vincula explícitamente la relación entre la probabilidad condicional de un valor de parámetro particular y la probabilidad dados los datos. A menudo, la evaluación de la función de verosimilitud resulta computacionalmente costosa en muchas aplicaciones, lo que motivó el método ABC.
El algoritmo de rechazo ABC es el núcleo de todos los métodos basados en ABC. Esta forma básica comienza muestreando aleatoriamente un conjunto de puntos de parámetros basados en una distribución previa. Para los valores de parámetros seleccionados, simula el conjunto de datos según el modelo estadístico especificado. Si el conjunto de datos generado difiere demasiado de los datos observados, el valor del parámetro se descarta.
La probabilidad de generar un conjunto de datos que cumpla con los requisitos disminuye a medida que aumenta la dimensionalidad de los datos, lo que reduce significativamente la eficiencia computacional del método ABC básico. Una práctica común es utilizar estadísticas resumidas para reemplazar conjuntos de datos de alta dimensión.
Este enfoque no introduce ningún error si se satisface la adecuación de las estadísticas resumidas para los parámetros del modelo, ya que adecuación por definición significa que toda la información sobre los parámetros en los datos es capturada por las estadísticas resumidas.
Esto hace que ABC sea una opción eficiente y eficaz a la hora de inferir modelos complejos.
Por ejemplo, un sistema biestable puede describirse mediante un modelo oculto de Markov (HMM) sujeto al ruido de medición. Estos modelos se utilizan ampliamente en una variedad de sistemas biológicos. Tomando como ejemplo el comportamiento del factor de transcripción Sonic Hedgehog (Shh) de Drosophila, se puede modelar mediante HMM. El modelo consta de dos estados A y B, y la probabilidad de transición se define como el parámetro θ. Basado en este modelo para la inferencia posterior de parámetros, el método ABC demuestra su viabilidad.
Finalmente, analizar la efectividad de estos métodos nos recuerda cómo la computación bayesiana aproximada afectará la investigación futura y las aplicaciones prácticas en el campo en evolución de la inferencia estadística, y ¿cómo deberíamos adaptarnos a estos cambios?