Enfrentamiento de inferencia estadística: los frecuentistas versus los bayesianos

Inferencia

La inferencia estadística es un tema muy importante que impulsa los algoritmos modernos de aprendizaje automático y aprendizaje profundo. Este artículo le ayudará a familiarizarse con los conceptos y las matemáticas que conforman la inferencia.

Imagina que queremos engañar a unos amigos con una moneda injusta. Tenemos 10 monedas y queremos juzgar si alguna de ellas es injusta, lo que significa que saldrá cara con más frecuencia que cruz, o viceversa.

Así que tomamos cada moneda, la lanzamos un montón de veces, digamos 100, y registramos los resultados. El caso es que ahora tenemos un subconjunto de medidas de una distribución verdadera (una muestra) para cada moneda. Hemos considerado la condición de nuestros pulgares y concluimos que recopilar más datos sería muy tedioso.

Es poco común conocer los parámetros de la verdadera distribución. Con frecuencia, queremos inferir los parámetros reales de la población de la muestra.

Así que ahora queremos estimar la probabilidad de que una moneda caiga en Cara. Estamos interesados ​​en la media muestral .

A estas alturas probablemente hayas pensado: "¡Solo cuenta el número de caras y divídelo por el número total de intentos!" Sí, esta es la forma de encontrar una moneda injusta, pero ¿cómo podríamos llegar a esta fórmula si no lo sabíamos en primer lugar?

Inferencia frecuentista

Recuerde que los lanzamientos de monedas se modelan mejor con la distribución de Bernoulli, por lo que estamos seguros de que representa bien nuestros datos. La función de masa de probabilidad (PMF) para la distribución de Bernoulli se ve así:

x es una variable aleatoria que representa una observación del lanzamiento de una moneda (suponga 1 para cara y 0 para cruz) yp es un parámetro: probabilidad de cara. Nos referiremos a todos los parámetros posibles como θ en adelante . Esta función representa qué tan probable es cada valor de x de acuerdo con la ley de distribución que hemos elegido.

Cuando x es igual a 1 obtenemos f (1; p) = p, y cuando es cero f (0; p) = 1-p. Por lo tanto, la distribución de Bernoulli responde a la pregunta '¿Qué tan probable es que obtengamos cara con una moneda que cae en cara con probabilidad p? '. De hecho, es uno de los ejemplos más simples de distribución de probabilidad discreta.

Entonces, estamos interesados ​​en determinar el parámetro p a partir de los datos. Un estadístico frecuentista probablemente sugerirá el uso de un procedimiento de estimación de máxima verosimilitud (MLE). Este método adopta el enfoque de maximizar la probabilidad de los parámetros dado el conjunto de datos D :

Esto significa que la verosimilitud se define como una probabilidad de los datos dados parámetros del modelo. Para maximizar esta probabilidad, necesitaremos encontrar parámetros que ayuden a nuestro modelo a hacer coincidir los datos lo más cerca posible. ¿No parece aprender ? La probabilidad máxima es uno de los métodos que hacen que el aprendizaje supervisado funcione.

Ahora supongamos que todas las observaciones que hacemos son independientes. Esto significa que la probabilidad conjunta en la expresión anterior puede simplificarse a un producto mediante reglas básicas de probabilidad:

Ahora va la parte principal: ¿cómo maximizamos una función de probabilidad? Pedimos ayuda al cálculo, diferenciamos la función de verosimilitud con respecto a los parámetros del modelo θ , la ponemos a 0 y resolvemos la ecuación. Hay un buen truco que facilita la diferenciación la mayoría de las veces: los logaritmos no cambian los extremos de la función (mínimo y máximo).

La estimación de máxima verosimilitud tiene una importancia inmensa y casi todos los algoritmos de aprendizaje automático. Es una de las formas más populares de formular un proceso de aprendizaje matemático.

Y ahora apliquemos lo que hemos aprendido y juguemos con nuestras monedas. Hemos realizado n ensayos de Bernoulli independientes para evaluar la equidad de nuestra moneda. Por lo tanto, todas las probabilidades se pueden multiplicar y la función de probabilidad se verá así:

Tomar la derivada de la expresión anterior no será agradable. Entonces, necesitamos encontrar la probabilidad logarítmica:

Eso parece más fácil. Pasando a la diferenciación

Aquí dividimos las derivadas usando el estándar d (f + g) = df + dg. A continuación, sacamos las constantes y diferenciamos los logaritmos:

El último paso puede parecer divertido debido al cambio de signo. La causa es que log (1-p) es en realidad una composición de dos funciones y debemos usar la regla de la cadena aquí:

¡Voilà, hemos terminado con la probabilidad logarítmica! Ahora estamos cerca de encontrar el estadístico de máxima verosimilitud para la media de la distribución de Bernoulli. El último paso es resolver la ecuación:

Multiplicando todo por p (1-p) y expandiendo el paréntesis obtenemos

Cancelar los términos y reorganizar:

Entonces, aquí está la derivación de nuestrofórmula intuitiva ?. Y ou puede ahora jugar con la distribución de Bernoulli y su estimación MLE de la media en la visualización por debajo

¡Felicitaciones por su nueva y asombrosa habilidad de Estimación de máxima verosimilitud! O simplemente para actualizar su conocimiento existente.

Inferencia bayesiana

Recuerde que existe otro enfoque de la probabilidad. La estadística bayesiana tiene su propia forma de hacer inferencias probabilísticas. Queremos encontrar la distribución de probabilidad de los parámetros THETA dada la muestra - P (THETA | D) . Pero, ¿cómo podemos inferir esta probabilidad? El teorema de Bayes viene al rescate:

  • P (θ) se denomina distribución previa e incorpora nuestras creencias sobre qué parámetros podrían ser antes de que hayamos visto datos. La capacidad de expresar creencias previas es una de las principales diferencias entre la máxima verosimilitud y la inferencia bayesiana. Sin embargo, este es también el principal punto de crítica del enfoque bayesiano. ¿Cómo declaramos la distribución previa si no sabemos nada sobre el problema de interés? ¿Qué pasa si elegimos mal antes?
  • P (D | θ) es una probabilidad, la hemos encontrado en Estimación de máxima verosimilitud
  • P (D) se llama evidencia o probabilidad marginal

P (D) también se llama constante de normalización, ya que asegura que los resultados que obtengamos sean una distribución de probabilidad válida. Si reescribimos P (D) como

Veremos que es similar al numerador del Teorema de Bayes, pero la suma cubre todos los parámetros posibles θ . De esta forma obtenemos dos cosas:

  • La salida es siempre una distribución de probabilidad válida en el dominio de [0, 1].
  • Grandes dificultades cuando intentamos calcular P (D), ya que esto requiere integrar o sumar todos los parámetros posibles. Esto es imposible en la mayoría de los problemas verbales reales.

Pero, ¿la probabilidad marginal P (D) hace que todas las cosas bayesianas sean imprácticas? La respuesta no es del todo. En la mayoría de las veces, usaremos una de las dos opciones para deshacernos de este problema.

El primero es aproximar de alguna manera P (D) . Esto se puede lograr mediante el uso de varios métodos de muestreo como Muestreo de importancia o Muestreo de Gibbs, o una técnica llamada Inferencia variacional (¿que es un nombre genial, por cierto?).

El segundo es sacarlo completamente de la ecuación. Exploremos este enfoque con más detalle. ¿Qué pasa si nos concentramos en encontrar una combinación de parámetros más probable (que sea la mejor posible)? Este procedimiento se denomina estimación máxima a posteriori (MAP).

La ecuación anterior significa que queremos encontrar θ para el cual la expresión dentro max arg toma su valor máximo - el arg ument de un máx imo. Lo principal a notar aquí es que P (D) es independiente de los parámetros y puede excluirse de arg max :

En otras palabras, P (D) siempre será constante con respecto a los parámetros del modelo y su derivada será igual a 1 .

Este hecho es tan ampliamente utilizado que es común ver el Teorema de Bayes escrito de esta forma:

El signo de infinito incompleto cableado en la expresión anterior significa "proporcional a" o "igual a una constante".

Por lo tanto, hemos eliminado la parte más computacionalmente pesada del MAP. Esto tiene sentido ya que básicamente descartamos todos los valores de parámetros posibles de la distribución de probabilidad y simplemente descartamos el mejor y más probable.

Un vínculo entre MLE y MAP

Y ahora considere lo que sucede cuando asumimos que el anterior es uniforme (una probabilidad constante).

Hemos sacado la constante C del máximo de argumentos ya que no afecta el resultado como lo fue con la evidencia. ¡Ciertamente se parece a una estimación de máxima probabilidad! Al final, la brecha matemática entre la inferencia frecuentista y la bayesiana no es tan grande.

También podemos construir el puente desde el otro lado y ver la estimación de máxima verosimilitud a través de lentes bayesianos. En concreto, se puede demostrar que los priores bayesianos tienen estrechas conexiones con los términos de regularización. Pero ese tema merece otra publicación (consulte esta pregunta SO y el libro ESLR para obtener más detalles).

Conclusión

Esas diferencias pueden parecer sutiles al principio, pero dan comienzo a dos escuelas de estadística. Los enfoques frecuentista y bayesiano difieren no solo en el tratamiento matemático, sino también en los puntos de vista filosóficos sobre los conceptos fundamentales de las estadísticas.

Si se pone un sombrero bayesiano, las incógnitas se ven como distribuciones de probabilidad y los datos como observaciones fijas no aleatorias. Incorporas creencias previas para hacer inferencias sobre los eventos que observas.

Como Frecuente, usted cree que existe un único valor verdadero para las incógnitas que buscamos y son los datos los que son aleatorios e incompletos. Frequentist muestrea al azar datos de una población desconocida y hace inferencias sobre los valores verdaderos de los parámetros desconocidos usando esta muestra.

Al final, los enfoques bayesiano y frecuentista tienen sus propias fortalezas y debilidades. Cada uno tiene las herramientas para resolver casi cualquier problema que el otro pueda. Al igual que los diferentes lenguajes de programación, deben considerarse como herramientas de igual potencia que pueden adaptarse mejor a un determinado problema y quedarse cortas en el otro. ¡Úsalos a ambos, úsalos sabiamente y no caigas en la furia de una guerra santa entre dos campos de estadísticos!

¿Aprendiste algo? Haga clic en el ? para decir "¡gracias!" y ayudar a otros a encontrar este artículo.