¿Saldrá el sol mañana?

Laplace, Bayes y el aprendizaje automático en la actualidad

Puede que no sea una pregunta que te preocupe mucho. Después de todo, parece suceder todos los días sin falta.

Pero, ¿cuál es la probabilidad de que salga el sol mañana?

Lo crea o no, esta cuestión fue considerada por uno de los grandes de todos los tiempos de las matemáticas, Pierre-Simon Laplace, en su obra pionera de 1814, Essai philosophique sur les probabilités”.

Fundamentalmente, el tratamiento que hizo Laplace de la cuestión pretendía ilustrar un concepto más general. No fue un intento serio de estimar si el sol, de hecho, saldrá.

En su ensayo, Laplace describe un marco para el razonamiento probabilístico que hoy reconocemos como bayesiano.

El enfoque bayesiano constituye una piedra angular en muchos algoritmos modernos de aprendizaje automático. Pero el poder computacional requerido para hacer uso de estos métodos solo ha estado disponible desde la segunda mitad del siglo XX.

(Hasta ahora, parece que la IA de última generación se mantiene callada sobre el tema del amanecer de mañana).

Las ideas de Laplace siguen siendo relevantes hoy, a pesar de que se desarrollaron hace más de dos siglos. Este artículo revisará algunas de estas ideas y mostrará cómo se utilizan en aplicaciones modernas, quizás imaginadas por los contemporáneos de Laplace.

Pierre-Simon Laplace

Pierre-Simon Laplace nació en la pequeña comuna normanda de Beaumont-en-Auge en 1749, y en un principio estaba marcado para convertirse en teólogo.

Sin embargo, mientras estudiaba en la Universidad de Caen, descubrió una brillante aptitud para las matemáticas. Se traslada a París, donde impresiona al gran matemático y físico Jean le Rond d'Alembert.

A la edad de 24 años, Laplace fue elegido miembro de la prestigiosa Académie des Sciences.

Laplace fue un científico y matemático asombrosamente prolífico. Entre sus múltiples aportaciones destacan su trabajo sobre probabilidad, movimiento planetario y física matemática. Contó a figuras como Antoine Lavoisier, Jean d'Alembert, Siméon Poisson e incluso Napoleón Bonaparte, como sus colaboradores, asesores y estudiantes.

"Essai philosophique sur les probabilités" de Laplacese basó en una conferencia que pronunció en 1795. Proporcionó una descripción general de las ideas contenidas en su obra “Théorie analytique des probabilités”, publicada dos años antes en 1812.

En "Essai philosophique", Laplace proporciona diez principios de probabilidad. Los primeros cubren definiciones básicas y cómo calcular probabilidades relacionadas con eventos independientes y dependientes.

Los principios ocho, nueve y diez se refieren a la aplicación de la probabilidad a lo que podríamos describir hoy como análisis de costo-beneficio.

El sexto es una generalización importante del teorema epónimo de Thomas Bayes de 1763.

Establece que, para un evento dado, la probabilidad de cada posible causa se encuentra multiplicando la probabilidad previa de esa causa por una fracción.

Esta fracción es la probabilidad de que el evento surja de esa causa en particular, dividida por la probabilidad de que el evento ocurra por cualquier causa.

La influencia de este teorema en el aprendizaje automático no puede subestimarse.

El séptimo principio es el que más controversia ha causado desde su publicación. Sin embargo, la redacción real es bastante inocua.

Más bien, es la elección de Laplace discutir la probabilidad de que el sol salga al día siguiente a modo de ejemplo ilustrativo lo que a su vez ha provocado burlas y objeciones durante los dos siglos siguientes.

La regla de sucesión todavía se usa hoy en día bajo diversas formas, y a veces en la forma que Laplace describió originalmente.

De hecho, la regla de sucesión representa un paso temprano importante en la aplicación del pensamiento bayesiano a sistemas para los que tenemos datos muy limitados y poco o ningún conocimiento previo. Este es un punto de partida que a menudo se enfrenta en los problemas modernos de aprendizaje automático.

La regla de sucesión de Laplace

El séptimo principio de probabilidad dado en "Essai philosophique" de Laplacees, en esencia, sencillo.

Establece que la probabilidad de que ocurra un evento dado se encuentra sumando la probabilidad de cada una de sus causas potenciales multiplicada por la probabilidad de que esa causa dé lugar al evento en cuestión.

Laplace luego procede a esbozar un ejemplo basado en la extracción de bolas de urnas. Hasta aquí todo bien. Nada contencioso todavía.

Sin embargo, luego describe cómo proceder con la estimación de la probabilidad de que ocurra un evento en situaciones en las que tenemos un conocimiento previo limitado (o incluso nulo) sobre cuál podría ser esa probabilidad.

"On trouve ainsi qu'un événement étant arrivé de suite un nombre quelconque de fois, la probabilité qu'il arrivalra encore la fois suivante est égale à ce nombre augmenté de l'unité, divisé par le même nombre augmenté de deux unités."

Que se traduce en inglés: "Entonces, para un evento que ha ocurrido cualquier número de veces hasta ahora, la probabilidad de que vuelva a ocurrir la próxima vez es igual a este número aumentado por uno, dividido por el mismo número aumentado por dos" .

O, en notación matemática:

Es decir, dados los éxitos de n ensayos, la probabilidad de éxito en el siguiente ensayo es aproximadamente (s + 1) / (n + 2).

Para hacer su punto, Laplace no se detiene:

“… Par exemple, remonter la plus ancienne époque de l'histoire à cinq mille ans, ou à 1.826.213 jours, et le soleil s'étant levé constamment dans cet intervalle, à chaque révolution de vingtquatre heures, il ya 1.826.214 à parier contre un qu'il se lèvera encore demain ”

Lo que se traduce como: "... por ejemplo, dado que el sol ha salido todos los días durante los últimos 5000 años, o 1.826.213 días, la probabilidad de que salga mañana es 1.826.214 / 1.826.215".

Al 99,9%, es una apuesta bastante segura. Y solo se vuelve más cierto cada día que el sol sigue saliendo.

Sin embargo, Laplace reconoce que, para alguien que comprende el mecanismo por el cual sale el sol y no ve ninguna razón por la que deba dejar de funcionar, incluso esta probabilidad es irrazonablemente baja.

Y resulta que esta calificación es quizás tan importante como la regla en sí misma. Después de todo, insinúa el hecho de que nuestro conocimiento previo de un sistema está codificado en las suposiciones que hacemos al asignar probabilidades a cada uno de sus resultados potenciales.

Esto es cierto en el aprendizaje automático actual, especialmente cuando intentamos aprender de datos de entrenamiento limitados o incompletos.

Pero, ¿cuál es el fundamento de la regla de sucesión de Laplace y cómo se mantiene en algunos de los algoritmos de aprendizaje automático más populares de la actualidad?

¿Nada es imposible?

Para comprender mejor el significado de la regla de Laplace, debemos considerar qué significa tener muy poco conocimiento previo sobre un sistema.

Supongamos que tiene una de las urnas de Laplace, que sabe que contiene al menos una bola roja. No sabe nada más sobre el contenido del "sistema" de la urna. Quizás contenga muchos colores diferentes, quizás solo contenga esa bola roja.

Saca una bola de la urna. Sabes que la probabilidad de que sea rojo es mayor que cero y menor o igual a uno.

Pero, como no sabe si la urna contiene otros colores, no puede decir con certeza la probabilidad de dibujar rojo.es igual a uno. Simplemente no se puede descartar ninguna otra posibilidad.

Entonces, ¿cómo se estima la probabilidad de sacar una bola roja de la urna?

Bueno, de acuerdo con la regla de sucesión de Laplace, puedes modelar sacar una bola de la urna como un ensayo de Bernoulli con dos resultados posibles: "rojo" y "no rojo".

Antes de sacar algo de la urna, ya permitimos que existieran dos resultados potenciales. Al hacerlo, efectivamente hemos “contado pseudo” dos extracciones imaginarias de la urna, observando cada resultado una vez.

Esto le da a cada resultado ("rojo" y "no rojo") una probabilidad de 1/2.

A medida que aumenta el número de extracciones de la urna, el efecto de estos pseudocuentas se vuelve cada vez menos importante. Si la primera bola extraída es roja, actualiza la probabilidad de que la siguiente sea roja a (1 + 1) / (1 + 2) = 2/3.

Si la siguiente bola es roja, la probabilidad se actualiza a 3/4. Si sigues dibujando en rojo, la probabilidad se acerca cada vez más a 1.

En el lenguaje actual, la probabilidad se refiere a un espacio muestral. Este es un conjunto matemático de todos los resultados posibles para un "experimento" dado (un proceso que selecciona uno de los resultados).

La probabilidad fue puesta sobre una base axiomática formal por Andrey Kolmogorov en la década de 1930. Los axiomas de Kolmogorov facilitan la demostración de que un espacio muestral debe contener al menos un elemento.

Kolmogorov también define la probabilidad como una medida que devuelve un número real valorado entre cero y uno para todos los elementos del espacio muestral.

Naturalmente, la probabilidad es una forma útil de modelar sistemas del mundo real, especialmente cuando se asume un conocimiento completo sobre el contenido del espacio muestral.

Pero cuando no entendemos el sistema en cuestión, no conocemos el espacio muestral; aparte de eso, debe contener al menos un elemento. Este es un punto de partida común en muchos contextos de aprendizaje automático. Tenemos que aprender el contenido del espacio muestral a medida que avanzamos.

Por lo tanto, deberíamos permitir que el espacio muestral contenga al menos un elemento extra que abarque todo o, si lo desea, el "desconocido desconocido". La regla de sucesión de Laplace nos dice que asignemos al “desconocido desconocido” una probabilidad de 1 / n + 2, después de n observaciones repetidas de eventos conocidos.

Aunque en muchos casos conviene ignorar la posibilidad de incógnitas desconocidas, existen bases epistemológicas para permitir siempre que existan tales eventualidades.

Uno de esos argumentos se conoce como la regla de Cromwell, acuñada por el difunto Dennis Lindley. Citando a Oliver Cromwell del siglo XVII:

“Te ruego, en las entrañas de Cristo, creas posible que te equivoques”

Esta declaración bastante dramática nos pide que permitamos una posibilidad remota de que ocurra lo inesperado. En el lenguaje de la probabilidad bayesiana, esto equivale a requerir que consideremos siempre un antecedente distinto de cero.

Porque si su probabilidad previa se establece en cero, ninguna cantidad de evidencia lo convencerá de lo contrario. Después de todo, incluso la evidencia más fuerte de lo contrario aún producirá una probabilidad posterior de cero, cuando se multiplica por cero.

Objeciones y defensa de Laplace

Puede resultar poco sorprendente saber que el ejemplo del amanecer de Laplace atrajo muchas críticas de sus contemporáneos.

La gente objetó la simplicidad percibida, incluso la ingenuidad, de las suposiciones de Laplace. La idea de que había una probabilidad de 1 / 1.826.215 de que el sol no saliera al día siguiente parecía absurda.

Es tentador creer que, dado un gran número de intentos, debe ocurrir un evento de probabilidad distinta de cero. Y, por lo tanto, observar tantos amaneceres consecutivos sin una sola falla seguramente implica que la estimación de Laplace es una sobreestimación.

Por ejemplo, podría esperar que después de un millón de pruebas, hubiera observado un evento de uno en un millón, ¡casi garantizado por definición! ¿Cuál es la probabilidad de hacer lo contrario?

Bueno, no te sorprendería si lanzaras una moneda justa dos veces sin que saliera cara. Tampoco sería motivo de preocupación si lanzaras un dado seis veces y nunca vieras el número seis. Estos son eventos con probabilidad 1/2 y 1/6 respectivamente, pero eso no garantiza en absoluto su ocurrencia en los primeros dos y seis ensayos.

Un resultado atribuido a Bernoulli en el siglo XVII encuentra el límite como la probabilidad 1 / ny el número de ensayos ncrecer muy grande:

Aunque, en promedio, habrá observado al menos una ocurrencia de un evento con probabilidad de 1 / n después de n intentos, todavía hay una probabilidad mayor de 1/3 de que no lo haga.

Del mismo modo, si la verdadera probabilidad de que el sol no saliera fuera de hecho 1 / 1.826.215, entonces quizás no deberíamos sorprendernos tanto de que nunca se haya registrado en la historia un suceso así.

Y, posiblemente, la calificación de Laplace es demasiado generosa.

Es cierto que, para una persona que afirma comprender el mecanismo por el que sale el sol todos los días, la probabilidad de que no lo haga debe ser mucho más cercana a cero.

Sin embargo, asumir una comprensión de tal mecanismo requiere que poseamos un conocimiento previo del sistema, más allá de lo que hemos observado. Esto se debe a que dicho mecanismo se supone implícitamente constante, en otras palabras, verdadero para siempre.

Esta suposición nos permite, en cierto sentido, "evocar" un número ilimitado de observaciones, además de las que realmente hemos observado. Es una suposición solicitada nada menos que por Isaac Newton, al comienzo del tercer libro de su famosa “Philosophiae Naturalis Principia Mathematica”.

Newton describe cuatro "Reglas del razonamiento en filosofía". La cuarta regla afirma que podemos considerar las proposiciones derivadas de observaciones anteriores como "casi verdaderas", hasta que las contradigan observaciones futuras.

Tal suposición fue crucial para la revolución científica, a pesar de ser una patada en los dientes para filósofos como David Hume, quien es famoso por defender el problema de la inducción.

Es este compromiso epistemológico el que nos permite hacer ciencia útil y, a su vez, inventar tecnología. En algún punto de la línea, a medida que vemos que la probabilidad estimada de que el sol no salga disminuye cada vez más cerca de cero, nos permitimos "redondear hacia abajo" y afirmar una verdad científica en toda regla.

Pero todo esto presumiblemente está más allá del alcance del punto que Laplace originalmente trató de hacer.

De hecho, su elección de un ejemplo de amanecer es desafortunada. La regla de sucesión realmente adquiere su valor cuando se aplica a sistemas de “caja negra” completamente desconocidos para los cuales tenemos cero (o muy pocas) observaciones.

Esto se debe a que la regla de sucesión ofrece un ejemplo temprano de un a priori no informativo.

Cómo asumir lo menos posible

La probabilidad bayesiana es un concepto clave en el aprendizaje automático moderno. Los algoritmos como la clasificación Naive Bayes, la maximización de expectativas, la inferencia variacional y la cadena de Markov Monte Carlo se encuentran entre los más populares en uso en la actualidad.

La probabilidad bayesiana generalmente se refiere a una interpretación de la probabilidad en la que actualiza su creencia (a menudo subjetiva) a la luz de nueva evidencia.

Dos conceptos clave son probabilidades previas y posteriores.

Las probabilidades posteriores son aquellas a las que nos adscribimos después de actualizar nuestras creencias frente a nuevas pruebas.

Las probabilidades previas (o 'previas') son aquellas que consideramos verdaderas antes de ver nueva evidencia.

Los científicos de datos están interesados ​​en cómo asignamos probabilidades previas a eventos en ausencia de cualquier conocimiento previo. Este es un punto de partida típico para muchos problemas en el aprendizaje automático y el análisis predictivo.

Los antecedentes pueden ser informativos, en el sentido de que vienen con "opiniones" sobre la probabilidad de diferentes eventos. Estas "opiniones" pueden ser fuertes o débiles, y generalmente se basan en observaciones pasadas o en supuestos razonables. Estos son invaluables en situaciones en las que queremos entrenar nuestro modelo de aprendizaje automático rápidamente.

Sin embargo, los antecedentes también pueden ser no informativos. Esto significa que asumen lo menos posible sobre las respectivas probabilidades de un evento. Son útiles en situaciones en las que queremos que nuestro modelo de aprendizaje automático aprenda de un estado en blanco.

Así que debemos preguntarnos: ¿cómo se mide qué tan “informativa” es una distribución de probabilidad previa?

La teoría de la información proporciona una respuesta. Esta es una rama de las matemáticas que se ocupa de cómo se mide y se comunica la información.

La información se puede considerar en términos de certeza o falta de ella.

Después de todo, en un sentido cotidiano, cuanta más información tenga sobre algún evento, más seguro estará sobre su resultado. Menos información equivale a menos certeza. Esto significa que la teoría de la información y la teoría de la probabilidad están inextricablemente vinculadas.

La entropía de la información es un concepto fundamental en la teoría de la información. Sirve como medida de la incertidumbre inherente a una distribución de probabilidad dada. Una distribución de probabilidad con alta entropía es aquella en la que el resultado es más incierto.

Quizás intuitivamente, puede razonar que una distribución de probabilidad uniforme, una distribución para la cual cada evento es igualmente probable, tiene la entropía más alta posible. Por ejemplo, si lanzara una moneda justa y una moneda sesgada, ¿de qué resultado estaría menos seguro?

La entropía de la información proporciona un medio formal para cuantificar esto, y si conoce algo de cálculo, puede consultar la prueba aquí.

Entonces, la distribución uniforme es, en un sentido muy real, la distribución menos informativa posible. Y por esa razón, hace una elección obvia por un prior no informativo.

¿Quizás ha notado cómo la regla de sucesión de Laplace equivale efectivamente a usar un uniforme previo? Al agregar un éxito y un fracaso antes de que hayamos observado ningún resultado, estamos usando una distribución de probabilidad uniforme para representar nuestra creencia "previa" sobre el sistema.

Luego, a medida que observamos más y más resultados, el peso de la evidencia supera cada vez más al anterior.

Estudio de caso: clasificación Naive Bayes

Hoy en día, la regla de sucesión de Laplace se generaliza al suavizado aditivo y al pseudoconteo.

Estas son técnicas que nos permiten utilizar probabilidades distintas de cero para eventos no observados en los datos de entrenamiento. Esta es una parte esencial de cómo los algoritmos de aprendizaje automático pueden generalizar cuando se enfrentan a entradas no vistas anteriormente.

Por ejemplo, tome la clasificación de Naive Bayes.

Este es un algoritmo simple pero efectivo que puede clasificar datos textuales y otros datos adecuadamente tokenizados, utilizando el teorema de Bayes.

El algoritmo se entrena en un corpus de datos preclasificados, en el que cada documento consta de un conjunto de palabras o "características". El algoritmo comienza estimando la probabilidad de cada característica, dada una determinada clase.

Usando el teorema de Bayes (y algunas suposiciones muy ingenuas sobre la independencia de características), el algoritmo puede entonces aproximar las probabilidades relativas de cada clase, dadas las características observadas en un documento nunca antes visto.

Un paso importante en la clasificación de Naive Bayes es estimar la probabilidad de que se observe una característica dentro de una clase determinada. Esto se puede hacer calculando la frecuencia con la que se observa la característica en cada uno de los registros de esa clase en los datos de entrenamiento.

Por ejemplo, la palabra "Python" puede aparecer en el 12% de todos los documentos clasificados como "programación", en comparación con el 1% de todos los documentos clasificados como "puesta en marcha". La palabra "aprender" puede aparecer en el 10% de los documentos de programación y en el 20% de todos los documentos iniciales.

Toma la oración "aprende Python".

Usando estas frecuencias, encontramos que la probabilidad de que la oración sea clasificada como "programación" es igual a 0.12 × 0.10 = 0.012, y la probabilidad de que sea clasificada como "puesta en marcha" es 0.01 × 0.20 = 0.002.

Por lo tanto, "programación" es la más probable de estas dos clases.

Pero este enfoque basado en la frecuencia tiene problemas siempre que consideramos una característica que nunca ocurre en una clase determinada. Esto significaría que tiene una frecuencia cero.

La clasificación ingenua de Bayes requiere que multipliquemos probabilidades, pero multiplicar cualquier cosa por cero, por supuesto, siempre dará como resultado cero.

Entonces, ¿qué sucede si un documento no visto anteriormente contiene una palabra nunca observada en una clase determinada en los datos de entrenamiento? Esa clase se considerará imposible, sin importar la frecuencia con la que se produzcan todas las demás palabras del documento en esa clase.

Alisado aditivo

Un enfoque llamado suavizado aditivo ofrece una solución. En lugar de permitir frecuencias cero, agregamos una pequeña constante al numerador. Esto evita que combinaciones invisibles de clase / característica descarrilen el clasificador.

Cuando esta constante es igual a uno, el suavizado aditivo es lo mismo que aplicar la regla de sucesión de Laplace.

Además de la clasificación de Naive Bayes, el suavizado aditivo se utiliza en otros contextos probabilísticos de aprendizaje automático. Los ejemplos incluyen problemas en el modelado de lenguaje, redes neuronales y modelos ocultos de Markov.

En términos matemáticos, el suavizado aditivo equivale a utilizar una distribución beta como un conjugado previo para realizar inferencia bayesiana con distribuciones binomiales y geométricas.

La distribución beta es una familia de distribuciones de probabilidad definidas en el intervalo [0,1]. Toma dos parámetros de forma, αy β. La regla de sucesión de Laplace corresponde a establecer α= 1 y β = 1.

Como se discutió anteriormente, la distribución beta (1,1) es aquella para la que se maximiza la entropía de información. Sin embargo, existen antecedentes alternativos para los casos en los que la suposición de un éxito y un fracaso no es válida.

Por ejemplo, el anterior de Haldane se define como una distribución beta (0,0). Se aplica en casos en los que ni siquiera estamos seguros de poder permitir un resultado binario. El anterior de Haldane coloca una cantidad infinita de "peso" en cero y uno.

La distribución previa de Jeffrey, la beta (0.5, 0.5), es otra previa no informativa. Tiene la útil propiedad de que permanece invariable bajo reparametrización. Su derivación está más allá del alcance de este artículo, pero si está interesado, consulte este hilo.

El legado de las ideas

Personalmente, me parece fascinante cómo algunas de las primeras ideas sobre probabilidad y estadística han sobrevivido a años de controversia y aún encuentran un uso generalizado en el aprendizaje automático moderno.

Es extraordinario darse cuenta de que la influencia de las ideas desarrolladas hace más de dos siglos todavía se siente hoy. El aprendizaje automático y la ciencia de datos han ganado un impulso real en la corriente principal en la última década más o menos. Pero los cimientos sobre los que se construyeron se establecieron mucho antes de que las primeras computadoras estuvieran siquiera cerca de su realización.

No es casualidad que tales ideas bordeen la filosofía del conocimiento. Esto se vuelve especialmente relevante a medida que las máquinas se vuelven cada vez más inteligentes. ¿En qué momento podría el enfoque cambiar a nuestra filosofía de la conciencia?

Por último, ¿qué pensarían Laplace y sus contemporáneos del aprendizaje automático en la actualidad? Es tentador sugerir que se sorprenderían por el progreso que se ha logrado.

Pero eso probablemente sería un flaco favor a su previsión. Después de todo, el filósofo francés René Descartes había escrito sobre una filosofía mecanicista en el siglo XVII. Describiendo una máquina hipotética:

“Je désire que vous considériez… toutes les fonctions que j'ai atribuyees à cette machine, comme… la réception de la lumière, des sons, des odeurs, des goûts… l'empreinte de ces idées dans la mémoire… et enfin les mouvements extérieurs ... qu'ils imitent le plus parfaitement posible ceux d'un vrai homme ... considériez que ces fonctions ... de la seule disposition de ses organes, ni plus ni moins que font les mouvements d'une horloge ... de celle de ses contrepoids et de ses roues "

Lo que se traduce como: “Deseo que consideren todas las funciones que le he atribuido a esta máquina como… la recepción de luz, sonido, olfato y gusto… la huella de estas ideas en la memoria… y finalmente los movimientos externos que imita lo más perfectamente posible las de un verdadero ser humano… Considera que estas funciones están únicamente bajo el control de los órganos, ni más ni menos que los movimientos de un reloj en sus contrapesos y ruedas ”

El pasaje anterior describe una máquina hipotética capaz de responder a estímulos y comportarse como un "verdadero ser humano". Fue publicado en la obra de Descartes de 1664 "Traité de l'homme"- un total de 150 años antes de “Essai philosophique sur les probabilités” de Laplace.

De hecho, los siglos XVIII y principios del XIX vieron la construcción de autómatas increíblemente sofisticados por inventores como Pierre Jaquet-Droz y Henri Maillardet. Estos androides mecánicos podrían "programarse" para escribir, dibujar y reproducir música.

Así que no hay duda de que Laplace y sus contemporáneos pudieron concebir la noción de una máquina inteligente. Y seguramente no habría pasado desapercibido para ellos cómo el progreso realizado en el campo de la probabilidad podría aplicarse a la inteligencia de las máquinas.

Justo al comienzo de "Essai philosophique", Laplace escribe sobre una hipotética superinteligencia, denominada retrospectivamente "El demonio de Laplace":

“Une intelligence qui, pour un instant donné, connaîtrait toutes les force dont la nature est animée, et la status respect des êtres qui la composent, si d'ailleurs elle était assez vaste pour sou- mettre ces données à l'analyse… rien ne serait incertain pour elle, et l'avenir comme le passé, serait présent à ses yeux ”

Lo que se traduce como: “Una inteligencia, que en un momento dado, conoce todas las fuerzas por las que se anima la naturaleza, y la situación respectiva de los seres que la componen, y si fuera lo suficientemente grande como para someter estos datos a análisis… nada sería sería incierto para él, y el futuro como el pasado, estaría presente a sus ojos ”.

¿Podría realizarse el demonio de Laplace como una de las máquinas inteligentes de Descartes? Las sensibilidades modernas sugieren abrumadoramente que no.

Sin embargo, la premisa de Laplace concebida en una escala más pequeña puede convertirse pronto en realidad, gracias en gran parte a su propio trabajo pionero en el campo de la probabilidad.

Mientras tanto, el sol (probablemente) seguirá saliendo.