Un científico de datos investiga

¿Deberías ver una película? Bueno, hay muchos factores a considerar, como el director, los actores y el presupuesto de la película. La mayoría de nosotros basamos nuestra decisión en una reseña, un avance corto o simplemente al verificar la calificación de la película.
Hay algunas buenas razones por las que querría evitar leer reseñas o ver un avance, aunque brindan mucha más información que una calificación.
En primer lugar, es posible que desee evitar por completo los spoilers, por pequeños que sean. ¡Entiendo que!
En segundo lugar, es posible que desee una experiencia sin influencias de ver esa película. Esto generalmente se aplica solo a las reseñas, que están salpicadas de fotogramas, como "esta es una película sobre la complejidad del universo" o "esta película realmente no trata sobre el amor". Una vez que estos fotogramas se codifican en su memoria a corto plazo, es muy difícil evitar que interfieran con su propia experiencia cinematográfica.
Otra buena razón es que si está cansado o tiene prisa, es posible que no desee leer una reseña, y mucho menos ver un avance de 2 minutos.
Por tanto, una clasificación numérica de películas parece ser una buena solución en bastantes situaciones, para bastantes personas.
Este artículo tiene como objetivo recomendar un único sitio web para obtener rápidamente una calificación de películas precisa y ofrece una argumentación sólida basada en datos para ello.
Criterios para "los mejores"
Hacer una recomendación de este tipo es muy parecido a decir "este es el mejor lugar para buscar la calificación de una película", que es una declaración evaluativa que se basa en algunos criterios que se utilizan para determinar qué es mejor, qué es peor o peor, y qué es mejor , en este caso. Para mi recomendación, usaré un solo criterio: una distribución normal.
El mejor lugar para buscar la calificación de una película es ver qué calificaciones están distribuidas en un patrón que se asemeja más, o es idéntico, al patrón de una distribución normal, que es este: dado un conjunto de valores que se encuentran en un cierto intervalo , la mayoría de ellos están en el medio y los pocos otros en los extremos de ese intervalo. Generalmente, así es como se ve una distribución normal (también llamada gaussiana):

¿Cuál es la razón de ser de este criterio? Bueno, por mi propia experiencia que consta de varios cientos de películas, puedo decir que he visto:
- algunos destacados que he visto varias veces
- una pareja que fue realmente espantosa, y me hizo lamentar el tiempo que pasé viéndolos
- y un montón de promedio, para la mayoría de los cuales ni siquiera puedo recordar la trama.
Creo que la mayoría de la gente, ya sean críticos, cinéfilos o simplemente espectadores habituales, ha tenido una experiencia similar.
Si las calificaciones de las películas realmente expresan la calidad de la película, entonces deberíamos ver el mismo patrón para ambas.
Dado que la mayoría de nosotros consideramos que la mayor parte de las películas tienen una calidad promedio, deberíamos ver el mismo patrón cuando analizamos las calificaciones de las películas. Una lógica similar se aplica a las películas buenas y malas.

Si aún no está convencido de que debería haber tal correspondencia entre los patrones, piense en la distribución de calificaciones para una sola película. Como muchas personas califican la película, no es un acto de fe asumir que la mayoría de las veces habrá muchos de ellos con preferencias similares. En general, estarán de acuerdo en que la película es mala, promedio o buena (cuantificaré más adelante estos valores cualitativos). Además, habrá algunos otros que evalúen la película con uno de los otros dos valores cualitativos.
Si visualizáramos la distribución de todas las calificaciones de una película individual, lo más probable es que veamos que se forma un solo grupo en una de las áreas correspondientes a una calificación baja, media o alta.
Siempre que la mayoría de las películas se consideren promedio, el grupo alrededor del área promedio tiene la mayor probabilidad de ocurrir, y los otros dos grupos tienen una probabilidad menor (pero aún significativa). (Tenga en cuenta que todas estas probabilidades se pueden cuantificar en principio, pero esto requeriría una gran cantidad de datos y tendría el potencial de convertir este artículo en un libro).
Lo menos probable sería una distribución uniforme en la que no haya conglomerados y las preferencias de las personas se dividan casi por igual en los tres valores cualitativos.
Dadas estas probabilidades, la distribución de calificaciones para una muestra suficientemente grande de películas debe ser una con un grupo contundente en el área promedio, bordeado por barras de altura decreciente (frecuencia), asemejándose, por lo tanto, a una distribución normal.
Si todo esto le ha resultado difícil de entender, considere esta ilustración:

¿IMDB, Rotten Tomatoes, Fandango o Metacritic?
Ahora que tenemos un criterio con el que trabajar, profundicemos en los datos.
Hay muchos sitios web que ofrecen sus propias clasificaciones de películas. Elegí solo cuatro, principalmente por su popularidad, para poder obtener calificaciones de películas con un número aceptable de votos. Los felices ganadores son IMDB, Fandango, Rotten Tomatoes y Metacritic.
Para los dos últimos, me he centrado solo en sus tipos de calificación icónicos, a saber, el tomatómetro y el metascore .principalmente porque son más visibles para el usuario en cada uno de los sitios web (lo que significa que es más rápido encontrarlos). Estos también se comparten en los otros dos sitios web (el metascore se comparte en IMDB y el tomatómetro en Fandango). Además de estas clasificaciones icónicas, ambos sitios web también tienen un tipo de clasificación con menos funciones en el que solo los usuarios pueden contribuir.
He recopilado calificaciones para algunas de las películas más votadas y revisadas en 2016 y 2017. El conjunto de datos limpiado tiene calificaciones para 214 películas y se puede descargar desde este repositorio de Github.
No he recopilado calificaciones para películas lanzadas antes de 2016, simplemente porque se produjo un ligero cambio en el sistema de calificación de Fandango poco después del análisis de Walt Hickey, al que me referiré más adelante en este artículo.
Soy consciente de que trabajar con una muestra pequeña es arriesgado, pero al menos esto se compensa al obtener la instantánea más reciente de las distribuciones de las calificaciones.
Antes de trazar e interpretar las distribuciones, permítanme cuantificar los valores cualitativos que usé anteriormente: en una escala de 0 a 10, una mala película está en algún lugar entre 0 y 3, una media entre 3 y 7, y una buena entre 7 y 10. .
Tenga en cuenta la distinción entre calidad y cantidad. Para mantenerlo discernible en lo que sigue, me referiré a las calificaciones (cantidad) como bajas, medias o altas. Como antes, la calidad de la película se expresa como mala, media o buena. Si le preocupa que el término “promedio” sea el mismo, no lo haga, porque me ocuparé de evitar cualquier ambigüedad.
Ahora echemos un vistazo a las distribuciones:

De un simple vistazo, se puede notar que el histograma del metascore (así se llama este tipo de gráfico) se parece más a una distribución normal. Tiene un racimo grueso en el área media compuesto por barras de alturas irregulares, lo que hace que la tapa no sea ni roma ni afilada.
Sin embargo, son más numerosas y más altas que las barras en cada una de las otras dos áreas, que disminuyen en altura hacia los extremos, más o menos gradualmente. Todo esto indica claramente que la mayoría de las metascores tienen un valor promedio, que es más o menos lo que estamos buscando.
En el caso de IMDB, la mayor parte de la distribución también se encuentra en el área promedio, pero hay un sesgo obvio hacia los valores promedio más altos. El área de calificaciones altas es similar a lo que se esperaría ver para una distribución normal en esa parte del histograma. Sin embargo, la característica sorprendente es que el área que representa calificaciones de películas bajas está completamente vacía, lo que plantea un gran signo de interrogación.
Inicialmente, le eché la culpa a la muestra pequeña, pensando que una más grande haría más justicia a IMDB. Afortunadamente, pude encontrar un conjunto de datos listo para usar en Kaggle que contenía calificaciones de IMDB para 4917 películas diferentes. Para mi gran sorpresa, la distribución se veía así:

La forma de la distribución parece casi la misma que la de la muestra con 214 películas, excepto por el área de calificaciones bajas, que en este caso está débilmente poblada con 46 películas (de 4917). La mayor parte de los valores todavía se encuentra en el área promedio, lo que hace que valga la pena considerar la calificación de IMDB para una recomendación, aunque es claramente difícil rivalizar con el metascore, con ese sesgo.
De todos modos, lo realmente bueno de este resultado es que puede usarse como un argumento sólido para respaldar la tesis de que la muestra de 214 películas es bastante representativa de toda la población. En otras palabras, hay una mayor confianza ahora en que los resultados de este análisis serían los mismos, o al menos similares, a los resultados obtenidos si se analizaran absolutamente todas las calificaciones de películas de los cuatro sitios web.
Con esta mayor confianza, pasemos a examinar la distribución de las calificaciones de Fandango, que no parece haber cambiado mucho desde el análisis de Hickey. El sesgo sigue siendo visiblemente hacia la parte superior del espectro de clasificación de películas, donde reside la mayoría de las clasificaciones. El área de la mitad inferior de las calificaciones promedio está completamente vacía, al igual que la de las calificaciones bajas. Se puede concluir fácilmente que la distribución está bastante lejos de ajustarse a mi criterio. En consecuencia, no lo consideraré más para una posible recomendación.
(Prometo que el tormento de desplazarse hacia arriba terminará pronto. Es mucho más fácil comparar las distribuciones si se colocan una cerca de la otra, en lugar de esparcirlas por el artículo).
Por último, la distribución del tomatómetro es inesperadamente uniforme y se vería aún más plana con una estrategia de agrupamiento diferente (una estrategia de agrupamiento se define por el número total de barras y sus rangos; puede jugar con estos dos parámetros cuando está generando un histograma) .
Esta distribución no es fácil de interpretar en contexto, porque el tomatómetro no es una calificación clásica, sino que representa el porcentaje de críticos que dieron una crítica positiva a una película. Esto lo hace inadecuado para el marco cualitativo malo-promedio-bueno, porque hace que las películas sean buenas o malas. De todos modos, supongo que aún debería reducirse a la misma distribución normal, con la mayoría de las películas con una diferencia moderada entre el número de críticas positivas y negativas (con muchas calificaciones de 30% a 70% de críticas positivas), y una pocas películas tienen una diferencia significativamente mayor, de una forma u otra.
Dada la última consideración y la forma de la distribución, el tomatómetro no cumple con mi criterio. Se podría ser que una muestra más grande haría más justicia, pero aún así, si tuviera que recomiendo, lo haría con algunas reservas, debido al sistema de calificación positiva o negativa vaga.
En este punto del análisis, podría decir que mirando las distribuciones, mi recomendación es el metascore.
Sin embargo, la distribución de IMDB también parece valer la pena considerar, especialmente si modifica un poco los intervalos de calificación para las tres categorías cualitativas (intervalos que yo mismo definí, más o menos arbitrariamente). Desde esta perspectiva, recomendar el metascore principalmente haciendo un examen visual claramente no es suficiente.
Entonces, intentaré delimitar entre estos dos usando un método cuantitativo .
La idea es usar la variable Fandango como referencia negativa, y luego determinar qué variable, a partir de la calificación IMDB y el metascore, está menos correlacionada con ella (llamo a estas variables porque pueden tomar valores diferentes, por ejemplo, el metascore es una variable porque toma valores diferentes, dependiendo de la película).
Simplemente calcularé algunos coeficientes de correlación, y mi recomendación será la variable con el valor más pequeño (explicaré entonces cómo funcionan estos coeficientes de correlación). Pero antes de eso, permítanme justificar brevemente la elección de la variable Fandango como referencia negativa.
A los usuarios de Fandango les encantan las películas
Una razón para esta elección es que la distribución de las calificaciones de las películas de Fandango es la más alejada de la normal, con ese sesgo obvio hacia la parte superior del espectro de calificaciones de las películas.
La otra razón es la nube de sospecha en torno a Fandango que dejó el análisis de Walt Hickey. En octubre de 2015, también estaba desconcertado por una distribución similar, y descubrió que en el sitio web de Fandango las calificaciones numéricas siempre se redondeaban a la siguiente media estrella más alta, no a la más cercana (por ejemplo, una calificación promedio de 4.1 para una película sería se han redondeado a 4,5 estrellas, en lugar de 4,0).
El equipo de Fandango arregló el sistema de calificación sesgado y le dijo a Hickey que la lógica de calificación era más bien una "falla de software" en su sitio web, que apuntaba hacia un sistema imparcial en su aplicación móvil. (Más sobre esto en el artículo de Hickey.) El ajuste cambió algunos parámetros estadísticos para mejor, pero no lo suficiente como para convencerme de no trabajar con la variable Fandango como referencia negativa.
Así es como se ve el cambio:

Ahora, acerquémonos a Fandango:

Entre el metascore y la calificación de IMDB, ¿cuál está menos correlacionado con la calificación de Fandango?
El menos correlacionado con la calificación de Fandango es el metascore. Tiene un valor r de Pearson de 0,38 con respecto a Fandango, mientras que la calificación de IMDB tiene un valor de 0,63.
Ahora déjame explicarte todo esto.
A medida que dos variables cambian, tomando valores diferentes, se correlacionan si hay un patrón correspondiente a ambos cambios. Medir la correlación significa simplemente medir hasta qué punto existe tal patrón.
Una de las formas de realizar esta medida es calcular la r de Pearson. Si el valor es +1.0, significa que hay una correlación positiva perfecta, y si es -1.0, significa que hay una correlación negativa perfecta.
El grado en que las variables están correlacionadas disminuye a medida que la r de Pearson se acerca a 0, tanto desde el lado negativo como desde el positivo.
Visualicemos mejor esto:

Ahora, para poner la abstracción anterior en contexto, si comparamos cómo cambian los valores para dos tipos de calificación, digamos Fandango e IMDB, podemos determinar el grado en el que hay un patrón correspondiente a ambos cambios.
Dados los coeficientes de correlación que acabamos de mencionar, existe un patrón entre Fandango e IMDB en mayor medida que para Fandango y el metascore. Ambos coeficientes son positivos y, como tal, se dice que la correlación es positiva, lo que significa que a medida que aumentan las calificaciones de Fandango, las calificaciones de IMDB también tienden a subir, más que las metaspuntuaciones.
Dicho de otra manera, para cualquier calificación de película dada en Fandango, es más probable que el metascore sea más diferente que la calificación de IMDB.
El veredicto: use el metascore de Metacritic
Considerándolo todo, recomiendo verificar el metascore siempre que esté buscando una calificación de película. Así es como funciona y sus desventajas.
En pocas palabras, el metascore es un promedio ponderado de muchas críticas provenientes de críticos de renombre. El equipo de Metacritic lee las reseñas y asigna a cada una una puntuación de 0 a 100, que luego se le da una ponderación, principalmente en función de la calidad y la fuente de la reseña. Puede encontrar más información sobre su sistema de clasificación aquí.
Ahora, solo quiero señalar algunas desventajas del metascore:
- Los coeficientes de ponderación son confidenciales, por lo que no podrá ver hasta qué punto cada revisión contó en el metascore.
- Te será difícil encontrar metascores para películas menos conocidas que aparecieron antes de 1999, el año en que se creó Metacritic.
- Algunas películas recientes cuyo idioma principal no es el inglés ni siquiera figuran en Metacritic. Por ejemplo, las películas rumanas Two Lottery Tickets (2016) y Eastern Business (2016) no figuran en Metacritic, mientras que sí están en IMDB, con calificaciones.
Pocas palabras mas
En resumen, en este artículo hice una única recomendación de dónde buscar una clasificación de películas. Recomendé el metascore, basándome en dos argumentos: su distribución se asemeja más a una normal y es la menos correlacionada con la calificación de Fandango.
Todos los elementos cuantitativos y visuales del artículo son reproducibles en Python, como se muestra aquí.
¡Gracias por leer! ¡Y feliz ir al cine!