
Este popular meme de Internet demuestra el alarmante parecido que comparten los chihuahuas y los muffins. Estas imágenes se comparten comúnmente en presentaciones en la industria de la Inteligencia Artificial (IA) (incluido yo mismo).
Pero una pregunta que no he visto a nadie responder es ¿qué tan buena ES la IA moderna para eliminar la incertidumbre de una imagen que podría parecerse a un chihuahua o un muffin? Para su entretenimiento y educación, investigaré esta pregunta hoy.

La clasificación binaria ha sido posible desde que se inventó el algoritmo del perceptrón en 1957. Si cree que la inteligencia artificial se promociona ahora, el New York Times informó en 1958 que la invención fue el comienzo de una computadora que “podría caminar, hablar, ver, escribir, reproducirse y ser consciente de su existencia ”. Si bien las máquinas de perceptrón, como la Mark 1, fueron diseñadas para el reconocimiento de imágenes, en realidad solo pueden discernir patrones que son linealmente separables. Esto les impide aprender los patrones complejos que se encuentran en la mayoría de los medios visuales.
No es de extrañar que el mundo se sintiera desilusionado y sobrevino un invierno de IA. Desde entonces, las percepciones de múltiples capas (populares en la década de 1980) y las redes neuronales convolucionales (iniciadas por Yann LeCun en 1998) han superado con creces las percepciones de una sola capa en las tareas de reconocimiento de imágenes.
Con grandes conjuntos de datos etiquetados como ImageNet y una potente computación GPU, arquitecturas de redes neuronales más avanzadas como AlexNet, VGG, Inception y ResNet han logrado un rendimiento de vanguardia en visión por computadora.
API de reconocimiento de imágenes y visión por computadora
Si es un ingeniero de aprendizaje automático, es fácil experimentar y ajustar estos modelos mediante el uso de modelos y pesos previamente entrenados en Keras / Tensorflow o PyTorch. Si no se siente cómodo modificando redes neuronales por su cuenta, está de suerte. Prácticamente todos los gigantes tecnológicos líderes y las nuevas empresas prometedoras afirman "democratizar la IA" al ofrecer API de visión por computadora fáciles de usar.
¿Cuál es el mejor? Para responder a esta pregunta, tendría que definir claramente sus objetivos comerciales, casos de uso de productos, conjuntos de datos de prueba y métricas de éxito antes de poder comparar las soluciones entre sí.
En lugar de una investigación seria, al menos podemos tener una idea de alto nivel de los diferentes comportamientos de cada plataforma probándolos con nuestro problema de juguete para diferenciar un chihuahua de un muffin.
Realización de la prueba
Para hacer esto, dividí el meme canónico en 16 imágenes de prueba. Luego utilizo código fuente abierto escrito por el ingeniero Gaurav Oberoi para consolidar los resultados de las diferentes API. Cada imagen se envía a través de las seis API enumeradas anteriormente, que devuelven etiquetas de alta confianza como predicciones. Las excepciones son Microsoft, que devuelve etiquetas y un título, y Cloudsight, que utiliza tecnología híbrida humana-IA para devolver solo un título. Esta es la razón por la que Cloudsight puede devolver subtítulos inquietantemente precisos para imágenes complejas, pero su procesamiento tarda entre 10 y 20 veces más.
A continuación se muestra un ejemplo de la salida. Para ver los resultados de las 16 imágenes de chihuahua versus muffin, haga clic aquí.

¿Qué tan bien les fue a las API? Aparte de Microsoft, que confundió este panecillo con un animal de peluche, todas las demás API reconocieron que la imagen era comida. Pero no hubo acuerdo sobre si la comida era pan, pastel, galletas o muffins. Google fue la única API que identificó con éxito muffin como la etiqueta más probable.
Veamos un ejemplo de chihuahua.

Una vez más, las API funcionaron bastante bien. Todos se dieron cuenta de que la imagen es un perro, aunque algunos se perdieron la raza exacta.
Sin embargo, hubo fracasos definitivos. Microsoft devolvió un título descaradamente incorrecto tres veces por separado, describiendo el muffin como un animal de peluche o un oso de peluche.

Google fue el identificador de muffins definitivo, devolviendo "muffin" como su etiqueta de mayor confianza para 6 de las 7 imágenes de muffins en el conjunto de prueba. Las otras API no devolvieron "muffin" como la primera etiqueta para ninguna imagen de muffin, sino que devolvieron etiquetas menos relevantes como "pan", "galleta" o "magdalena".
Sin embargo, a pesar de su serie de éxitos, Google fracasó en esta imagen de muffin específica, devolviendo "hocico" y "grupo de raza de perro" como predicciones.

Incluso las plataformas de aprendizaje automático más avanzadas del mundo se tropiezan con nuestro divertido desafío chihuahua versus muffin. Un niño pequeño humano supera al aprendizaje profundo cuando se trata de descubrir qué es comida y qué es Fido.
Entonces, ¿qué API de visión artificial es la mejor?
Para encontrar la respuesta a este elusivo misterio, ¡tendrás que dirigirte a TOPBOTS para leer el artículo original en su totalidad!