Cómo crear gráficos realistas de Grand Theft Auto 5 con Deep Learning

Este proyecto es una continuación de mi artículo anterior. En él, expliqué cómo podemos usar CycleGANs para la transferencia de estilo de imagen y aplicarlo para convertir gráficos Fortnite y hacer que se vea como PUBG.

CycleGAN es un tipo de Red Adversarial Generativa que es capaz de imitar el estilo visual de una imagen y transferirla a otra. Podemos usarlo para hacer que los gráficos de un juego se parezcan a los de otro juego o al mundo real.

En este artículo, quería compartir algunos resultados más utilizando el mismo algoritmo CycleGAN que cubrí en mi trabajo anterior. Primero, intentaré mejorar los gráficos de GTA 5 adaptándolos para que se parezcan al mundo real. A continuación, explicaré cómo podemos lograr los mismos resultados fotorrealistas, sin tener que renderizar gráficos GTA muy detallados en primer lugar.

Para la primera tarea, tomé capturas de pantalla del juego como nuestro dominio de origen que queremos convertir en algo fotorrealista. El dominio de destino proviene del conjunto de datos de paisajes urbanos que representa el mundo real (que pretendemos hacer que nuestro juego se parezca).

Resultados de CycleGAN

Basado en aproximadamente tres días de entrenamiento durante aproximadamente 100 épocas, el modelo Cyclegan parece hacer un buen trabajo al adaptar GTA al dominio del mundo real. Realmente me gusta cómo los detalles más pequeños no se pierden en esta traducción y la imagen conserva su nitidez incluso a una resolución tan baja.

El principal inconveniente es que esta red neuronal resultó ser bastante materialista: alucina un logo de Mercedes por todas partes, arruinando la conversión casi perfecta de GTA al mundo real. (Es porque el conjunto de datos de paisajes urbanos fue recopilado por el propietario de un Mercedes).

Cómo lograr los mismos gráficos fotorrealistas con menos esfuerzo

Si bien este enfoque puede parecer muy prometedor para mejorar los gráficos del juego, no creo que el potencial real radique en seguir este proceso. Con eso quiero decir que parece poco práctico renderizar una imagen tan detallada y luego convertirla en otra cosa.

¿No sería mejor sintetizar una imagen de calidad similar pero con mucho menos tiempo y esfuerzo para diseñar el juego en primer lugar? Creo que el potencial real radica en renderizar objetos con poco detalle y dejar que la red neuronal sintetice la imagen final de esta renderización.

Entonces, en base a las etiquetas semánticas disponibles en el conjunto de datos de paisajes urbanos, segmenté objetos en una captura de pantalla de GTA que nos brinda una representación de gráficos de bajo detalle. Considere esto como una representación de juego de solo unos pocos objetos, como la carretera, el automóvil, las casas, el cielo, etc., sin diseñarlos en detalle. Esto actuará como entrada para nuestro modelo de transferencia de estilo de imagen en lugar de la captura de pantalla muy detallada del juego.

Veamos qué calidad de imágenes finales se pueden generar a partir de mapas semánticos de tan poco detalle utilizando CycleGAN.

Resultados de la síntesis de imágenes de mapas semánticos

Aquí hay algunos ejemplos de cómo se ve cuando recreamos gráficos de GTA a partir de mapas semánticos. Tenga en cuenta que no he creado estos mapas a mano. Eso parecía realmente tedioso, así que simplemente dejé que otro modelo CycleGAN lo hiciera (está entrenado para realizar la segmentación de imágenes utilizando el conjunto de datos de paisajes urbanos).

Parece una buena conversión desde lejos, pero mirando de cerca es bastante obvio que la imagen es falsa y carece de cualquier tipo de detalle.

Ahora, estos resultados son 256p y se han generado en una GPU con 8 GB de memoria. Sin embargo, los autores del artículo original han demostrado que es posible crear una imagen de 2048 x 1024p mucho más detallada utilizando una GPU con más de 24 GB de memoria. Utiliza la versión de aprendizaje supervisado de CycleGAN, llamada pix2pixHD, que está capacitada para realizar la misma tarea. ¡Y vaya que la imagen falsa se ve muy convincente!

Conclusión

Las GAN tienen un gran potencial para cambiar la forma en que la industria del entretenimiento producirá contenido en el futuro. Son capaces de producir resultados mucho mejores que los humanos y en mucho menos tiempo.

Lo mismo se aplica también a la industria del juego. Estoy seguro de que en unos años esto revolucionará la forma en que se generan los gráficos de los juegos. Será mucho más fácil simplemente imitar el mundo real que recrear todo desde cero.

Una vez que lo logremos, el lanzamiento de nuevos juegos también será mucho más rápido. ¡Se avecinan tiempos emocionantes con estos avances en Deep Learning!

Más resultados en formato de video

Todos los resultados anteriores y más se pueden encontrar en mi canal de YouTube y en el video incrustado a continuación. Si te gustó, siéntete libre de suscribirte a mi canal para seguir más de mi trabajo.

¡Gracias por leer! Si te gustó este artículo, sígueme en Medium, GitHub o suscríbete a mi canal de YouTube.