Anthropic utilizó Pokémon para evaluar su nuevo modelo de IA.
Anthropic utilizó Pokémon para benchmarkear su nuevo modelo de IA. Sí, realmente.
En un blog publicado el lunes, Anthropic dijo que probó su último modelo, Claude 3.7 Sonnet, en el clásico de Game Boy Pokémon Red. La empresa equipó el modelo con memoria básica, entrada de píxeles de pantalla y llamadas de función para presionar botones y navegar por la pantalla, permitiéndole jugar Pokémon continuamente.
Una característica única de Claude 3.7 Sonnet es su capacidad para “pensar de manera extendida”. Al igual que OpenAI’s o3-mini y DeepSeek’s R1, Claude 3.7 Sonnet puede “razonar” a través de problemas difíciles aplicando más computación y tomando más tiempo.
Esto resultó útil en Pokémon Red, aparentemente.
En comparación con una versión anterior de Claude, Claude 3.0 Sonnet, que no logró salir de la casa en Pallet Town donde comienza la historia, Claude 3.7 Sonnet luchó con éxito contra tres líderes de gimnasio de Pokémon y ganó sus insignias.
Ahora, no está claro cuánta computación se necesitó para que Claude 3.7 Sonnet alcanzara esos hitos y cuánto tiempo tomó. Anthropic solo dijo que el modelo realizó 35,000 acciones para llegar al último líder de gimnasio, Surge.
Seguramente no pasará mucho tiempo antes de que algún desarrollador entusiasta lo descubra.
Pokémon Red es más un benchmark de juguete que cualquier otra cosa. Sin embargo, hay una larga historia de que los juegos se utilicen para fines de benchmarking de IA. En los últimos meses, han surgido varias nuevas aplicaciones y plataformas para probar las habilidades de juego de los modelos en títulos que van desde Street Fighter hasta Pictionary.