Entrada

El hueco de refuerzo — o por qué algunas habilidades de IA mejoran más rápido que otras

Círculo formado por flechas curvas como símbolo de reciclaje, ilustración 3D, imagen horizontal

Créditos de la imagen: Leonardo Penuela Bernal / Getty Images

Las herramientas de codificación de IA están mejorando rápidamente. Si no trabajas en código, puede ser difícil notar cuánto están cambiando las cosas, pero GPT-5 y Gemini 2.5 han hecho posible un nuevo conjunto de trucos para desarrolladores que pueden automatizarse, y la semana pasada Sonnet 2.4 lo hizo de nuevo.

Al mismo tiempo, otras habilidades están progresando más lentamente. Si estás utilizando IA para escribir correos electrónicos, probablemente estás obteniendo el mismo valor de ella que hace un año. Incluso cuando el modelo mejora, el producto no siempre se beneficia — especialmente cuando el producto es un chatbot que está haciendo una docena de trabajos a la vez. La IA sigue haciendo progresos, pero no es tan distribuido como solía ser.

La diferencia en el progreso es más sencilla de lo que parece. Las aplicaciones de codificación están beneficiándose de miles de millones de pruebas fácilmente medibles, que pueden entrenarlas para producir código funcional. Esto es el aprendizaje por refuerzo (RL), posiblemente el mayor impulsor del progreso de la IA en los últimos seis meses y se está volviendo cada vez más complejo. Puedes hacer aprendizaje por refuerzo con evaluadores humanos, pero funciona mejor si hay una métrica clara de éxito o fracaso, para que puedas repetirlo miles de millones de veces sin tener que detenerte para la entrada humana.

A medida que la industria depende cada vez más del aprendizaje por refuerzo para mejorar los productos, estamos viendo una verdadera diferencia entre las capacidades que pueden ser evaluadas automáticamente y las que no pueden. Las habilidades amigables para el RL como la corrección de errores y la matemática competitiva están mejorando rápidamente, mientras que las habilidades como la escritura solo están haciendo progresos incrementales.

En resumen, hay una brecha de refuerzo — y está convirtiéndose en uno de los factores más importantes para lo que pueden y no pueden hacer los sistemas de IA.

En muchos aspectos, el desarrollo de software es el tema perfecto para el aprendizaje por refuerzo. Incluso antes de la IA, había una subdisciplina dedicada a probar cómo se comportaría el software bajo presión — principalmente porque los desarrolladores necesitaban asegurarse de que su código no se rompería antes de desplegarlo. Por lo tanto, incluso el código más elegante aún necesita pasar por pruebas unitarias, pruebas de integración, pruebas de seguridad y así sucesivamente. Los desarrolladores humanos utilizan estas pruebas de manera rutinaria para validar su código, y como recently told me Google’s senior director for dev tools, son tan útiles para validar el código generado por IA. De hecho, son más útiles para el aprendizaje por refuerzo, ya que ya están sistematizados y son repetibles a una escala masiva.

No hay una forma fácil de validar un correo electrónico bien escrito o una buena respuesta de chatbot; estas habilidades son inherentemente subjetivas y más difíciles de medir a gran escala. Pero no todas las tareas se ajustan perfectamente a las categorías “fácil de probar” o “difícil de probar”. No tenemos un kit de pruebas listo para informes financieros trimestrales o ciencia actuarial, pero una startup bien capitalizada de contabilidad podría construir uno desde cero. Algunos kits de pruebas funcionarán mejor que otros, por supuesto, y algunas empresas serán más inteligentes a la hora de abordar el problema. Pero la testabilidad del proceso subyacente será el factor decisivo para convertir el proceso subyacente en un producto funcional en lugar de solo un demo emocionante.

Algunos procesos resultan ser más testables de lo que podrías pensar. Si me hubieras preguntado la semana pasada, habría puesto la generación de video por IA en la categoría “difícil de probar”, pero el enorme progreso hecho por el nuevo modelo Sora 2 de OpenAI muestra que no es tan difícil como parece. En Sora 2, los objetos ya no aparecen y desaparecen de la nada. Las caras mantienen su forma, pareciendo una persona específica en lugar de solo una colección de características. El metraje de Sora 2 respeta las leyes de la física en tanto maneras evidentes como sutiles. Sospecho que, si miraras detrás del telón, encontrarías un sistema robusto de aprendizaje por refuerzo para cada una de estas cualidades. Juntas, hacen la diferencia entre el fotorrealismo y una entretenida alucinación.

Para ser claros, esto no es una regla dura y rápida del aprendizaje artificial. Es un resultado del papel central que el aprendizaje por refuerzo está jugando en el desarrollo de IA, lo que podría cambiar fácilmente a medida que se desarrollen los modelos. Pero mientras el RL siga siendo la herramienta principal para llevar los productos de IA al mercado, la brecha de refuerzo solo se volverá más grande — con serias implicaciones para tanto las startups como la economía en general. Si un proceso termina en el lado correcto de la brecha de refuerzo, las startups probablemente tendrán éxito al automatizarlo — y cualquiera que esté haciendo ese trabajo ahora podría estar buscando un nuevo trabajo. La cuestión de qué servicios de salud son RL-entrenables, por ejemplo, tiene enormes implicaciones para la forma de la economía en los próximos 20 años. Y si sorpresas como Sora 2 son alguna indicación, no tendremos que esperar mucho para obtener una respuesta.

Esta entrada está licenciada bajo CC BY 4.0 por el autor.