OpenAI dice que GPT-5 se desempeña tan bien como los humanos en una amplia gama de trabajos.
Créditos de la imagen:
OpenAI publicó un nuevo benchmark el jueves que evalúa cómo sus modelos de IA se desempeñan en comparación con profesionales humanos en una amplia gama de industrias y trabajos. La prueba, GDPval, es un primer intento de entender cuán cerca están los sistemas de OpenAI de superar a los humanos en trabajos económicamente valiosos, lo cual es una parte clave de la misión fundacional de la empresa para desarrollar inteligencia artificial general (AGI).
OpenAI afirma que sus modelos GPT-5 y Anthropic’s Claude Opus 4.1 “ya están acercándose a la calidad del trabajo realizado por expertos de la industria.”
Esto no significa que los modelos de OpenAI vayan a empezar a reemplazar a los humanos en sus trabajos de inmediato. A pesar de algunas predicciones de CEOs de que la IA tomará los trabajos de los humanos en unos pocos años, OpenAI admite que GDPval hoy cubre un número muy limitado de tareas que las personas realizan en sus trabajos reales. Sin embargo, es una de las últimas formas en que la empresa mide el progreso de la IA hacia este hito.
GDPval se basa en nueve industrias que contribuyen más al producto interno bruto de Estados Unidos, incluyendo dominios como la salud, las finanzas, la manufactura y el gobierno. La prueba evalúa el rendimiento de un modelo de IA en 44 ocupaciones entre esas industrias, que van desde ingenieros de software hasta enfermeras hasta periodistas.
Para la primera versión de la prueba, GDPval-v0, OpenAI pidió a profesionales experimentados que compararan informes generados por IA con aquellos producidos por otros profesionales, y luego eligen el mejor. Por ejemplo, una de las preguntas pedía a los banqueros de inversión que crearan un paisaje competitivo para la industria de entrega del último kilómetro, y los compararon con informes generados por IA. OpenAI luego promedia la “tasa de victoria” de un modelo de IA contra los informes humanos en todas las 44 ocupaciones.
Para GPT-5-high, una versión mejorada de GPT-5 con más potencia computacional, la empresa dice que el modelo de IA fue clasificado como mejor o igual a los expertos de la industria el 40.6% del tiempo.
OpenAI también probó el modelo Claude Opus 4.1 de Anthropic, que fue clasificado como mejor o igual a los expertos en el 49% de las tareas. OpenAI dice que cree que Claude obtuvo tan buenos resultados porque tiene una tendencia a hacer gráficos agradables, en lugar de un rendimiento puro.
Crédito: OpenAI
Es importante señalar que la mayoría de los profesionales que trabajan realizan muchas más tareas que simplemente enviar informes de investigación a su jefe, lo cual es todo lo que GDPval-v0 evalúa. OpenAI reconoce esto y dice que planea crear pruebas más robustas en el futuro que puedan tener en cuenta más industrias y flujos de trabajo interactivos.
Sin embargo, la empresa considera que el progreso en GDPval es notable.
En una entrevista con TechCrunch, el jefe economista de OpenAI, Dr. Aaron Chatterji, dijo que los resultados de GDPval sugieren que las personas en estos trabajos pueden comenzar a usar modelos de IA para dedicar más tiempo a tareas más significativas.
“[Porque] el modelo está mejorando en algunas de estas cosas,” dice Chatterji, “las personas en esos trabajos pueden usar el modelo, a medida que las capacidades mejoren, para delegar parte de su trabajo y hacer cosas de mayor valor.”
OpenAI’s evaluations lead Tejal Patwardhan tells TechCrunch that she’s encouraged by the rate of progress on GDPval. OpenAI’s GPT-4o model scored just 13.7% (wins and ties versus humans), which was released roughly 15 months ago. Now GPT-5 scores nearly triple that, a trend Patwardhan expects to continue.
Silicon Valley tiene una amplia gama de benchmarks que utiliza para medir el progreso de los modelos de IA y determinar si un modelo dado es de estado del arte. Entre los más populares están AIME 2025 (una prueba de problemas matemáticos competitivos) y GPQA Diamond (una prueba de preguntas de nivel de doctorado en ciencias). Sin embargo, varios modelos de IA están alcanzando la saturación en algunos de estos benchmarks, y muchos investigadores de IA han citado la necesidad de mejores pruebas que puedan medir la competencia de la IA en tareas del mundo real. Benchmarks como GDPval podrían volverse cada vez más importantes en esa conversación, ya que OpenAI hace el caso de que sus modelos de IA son valiosos para una amplia gama de industrias.

