Entrada

Un nuevo desafío de codificación de IA acaba de publicar sus primeros resultados – y no son bonitos.

Código azul en un fondo oscuro presentado en un ángulo.

Créditos de la imagen: Sashkinw / Getty Images

Un nuevo desafío de codificación de IA ha revelado su primer ganador — y ha establecido un nuevo estándar para los ingenieros de software impulsados por IA.

El miércoles a las 5 pm PST, el Instituto Laude sin fines de lucro anunció el primer ganador del K Prize, un desafío de codificación de IA en varias rondas lanzado por Databricks y el cofundador de Perplexity, Andy Konwinski. El ganador fue un ingeniero brasileño de prompts llamado Eduardo Rocha de Andrade, quien recibirá $50,000 por el premio. Pero lo más sorprendente que el resultado final: ganó con respuestas correctas a solo el 7.5% de las preguntas de la prueba.

“Estamos contentos de haber construido un benchmark que realmente es difícil,” dijo Konwinski. “Los benchmarks deben ser difíciles si van a importar.” Konwinski ha prometido $1 millón al primer modelo de código abierto que pueda obtener una puntuación superior al 90% en la prueba.

Similar al sistema bien conocido SWE-Bench, el K Prize prueba los modelos contra problemas flaguados en GitHub como una prueba de cómo bien pueden manejar los modelos problemas de programación en el mundo real. Pero mientras que SWE-Bench se basa en un conjunto fijo de problemas con los que los modelos pueden entrenarse, el K Prize está diseñado como una “versión sin contaminación de SWE-Bench,” utilizando un sistema de entrada con tiempo para protegerse contra cualquier entrenamiento específico del benchmark. Para la primera ronda, los modelos debían presentarse antes del 12 de marzo. Los organizadores del K Prize entonces construyeron la prueba utilizando solo problemas flaguados en GitHub después de esa fecha.

La puntuación del 7.5% en la parte superior contrasta marcadamente con el propio SWE-Bench, que actualmente muestra una puntuación del 75% en su prueba ‘Verificada’ más fácil y del 34% en su prueba ‘Completa’ más difícil. Konwinski aún no está seguro de si la diferencia se debe a la contaminación en SWE-Bench o simplemente a la dificultad de recopilar nuevos problemas de GitHub, pero espera que el proyecto K Prize responda a la pregunta pronto.

“A medida que obtengamos más ejecuciones de esto, tendremos una mejor idea,” dijo a TechCrunch, “porque esperamos que la gente se adapte a la dinámica de competir en esto cada pocos meses.”

Podría parecer un lugar extraño para fallar, dado el amplio rango de herramientas de codificación de IA ya disponibles – pero con los benchmarks volviéndose demasiado fáciles, muchos críticos ven proyectos como el K Prize como un paso necesario hacia la resolución del problema de evaluación de IA en crecimiento.

“Estoy bastante optimista sobre la construcción de nuevas pruebas para los benchmarks existentes,” dice el investigador de Princeton Sayash Kapoor, quien presentó una idea similar en un reciente artículo. “Sin tales experimentos, no podemos determinar si el problema es la contaminación, o incluso si se está dirigiendo el tablero de líderes de SWE-Bench con un humano en el bucle.”

Para Konwinski, no es solo un mejor benchmark, sino un desafío abierto al resto de la industria. “Si escuchas el entusiasmo, parece que deberíamos estar viendo médicos de IA y abogados de IA y ingenieros de software de IA, y eso simplemente no es cierto,” dice. “Si no podemos obtener más del 10% en un SWE-Bench sin contaminación, eso es el chequeo de realidad para mí.”

Esta entrada está licenciada bajo CC BY 4.0 por el autor.