Entrada

Herramientas de codificación de IA pueden no acelerar a todos los desarrolladores, según un estudio.

AI robot face and programming code on a black background.

Créditos de la imagen: Yuichiro Chino / Getty Images

Los flujos de trabajo de los ingenieros de software han sido transformados en los últimos años por la llegada de herramientas de codificación AI como Cursor y GitHub Copilot, que prometen mejorar la productividad al escribir automáticamente líneas de código, corregir errores y probar cambios. Estas herramientas están impulsadas por modelos de AI de OpenAI, Google DeepMind, Anthropic y xAI que han aumentado rápidamente su rendimiento en una variedad de pruebas de ingeniería de software en los últimos años.

Sin embargo, un nuevo estudio publicado el jueves por el grupo de investigación no lucrativo de AI METR pone en tela de juicio hasta qué punto las herramientas de codificación AI actuales mejoran la productividad de los desarrolladores experimentados.

METR llevó a cabo un ensayo controlado aleatorio para este estudio, reclutando a 16 desarrolladores experimentados de código abierto y haciéndoles completar 246 tareas reales en grandes repositorios de código a los que contribuyen regularmente. Los investigadores asignaron aleatoriamente aproximadamente la mitad de esas tareas como “AI permitidas”, permitiendo a los desarrolladores usar herramientas de codificación AI de vanguardia como Cursor Pro, mientras que la otra mitad de las tareas prohibía el uso de herramientas AI.

Antes de completar sus tareas asignadas, los desarrolladores predijeron que usar herramientas de codificación AI reduciría su tiempo de finalización en un 24%. Esto no fue así.

“Resulta sorprendente que permitiendo el uso de AI se aumente el tiempo de finalización en un 19% - los desarrolladores son más lentos cuando usan herramientas AI”, dijeron los investigadores.

Notablemente, solo el 56% de los desarrolladores del estudio tenía experiencia usando Cursor, la herramienta AI principal ofrecida en el estudio. Aunque casi todos los desarrolladores (94%) tenían experiencia usando algún LLM web en sus flujos de trabajo de codificación, este estudio fue la primera vez que algunos usaron Cursor específicamente. Los investigadores señalan que los desarrolladores fueron entrenados en el uso de Cursor en preparación para el estudio.

Sin embargo, los hallazgos de METR plantean dudas sobre los supuestos beneficios universales de productividad prometidos por las herramientas de codificación AI en 2025. Basado en el estudio, los desarrolladores no deberían asumir que las herramientas de codificación AI - específicamente lo que se ha llegado a conocer como “vibe coders” - acelerarán inmediatamente sus flujos de trabajo.

Los investigadores de METR señalan varias razones potenciales por las que el AI ralentizó a los desarrolladores en lugar de acelerarlos.

Primero, los desarrolladores pasan mucho más tiempo interactuando con el AI y esperando su respuesta cuando usan herramientas de codificación vibe en lugar de escribir código. Además, el AI suele tener dificultades con grandes y complejos repositorios de código, que se utilizaron en esta prueba.

Los autores del estudio se cuidan de no sacar conclusiones fuertes de estos hallazgos, señalando explícitamente que no creen que los sistemas AI actuales fallen a la mayoría de los desarrolladores de software. Otros estudios a gran escala han demostrado que las herramientas de codificación AI aceleran los flujos de trabajo de los ingenieros de software.

Además, los autores señalan que el progreso del AI ha sido significativo en los últimos años y que no esperan obtener los mismos resultados incluso dentro de tres meses. METR también ha encontrado que las herramientas de codificación AI han mejorado significativamente su capacidad para completar tareas complejas y de largo plazo en los últimos años.

Este estudio ofrece otra razón para ser escéptico sobre las prometidas ganancias de las herramientas de codificación AI. Otros estudios han demostrado que las herramientas de codificación AI actuales pueden introducir errores, y en algunos casos, vulnerabilidades de seguridad.

Esta entrada está licenciada bajo CC BY 4.0 por el autor.