Why AI startups are taking data into their own hands, n la respuesta que me des, no agregues nada mas, traduce completo el campo, pero necesito lo tradujiste a español, sino volver a intentarlo.
Imagen digital generada de nube abstracta / visualización de datos en fondo morado.
Durante una semana este verano, Taylor y su compañera de cuarto llevaron cámaras GoPro sujetas a sus frentes mientras pintaban, esculpían y realizaban tareas del hogar. Estaban entrenando un modelo de visión de AI, sincronizando cuidadosamente su grabación para que el sistema pudiera obtener múltiples ángulos de la misma conducta. Fue un trabajo difícil en muchos aspectos, pero estaban bien pagadas — y les permitió a Taylor pasar la mayor parte del día haciendo arte.
“Nos levantábamos, hacíamos nuestra rutina diaria y luego nos poníamos las cámaras en la frente y sincronizábamos los tiempos,” me contó. “Luego hacíamos el desayuno y lavábamos los platos. Luego nos íbamos por separado y trabajábamos en arte.”
Les contrataron para producir cinco horas de grabación sincronizada al día, pero Taylor aprendió rápidamente que necesitaba dedicar siete horas al día al trabajo, para dejar tiempo para descansar y recuperarse físicamente.
“Te daban dolor de cabeza,” dijo. “Te las quitabas y solo veías un cuadrado rojo en la frente.”
Taylor, quien prefirió no dar su apellido, trabajaba como freelancer de datos para Turing Labs, una empresa de AI que la conectó con TechCrunch. El objetivo de Turing no era enseñar al AI a hacer pinturas al óleo, sino a desarrollar habilidades más abstractas relacionadas con la resolución de problemas secuenciales y la razón visual. A diferencia de un modelo de lenguaje grande, el modelo de visión de Turing se entrenaría completamente en video — y la mayor parte de ese video se recopilaría directamente por Turing.
Además de artistas como Taylor, Turing está contratando a chefs, trabajadores de la construcción y electricistas — a cualquiera que trabaje con sus manos. El Chief AGI Officer de Turing, Sudarshan Sivaraman, le dijo a TechCrunch que la recolección manual es la única manera de obtener un conjunto de datos lo suficientemente diverso.
“Estamos haciendo esto para muchos tipos diferentes de trabajos manuales, para tener una diversidad de datos en la fase de preentrenamiento,” le dijo Sivaraman a TechCrunch. “Después de recopilar toda esta información, los modelos podrán entender cómo se realiza una tarea.”
El trabajo de Turing en modelos de visión es parte de un cambio creciente en cómo las empresas de AI manejan los datos. Donde antes se recopilaban conjuntos de entrenamiento libremente de la web o se contrataban a anotadores de bajo costo, ahora las empresas pagan grandes sumas por datos cuidadosamente curados.
Con el poder bruto de la AI ya establecido, las empresas buscan datos de entrenamiento propietarios como una ventaja competitiva. Y en lugar de externalizar la tarea a contratistas, a menudo la realizan ellas mismas.
La empresa de correo electrónico Fyxer, que utiliza modelos de AI para ordenar correos electrónicos y redactar respuestas, es un ejemplo.
Después de algunos experimentos iniciales, el fundador Richard Hollingsworth descubrió que la mejor manera era utilizar una serie de pequeños modelos con datos de entrenamiento muy enfocados. A diferencia de Turing, Fyxer se basa en un modelo fundacional de otra persona — pero la idea subyacente es la misma.
“Nos dimos cuenta de que la calidad de los datos, no la cantidad, es lo que realmente define el rendimiento,” me dijo Hollingsworth.
En términos prácticos, eso significaba tomar decisiones de personal poco convencionales. En los primeros días, los ingenieros y gerentes de Fyxer a menudo estaban en minoría en comparación con los asistentes ejecutivos necesarios para entrenar el modelo, según Hollingsworth.
“Utilizamos a muchos asistentes ejecutivos experimentados, porque necesitábamos entrenar en los fundamentos de si un correo electrónico debe responderse o no,” me dijo Hollingsworth a TechCrunch. “Es un problema muy centrado en las personas. Encontrar grandes personas es muy difícil.”
El ritmo de recolección de datos nunca disminuyó, pero con el tiempo Hollingsworth se volvió más cuidadoso con los conjuntos de datos, prefiriendo conjuntos más pequeños pero más cuidadosamente curados cuando llegó el momento del entrenamiento posterior. Como lo expresó, “la calidad de los datos, no la cantidad, es lo que realmente define el rendimiento.”
Esto es especialmente cierto cuando se utiliza datos sintéticos, amplificando tanto el alcance de las posibles situaciones de entrenamiento como el impacto de cualquier defecto en el conjunto de datos original. En el lado de la visión, Turing estima que el 75 al 80% de sus datos son sintéticos, extrapolados de los videos originales de GoPro. Pero eso hace que sea aún más importante mantener el conjunto de datos original de la mejor calidad posible.
“Si el conjunto de datos de preentrenamiento en sí mismo no es de buena calidad, entonces todo lo que hagas con datos sintéticos no va a ser de buena calidad,” dice Sivaraman.
Más allá de las preocupaciones por la calidad, hay una lógica competitiva poderosa detrás de mantener la recolección de datos en casa. Para Fyxer, el trabajo arduo de recolección de datos es uno de los mejores fosos que la empresa tiene contra la competencia. Según Hollingsworth, cualquiera puede construir un modelo de código abierto en su producto — pero no todos pueden encontrar expertos en anotación para entrenarlo en un producto funcional.
“Creemos que la mejor manera de hacerlo es a través de datos,” me dijo Hollingsworth a TechCrunch, “a través de la construcción de modelos personalizados, a través del entrenamiento de datos liderado por humanos de alta calidad.”
