Entrada

Anthropic lanza un nuevo modelo de IA que ‘piensa’ todo el tiempo que quieras.

Anthropic está lanzando un nuevo modelo de inteligencia artificial de vanguardia llamado Claude 3.7 Sonnet, que la empresa diseñó para “pensar” sobre preguntas durante tanto tiempo como los usuarios lo deseen.

Anthropic llama a Claude 3.7 Sonnet el primer “modelo de razonamiento híbrido de la industria”, porque es un solo modelo que puede dar respuestas en tiempo real y respuestas más consideradas, “pensadas”. Los usuarios pueden elegir si activar las capacidades de razonamiento del modelo AI, que hace que Claude 3.7 Sonnet “piensa” durante un período corto o largo de tiempo.

El modelo representa el esfuerzo más amplio de Anthropic para simplificar la experiencia del usuario alrededor de sus productos de inteligencia artificial. La mayoría de los chatbots de inteligencia artificial actuales tienen un selector de modelo abrumador que obliga a los usuarios a elegir entre varias opciones que varían en costo y capacidad. Laboratorios como Anthropic prefieren que no tengas que pensar en ello - idealmente, un modelo hace todo el trabajo.

Claude 3.7 Sonnet se lanzará a todos los usuarios y desarrolladores el lunes, dijo Anthropic, pero solo los usuarios que pagan por los planes de chatbot premium de Claude de Anthropic tendrán acceso a las características de razonamiento del modelo. Los usuarios de Claude gratuitos obtendrán la versión estándar, sin razonamiento, de Claude 3.7 Sonnet, que Anthropic afirma que supera su modelo anterior de inteligencia artificial de vanguardia, Claude 3.5 Sonnet. (Sí, la empresa saltó un número.)

Claude 3.7 Sonnet cuesta $3 por millón de tokens de entrada (lo que significa que podrías introducir aproximadamente 750,000 palabras, más palabras que la serie completa de “El Señor de los Anillos”, en Claude por $3) y $15 por millón de tokens de salida. Esto lo hace más caro que OpenAI’s o3-mini ($1.10 por 1M tokens de entrada/$4.40 por 1M tokens de salida) y DeepSeek’s R1 ($0.55 por 1M tokens de entrada/$2.19 por 1M tokens de salida), pero ten en cuenta que o3-mini y R1 son modelos estrictamente de razonamiento - no híbridos como Claude 3.7 Sonnet.

Claude 3.7 Sonnet es el primer modelo de inteligencia artificial de Anthropic que puede “razonar”, una técnica que muchos laboratorios de inteligencia artificial han adoptado a medida que los métodos tradicionales de mejora del rendimiento de la inteligencia artificial se vuelven menos efectivos.

Los modelos de razonamiento como o3-mini, R1, Google’s Gemini 2.0 Flash Thinking y xAI’s Grok 3 (Pensar) utilizan más tiempo y potencia de cálculo antes de responder preguntas. Los modelos descomponen los problemas en pasos más pequeños, lo que tiende a mejorar la precisión de la respuesta final. Los modelos de razonamiento no están “pensando” o “razonando” como lo haría un humano, pero su proceso está modelado después de la deducción.

Eventualmente, Anthropic quiere que Claude determine por sí mismo cuánto tiempo “pensar” sobre las preguntas, sin necesidad de que los usuarios seleccionen controles con antelación, dijo Diane Penn, líder de productos y investigación de Anthropic, a TechCrunch en una entrevista.

“Similar a cómo los humanos no tienen dos cerebros separados para preguntas que pueden ser respondidas inmediatamente versus aquellas que requieren pensamiento,” escribió Anthropic en un post de blog compartido con TechCrunch, “consideramos la razonamiento simplemente como una de las capacidades que un modelo de vanguardia debería tener, para ser integrada de manera fluida con otras capacidades, en lugar de algo que debe proporcionarse en un modelo separado.”

Anthropic dice que está permitiendo a Claude 3.7 Sonnet mostrar su fase de planificación interna a través de un “cuaderno visible”. Lee dijo a TechCrunch que los usuarios verán el proceso de pensamiento completo de Claude para la mayoría de las consultas, pero que algunas partes pueden estar redactadas por razones de confianza y seguridad.

Anthropic dice que ha optimizado los modos de pensamiento de Claude para tareas del mundo real, como problemas de codificación difíciles o tareas de agente. Los desarrolladores que utilicen la API de Anthropic pueden controlar el “presupuesto” para el pensamiento, intercambiando velocidad y costo por la calidad de la respuesta.

En una prueba para medir tareas de codificación del mundo real, SWE-Bench, Claude 3.7 Sonnet tuvo una precisión del 62.3%, en comparación con el modelo o3-mini de OpenAI, que obtuvo un 49.3%. En otra prueba para medir la capacidad de un modelo de inteligencia artificial para interactuar con usuarios simulados y APIs externas en un entorno minorista, TAU-Bench, Claude 3.7 Sonnet obtuvo un 81.2%, en comparación con el modelo o1 de OpenAI, que obtuvo un 73.5%.

Anthropic también dice que Claude 3.7 Sonnet rechazará responder preguntas con menos frecuencia que sus modelos anteriores, afirmando que el modelo es capaz de hacer distinciones más matizadas entre preguntas perjudiciales y benignas. Anthropic dice que ha reducido los rechazos innecesarios en un 45% en comparación con Claude 3.5 Sonnet. Esto ocurre en un momento en que algunos otros laboratorios de inteligencia artificial están reconsiderando su enfoque para restringir las respuestas de sus chatbots de inteligencia artificial.

Además de Claude 3.7 Sonnet, Anthropic también está lanzando una herramienta de codificación de agente llamada Claude Code. Se lanzará como una vista previa de investigación, permitiendo a los desarrolladores ejecutar tareas específicas a través de Claude directamente desde su terminal.

En una demostración, los empleados de Anthropic mostraron cómo Claude Code puede analizar un proyecto de codificación con un comando simple como, “Explica la estructura de este proyecto.” Utilizando inglés plano en la línea de comandos, un desarrollador puede modificar una base de código. Claude Code describirá sus cambios a medida que los realiza y incluso probará un proyecto en busca de errores o lo enviará a un repositorio de GitHub.

Claude Code estará inicialmente disponible para un número limitado de usuarios en un “primero en llegar, primero en servir”, dijo un portavoz de Anthropic a TechCrunch.

Anthropic está lanzando Claude 3.7 Sonnet en un momento en que los laboratorios de inteligencia artificial están enviando nuevos modelos de inteligencia artificial a un ritmo vertiginoso. Anthropic ha adoptado tradicionalmente un enfoque más metódico y centrado en la seguridad. Pero esta vez, la empresa está buscando liderar la carrera.

La pregunta es: ¿por cuánto tiempo? OpenAI puede estar cerca de lanzar su propio modelo híbrido de inteligencia artificial; el CEO de OpenAI, Sam Altman, ha dicho que llegará en “meses”.

Esta entrada está licenciada bajo CC BY 4.0 por el autor.