DeepSeek: Todo lo que necesitas saber sobre la aplicación de chatbot de IA
DeepSeek se ha vuelto viral.
El laboratorio chino de inteligencia artificial DeepSeek ha irrumpido en la conciencia mainstream esta semana después de que su aplicación de chatbot alcanzara la cima de las listas de aplicaciones de la App Store de Apple (y Google Play también). Los modelos de IA de DeepSeek, que fueron entrenados utilizando técnicas eficientes en términos de computación, han llevado a los analistas de Wall Street y a los tecnólogos a cuestionarse si Estados Unidos puede mantener su liderazgo en la carrera de la IA y si la demanda de chips de IA se mantendrá.
Pero, ¿de dónde viene DeepSeek y cómo ha llegado a la fama internacional tan rápidamente?
Orígenes de DeepSeek
DeepSeek está respaldado por High-Flyer Capital Management, un fondo de inversión cuantitativo chino que utiliza IA para informar sus decisiones de trading.
El entusiasta de la IA Liang Wenfeng cofundó High-Flyer en 2015. Wenfeng, quien reportedly comenzó a interesarse por el trading mientras era estudiante en la Universidad de Zhejiang, lanzó High-Flyer Capital Management como un fondo de inversión en 2019, centrado en el desarrollo y despliegue de algoritmos de IA.
En 2023, High-Flyer comenzó DeepSeek como un laboratorio dedicado a la investigación de herramientas de IA, separado de su negocio financiero. Con High-Flyer como uno de sus inversores, el laboratorio se convirtió en su propia empresa, también llamada DeepSeek.
Desde el primer día, DeepSeek construyó sus propios clusters de centros de datos para el entrenamiento de modelos. Sin embargo, como otras empresas de IA en China, DeepSeek ha sido afectado por las prohibiciones de exportación de hardware de Estados Unidos. Para entrenar uno de sus modelos más recientes, la empresa tuvo que utilizar chips Nvidia H800, una versión menos potente del chip H100, disponible para empresas estadounidenses.
El equipo técnico de DeepSeek se dice que es joven. La empresa reportedly recruta agresivamente a investigadores de doctorado en IA de universidades chinas de élite. DeepSeek también contrata a personas sin formación en informática para ayudar a su tecnología a entender una amplia gama de temas, según The New York Times.
Modelos fuertes de DeepSeek
DeepSeek presentó su primer conjunto de modelos — DeepSeek Coder, DeepSeek LLM y DeepSeek Chat — en noviembre de 2023. Sin embargo, no fue hasta la primavera pasada, cuando el startup lanzó su familia de modelos DeepSeek-V2 de próxima generación, que la industria de la IA comenzó a prestar atención.
DeepSeek-V2, un sistema de análisis de texto e imágenes de propósito general, realizó bien en varios benchmarks de IA y fue mucho más barato de ejecutar que los modelos comparables en ese momento. Esto obligó a sus competidores domésticos, como ByteDance y Alibaba, a reducir los precios de uso de algunos de sus modelos y a hacer otros completamente gratuitos.
DeepSeek-V3, lanzado en diciembre de 2024, solo añadió a la notoriedad de DeepSeek.
Según las pruebas de benchmark internas de DeepSeek, DeepSeek V3 supera tanto a los modelos descargables y abiertos como a los modelos “cerrados” que solo pueden accederse a través de una API, como el modelo GPT-4o de OpenAI.
Igualmente impresionante es el modelo R1 de “razonamiento” de DeepSeek. Lanzado en enero, DeepSeek afirma que R1 realiza tan bien como el modelo o1 de OpenAI en ciertos benchmarks.
Como modelo de razonamiento, R1 efectivamente se autoevalúa, lo que le ayuda a evitar algunos de los errores que suelen cometer los modelos. Los modelos de razonamiento suelen tardar más en llegar a soluciones, generalmente unos segundos a unos minutos más, pero tienden a ser más fiables en dominios como la física, la ciencia y las matemáticas.
Sin embargo, R1, DeepSeek V3 y otros modelos de DeepSeek tienen un inconveniente. Al ser desarrollados en China, están sujetos a pruebas de benchmarking por el regulador de internet de China para asegurarse de que sus respuestas “embodian los valores socialistas fundamentales”. Por ejemplo, R1 no responderá preguntas sobre la Plaza de Tiananmen o la autonomía de Taiwán en la aplicación de chatbot de DeepSeek.
Un enfoque disruptivo
Si DeepSeek tiene un modelo de negocio, no está claro cuál es exactamente. La empresa ofrece sus productos y servicios a precios muy por debajo del mercado y los da gratis a otros.
Según DeepSeek, los avances en eficiencia les han permitido mantener una extrema competitividad en costos. Algunos expertos disputan las cifras que la empresa ha proporcionado.
Sea cual sea el caso, los desarrolladores han adoptado los modelos de DeepSeek, que no son de código abierto en el sentido común, pero están disponibles bajo licencias permisivas que permiten su uso comercial. Según Clem Delangue, CEO de Hugging Face, una de las plataformas que alberga los modelos de DeepSeek, los desarrolladores de Hugging Face han creado más de 500 “derivados” del modelo R1 que han acumulado un total de 2,5 millones de descargas.
El éxito de DeepSeek contra rivales más grandes y establecidos ha sido descrito como “revolucionario” y “exagerado”. La empresa ha sido al menos en parte responsable de que la acción de Nvidia cayera un 18% el lunes y de que el CEO de OpenAI, Sam Altman, respondiera públicamente.
Microsoft anunció que DeepSeek está disponible en su servicio Azure AI Foundry, la plataforma de Microsoft que agrupa los servicios de IA para empresas bajo un mismo paraguas. Cuando se le preguntó sobre el impacto de DeepSeek en los gastos de Meta en infraestructura de IA durante su llamada de resultados del primer trimestre, el CEO Mark Zuckerberg dijo que los gastos en infraestructura de IA seguirán siendo una ventaja estratégica para Meta.
Al mismo tiempo, muchas empresas están prohibiendo DeepSeek, así como países enteros y gobiernos.
En cuanto a lo que el futuro pueda deparar a DeepSeek, está claro que habrá modelos mejorados. Sin embargo, el gobierno estadounidense parece estar cauteloso ante lo que percibe como una influencia perjudicial extranjera.