Entrada

DeepSeek: Todo lo que necesitas saber sobre la aplicación de chatbot de IA

DeepSeek: Todo lo que necesitas saber sobre la aplicación de chatbot de IA

DeepSeek app icon on mobile phone

Créditos de la imagen: GREG BAKER/AFP / Getty Images

DeepSeek se ha vuelto viral.

El laboratorio chino de inteligencia artificial DeepSeek irrumpió en la conciencia mainstream esta semana después de que su aplicación de chatbot se convirtió en la aplicación más descargada de la App Store de Apple (y también en la tienda de aplicaciones Google Play). Los modelos de IA de DeepSeek, que se entrenaron utilizando técnicas eficientes en términos de computación, han llevado a los analistas de Wall Street y a los tecnólogos a cuestionar si Estados Unidos puede mantener su liderazgo en la carrera de la IA y si la demanda de chips de IA se mantendrá.

Pero, ¿de dónde viene DeepSeek y cómo ha logrado alcanzar la fama internacional tan rápidamente?

Orígenes de DeepSeek

DeepSeek está respaldado por High-Flyer Capital Management, un fondo de inversión cuantitativo chino que utiliza IA para informar sus decisiones de trading.

El entusiasta de la IA Liang Wenfeng cofundó High-Flyer en 2015. Wenfeng, quien supuestamente comenzó a interesarse por el trading mientras estudiaba en la Universidad de Zhejiang, lanzó High-Flyer Capital Management como un fondo de inversión en 2019, centrado en el desarrollo y despliegue de algoritmos de IA.

En 2023, High-Flyer comenzó DeepSeek como un laboratorio dedicado a investigar herramientas de IA, separado de su negocio financiero. Con High-Flyer como uno de sus inversores, el laboratorio se convirtió en su propia empresa, también llamada DeepSeek.

Desde el primer día, DeepSeek construyó sus propios clusters de centros de datos para el entrenamiento de modelos. Sin embargo, como otras empresas de IA en China, DeepSeek ha sido afectada por las prohibiciones de exportación de hardware de Estados Unidos. Para entrenar uno de sus modelos más recientes, la empresa tuvo que utilizar chips Nvidia H800, una versión menos poderosa del chip H100, disponible para empresas estadounidenses.

El equipo técnico de DeepSeek se compone principalmente de jóvenes. La empresa recluta agresivamente a investigadores de doctorado en IA de las principales universidades chinas. DeepSeek también contrata a personas sin formación en ciencias de la computación para ayudar a su tecnología a entender una amplia gama de temas, según The New York Times.

Modelos potentes de DeepSeek

DeepSeek presentó su primera serie de modelos — DeepSeek Coder, DeepSeek LLM y DeepSeek Chat — en noviembre de 2023. Pero no fue hasta la primavera pasada, cuando el startup lanzó su familia de modelos DeepSeek-V2 de próxima generación, que la industria de la IA comenzó a prestar atención.

DeepSeek-V2, un sistema de análisis de texto e imágenes de propósito general, se destacó en varios benchmarks de IA y fue mucho más económico de ejecutar en comparación con modelos similares de la época. Esto obligó a sus competidores nacionales, como ByteDance y Alibaba, a reducir los precios de uso de algunos de sus modelos y a hacer otros completamente gratuitos.

DeepSeek-V3, lanzado en diciembre de 2024, solo añadió a la reputación de DeepSeek.

Según las pruebas de benchmark internas de DeepSeek, DeepSeek V3 supera tanto a los modelos descargables y abiertos como a los modelos “cerrados” que solo pueden accederse a través de una API, como el modelo GPT-4o de OpenAI.

Igualmente impresionante es el modelo R1 de “razonamiento” de DeepSeek. Lanzado en enero, DeepSeek afirma que R1 realiza tan bien como el modelo o1 de OpenAI en ciertos benchmarks.

Como modelo de razonamiento, R1 efectivamente se autoevaluación, lo que le ayuda a evitar algunos de los errores comunes que suelen cometer los modelos. Los modelos de razonamiento suelen tardar más tiempo — desde segundos hasta minutos — en llegar a soluciones en comparación con un modelo típico no razonador. La ventaja es que tienden a ser más fiables en dominios como la física, la ciencia y las matemáticas.

Sin embargo, R1, DeepSeek V3 y otros modelos de DeepSeek tienen un inconveniente. Al ser desarrollados en China, están sujetos a evaluaciones de benchmark por el regulador de internet de China para asegurarse de que sus respuestas “embodian los valores sociales fundamentales”. Por ejemplo, R1 no responderá preguntas sobre la Plaza de Tiananmen o la autonomía de Taiwán en la aplicación de chatbot de DeepSeek.

En marzo, DeepSeek superó los 16.5 millones de visitas. “Para marzo, DeepSeek está en segundo lugar, a pesar de que su tráfico ha disminuido un 25% desde febrero, basado en las visitas diarias”, dijo David Carr, editor de Similarweb, a TechCrunch. Aún así, palidece en comparación con ChatGPT, que superó los 500 millones de usuarios activos semanales en marzo.

En mayo, DeepSeek lanzó una versión actualizada de su modelo de IA de razonamiento R1 en la plataforma de desarrolladores Hugging Face.

DeepSeek presentó un nuevo modelo experimental llamado V3.2-exp en septiembre, diseñado para tener costos de inferencia significativamente más bajos cuando se utiliza en operaciones de contexto largo.

Un enfoque disruptivo

Si DeepSeek tiene un modelo de negocio, no está claro cuál es exactamente. La empresa precios sus productos y servicios por debajo del valor de mercado — y los ofrece gratuitamente. Además, no está tomando dinero de inversores, a pesar del gran interés de los VC.

Según DeepSeek, los avances en eficiencia les han permitido mantener una extrema competitividad en costos. Algunos expertos disputan las cifras que la empresa ha proporcionado, sin embargo.

Sea cual sea el caso, los desarrolladores han adoptado los modelos de DeepSeek, que no son de código abierto en el sentido común, pero están disponibles bajo licencias permisivas que permiten su uso comercial. Según Clem Delangue, CEO de Hugging Face, una de las plataformas que alojan los modelos de DeepSeek, los desarrolladores en Hugging Face han creado más de 500 “derivados” del modelo R1 que han acumulado 2.5 millones de descargas en total.

El éxito de DeepSeek contra rivales más grandes y establecidos ha sido descrito como “revolucionario” y “exagerado.” El éxito de la empresa fue al menos en parte responsable de hacer que el precio de las acciones de Nvidia cayera un 18% en enero, y de provocar una respuesta pública del CEO de OpenAI, Sam Altman. En marzo, las oficinas del Departamento de Comercio de EE. UU. informaron a sus empleados que DeepSeek será prohibido en sus dispositivos gubernamentales, según Reuters.

Microsoft anunció que DeepSeek está disponible en su servicio Azure AI Foundry, la plataforma de Microsoft que agrupa los servicios de IA para empresas bajo un mismo paraguas. Cuando se le preguntó sobre el impacto de DeepSeek en el gasto de Meta en infraestructura de IA durante su llamada de resultados del primer trimestre, el CEO Mark Zuckerberg dijo que el gasto en infraestructura de IA seguirá siendo una ventaja estratégica para Meta. En marzo, OpenAI calificó a DeepSeek como “subsidiado por el estado” y “controlado por el estado”, y recomendó que el gobierno de EE. UU. considere prohibir los modelos de DeepSeek.

Durante la llamada de resultados del cuarto trimestre de Nvidia, el CEO Jensen Huang destacó la “excelente innovación” de DeepSeek, señalando que modelos como el suyo son excelentes para Nvidia porque necesitan mucho más computación.

Al mismo tiempo, muchas empresas están prohibiendo DeepSeek, y así lo están haciendo países y gobiernos, incluyendo Corea del Sur. El estado de Nueva York también prohibió el uso de DeepSeek en dispositivos gubernamentales.

En mayo, el vicepresidente y presidente de Microsoft, Brad Smith, declaró en una audiencia del Senado que los empleados de Microsoft no están autorizados a usar DeepSeek debido a preocupaciones de seguridad de datos y propaganda.

En cuanto a lo que el futuro de DeepSeek podría deparar, no está claro. Mejorar los modelos es una certeza. Sin embargo, el gobierno de EE. UU. parece estar creciendo cada vez más preocupado por lo que percibe como una influencia extranjera perjudicial. En marzo, The Wall Street Journal informó que EE. UU. probablemente prohibirá DeepSeek en dispositivos gubernamentales.

Esta historia se publicó por primera vez el 28 de enero de 2025 y se actualizará regularmente.

Esta entrada está licenciada bajo CC BY 4.0 por el autor.