Entrada

Meta Llama: Todo lo que necesitas saber sobre el modelo de inteligencia artificial generativa abierto.

Meta Llama: Todo lo que necesitas saber sobre el modelo de inteligencia artificial generativa abierto.

Como todas las grandes empresas tecnológicas de hoy en día, Meta tiene su propio modelo de inteligencia artificial generativa de bandera, llamado Llama. Llama es algo único entre los principales modelos en que es “abierto”, lo que significa que los desarrolladores pueden descargarlo y usarlo como les plazca (con ciertas limitaciones). Esto contrasta con modelos como los de Anthropic, Google, xAI y la mayoría de los modelos de ChatGPT de OpenAI, que solo pueden accederse a través de APIs.

En interés de ofrecer a los desarrolladores más opciones, sin embargo, Meta también ha colaborado con proveedores, incluyendo AWS, Google Cloud y Microsoft Azure, para hacer versiones de Llama alojadas en la nube disponibles. Además, la empresa publica herramientas, bibliotecas y recetas en su Llama cookbook para ayudar a los desarrolladores a afinar, evaluar y adaptar los modelos a sus dominios. Con generaciones más recientes como Llama 3 y Llama 4, estas capacidades se han ampliado para incluir soporte nativo multimodal y despliegues más amplios en la nube.

Esto es todo lo que necesitas saber sobre Llama de Meta, desde sus capacidades y ediciones hasta dónde puedes usarlo. Mantendremos esta publicación actualizada a medida que Meta lance mejoras y nuevas herramientas de desarrollo para apoyar el uso del modelo.

¿Qué es Llama?

Llama es una familia de modelos, no solo uno. La última versión es Llama 4; fue lanzada en abril de 2025 y incluye tres modelos:

  • Scout: 17 mil millones de parámetros activos, 109 mil millones de parámetros totales y una ventana de contexto de 10 millones de tokens.
  • Maverick: 17 mil millones de parámetros activos, 400 mil millones de parámetros totales y una ventana de contexto de 1 millón de tokens.
  • Behemoth: No ha sido lanzado aún, pero tendrá 288 mil millones de parámetros activos y 2 billones de parámetros totales.

(En ciencia de datos, los tokens son bits subdivididos de datos brutos, como las sílabas “fan”, “tas” y “tic” en la palabra “fantástico”.)

La ventana de contexto de un modelo, o ventana de contexto, se refiere a los datos de entrada (por ejemplo, texto) que el modelo considera antes de generar la salida (por ejemplo, texto adicional). Un contexto largo puede ayudar a que los modelos no “olviden” el contenido de documentos recientes y datos, y no se desvíen del tema y generen información incorrecta. Sin embargo, las ventanas de contexto más largas también pueden hacer que el modelo “olvide” ciertas barreras de seguridad y sea más propenso a producir contenido que esté alineado con la conversación, lo que ha llevado a algunos usuarios a tener pensamientos delirantes.

Para referencia, la ventana de contexto de 10 millones de tokens que Llama 4 Scout promete es aproximadamente el texto de unos 80 novels promedio. Llama 4 Maverick tiene una ventana de contexto de 1 millón de tokens, que es aproximadamente el texto de ocho novels.

Todos los modelos de Llama 4 fueron entrenados en “grandes cantidades de texto, imágenes y videos sin etiquetar” para darles una “comprensión visual amplia”, así como en 200 idiomas, según Meta.

Llama 4 Scout y Maverick son los primeros modelos de peso abierto nativamente multimodales de Meta. Están construidos utilizando una arquitectura “mixture-of-experts” (MoE), que reduce la carga computacional y mejora la eficiencia en el entrenamiento e inferencia. Scout, por ejemplo, tiene 16 expertos, y Maverick tiene 128 expertos.

Llama 4 Behemoth incluye 16 expertos, y Meta lo refiere como un maestro para los modelos más pequeños.

Llama 4 se basa en la serie Llama 3, que incluyó los modelos 3.1 y 3.2 ampliamente utilizados para aplicaciones de instrucción y despliegue en la nube.

¿Qué puede hacer Llama?

Al igual que otros modelos de inteligencia artificial generativa, Llama puede realizar una variedad de tareas asistivas, como codificar y responder preguntas de matemáticas básicas, así como resumir documentos en al menos 12 idiomas (árabe, inglés, alemán, francés, hindi, indonesio, italiano, portugués, hindi, español, tagalo, tailandés y vietnamita). La mayoría de las cargas de trabajo basadas en texto, como analizar grandes archivos como PDFs y hojas de cálculo, están dentro de su ámbito, y todos los modelos de Llama 4 soportan entrada de texto, imagen y video.

Llama 4 Scout está diseñado para flujos de trabajo más largos y análisis de grandes datos. Maverick es un modelo generalista que es mejor para equilibrar el poder de razonamiento y la velocidad de respuesta, y es adecuado para codificación, chatbots y asistentes técnicos. Y Behemoth está diseñado para investigación avanzada, distilación de modelos y tareas de STEM.

Los modelos de Llama, incluidos Llama 3.1, pueden configurarse para aprovechar aplicaciones, herramientas y APIs de terceros para realizar tareas. Están entrenados para usar Brave Search para responder preguntas sobre eventos recientes; la API de Wolfram Alpha para consultas relacionadas con matemáticas y ciencia; y un intérprete de Python para validar código. Sin embargo, estas herramientas requieren configuración adecuada y no están habilitadas automáticamente.

¿Dónde puedo usar Llama?

Si estás buscando simplemente chatear con Llama, está alimentando la experiencia del chatbot de AI de Meta en Facebook Messenger, WhatsApp, Instagram, Oculus y Meta.ai en 40 países. Versiones afinadas de Llama se utilizan en experiencias de AI de Meta en más de 200 países y territorios.

Los modelos Llama 4 Scout y Maverick están disponibles en Llama.com y en los socios de Meta, incluyendo la plataforma de desarrolladores de AI Hugging Face. Behemoth aún está en entrenamiento. Los desarrolladores que construyen con Llama pueden descargar, usar o afinar el modelo en la mayoría de las plataformas de nube populares. Meta afirma tener más de 25 socios que alojan Llama, incluyendo Nvidia, Databricks, Groq, Dell y Snowflake. Y aunque “vender acceso” a los modelos abiertos de Meta no es su modelo de negocio, la empresa gana dinero a través de acuerdos de compartición de ingresos con los alojadores del modelo.

Algunos de estos socios han construido herramientas y servicios adicionales sobre Llama, incluyendo herramientas que permiten a los modelos referenciar datos propietarios y ejecutarse a latencias más bajas.

Importantemente, la licencia de Llama restringe cómo los desarrolladores pueden desplegar el modelo: los desarrolladores de aplicaciones con más de 700 millones de usuarios mensuales deben solicitar una licencia especial de Meta que la empresa otorgará a su discreción.

En mayo de 2025, Meta lanzó un nuevo programa para incentivar a las startups a adoptar sus modelos Llama. Llama for Startups ofrece a las empresas apoyo del equipo de Llama de Meta y acceso a posibles financiamientos.

¿Qué herramientas ofrece Meta para Llama?

Además de Llama, Meta proporciona herramientas destinadas a hacer el modelo “seguro” para usar:

  • Llama Guard, un marco de moderación.
  • CyberSecEval, un conjunto de evaluaciones de riesgos cibernéticos.
  • Llama Firewall, una barrera de seguridad diseñada para permitir la construcción de sistemas de AI seguros.
  • Code Shield, que proporciona soporte para el filtrado de código inseguro en tiempo de inferencia.

Llama Guard intenta detectar contenido potencialmente problemático, ya sea alimentado en o generado por un modelo Llama, incluyendo contenido relacionado con actividades criminales, explotación infantil, violaciones de derechos de autor, odio, autolesión y abuso sexual. Dicho esto, claramente no es una solución mágica, ya que las directrices anteriores de Meta permitieron que el chatbot tuviera chats románticos con menores, y algunos informes muestran que esos chats se convirtieron en conversaciones sexuales. Los desarrolladores pueden personalizar las categorías de contenido bloqueado y aplicarlas a todos los idiomas que Llama soporta.

Al igual que Llama Guard, Prompt Guard puede bloquear texto destinado a Llama, pero solo texto destinado a “atacar” el modelo y hacer que se comporte de maneras indeseables. Meta afirma que Llama Guard puede defenderse contra prompts explícitamente maliciosos (es decir, jailbreaks que intentan eludir los filtros de seguridad integrados en Llama) además de prompts que contienen entradas inyectadas. El Llama Firewall trabaja para detectar y prevenir riesgos como la inyección de prompts, el código inseguro y las interacciones de herramientas riesgosas. Y Code Shield ayuda a mitigar sugerencias de código inseguro y ofrece ejecución de comandos segura para siete lenguajes de programación.

En cuanto a CyberSecEval, es más una colección de benchmarks para medir la seguridad del modelo. CyberSecEval puede evaluar el riesgo que un modelo Llama representa (al menos según los criterios de Meta) para desarrolladores de aplicaciones y usuarios finales en áreas como “ingeniería social automatizada” y “operaciones cibernéticas ofensivas a gran escala”.

Limitaciones de Llama

Créditos de la imagen: Artificial Analysis

Llama viene con ciertos riesgos y limitaciones, como todos los modelos de inteligencia artificial generativa. Por ejemplo, aunque su modelo más reciente tiene características multimodales, estas están principalmente limitadas al inglés por ahora.

Desglosando, Meta utilizó un conjunto de datos de libros electrónicos pirateados y artículos para entrenar sus modelos Llama. Un juez federal recently falló a favor de Meta en un litigio por derechos de autor presentado por 13 autores de libros, determinando que el uso de obras protegidas por derechos de autor para el entrenamiento caía bajo “uso justo”. Sin embargo, si Llama regurgita un fragmento protegido por derechos de autor y alguien lo utiliza en un producto, podrían estar infringiendo derechos de autor y ser responsables.

Meta también entrena sus AI en publicaciones de Instagram y Facebook, fotos y captiones, y hace difícil que los usuarios opten por no participar.

La programación es otra área donde es prudente proceder con cautela al usar Llama. Esto es porque Llama podría, perhaps more so than its generative AI counterparts, producir código con errores o inseguro. En LiveCodeBench, un benchmark que prueba modelos de AI en problemas de codificación competitivos, el modelo Llama 4 Maverick de Meta logró una puntuación del 40%. Esto es en comparación con el 85% de OpenAI’s GPT-5 high y el 83% de xAI’s Grok 4 Fast.

Como siempre, es mejor que un experto humano revise cualquier código generado por AI antes de incorporarlo en un servicio o software.

Finalmente, como con otros modelos de AI, los modelos de Llama aún son responsables de generar información plausible pero falsa o engañosa, ya sea en codificación, asesoramiento legal o conversaciones emocionales con personas de AI.

Esto fue originalmente publicado el 8 de septiembre de 2024 y se actualiza regularmente con nueva información.

Kyle Wiggers

Kyle Wiggers

Rebecca Bellan

Rebecca Bellan

Esta entrada está licenciada bajo CC BY 4.0 por el autor.