Introducción a Llama 3.2: El Nuevo Modelo de IA de Meta

IA | 26 de septiembre de 2024 | 1 min de lectura

Resumen de Llama 3.2

Solo dos meses después de su última versión, Meta ha lanzado Llama 3.2, su primer modelo de IA multimodal y de código abierto. Este sistema avanzado puede procesar texto, imágenes, tablas, gráficos y subtítulos de imágenes, ampliando sus capacidades más allá de la IA tradicional basada en texto.

Aplicaciones Avanzadas de IA

Llama 3.2 permite a los desarrolladores crear aplicaciones avanzadas impulsadas por IA, como aplicaciones de realidad virtual, motores de búsqueda visual y herramientas de análisis de documentos. Además, puede procesar texto e imágenes simultáneamente, lo que facilita la interacción con contenido visual.

Manteniéndose Competitivo

Para competir con modelos multimodales de OpenAI y Google, Meta ha integrado procesamiento de imágenes en Llama 3.2. Esta función es especialmente relevante para futuros desarrollos de hardware, como las gafas inteligentes Meta Ray-Ban.

Variantes del Modelo

Llama 3.2 está disponible en cuatro versiones:

• Modelos de Visión: 11 mil millones y 90 mil millones de parámetros

• Modelos de Texto: 1 mil millones y 3 mil millones de parámetros

Las versiones más pequeñas están optimizadas para dispositivos con tecnología ARM, como aquellos con chips Qualcomm y MediaTek, lo que sugiere una posible integración en teléfonos inteligentes.

Rendimiento Competitivo

Meta afirma que Llama 3.2 destaca en reconocimiento de imágenes, compitiendo con modelos como Claude 3 Haiku (Anthropic) y GPT-4o Mini (OpenAI). Además, supera a modelos como Gemma y Phi-3.5 Mini en seguimiento de instrucciones, resumen de contenido y reformulación de indicaciones.

Disponibilidad

Llama 3.2 ya está disponible en Llama.com y a través de las plataformas asociadas de Meta, como Hugging Face.

Latamarte