IA | 26 de septiembre de 2024 | 1 min de lectura
Resumen de Llama 3.2
Solo dos meses después de su última versión, Meta ha lanzado Llama 3.2, su primer modelo de IA multimodal y de código abierto. Este sistema avanzado puede procesar texto, imágenes, tablas, gráficos y subtítulos de imágenes, ampliando sus capacidades más allá de la IA tradicional basada en texto.
Aplicaciones Avanzadas de IA
Llama 3.2 permite a los desarrolladores crear aplicaciones avanzadas impulsadas por IA, como aplicaciones de realidad virtual, motores de búsqueda visual y herramientas de análisis de documentos. Además, puede procesar texto e imágenes simultáneamente, lo que facilita la interacción con contenido visual.
Manteniéndose Competitivo
Para competir con modelos multimodales de OpenAI y Google, Meta ha integrado procesamiento de imágenes en Llama 3.2. Esta función es especialmente relevante para futuros desarrollos de hardware, como las gafas inteligentes Meta Ray-Ban.
Variantes del Modelo
Llama 3.2 está disponible en cuatro versiones:
• Modelos de Visión: 11 mil millones y 90 mil millones de parámetros
• Modelos de Texto: 1 mil millones y 3 mil millones de parámetros
Las versiones más pequeñas están optimizadas para dispositivos con tecnología ARM, como aquellos con chips Qualcomm y MediaTek, lo que sugiere una posible integración en teléfonos inteligentes.
Rendimiento Competitivo
Meta afirma que Llama 3.2 destaca en reconocimiento de imágenes, compitiendo con modelos como Claude 3 Haiku (Anthropic) y GPT-4o Mini (OpenAI). Además, supera a modelos como Gemma y Phi-3.5 Mini en seguimiento de instrucciones, resumen de contenido y reformulación de indicaciones.
Disponibilidad
Llama 3.2 ya está disponible en Llama.com y a través de las plataformas asociadas de Meta, como Hugging Face.
Latamarte