IA | 26 de setembro de 2024 | 1 min de leitura
Visão Geral do Llama 3.2
Apenas dois meses após sua última versão, a Meta lançou o Llama 3.2, seu primeiro modelo de IA multimodal e de código aberto. Esse sistema avançado pode processar texto, imagens, tabelas, gráficos e legendas de imagens, expandindo suas capacidades além da IA baseada apenas em texto.
Aplicações Avançadas de IA
O Llama 3.2 permite que desenvolvedores criem aplicações avançadas com IA, como aplicativos de realidade virtual, mecanismos de busca visual e ferramentas de análise de documentos. Além disso, ele pode processar texto e imagens simultaneamente, facilitando a interação com conteúdo visual.
Competindo com Outras Empresas
Para competir com modelos multimodais de OpenAI e Google, a Meta integrou processamento de imagens ao Llama 3.2. Esse recurso é especialmente relevante para o desenvolvimento de hardware futuro, como os óculos inteligentes Meta Ray-Ban.
Variações do Modelo
O Llama 3.2 está disponível em quatro versões:
• Modelos de Visão: 11 bilhões e 90 bilhões de parâmetros
• Modelos de Texto: 1 bilhão e 3 bilhões de parâmetros
As versões menores são otimizadas para dispositivos com tecnologia ARM, como aqueles com chips Qualcomm e MediaTek, sugerindo uma possível integração em smartphones.
Desempenho Competitivo
A Meta afirma que o Llama 3.2 se destaca no reconhecimento de imagens, competindo com modelos como Claude 3 Haiku (Anthropic) e GPT-4o Mini (OpenAI). Além disso, supera modelos como Gemma e Phi-3.5 Mini em seguimento de instruções, resumo de conteúdo e reformulação de comandos.
Disponibilidade
O Llama 3.2 já está disponível no site Llama.com e através das plataformas parceiras da Meta, como o Hugging Face.
Latamarte