Introdução ao Llama 3.2: O Novo Modelo de IA da Meta

IA | 26 de setembro de 2024 | 1 min de leitura

Visão Geral do Llama 3.2

Apenas dois meses após sua última versão, a Meta lançou o Llama 3.2, seu primeiro modelo de IA multimodal e de código aberto. Esse sistema avançado pode processar texto, imagens, tabelas, gráficos e legendas de imagens, expandindo suas capacidades além da IA baseada apenas em texto.

Aplicações Avançadas de IA

O Llama 3.2 permite que desenvolvedores criem aplicações avançadas com IA, como aplicativos de realidade virtual, mecanismos de busca visual e ferramentas de análise de documentos. Além disso, ele pode processar texto e imagens simultaneamente, facilitando a interação com conteúdo visual.

Competindo com Outras Empresas

Para competir com modelos multimodais de OpenAI e Google, a Meta integrou processamento de imagens ao Llama 3.2. Esse recurso é especialmente relevante para o desenvolvimento de hardware futuro, como os óculos inteligentes Meta Ray-Ban.

Variações do Modelo

O Llama 3.2 está disponível em quatro versões:

• Modelos de Visão: 11 bilhões e 90 bilhões de parâmetros

• Modelos de Texto: 1 bilhão e 3 bilhões de parâmetros

As versões menores são otimizadas para dispositivos com tecnologia ARM, como aqueles com chips Qualcomm e MediaTek, sugerindo uma possível integração em smartphones.

Desempenho Competitivo

A Meta afirma que o Llama 3.2 se destaca no reconhecimento de imagens, competindo com modelos como Claude 3 Haiku (Anthropic) e GPT-4o Mini (OpenAI). Além disso, supera modelos como Gemma e Phi-3.5 Mini em seguimento de instruções, resumo de conteúdo e reformulação de comandos.

Disponibilidade

O Llama 3.2 já está disponível no site Llama.com e através das plataformas parceiras da Meta, como o Hugging Face.

Latamarte