A Meta lançou a tão esperada série Llama 3, com os dois primeiros modelos, Llama 3-8B e Llama 3-70B.

Há alguns dias, em um evento em Londres, os executivos da Meta, Nick Clegg e Yann LeCun, anunciaram que o Llama 3 seria lançado ainda este mês.

As duas primeiras versões foram lançadas ontem, marcando o terceiro e quarto grandes modelos abertos lançados este mês, após o Grok-1.5V da xAI e o 8x22B da Mistral.

O Llama 3 foi pré-treinado em impressionantes 15 trilhões de tokens, um aumento de sete vezes em relação ao Llama 2. Os dados de pré-treinamento também incluem quatro vezes mais código.

Por baixo dos códigos, o Llama 3 introduz melhorias arquitetônicas, como um tokenizer mais eficiente com um vocabulário maior de 128 mil tokens.

Veja um resumo do desempenho do Llama 3

Desempenho do Llama 3 8B

  • Supera modelos como o 7B da Mistral e o Gemma 7B do Google em várias avaliações.
  • Excelente em MMLU, ARC, DROP, GPQA (principalmente perguntas baseadas em ciência), HumanEval (geração de código), GSM-8K (problemas de matemática), MATH (avaliação de matemática), AGIEval (resolução de problemas) e BIG-Bench Hard (senso comum).

Comparação de 70B com outros modelos

  • Llama 3 70B é competitivo com os principais modelos de IA, como o Gemini 1.5 Pro do Google.
  • Supera o Gemini 1.5 Pro em MMLU, HumanEval e GSM-8K.
  • Apresenta melhor desempenho que o Claude 3 Sonnet da Anthropic (o modelo intermediário da série Claude 3) em cinco avaliações: MMLU, GPQA, HumanEval, GSM-8K e MATH.

Esses são excelentes resultados para um modelo aberto (embora a licença da Meta tenha algumas limitações).

Isso faz do Llama 3 o novo modelo de código aberto de melhor desempenho (de certa forma livre).

O Llama 3 também será mais palatável e menos teimoso de usar – menos respostas nulas e maior precisão para perguntas de trivia, fatos históricos e consultas relacionadas a STEM.

O Llama 3 está prestes a se tornar amplamente disponível em plataformas importantes, incluindo serviços de nuvem e provedores de API.

A Meta já está trabalhando para expandir o Llama 3 para 400 bilhões de parâmetros e adicionar novas funções como multimodalidade, suporte multilíngue e compreensão contextual estendida.

IA’s rebeldes da Meta

No que diz respeito ao papel rebelde da Meta na IA gerativa, a empresa emergiu de muitas maneiras como a rebelde da indústria.

Yann LeCun, cientista chefe de IA da Meta e uma das figuras mais respeitadas do mundo das IA’s, sustenta algumas visões que podem ser vistas como dissidentes sobre a direção da IA – visões que criticam projetos de código fechado dos concorrentes de Big Tech da Meta.

Enquanto isso, Nick Clegg, ex-vice primeiro-ministro do Reino Unido e chefe de Assuntos Globais, foi criticado por algumas de suas visões por vezes “deixa acontecer” sobre os produtos de IA da Meta, o que pode não surpreender os britânicos.

Na semana passada, Clegg pareceu minimizar os impactos da IA na manipulação eleitoral e deep fake. Uma visão que contraria claramente a narrativa predominante de que os deep fakes poderiam ser (ou já são) profundamente destrutivos.

De fato, o Conselho de Supervisão da Meta está investigando ativamente dois casos de pornografia deep fake agora. O Conselho considerou que as ações de moderação de conteúdo da Meta foram muito lentas.

A Meta também tem sido otimista sobre a melhoria da qualidade de seus modelos. Joelle Pineau, vice-presidente de pesquisa de IA da Meta, disse: “De muitas maneiras, os modelos que temos hoje serão brincadeira de criança comparados aos modelos que virão em cinco anos”.

Pineau também alertou: “Se continuarmos a crescer nosso modelo cada vez mais em geral e poderoso sem socializá-los adequadamente, vamos ter um grande problema em mãos.”

O lançamento do Llama 3 também ocorre enquanto os agentes de IA do Facebook da Meta causam comoção nas redes sociais.

Em um grupo do Facebook para pais de Nova York, um assistente de IA da Meta – projetado para fornecer conselhos e responder perguntas – chocou as pessoas ao afirmar ter um “filho dotado e com deficiência” frequentando uma escola específica de Nova Iorque para “dotados e talentosos”.

Quando confrontado pelos membros do grupo, a IA admitiu: “Eu sou apenas um grande modelo de linguagem, não tenho experiências pessoais ou filhos”, em um incidente que alguns rotularam de Black Mirror.

Llama 3, Grok-1.5 e os modelos da Mistral estão transferindo mais poder para as comunidades de código aberto, diluindo ainda mais o mercado de IA gerativa.

Mas isso pode ser uma coisa boa, pois agora é a sobrevivência do mais apto, e a bola está firmemente no campo da Microsoft-OpenAI, que é antecipada para fazer o próximo movimento neste fascinante jogo de xadrez de IA generativa.

Teremos o maior prazer em ouvir seus pensamentos

Deixe uma Comentário

IA Tech Brasil
Logo
Shopping cart