“Pequenos, mas poderosos”: Microsoft apresenta seu novo modelo de linguagem, o Phi-3

Logo da Microsoft

A Microsoft anunciou a família de modelos abertos Phi-3, os modelos de linguagem pequenos mais capazes e econômicos disponíveis. Os modelos Phi-3 superam os modelos do mesmo tamanho e do próximo tamanho em uma variedade de benchmarks que avaliam capacidades de linguagem, codificação e matemática, graças a inovações de treinamento desenvolvidas por pesquisadores da Microsoft.

A Microsoft agora está disponibilizando publicamente o primeiro dessa família de modelos de linguagem pequenos mais poderosos: o Phi-3-mini, medindo 3,8 bilhões de parâmetros, que tem desempenho melhor do que modelos com o dobro do tamanho, disse a empresa.

A partir de hoje, ele estará disponível no Catálogo de Modelos de IA do Microsoft Azure e no Hugging Face, uma plataforma para modelos de aprendizado de máquina, bem como no Ollama, uma estrutura leve para executar modelos em uma máquina local. Ele também estará disponível como um microsserviço NVIDIA NIM com uma interface de API padrão que pode ser implantada em qualquer lugar.

A Microsoft também anunciou que modelos adicionais da família Phi-3 chegarão em breve para oferecer mais opções de qualidade e custo. O Phi-3-small (7 bilhões de parâmetros) e o Phi-3-medium (14 bilhões de parâmetros) estarão disponíveis no Catálogo de Modelos de IA do Azure e em outros jardins de modelos em breve.

Gráfico comparando Qualidade x Tamanho de diferentes modelos de linguagens pequenos
(Imagem: Divulgação/Microsoft)

Por que isso importa?

Os modelos de linguagem grande (LLMs) criaram novas oportunidades para sermos mais produtivos e criativos usando IA. Mas o tamanho deles significa que eles podem exigir recursos computacionais significativos para operar.

Embora esses modelos ainda sejam o padrão-ouro para resolver muitos tipos de tarefas complexas, a Microsoft vem desenvolvendo uma série de modelos de linguagem pequenos (SLMs) que oferecem muitos dos mesmos recursos encontrados nos LLMs, mas são menores em tamanho e são treinados em quantidades menores de dados.

Os pequenos modelos de linguagem e suas vantagens

Os modelos de linguagem pequenos são projetados para ter um bom desempenho em tarefas mais simples, são mais acessíveis e fáceis de usar para organizações com recursos limitados e podem ser mais facilmente ajustados para atender a necessidades específicas.

Algumas das vantagens dos SLMs incluem:

  • Capacidade de executar localmente em um dispositivo (em oposição à nuvem)
  • Adequados para tarefas que não exigem muito raciocínio ou precisam de uma resposta rápida
  • Oferecem soluções potenciais para setores regulamentados que precisam de resultados de alta qualidade, mas querem manter os dados em suas próprias instalações
  • Podem ser colocados em smartphones e outros dispositivos móveis que operam “na borda”, não conectados à nuvem
  • Ao manter os dados no dispositivo, os usuários podem “minimizar a latência e maximizar a privacidade”
  • Permitem que mais pessoas coloquem a IA para trabalhar de maneiras que não eram possíveis anteriormente, como em áreas rurais sem serviço de celular

O papel dos dados de alta qualidade

Os pesquisadores da Microsoft conseguiram desenvolver modelos de linguagem pequenos que podem oferecer resultados extraordinários em um pacote minúsculo. Esse avanço foi possibilitado por uma abordagem altamente seletiva aos dados de treinamento.

Em vez de treinar apenas em dados brutos da web, eles focaram em dados de altíssima qualidade. Inspirados em livros infantis, eles criaram um conjunto de dados discreto começando com 3.000 palavras e pediram a um LLM para criar histórias infantis usando combinações dessas palavras. Eles chamaram o conjunto de dados resultante de “TinyStories”.

Em seguida, eles usaram dados disponíveis publicamente, cuidadosamente selecionados com base no valor educacional e na qualidade do conteúdo, para treinar o Phi-1. Eles aprimoraram ainda mais o conjunto de dados abordando a seleção de dados como um professor que divide conceitos difíceis para um aluno. Esse conjunto de dados foi apelidado de “CodeTextbook”.

Começar com dados cuidadosamente selecionados ajuda a reduzir a probabilidade de os modelos retornarem respostas indesejadas ou inadequadas. Mas mesmo os modelos de linguagem pequenos treinados em dados de alta qualidade têm limitações. Eles não são projetados para recuperação de conhecimento aprofundado, onde os modelos de linguagem grande se destacam devido à sua maior capacidade e treinamento usando conjuntos de dados muito maiores.

Escolhendo o modelo de linguagem do tamanho certo para a tarefa certa

Os LLMs são melhores do que os SLMs no raciocínio complexo sobre grandes quantidades de informações devido ao seu tamanho e poder de processamento. Essa é uma função que pode ser relevante para a descoberta de medicamentos, por exemplo, ajudando a pesquisar vastos repositórios de artigos científicos, analisar padrões complexos e entender interações entre genes, proteínas ou produtos químicos.

Já os SLMs estão mais bem posicionados para computações onde você não precisa ir para a nuvem para fazer as coisas. Eles podem ser colocados em uso em áreas rurais que não têm serviço de celular.

Considere um agricultor inspecionando plantações que encontra sinais de doença em uma folha ou galho. Usando um SLM com capacidade visual, o agricultor poderia tirar uma foto da cultura em questão e obter recomendações imediatas sobre como tratar pragas ou doenças.

Escolher o modelo de linguagem certo depende das necessidades específicas de uma organização, da complexidade da tarefa e dos recursos disponíveis. Mas o lançamento da família de modelos Phi-3 pela Microsoft oferece novas e empolgantes opções para tornar a IA mais acessível a mais pessoas.

Fonte: Microsoft

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima