Enquanto a indústria de IA continua fixada em uma corrida armamentista” maior é melhor ” —liderada pela OpenAI e pela Anthropic em sua busca por modelos de trilhões de Parâmetros-uma revolução mais silenciosa e eficiente está em andamento. A evidência mais recente dessa mudança vem da Zyphra, uma startup baseada em Palo Alto que lançou o ZAYA1-8b, um modelo de raciocínio compacto que desafia o domínio de arquiteturas massivas baseadas em nuvem.
ZAYA1 – 8b contém apenas 8 bilhões de Parâmetros, com apenas 760 milhões ativos em um determinado momento. Apesar deste tamanho modesto, oferece desempenho competitivo com pesos pesados da indústria como * * GPT-5-High e DeepSeek-V3.2. Mais significativamente, foi treinado inteiramente em * * GPUs AMD Instinct MI300, provando que alternativas viáveis ao quase monopólio da Nvidia em hardware de IA não são apenas teóricas, mas práticas e de alto desempenho.
A arquitectura da eficiência
O segredo por trás da “densidade de inteligência” do ZAYA1-8b está em uma arquitetura proprietária chamada MoE++ (mistura de especialistas). Ao contrário dos modelos normalizados de transformadores que processam todos os dados de forma uniforme, o MoE encaminha tarefas específicas para sub-redes especializadas (“peritos”). A Zyphra aprimorou essa abordagem padrão com três inovações críticas:
- ** Atenção convolucional comprimida (CCA): os mecanismos tradicionais de atenção consomem grandes quantidades de memória à medida que as janelas de contexto crescem. O CCA comprime esse processo, reduzindo o tamanho do cache do valor-chave em 8x**. Isso permite que o modelo lide com o raciocínio de contexto longo sem os gargalos típicos de memória.
- ** O Router MLP ZAYA1: * * em vez de utilizar routers lineares simples para decidir qual o PERITO que lida com um token, o Zyphra emprega um design perceptron (MLP) Multicamadas. Para evitar a instabilidade do treino—um problema comum nos modelos MoE—implementaram um esquema de equilíbrio de parcialidade inspirado nos controladores PID da teoria de controlo clássica.
- ** Escala residual aprendida: * * esta técnica gerencia o fluxo de dados através das 40 camadas do modelo, evitando o desaparecimento ou explosão de gradiente com custo computacional insignificante.
Raciocínio Embutido, Não Aparafusado
Um dos principais diferenciais do ZAYA1 – 8B é a sua filosofia de formação. A maioria dos modelos tem capacidades de raciocínio adicionadas durante o pós-treino. O zyphra integrou o raciocínio desde o início do pré-treino utilizando uma técnica denominada corte de preservação de resposta (AP).
- Analogia: * * Imagine um editor de filmes cortando uma longa cena. Em vez de excluir o final (a solução) ou o início (o problema), o editor remove o monólogo do “meio”. O modelo aprende a ligação direta entre problemas complexos e suas soluções, mesmo que a lógica interna completa exceda sua capacidade de memória inicial.
Essa abordagem permite que o modelo domine relações complexas sem ser limitado pelos limites iniciais da janela de contexto 4k, frequentemente vistos nos estágios iniciais de pré-treinamento.
Markovian RSA: pensando mais fundo sem contexto de inchaço
O salto mais impressionante no desempenho do modelo vem do * * RSA Markoviano**, um novo método para computação em tempo de teste (TTC). Tradicionalmente, fazer um modelo “pensar mais” envolve a geração de cadeias de pensamento mais longas, o que muitas vezes leva ao “inchaço do contexto”—onde o modelo perde o foco à medida que a história cresce demais.
A RSA markoviana dissocia a profundidade do pensamento do tamanho do contexto por meio de um processo recursivo:
* O modelo gera múltiplos traços de raciocínio paralelos.
* Extrai apenas as * * “caudas” * * (os últimos milhares de fichas) destes vestígios.
* Essas caudas são combinadas em um novo prompt, solicitando ao modelo que reconcilie as diferentes abordagens em uma solução superior.
Ao levar adiante apenas as conclusões essenciais e não toda a história, ZAYA1-8b pode raciocinar indefinidamente sem transbordar sua janela de contexto. Na prática, isso permitiu que o modelo de parâmetro ativo de 760m obtivesse 91,9% em AIME ’25 (uma referência de competição de matemática do ensino médio), fechando a lacuna com modelos que possuem 30 a 50 vezes sua contagem de parâmetros ativos.
Benchmarking: Perfuração Acima Do Seu Peso
A Zyphra posiciona o ZAYA1 – 8b como uma solução para desenvolvedores que precisam de raciocínio de alto nível sem a latência e o custo dos modelos frontier. Os resultados são convincentes:
-
-
- Matemática e lógica: * * com o RSA Markoviano ativado, o ZAYA1-8b marcou 89,6% no HMMT ’25, superando Claude 4,5 Soneto (79,2%) e GPT-5-Alto (88,3%).
-
-
-
- Codificação: alcançou 69,2% no LiveCodeBench, superando DeepSeek-R1-0528**.
-
-
-
- Instrução seguinte: * * pontuou * * 85,58 no IFEval**, permanecendo competitivo com modelos muito maiores como o Intellect-3 (106b).
-
No entanto, o modelo é um especialista. Fica atrás de modelos maiores em tarefas “pesadas em termos de conhecimento”, como a recuperação factual ampla (MMLU-Pro). Isto sugere uma tendência clara: enquanto o raciocínio pode ser comprimido em núcleos menores e eficientes, a memória factual ainda se beneficia da escala de parâmetros brutos.
Open Source e pronto para empresas
A Zyphra lançou o ZAYA1-8b sob a Licença Apache 2.0, uma escolha estratégica significativa. Ao contrário das licenças” copyleft ” (como a GPL) que exigem que trabalhos derivados permaneçam de código aberto, o Apache 2.0 é permissivo. As empresas podem utilizar, modificar e integrar o ZAYA1-8b em aplicações proprietárias sem obstáculos legais. Também inclui uma concessão explícita de direitos de patente, oferecendo segurança legal para startups baseadas na arquitetura da Zyphra.
** Notas De Implementação:**
** * Hardware: * * otimizado para GPUs AMD Instinct MI300, mas capaz de ser executado em hardware local para implantação de borda.
* * * Software: * * requer bifurcações específicas das bibliotecasvllm e` transformers’.
* * * Escala: * * a Zyphra recomenda o paralelismo de dados (DP) combinado com o paralelismo especializado (EP). O paralelismo tensorial (TP) não é actualmente suportado para o mecanismo CCA.
Por que isso importa: o fim do monólito?
A Zyphra, fundada em 2021 e liderada pelo CEO Krithik Puthalath e pelo Cientista-Chefe Beren Millidge, é impulsionada por uma missão para desafiar o domínio centralizado da IA em nuvem. Com o recente financiamento da * AMD, IBM e outros *, a empresa alcançou o status de “unicórnio”, sinalizando forte confiança da indústria nessa abordagem descentralizada.
O lançamento do ZAYA1 – 8b ressoa com um sentimento crescente na comunidade de IA: a eficiência é a próxima fronteira. À medida que os benefícios de simplesmente adicionar mais parâmetros começam a se estabilizar, modelos que podem “pensar de forma mais inteligente” em vez de “maiores” oferecem um caminho viável a seguir. Para as empresas, isso significa que as capacidades de raciocínio de alto nível podem ser implantadas localmente, abordando preocupações críticas em relação à residência de dados, latência e custo.
ZAYA1 – 8b prova que você não precisa de um trilhão de parâmetros para resolver problemas complexos—você só precisa da arquitetura certa, do método de treinamento certo e da liberdade de escolher seu hardware.




























