A Amazon Web Services (AWS) realizou o lançamento oficial dos Trainium3 UltraServers, sua mais recente geração de chips para treinamento de inteligência artificial (IA). A nova tecnologia surge como parte da estratégia da AWS para competir no mercado de aceleradores de IA, um território atualmente dominado pela Nvidia e que também recebe crescente atenção do Google.
Os chips Trainium3, manufaturados com um processo de 3 nanômetros, proporcionam melhorias significativas em termos de processamento e eficiência energética, superando sua versão anterior. Com até 144 chips por sistema, os UltraServers são capazes de entregar até 362 PFLOPs em FP8, oferecendo um desempenho até 4,4 vezes maior que o da linha anterior Trainium2 e ampliando a largura de banda de memória em quase quatro vezes.
Testes internos com o modelo de código aberto GPT-OSS revelaram que o Trainium3 alcançou um throughput três vezes maior por chip, além de respostas até quatro vezes mais rápidas, graças a melhorias na interconexão entre chips e um novo design de memória. Em termos de eficiência energética, o chip foi projetado para apresentar uma eficiência cerca de 40% superior à geração passada, resultando em menor custo operacional e redução do impacto ambiental.
Além dos chips, a AWS implementou uma infraestrutura de rede aprimorada para os UltraServers, incluindo o NeuronSwitch-v1, que duplica a largura de banda interna e otimiza a comunicação entre chips, cortando a latência para menos de 10 microsegundos. Esse trabalho em rede possibilita a execução de modelos avançados, como arquiteturas de mixture-of-experts (MoE) e aplicações de aprendizado por reforço.
Empresas como Anthropic e Karakuri relataram reduções de até 50% nos custos de treinamento ao adotarem a família Trainium. A startup Decart, dedicada ao desenvolvimento de modelos de vídeo generativo, destacou um desempenho quadruplicado e custos pela metade ao comparar o Trainium3 com GPUs convencionais. A AWS também anunciou que o Amazon Bedrock já está operando sobre a nova infraestrutura, sinalizando sua prontidão para grande escala.
O lançamento do Trainium3 acontece em um contexto competitivo com a Nvidia, que continua sendo a referência em chips para IA. A AWS não tem a intenção de substituir a Nvidia, mas sim expandir as opções do mercado. Futuramente, a próxima geração de chips, o Trainium4, está sendo desenvolvida, com expectativas de avanço significativo em desempenho e integração com a tecnologia NVLink Fusion, ampliando ainda mais as possibilidades para cargas de trabalho em IA.







