Oracle lança OCI Zettascale10: cluster de infraestrutura em nuvem de próxima geração para IA

Oracle anunciou o OCI Zettascale10, supercluster de IA na nuvem com desempenho inédito e parceria com a OpenAI

Oracle
(Imagem: Divulgação/Oracle)

A Oracle anunciou hoje o Oracle Cloud Infrastructure (OCI) Zettascale10, o maior supercomputador de IA na nuvem. O OCI Zettascale10 conecta centenas de milhares de GPUs NVIDIA em vários data centers para formar clusters multi-gigawatt, que entregam até inéditos 16 zettaFLOPS de desempenho de pico. OCI Zettascale10 é a base do supercluster construído em colaboração com a OpenAI em Abilene, Texas, como parte do Stargate. Construído sobre a arquitetura de rede Oracle Acceleron RoCE de próxima geração, o OCI Zettascale10 é alimentado por infraestrutura de IA NVIDIA que oferece escala revolucionária, latência GPU-GPU extremamente baixa no cluster, liderança em relação custo-desempenho, melhor utilização do cluster e confiabilidade exigida para grandes cargas de trabalho de IA.

O OCI Zettascale10 é uma poderosa evolução do primeiro cluster de computação em nuvem Zettascale, lançado em setembro de 2024. Os clusters OCI Zettascale10 estão em grandes campi de data centers de gigawatt, hiper-otimizados para densidade dentro de um raio de dois quilômetros, para garantir a melhor latência GPU-GPU em cargas de trabalho de treinamento de IA em grande escala. Esta arquitetura está sendo implantada com a OpenAI no site Stargate em Abilene.

“Com o OCI Zettascale10, estamos combinando a inovadora arquitetura de rede Oracle Acceleron RoCE do OCI com a infraestrutura de IA de próxima geração NVIDIA para fornecer capacidade de IA multi-gigawatt em uma escala sem precedentes”, disse Mahesh Thiagarajan, vice-presidente executivo do Oracle Cloud Infrastructure. “Os clientes podem construir, treinar e implementar seus maiores modelos de IA em produção usando menos energia por unidade de desempenho e com alta confiabilidade. Além disso, os clientes terão liberdade para operar em toda a nuvem distribuída da Oracle, com fortes controles de soberania de dados e IA.”

“A rede e o tecido do cluster OCI Zettascale10 foram desenvolvidos e implementados primeiramente no local principal do Stargate em Abilene, Texas – nosso supercluster conjunto com a Oracle”, disse Peter Hoeschele, vice-presidente de Infraestrutura e Computação Industrial da OpenAI. “O design RoCE personalizado e altamente escalável maximiza o desempenho do tecido em escala de gigawatt, mantendo o foco de energia voltado à computação. Estamos animados para continuar escalando Abilene e o programa Stargate mais amplo juntos.”

A OCI planeja oferecer implementações multi-gigawatt do OCI Zettascale10 a seus clientes. Inicialmente, clusters OCI Zettascale10 serão voltados para implementações de até 800.000 GPUs NVIDIA, entregando desempenho previsível e forte eficiência de custos, com alta largura de banda GPU‑a‑GPU viabilizada pela rede RoCEv2 de baixa latência do Oracle Acceleron.

“A Oracle e a NVIDIA estão unindo a nuvem distribuída do OCI e toda nossa infraestrutura de IA full stack para entregar IA em uma escala extraordinária”, disse Ian Buck, vice-presidente de Hyperscale da NVIDIA. “Com infraestrutura de IA full stack da NVIDIA, o OCI Zettascale10 fornece o tecido computacional necessário para avançar a pesquisa de IA de ponta e ajudar organizações em todo o mundo a sair da experimentação e alcançar a IA industrializada.”

Oracle Acceleron RoCE networking entrega escala, confiabilidade e eficiência em IA no OCI Zettascale10

A arquitetura de rede Oracle Acceleron RoCE é uma inovação essencial para clientes construírem, treinarem e inferirem cargas de IA na nuvem, aproveitando ao máximo a potência e as capacidades do OCI Zettascale10. Ela utiliza a capacidade de switching incorporada nas modernas NICs de GPU, que permite sua conexão simultânea a múltiplos switches, cada um em um plano de rede separado e isolado. Essa abordagem aumenta drasticamente a escala e a confiabilidade da rede ao redirecionar o tráfego para outros planos quando há problemas, evitando paradas e reinicializações custosas. Os principais recursos da Oracle Acceleron RoCE networking que auxiliam clientes em cargas críticas de IA incluem:

  • Tecido largo, raso e resiliente: Ajuda clientes a implantar clusters de IA maiores, mais rápido e com menor custo total, usando a NIC da GPU como mini-switch e conectando a múltiplos planos isolados física e logicamente. Isso aumenta a escala enquanto reduz níveis de rede, custos e consumo de energia.
  • Maior confiabilidade: Ajuda clientes a manter a estabilidade dos trabalhos de IA ao eliminar o compartilhamento de dados entre planos. Isso direciona o tráfego para longe de planos instáveis ou congestionados, mantendo os treinamentos em execução e evitando reinicializações onerosas.
  • Desempenho consistente: Disponibiliza aos clientes latência GPU-a-GPU mais uniforme, ao eliminar um nível em comparação aos projetos tradicionais de três níveis, melhorando a previsibilidade em treinamentos e inferência de IA em grande escala.
  • Óptica eficiente em energia: Suporta cargas de clientes com Linear Pluggable Optics (LPO) e Linear Receiver Optics (LRO) para reduzir custos de rede e refrigeração, sem sacrificar throughput de 400G/800G. Isso permite que mais energia do orçamento do cliente vá para o processamento.
  • Flexibilidade operacional: Ajuda clientes a reduzir downtime e acelerar o lançamento de novas funcionalidades por meio de manutenção a nível de plano e atualizações independentes do sistema operacional de rede.
  • A OCI já está aceitando pedidos para o OCI Zettascale10, que estará disponível na segunda metade do próximo ano, com até 800.000 GPUs de infraestrutura de IA NVIDIA.

Fonte: Oracle


Leia também