Oracle lança OCI Zettascale10: cluster de infraestrutura em nuvem de próxima geração para IA
Oracle anunciou o OCI Zettascale10, supercluster de IA na nuvem com desempenho inédito e parceria com a OpenAI
Oracle anunciou o OCI Zettascale10, supercluster de IA na nuvem com desempenho inédito e parceria com a OpenAI
A Oracle anunciou hoje o Oracle Cloud Infrastructure (OCI) Zettascale10, o maior supercomputador de IA na nuvem. O OCI Zettascale10 conecta centenas de milhares de GPUs NVIDIA em vários data centers para formar clusters multi-gigawatt, que entregam até inéditos 16 zettaFLOPS de desempenho de pico. OCI Zettascale10 é a base do supercluster construído em colaboração com a OpenAI em Abilene, Texas, como parte do Stargate. Construído sobre a arquitetura de rede Oracle Acceleron RoCE de próxima geração, o OCI Zettascale10 é alimentado por infraestrutura de IA NVIDIA que oferece escala revolucionária, latência GPU-GPU extremamente baixa no cluster, liderança em relação custo-desempenho, melhor utilização do cluster e confiabilidade exigida para grandes cargas de trabalho de IA.
O OCI Zettascale10 é uma poderosa evolução do primeiro cluster de computação em nuvem Zettascale, lançado em setembro de 2024. Os clusters OCI Zettascale10 estão em grandes campi de data centers de gigawatt, hiper-otimizados para densidade dentro de um raio de dois quilômetros, para garantir a melhor latência GPU-GPU em cargas de trabalho de treinamento de IA em grande escala. Esta arquitetura está sendo implantada com a OpenAI no site Stargate em Abilene.
“Com o OCI Zettascale10, estamos combinando a inovadora arquitetura de rede Oracle Acceleron RoCE do OCI com a infraestrutura de IA de próxima geração NVIDIA para fornecer capacidade de IA multi-gigawatt em uma escala sem precedentes”, disse Mahesh Thiagarajan, vice-presidente executivo do Oracle Cloud Infrastructure. “Os clientes podem construir, treinar e implementar seus maiores modelos de IA em produção usando menos energia por unidade de desempenho e com alta confiabilidade. Além disso, os clientes terão liberdade para operar em toda a nuvem distribuída da Oracle, com fortes controles de soberania de dados e IA.”
“A rede e o tecido do cluster OCI Zettascale10 foram desenvolvidos e implementados primeiramente no local principal do Stargate em Abilene, Texas – nosso supercluster conjunto com a Oracle”, disse Peter Hoeschele, vice-presidente de Infraestrutura e Computação Industrial da OpenAI. “O design RoCE personalizado e altamente escalável maximiza o desempenho do tecido em escala de gigawatt, mantendo o foco de energia voltado à computação. Estamos animados para continuar escalando Abilene e o programa Stargate mais amplo juntos.”
A OCI planeja oferecer implementações multi-gigawatt do OCI Zettascale10 a seus clientes. Inicialmente, clusters OCI Zettascale10 serão voltados para implementações de até 800.000 GPUs NVIDIA, entregando desempenho previsível e forte eficiência de custos, com alta largura de banda GPU‑a‑GPU viabilizada pela rede RoCEv2 de baixa latência do Oracle Acceleron.
“A Oracle e a NVIDIA estão unindo a nuvem distribuída do OCI e toda nossa infraestrutura de IA full stack para entregar IA em uma escala extraordinária”, disse Ian Buck, vice-presidente de Hyperscale da NVIDIA. “Com infraestrutura de IA full stack da NVIDIA, o OCI Zettascale10 fornece o tecido computacional necessário para avançar a pesquisa de IA de ponta e ajudar organizações em todo o mundo a sair da experimentação e alcançar a IA industrializada.”
Oracle Acceleron RoCE networking entrega escala, confiabilidade e eficiência em IA no OCI Zettascale10
A arquitetura de rede Oracle Acceleron RoCE é uma inovação essencial para clientes construírem, treinarem e inferirem cargas de IA na nuvem, aproveitando ao máximo a potência e as capacidades do OCI Zettascale10. Ela utiliza a capacidade de switching incorporada nas modernas NICs de GPU, que permite sua conexão simultânea a múltiplos switches, cada um em um plano de rede separado e isolado. Essa abordagem aumenta drasticamente a escala e a confiabilidade da rede ao redirecionar o tráfego para outros planos quando há problemas, evitando paradas e reinicializações custosas. Os principais recursos da Oracle Acceleron RoCE networking que auxiliam clientes em cargas críticas de IA incluem:
Fonte: Oracle