O que é o protocolo MRC?

O protocolo MRC é uma iniciativa desenvolvida pela OpenAI e AMD, que melhora a comunicação entre GPUs em grandes clusters, acelerando o treinamento de IA.

Como o MRC beneficia o treinamento de IA?

O MRC permite transferências de dados mais rápidas e resilientes, reduzindo interrupções e congestionamentos, o que resulta em um treinamento mais eficiente.

Quais empresas estão envolvidas no desenvolvimento do MRC?

Além da OpenAI e da AMD, empresas como Broadcom, Intel, Microsoft e Nvidia também participaram do desenvolvimento do protocolo MRC.

Onde o protocolo MRC já foi implementado?

O MRC foi implementado em supercomputadores da OpenAI e da Microsoft, otimizando o desempenho no treinamento de modelos de IA.

OpenAI e AMD: Inovação em Redes para IA

O treinamento de modelos de ponta depende de redes de supercomputadores confiáveis, capazes de transferir dados rapidamente entre GPUs de forma sincronizada.

Por Redação, com Europa Press – de São Francisco

A OpenAI, a AMD, a Broadcom, a Intel, a Microsoft e a Nvidia se uniram para desenvolver o protocolo Multipath Reliable Connection (MRC), que melhora o desempenho e a resiliência das redes de GPU em grandes clusters de treinamento para acelerar o treinamento de inteligência artificial (IA) em grande escala, já disponível para toda a indústria por meio do Open Compute Project (OCP).

OpenAI e AMD reforçam redes para ampliar velocidade da IA | OpenAI e AMD avançam em redes para acelerar IA — OpenAI e AMD avançam em redes para acelerar IA

O treinamento de modelos de ponta depende de redes de supercomputadores confiáveis, capazes de transferir dados rapidamente entre GPUs de forma sincronizada. No entanto, à medida que os sistemas de IA crescem e os clusters aumentam, há cada vez mais dependência dessas redes, que devem funcionar de forma rápida e eficiente, coordenar centenas de milhares de GPUs de maneira altamente sincronizada, trocar milhões de dados e se recuperar rapidamente de interrupções.

Levando em conta a importância da rede, que pode determinar diretamente quanta capacidade de processamento pode ser utilizada, empresas líderes no setor de IA se uniram à OpenAI para desenvolver um protocolo destinado a acelerar o treinamento de IA, melhorando o desempenho e a resiliência da rede de GPUs em grandes clusters de treinamento.

Especificamente, trata-se do protocolo MRC, do qual fazem parte empresas como AMD, Broadcom, Intel, Microsoft e Nvidia, que se uniram ao desenvolvimento dessa iniciativa durante um período de dois anos, agora disponível para que toda a indústria possa utilizá-lo por meio do Open Compute Project (OCP), conforme detalhado pela OpenAI em um comunicado.

IA

Este protocolo foi projetado especificamente para ambientes de treinamento de IA em grande escala, oferecendo comunicação contínua e de alta velocidade para evitar interrupções. Para isso, conforme explicou a empresa, em vez de enviar tráfego por uma única rota, o MRC distribui os pacotes simultaneamente por múltiplas rotas.

Assim, o protocolo está integrado nas interfaces de rede de 800 Gb/s mais recentes, que permitem distribuir uma única transferência “por centenas de rotas”, contornando falhas “em microssegundos” e executando planos de controle de rede mais simples.

Isso “reduz os pontos críticos de congestionamento de dados” e limita a variação de latência que pode retardar o treinamento sincronizado, conforme explicou a AMD em um comunicado. Com isso, quando ocorrem falhas, o protocolo MRC permite que a rede se adapte rapidamente e redirecione o tráfego “praticamente em tempo real”.

“Em termos práticos, o MRC ajuda a transformar a rede em um amortecedor para a infraestrutura de IA. Em vez de causar interrupções a cada evento, o MRC permite que a rede se adapte localmente e rapidamente para que as cargas de trabalho possam continuar avançando”, detalhou a AMD.

A OpenAI também especificou que o protocolo MRC se baseia no padrão RDMA sobre Ethernet Convergente (RoCE) da InfiniBand Trade Association (IBTA), além de se basear em técnicas desenvolvidas pelo Ultra Ethernet Consortium (UEC).

Com tudo isso, o MRC já foi implementado em todos os maiores supercomputadores NVIDIA GB200 da OpenAI, utilizados para treinar modelos de ponta, bem como nos supercomputadores Fairwater da Microsoft.

Além disso, a especificação MRC já está disponível como uma contribuição para o Open Compute Project (OCP) para que a comunidade a utilize e desenvolva.