Sobre instâncias de GPU


Este documento descreve os recursos e as limitações das instâncias de máquina virtual (VM) com GPU em execução no Compute Engine.

Para acelerar cargas de trabalho específicas no Compute Engine, implante uma instância otimizada para aceleradores com GPUs anexadas ou anexe GPUs a uma instância de uso geral N1. O Compute Engine fornece GPUs para suas instâncias no modo de passagem. O modo de passagem oferece às instâncias controle direto sobre as GPUs e a memória delas.

Também é possível usar alguns tipos de máquinas com GPU no AI Hypercomputer. O Hipercomputador de IA é um sistema de supercomputação otimizado para oferecer suporte às suas cargas de trabalho de inteligência artificial (IA) e machine learning (ML). Essa opção é recomendada para criar uma infraestrutura densamente alocada e otimizada para performance com integrações para o Google Kubernetes Engine (GKE) e os programadores do Slurm.

Tipos de máquina compatíveis

As famílias de máquinas otimizadas para aceleradores e de uso geral N1 são compatíveis com GPUs. Para instâncias que usam tipos de máquinas otimizados para aceleradores, o Compute Engine anexa automaticamente as GPUs quando você cria a instância. Para instâncias que usam tipos de máquina N1, anexe GPUs a uma instância durante ou após a criação dela. As GPUs não são compatíveis com outros tipos de máquina.

Tipos de máquina com otimização para aceleradores

Cada tipo de máquina com otimização de acelerador tem um modelo específico de GPUs NVIDIA anexado. Se você tiver cargas de trabalho com muitos gráficos, como a visualização em 3D, também poderá criar estações de trabalho virtuais que usam estações de trabalho virtuais (vWS) NVIDIA RTX. A estação de trabalho virtual NVIDIA RTX está disponível para alguns modelos de GPU.

Tipo de máquina Modelo de GPU Modelo de estação de trabalho virtual (vWS) NVIDIA RTX
A4X Superchips NVIDIA GB200 Grace Blackwell (nvidia-gb200).

Cada Superchip contém quatro GPUs NVIDIA B200 Blackwell.

A4 GPUs NVIDIA B200 Blackwell (nvidia-b200)
A3 Ultra GPUs NVIDIA H200 SXM (nvidia-h200-141gb)
A3 Mega GPUs NVIDIA H100 SXM (nvidia-h100-mega-80gb)
A3 High, A3 Edge GPUs NVIDIA H100 SXM (nvidia-h100-80gb)
A2 Ultra GPUs NVIDIA A100 de 80 GB (nvidia-a100-80gb)
A2 Padrão GPUs NVIDIA A100 de 40 GB (nvidia-a100-40gb)
G4 (Prévia) NVIDIA RTX PRO 6000 Blackwell Server Edition (nvidia-rtx-pro-6000)
G2 GPUs NVIDIA L4 (nvidia-l4) GPUs NVIDIA L4 Virtual Workstation (nvidia-l4-vws)

Para mais informações, consulte Família de máquinas otimizada para aceleradores.

Tipos de máquina de uso geral N1

Para a maioria dos tipos de máquina N1, exceto o núcleo compartilhado N1 (f1-micro e g1-small), é possível anexar os seguintes modelos de GPU:

GPUs NVIDIA:

  • NVIDIA T4: nvidia-tesla-t4
  • NVIDIA P4: nvidia-tesla-p4
  • NVIDIA P100: nvidia-tesla-p100
  • NVIDIA V100: nvidia-tesla-v100

NVIDIA RTX Virtual Workstation (vWS) (anteriormente conhecida como NVIDIA GRID):

  • NVIDIA T4 Virtual Workstation: nvidia-tesla-t4-vws
  • NVIDIA P4 Virtual Workstation: nvidia-tesla-p4-vws
  • NVIDIA P100 Virtual Workstation: nvidia-tesla-p100-vws

    Para essas estações de trabalho virtuais, uma licença da NVIDIA RTX Virtual Workstation (vWS) é adicionada automaticamente à instância.

Na família de uso geral N1, é possível usar tipos de máquina predefinidos ou personalizados.

GPUs em VMs do Spot

É possível adicionar GPUs às VMs do Spot a um preço mais baixo para as GPUs. As GPUs anexadas às VMs do Spot funcionam como GPUs normais, mas persistem apenas durante a vida útil da VM. As VMs do Spot com GPUs seguem o mesmo processo de preempção de todas as VMs do Spot.

Considere solicitar a cota Preemptible GPU dedicada a ser usada para GPUs em VMs do Spot. Para mais informações, consulte Cotas para VMs do Spot.

Durante eventos de manutenção, as VMs do Spot com GPUs são interrompidas por padrão e não podem ser reiniciadas automaticamente. Para recriar suas VMs após a interrupção forçada, use um grupo de instâncias gerenciadas. Os grupos gerenciados de instâncias recriarão as instâncias de VM se os recursos de vCPU, memória e GPU estiverem disponíveis.

Se você quiser um aviso antes que as VMs sejam interrompidas ou se quiser configurá-las para reiniciar automaticamente após um evento de manutenção, use VMs padrão com uma GPU. Para VMs padrão com GPUs, o Compute Engine fornece notificação com uma hora de antecedência da preempção.

O Compute Engine não cobrará pelas GPUs se as instâncias forem interrompidas no primeiro minuto de execução.

Para saber como criar VMs do Spot com GPUs anexadas, leia Criar uma VM com GPUs anexadas e Como criar VMs do Spot. Por exemplo, consulte Criar uma instância A3 Ultra ou A4 usando VMs Spot.

GPUs em instâncias com tempos de execução predefinidos

As instâncias que usam o modelo de provisionamento padrão geralmente não podem usar cotas de alocação preemptivas. As cotas preemptivas são para cargas de trabalho temporárias e geralmente estão mais disponíveis. Se o projeto não tiver cota preemptiva e você nunca tiver solicitado uma, todas as instâncias do projeto vão consumir cotas de alocação padrão.

Se você solicitar cota de alocação preemptiva, as instâncias que usam o modelo de provisionamento padrão precisarão atender a todos os critérios a seguir para consumir cota de alocação preemptiva:

Ao consumir a alocação preemptiva para cargas de trabalho de GPU com limite de tempo, você pode aproveitar o tempo de execução ininterrupto e a alta disponibilidade da cota de alocação preemptiva. Para mais informações, consulte Cotas preemptivas

GPUs e VM confidencial

É possível usar uma GPU com uma instância de VM confidencial que usa Intel TDX na série de máquinas A3. Para mais informações, consulte as configurações compatíveis da VM confidencial. Para saber como criar uma instância de VM confidencial com GPUs, consulte Criar uma instância de VM confidencial com GPU.

GPUs e armazenamento em blocos

Ao criar uma instância usando um tipo de máquina com GPU, é possível adicionar armazenamento em blocos permanente ou temporário a ela. Para armazenar dados não temporários, use o armazenamento em blocos persistente, como Hyperdisk ou Persistent Disk, porque esses discos são independentes do ciclo de vida da instância. Os dados no armazenamento permanente podem ser mantidos mesmo depois de você excluir a instância.

Para armazenamento temporário ou caches temporários, use o armazenamento em blocos temporário adicionando discos SSD locais ao criar a instância.

Armazenamento em blocos com disco permanente e Hyperdisks

É possível anexar volumes de Persistent Disk e selecionar Hyperdisk a instâncias ativadas para GPU.

Para cargas de trabalho de machine learning (ML) e veiculação, use volumes do Hyperdisk ML, que oferecem alta capacidade de processamento e tempos de carregamento de dados mais curtos. O Hyperdisk ML é uma opção mais econômica para cargas de trabalho de ML porque oferece tempos de inatividade da GPU mais baixos.

Os volumes do Hyperdisk ML oferecem suporte a vários anexos de leitura somente, para que você possa anexar o mesmo disco a várias instâncias, a cada uma delas acesso aos mesmos dados.

Para mais informações sobre os tipos de disco compatíveis com as séries de máquinas que oferecem suporte a GPUs, consulte as páginas de séries de máquinas N1 e otimizadas para aceleradores.

Discos SSD locais

Os discos SSD locais oferecem armazenamento temporário e rápido para armazenamento em cache, processamento de dados ou outros dados temporários. Os discos SSD locais oferecem armazenamento rápido porque estão fisicamente anexados ao servidor que hospeda a instância. Os discos SSD locais oferecem armazenamento temporário porque a instância perde dados se for reiniciada.

Não armazene dados com requisitos de persistência fortes em discos SSD locais. Para armazenar dados não temporários, use o armazenamento persistente.

Se você interromper manualmente uma instância com uma GPU, poderá preservar os dados do SSD local, com algumas restrições. Consulte a documentação do SSD local para mais detalhes.

Para saber se o SSD local é compatível com os tipos de GPU, consulte Disponibilidade de SSD local por regiões e zonas de GPU.

GPUs e manutenção do host

O Compute Engine sempre interrompe instâncias com GPUs anexadas quando realiza eventos de manutenção no servidor host. Se a instância tiver discos SSD locais anexados, ela perderá os dados do SSD local após a interrupção.

Para mais informações sobre como lidar com eventos de manutenção do host da GPU, consulte este link.

Preços do GPU

Para instâncias com GPUs anexadas, os custos são os seguintes:

Para preços por hora e mensais para GPUs, consulte página de preços de GPU.

Reservar GPUs com descontos por uso contínuo

Para reservar recursos da GPU em uma zona específica, consulte Escolher um tipo de reserva.

Para receber descontos por compromisso de uso para GPUs em uma zona específica, é preciso comprar compromissos baseados em recursos para as GPUs e também anexar reservas que especifiquem GPUs correspondentes aos seus compromissos. Para mais informações, consulte Anexar reservas a compromissos baseados em recursos.

Restrições e limitações da GPU

Para instâncias com GPUs anexadas, as seguintes restrições e limitações se aplicam:

  • Somente os tipos de máquina otimizados para aceleradores (A4X, A4, A3, A2 e G2) e de uso geral N1 são compatíveis com GPUs.

  • Para proteger os usuários e sistemas do Compute Engine, novos projetos têm uma cota global de GPU, o que limita o número total de GPUs que podem ser criadas em qualquer zona compatível. Quando você solicita uma cota de GPU, precisa pedir uma cota para os modelos de GPU que você quer criar em cada região e outra cota global para o número total de GPUs de todos os tipos em todas as zonas.

  • As instâncias com uma ou mais GPUs têm um número máximo de vCPUs para cada GPU que é adicionada à instância. Para ver os intervalos de memória e de vCPU disponíveis para diferentes configurações de GPU, consulte a lista de GPUs.

  • O funcionamento correto das GPUs depende de drivers de dispositivos. As GPUs NVIDIA em execução no Compute Engine precisam usar uma versão mínima do driver. Para saber mais sobre as versões do driver, consulte Versões necessárias do driver NVIDIA.

  • O SLA do Compute Engine cobre instâncias com um modelo de GPU anexado somente se esse modelo estiver geralmente disponível.

    Para regiões com várias zonas, o SLA do Compute Engine cobre a instância somente se o modelo de GPU estiver disponível em mais de uma zona nessa região. Para modelos de GPU por região, consulte Regiões e zonas de GPU.

  • O Compute Engine é compatível com um usuário simultâneo por GPU.

  • Consulte também as limitações de cada tipo de máquina com GPUs anexadas.

A seguir