使用 GKE Gen AI 功能開始進行 AI 模型推論！

本頁面由 Cloud Translation API 翻譯而成。

「GKE 中的 AI/機器學習自動化調度管理」說明文件

運用 Google Kubernetes Engine (GKE) 平台的自動化調度管理功能，執行最佳化的 AI/機器學習工作負載。您可以透過 Google Kubernetes Engine (GKE)，導入可用於正式環境的穩固 AI/機器學習平台，同時享有代管 Kubernetes 的所有優點，以及下列功能：

基礎架構自動化調度管理功能支援 GPU 和 TPU，可大規模處理訓練及提供模型的工作負載。
能與分散式運算和資料處理架構彈性整合。
以同一基礎架構支援多個團隊，讓資源獲得最大運用

本頁概述 GKE 的 AI/機器學習功能，以及如何開始在 GKE 上執行最佳化的 AI/機器學習工作負載，並搭配使用 GPU、TPU 和 Hugging Face TGI、vLLM 和 JetStream 等架構。

免費試用

使用價值 $300 美元的免費抵免額，開始進行概念驗證

取得 Gemini 2.0 Flash Thinking 的存取權
每月免費使用 AI API 和 BigQuery 等熱門產品
不會自動收費，也不會要求您一定要購買特定方案

查看免費產品優惠

繼續探索超過 20 項一律免費的產品

使用超過 20 項實用的免費產品，包括 AI API、VM 和 data warehouse 等。

說明文件資源

歡迎查看快速入門導覽課程、指南和重要參考資料。如有常見問題，也能取得協助。

使用 GKE 生成式 AI 功能提供開放式模型

新功能！
關於 GKE 上的模型推論
新功能！
參加「GKE 推論快速入門導覽課程」，瞭解如何執行推論最佳做法
新功能！
在 GKE 上提供 Deepseek-R1 671B 或 Llama 3.1 405B 等 LLM
教學課程
透過 vLLM 在 GKE 上使用 GPU 提供 Gemma 服務
教學課程
透過 vLLM 在 GKE 上使用 TPU Trillium 提供 LLM
教學課程
探索更多 GKE 模型推論教學課程

大規模調度管理 TPU 和 GPU

成本最佳化和工作流程協調

教學課程
透過經濟實惠的高可用性 GPU 佈建策略，在 GKE 上提供大型語言模型
最佳做法
GKE 批次處理平台參考架構
最佳做法
使用彈性啟動佈建模式，盡量取得 GPU
網誌
透過 GKE 支援本機 SSD，提供高效能的 AI/機器學習儲存空間
網誌
搭配使用 Weights & Biases 平台與 Google Kubernetes Engine，簡化機器學習運作流程
最佳做法
在 GKE 上執行批次工作負載的最佳做法
最佳做法
在 GKE 上執行最具成本效益的 Kubernetes 應用程式
最佳做法
將 GKE 中 Stable Diffusion 的啟動時間縮短 4 倍

使用 GKE Gen AI 功能開始進行 AI 模型推論！

「GKE 中的 AI/機器學習自動化調度管理」說明文件

使用價值 $300 美元的免費抵免額，開始進行概念驗證

繼續探索超過 20 項一律免費的產品

使用 GKE 生成式 AI 功能提供開放式模型

大規模調度管理 TPU 和 GPU

成本最佳化和工作流程協調

透過 Optimum TPU 在 GKE 上使用 TPU 提供開放原始碼模型

在 GKE 中建立並使用以 Parallelstore 執行個體為基礎的磁碟區

使用 Hyperdisk ML 加速載入 AI/ML 資料

透過 JetStream 和 PyTorch 在 GKE 上使用 TPU 提供 LLM

最佳做法：在 GKE 上使用 GPU 最佳化 LLM 推論作業

在 GKE 上使用 NVIDIA GPU 運算子管理 GPU 堆疊

在 TPU 上為 LLM 工作負載設定自動調度資源功能

在 GKE 上使用多個 GPU 微調 Gemma 開放式模型

在 GKE 上使用 TPU 部署 Ray Serve 應用程式和 Stable Diffusion 模型

在 GKE 中設定 GPU 上的 LLM 工作負載自動調度資源

在 A3 Mega 虛擬機器上使用 Megatron-LM 訓練 Llama2

在 Autopilot 中部署 GPU 工作負載

在 GKE 中使用多個 GPU 提供 LLM

開始在 GKE 上使用 Ray

透過 Ray 在 L4 GPU 提供大型語言模型

使用 JobSet 和 Kueue 自動化調度管理 TPU Multislice 工作負載

使用 NVIDIA Data Center GPU Manager (DCGM) 監控 GKE 上的 GPU 工作負載

快速入門：在 GKE Standard 叢集上使用 GPU 訓練模型

在 GKE 上執行大規模機器學習作業

TensorFlow 搭配可加快 GPU 的 GKE Autopilot

在 GKE 上實作工作佇列系統，並在命名空間之間共用配額

使用 GKE 和 Cloud Storage 建構 RAG 聊天機器人

使用 BigQuery、Cloud Run 和 Gemma 分析 GKE 資料

使用 GKE 和 Ray 進行分散式資料預先處理：企業級資源調度

在 GKE 上進行 AI/機器學習推論時載入資料的最佳做法

節省 GPU 費用：為 GKE 推論工作負載提供更智慧的自動調度資源功能

透過 GKE 中的 NVIDIA NIM 微服務，有效率地提供最佳化 AI 模型

在 GKE 上使用全新 Ray 運算子，加快 Ray 在實際工作環境的執行速度

在 GKE 上使用 GPU 盡量提高 LLM 服務輸送量：實用指南

輕鬆打造搜尋引擎：運用 GKE 和 Vertex AI Agent Builder 採取低程式碼做法

LiveX AI 透過在 GKE 和 NVIDIA AI 上訓練及提供服務的 AI 代理，降低客戶服務成本

使用 GKE 和 Cloud SQL 建構具備 RAG 功能的生成式 AI 應用程式基礎架構

專利搜尋創新：IPRally 如何運用 GKE 和 Ray 進行 AI 創新

深入瞭解 Gemma 在 Google Cloud 上的效能

GKE 上的 Gemma 深入介紹：提供開放生成式 AI 模型的全新創新功能

透過 Ray 和 Kueue 進行 AI/機器學習進階排程

如何在 Google Kubernetes Engine 中保護 Ray

在 Google Cloud 中設計 AI 和機器學習工作負載的儲存空間

自動安裝驅動程式可簡化在 GKE 中使用 NVIDIA GPU 的程序

在 GKEE 中使用 NVIDIA NeMo 架構，加速導入生成式 AI

為什麼要使用 GKE 執行 Ray AI 工作負載？

在全代管的 GKE 中執行 AI，現在提供新的運算選項、價格和資源預留功能

SEEN 如何使用 GKE 將輸出量擴充 89 倍，並減少 66% 的 GPU 成本

Spotify 如何運用 Ray 和 GKE 釋放機器學習創新能量

Ordaōs Bio 如何在 GKE 上運用生成式 AI

這間快速成長的新創公司如何透過 GKE 運用機器學習技術

Google Kubernetes Engine (GKE) 範例

GKE AI Labs 範例

相關影片