「GKE 中的 AI/機器學習自動化調度管理」說明文件
運用 Google Kubernetes Engine (GKE) 平台的自動化調度管理功能,執行最佳化的 AI/機器學習工作負載。您可以透過 Google Kubernetes Engine (GKE),導入可用於正式環境的穩固 AI/機器學習平台,同時享有代管 Kubernetes 的所有優點,以及下列功能:
- 基礎架構自動化調度管理功能支援 GPU 和 TPU,可大規模處理訓練及提供模型的工作負載。
- 能與分散式運算和資料處理架構彈性整合。
- 以同一基礎架構支援多個團隊,讓資源獲得最大運用
使用價值 $300 美元的免費抵免額,開始進行概念驗證
- 取得 Gemini 2.0 Flash Thinking 的存取權
- 每月免費使用 AI API 和 BigQuery 等熱門產品
- 不會自動收費,也不會要求您一定要購買特定方案
繼續探索超過 20 項一律免費的產品
使用超過 20 項實用的免費產品,包括 AI API、VM 和 data warehouse 等。
說明文件資源
使用 GKE 生成式 AI 功能提供開放式模型
- 新功能!
- 新功能!
- 新功能!
- 教學課程
- 教學課程
- 教學課程
成本最佳化和工作流程協調
- 教學課程
- 最佳做法
- 最佳做法
- 網誌
- 網誌
- 最佳做法
- 最佳做法
- 最佳做法
相關資源
透過 Optimum TPU 在 GKE 上使用 TPU 提供開放原始碼模型
瞭解如何透過 Hugging Face 的 Optimum TPU 服務架構,在 GKE 上使用 Tensor Processing Unit (TPU) 部署 LLM。
在 GKE 中建立並使用以 Parallelstore 執行個體為基礎的磁碟區
瞭解如何建立全代管 Parallelstore 執行個體支援的儲存空間,並以磁碟區的形式存取。CSI 驅動程式經過最佳化調整,適合涉及較小檔案大小和隨機讀取作業的 AI/機器學習訓練工作負載。
使用 Hyperdisk ML 加速載入 AI/ML 資料
瞭解如何使用 Hyperdisk ML,簡化及加速在 GKE 上載入 AI/機器學習模型權重。
透過 JetStream 和 PyTorch 在 GKE 上使用 TPU 提供 LLM
瞭解如何透過 PyTorch,使用 GKE 上的 Tensor Processing Unit (TPU) 和 JetStream 提供 LLM。
最佳做法:在 GKE 上使用 GPU 最佳化 LLM 推論作業
瞭解如何使用 vLLM 和 Text Generation Inference (TGI) 服務架構,在 GKE 上透過 GPU 最佳化 LLM 推論效能。
在 GKE 上使用 NVIDIA GPU 運算子管理 GPU 堆疊
瞭解 NVIDIA GPU 運算子的使用時機,以及如何在 GKE 上啟用 NVIDIA GPU 運算子。
在 TPU 上為 LLM 工作負載設定自動調度資源功能
瞭解如何使用 GKE 水平 Pod 自動調度器 (HPA) 部署 Gemma LLM,並透過單一主機 JetStream 設定自動調度基礎架構。
在 GKE 上使用多個 GPU 微調 Gemma 開放式模型
瞭解如何使用 Hugging Face Transformers 程式庫,透過 GKE 上的 GPU 微調 Gemma LLM。
在 GKE 上使用 TPU 部署 Ray Serve 應用程式和 Stable Diffusion 模型
瞭解如何使用 TPU、Ray Serve 和 Ray Operator 外掛程式,在 GKE 上部署及提供 Stable Diffusion 模型。
在 GKE 中設定 GPU 上的 LLM 工作負載自動調度資源
瞭解如何使用 GKE 水平 Pod 自動配置器 (HPA),透過 Hugging Face Text Generation Interface (TGI) 服務架構部署 Gemma LLM,進而設定自動調度基礎架構。
在 A3 Mega 虛擬機器上使用 Megatron-LM 訓練 Llama2
瞭解如何在 A3 Mega 上執行以容器為基礎的 Megatron-LM PyTorch 工作負載。
在 Autopilot 中部署 GPU 工作負載
瞭解如何在 GKE Autopilot 工作負載中要求硬體加速器 (GPU) 資源。
在 GKE 中使用多個 GPU 提供 LLM
瞭解如何使用 GKE 和多個 NVIDIA L4 GPU,提供 Llama 2 70B 或 Falcon 40B 模型。
開始在 GKE 上使用 Ray
瞭解如何在 Ray 叢集上執行工作負載,輕鬆開始在 GKE 上使用 Ray。
透過 Ray 在 L4 GPU 提供大型語言模型
瞭解如何在 GKE 中使用 Ray 架構,提供 Falcon 7b、Llama2 7b、Falcon 40b 或 Llama2 70b 服務。
使用 JobSet 和 Kueue 自動化調度管理 TPU Multislice 工作負載
瞭解如何使用 JobSet 和 Kueue,在 GKE 上自動化調度管理多個 TPU Slice 的 Jax 工作負載。
使用 NVIDIA Data Center GPU Manager (DCGM) 監控 GKE 上的 GPU 工作負載
瞭解如何使用 NVIDIA Data Center GPU Manager (DCGM) 觀察 GKE 上的 GPU 工作負載。
快速入門:在 GKE Standard 叢集上使用 GPU 訓練模型
本快速入門導覽課程說明如何在 GKE 中使用 GPU 部署訓練模型,並將預測結果儲存在 Cloud Storage 中。
在 GKE 上執行大規模機器學習作業
這部影片說明 GKE 如何解決大規模訓練大型 AI 模型時常見的挑戰,以及在 GKE 訓練及提供大型機器學習模型的最佳做法。
TensorFlow 搭配可加快 GPU 的 GKE Autopilot
這篇網誌文章提供逐步指南,說明如何建立、執行及拆解啟用 TensorFlow 的 Jupiter 筆記本。
在 GKE 上實作工作佇列系統,並在命名空間之間共用配額
本教學課程會使用 Kueue,說明如何實作 Job 排隊系統,以及在 GKE 上設定不同命名空間之間的工作負載資源和配額共用。
使用 GKE 和 Cloud Storage 建構 RAG 聊天機器人
本教學課程說明如何整合以檢索擴增生成技術為基礎的大型語言模型應用程式,以及您上傳至 Cloud Storage 值區的 PDF 檔案。
使用 BigQuery、Cloud Run 和 Gemma 分析 GKE 資料
本教學課程說明如何運用 BigQuery 儲存及處理資料、使用 Cloud Run 處理要求,以及使用 Gemma LLM 分析資料和進行預測,在 GKE 上分析大型資料集。
使用 GKE 和 Ray 進行分散式資料預先處理:企業級資源調度
瞭解如何運用 GKE 和 Ray,有效預先處理用於機器學習的大型資料集。
在 GKE 上進行 AI/機器學習推論時載入資料的最佳做法
瞭解如何縮短 Google Kubernetes Engine 上機器學習應用程式的資料載入時間。
節省 GPU 費用:為 GKE 推論工作負載提供更智慧的自動調度資源功能
瞭解如何微調 GKE 的水平 Pod 自動調度器,盡可能提高效率,進而降低 GPU 推論成本。
透過 GKE 中的 NVIDIA NIM 微服務,有效率地提供最佳化 AI 模型
瞭解如何在 GKE 輕鬆部署最先進的 NVIDIA NIM 微服務,加速執行 AI 工作負載。
在 GKE 上使用全新 Ray 運算子,加快 Ray 在實際工作環境的執行速度
瞭解如何運用 GKE 上的 Ray Operator 簡化 AI/機器學習正式環境部署作業,進而提升效能及擴充性。
在 GKE 上使用 GPU 盡量提高 LLM 服務輸送量:實用指南
瞭解如何盡可能提高 GKE 上 GPU 的大型語言模型 (LLM) 服務輸送量,包括基礎架構決策和模型伺服器最佳化。
輕鬆打造搜尋引擎:運用 GKE 和 Vertex AI Agent Builder 採取低程式碼做法
如何使用 Vertex AI Agent Builder、Vertex AI Search 和 GKE,透過 Google Cloud 建構搜尋引擎。
LiveX AI 透過在 GKE 和 NVIDIA AI 上訓練及提供服務的 AI 代理,降低客戶服務成本
瞭解 LiveX AI 如何運用 GKE 建構 AI 代理,提升顧客滿意度並降低成本。
使用 GKE 和 Cloud SQL 建構具備 RAG 功能的生成式 AI 應用程式基礎架構
參考架構:使用 GKE、Cloud SQL、Ray、Hugging Face 和 LangChain,透過檢索增強生成 (RAG) 執行生成式 AI 應用程式。
專利搜尋創新:IPRally 如何運用 GKE 和 Ray 進行 AI 創新
IPRally 如何運用 GKE 和 Ray,建構可擴充且有效率的機器學習平台,以更準確地加快專利搜尋速度。
深入瞭解 Gemma 在 Google Cloud 上的效能
在 GKE 中,透過 Cloud GPU 和 Cloud TPU 使用 Gemma,提升推論和訓練效率。
GKE 上的 Gemma 深入介紹:提供開放生成式 AI 模型的全新創新功能
使用一流的 Gemma 開放模型建構可攜式自訂 AI 應用程式,並部署至 GKE。
透過 Ray 和 Kueue 進行 AI/機器學習進階排程
使用 KubeRay 和 Kueue 在 GKE 中自動調度管理 Ray 應用程式。
如何在 Google Kubernetes Engine 中保護 Ray
在 GKE 上使用 Ray 訓練 AI/機器學習工作負載時,套用安全洞察和強化技術。
在 Google Cloud 中設計 AI 和機器學習工作負載的儲存空間
在 Google Cloud 上,為 AI 和機器學習工作負載選取最佳儲存空間選項組合。
自動安裝驅動程式可簡化在 GKE 中使用 NVIDIA GPU 的程序
在 GKE 中自動安裝 Nvidia GPU 驅動程式。
在 GKEE 中使用 NVIDIA NeMo 架構,加速導入生成式 AI
使用 GKE 和 NVIDIA NeMo 架構訓練生成式 AI 模型。
為什麼要使用 GKE 執行 Ray AI 工作負載?
使用 GKE 執行 Ray 工作負載,提升擴充性、成本效益、容錯能力、隔離和可攜性。
在全代管的 GKE 中執行 AI,現在提供新的運算選項、價格和資源預留功能
透過 GKE Autopilot,為 AI/機器學習工作負載取得更完善的 GPU 支援、提升效能,並降低價格。
SEEN 如何使用 GKE 將輸出量擴充 89 倍,並減少 66% 的 GPU 成本
新創公司運用 GKE 擴展個人化影片輸出內容。
Spotify 如何運用 Ray 和 GKE 釋放機器學習創新能量
瞭解 Ray 如何改變 Spotify 的機器學習開發作業。
Ordaōs Bio 如何在 GKE 上運用生成式 AI
Ordaōs Bio 是生物醫學研究和探索領域的頂尖 AI 加速器之一,致力於尋找腫瘤和慢性發炎疾病的新型免疫療法解決方案。
這間快速成長的新創公司如何透過 GKE 運用機器學習技術
瞭解矽谷新創公司 Moloco 如何運用 GKE 和 TensorFlow 企業版的強大功能,大幅強化機器學習 (ML) 基礎架構。
Google Kubernetes Engine (GKE) 範例
查看官方 GKE 產品教學課程中使用的範例應用程式。
GKE AI Labs 範例
查看實驗性範例,瞭解如何運用 GKE 加快 AI/機器學習計畫的進展。