速率限制

速率限制用于规范您在给定时间范围内可以向 Gemini API 发出的请求数。这些限制有助于确保公平使用、防范滥用行为,并帮助所有用户维持系统性能。

速率限制的运作方式

速率限制通常从以下三个维度进行衡量:

  • 每分钟请求数 (RPM)
  • 每分钟 token 数(输入)(TPM)
  • 每日请求数 (RPD)

我们会根据每项限制评估您的用量,如果超出任何一项限制,系统都会触发速率限制错误。例如,如果您的 RPM 限制为 20,那么在一分钟内发出 21 个请求会导致错误,即使您未超出 TPM 或其他限制也是如此。

速率限制按项目应用,而不是按 API 密钥应用。

每天的请求数 (RPD) 配额会在太平洋时间午夜重置。

限制因所用特定模型而异,并且部分限制仅适用于特定模型。例如,每分钟生成的图片数 (IPM) 仅针对能够生成图片的模型(Imagen 3)计算,但在概念上与 TPM 类似。其他模型可能设有每日词元数上限 (TPD)。

实验性模型和预览版模型的速率限制更为严格。

使用层级

速率限制与项目的用量层级相关联。随着 API 使用量和支出的增加,您可以选择升级到更高的层级,以提高速率限制。

第 2 级和第 3 级的资格条件是根据与您的项目相关联的结算账号在 Google Cloud 服务(包括但不限于 Gemini API)上的累计总支出确定的。

层级 资格要求
免费 符合条件的国家/地区的用户
第 1 层级 与项目关联的结算账号
第 2 层级 总支出:超过 250 美元,并且自成功付款以来已至少 30 天
第 3 级 总支出:超过 1,000 美元,并且自成功付款以来已至少 30 天

当您申请升级时,我们的自动化滥用行为防范系统会执行额外的检查。虽然满足所述资格条件通常足以获得批准,但在极少数情况下,升级申请可能会因审核过程中发现的其他因素而被拒绝。

该系统有助于维护 Gemini API 平台对所有用户的安全性和完整性。

标准 API 速率限制

下表列出了所有标准 Gemini API 调用的速率限制。

免费层级

型号 每千次展示收入 TPM RPD
Text-out 模型
Gemini 2.5 Pro 5 250000 100
Gemini 2.5 Flash 10 250000 250
Gemini 2.5 Flash-Lite 15 250000 1000
Gemini 2.0 Flash 15 100 万 200
Gemini 2.0 Flash-Lite 30 100 万 200
Live API
Gemini 2.5 Flash Live 3 次会话 100 万 *
Gemini 2.5 Flash 预览版原生音频对话框 1 节课 25000 5
Gemini 2.5 Flash Experimental 原生音频思考对话框 1 节课 10000 5
Gemini 2.0 Flash Live 3 次会话 100 万 *
多模态生成模型
Gemini 2.5 Flash 预览版 TTS 3 10000 15
Gemini 2.0 Flash 预览版图片生成 10 200000 100
其他模型
Gemma 3 和 3n 30 15000 14,400
Gemini Embedding 100 30000 1000
已弃用的模型
Gemini 1.5 Flash(已弃用) 15 250000 50
Gemini 1.5 Flash-8B(已弃用) 15 250000 50

第 1 层级

型号 每千次展示收入 TPM RPD 批量排队的令牌
Text-out 模型
Gemini 2.5 Pro 150 200 万 10000 5000000
Gemini 2.5 Flash 1000 100 万 10000 3,000,000
Gemini 2.5 Flash-Lite 4000 4,000,000 * 1000 万
Gemini 2.0 Flash 2000 4,000,000 * 1000 万
Gemini 2.0 Flash-Lite 4000 4,000,000 * 1000 万
Live API
Gemini 2.5 Flash Live 50 个会话 4,000,000 * *
Gemini 2.5 Flash 预览版原生音频对话框 3 次会话 5 万 50 *
Gemini 2.5 Flash Experimental 原生音频思考对话框 1 节课 25000 50 *
Gemini 2.0 Flash Live 50 个会话 4,000,000 * *
多模态生成模型
Gemini 2.5 Flash 预览版 TTS 10 10000 100 *
Gemini 2.5 Pro 预览版 TTS 10 10000 50 *
Gemini 2.0 Flash 预览版图片生成 1000 100 万 10000 *
Imagen 4 Standard/Fast 10 * 70 *
Imagen 4 Ultra 5 * 30 *
Imagen 3 20 * * *
Veo 3 2 * 10 *
Veo 3 Fast 2 * 10 *
Veo 2 2 * 50 *
其他模型
Gemma 3 和 3n 30 15000 14,400 *
Gemini Embedding 3000 100 万 * *
已弃用的模型
Gemini 1.5 Flash(已弃用) 2000 4,000,000 * *
Gemini 1.5 Flash-8B(已弃用) 4000 4,000,000 * *
Gemini 1.5 Pro(已弃用) 1000 4,000,000 * *

第 2 层级

型号 每千次展示收入 TPM RPD 批量排队的令牌
Text-out 模型
Gemini 2.5 Pro 1000 5000000 5 万 500,000,000
Gemini 2.5 Flash 2000 3,000,000 100000 400,000,000
Gemini 2.5 Flash-Lite 10000 1000 万 * 500,000,000
Gemini 2.0 Flash 10000 1000 万 * 10 亿
Gemini 2.0 Flash-Lite 20,000 1000 万 * 10 亿
Live API
Gemini 2.5 Flash Live 1000 个工作时段 1000 万 * *
Gemini 2.5 Flash 预览版原生音频对话框 100 个会话 100 万 * *
Gemini 2.5 Flash Experimental 原生音频思考对话框 1 节课 25000 50 *
Gemini 2.0 Flash Live 1000 个工作时段 1000 万 * *
多模态生成模型
Gemini 2.5 Flash 预览版 TTS 1000 100000 10000 *
Gemini 2.5 Pro 预览版 TTS 100 25000 1000 *
Gemini 2.0 Flash 预览版图片生成 2000 3,000,000 100000 *
Imagen 4 Standard/Fast 15 * 1000 *
Imagen 4 Ultra 10 * 400 *
Imagen 3 20 * * *
Veo 3 4 * 50 *
Veo 3 Fast 4 * 50 *
Veo 2 2 * 50 *
其他模型
Gemma 3 和 3n 30 15000 14,400 *
Gemini Embedding 5,000 5000000 * *
已弃用的模型
Gemini 1.5 Flash(已弃用) 2000 4,000,000 * *
Gemini 1.5 Flash-8B(已弃用) 4000 4,000,000 * *
Gemini 1.5 Pro(已弃用) 1000 4,000,000 * *

第 3 级

型号 每千次展示收入 TPM RPD 批量排队的令牌
Text-out 模型
Gemini 2.5 Pro 2000 800 万 * 10 亿
Gemini 2.5 Flash 10000 800 万 * 10 亿
Gemini 2.5 Flash-Lite 30000 30,000,000 * 10 亿
Gemini 2.0 Flash 30000 30,000,000 * 5,000,000,000
Gemini 2.0 Flash-Lite 30000 30,000,000 * 5,000,000,000
Live API
Gemini 2.5 Flash Live 1000 个工作时段 1000 万 * *
Gemini 2.5 Flash 预览版原生音频对话框 100 个会话 100 万 * *
Gemini 2.5 Flash Experimental 原生音频思考对话框 1 节课 25000 50 *
Gemini 2.0 Flash Live 1000 个工作时段 1000 万 * *
多模态生成模型
Gemini 2.5 Flash 预览版 TTS 1000 100 万 * *
Gemini 2.5 Pro 预览版 TTS 100 100 万 * *
Gemini 2.0 Flash 预览版图片生成 5,000 5000000 * *
Imagen 4 Standard/Fast 20 * 15000 *
Imagen 4 Ultra 15 * 5,000 *
Imagen 3 20 * * *
Veo 3 10 * 500 *
Veo 3 Fast 10 * 500 *
Veo 2 2 * 50 *
其他模型
Gemma 3 和 3n 30 15000 14,400 *
Gemini Embedding 10000 1000 万 * *
已弃用的模型
Gemini 1.5 Flash(已弃用) 2000 4,000,000 * *
Gemini 1.5 Flash-8B(已弃用) 4000 4,000,000 * *
Gemini 1.5 Pro(已弃用) 1000 4,000,000 * *

指定的速率限制无法保证,实际容量可能会有所不同。

批处理模式速率限制

批量模式请求有自己的速率限制,与非批量模式 API 调用分开。

  • 并发批量请求数:100
  • 输入文件大小限制:2 GB
  • 文件存储空间上限:20 GB
  • 每个模型排队的 token 数:速率限制表中的“批量排队的 token 数”列列出了针对给定模型,所有有效批量作业可排队进行批量处理的最大 token 数。请参阅标准 API 速率限制表

如何升级到更高级别

Gemini API 使用 Cloud Billing 来处理所有结算服务。如需从免费层级过渡到付费层级,您必须先为 Google Cloud 项目启用 Cloud Billing。

当您的项目符合指定条件后,便有资格升级到下一层级。如需申请升级,请按以下步骤操作:

经过快速验证后,项目将升级到下一个层级。

申请提高速率限制

每种模型变体都有关联的速率限制(每分钟请求数,RPM)。 如需详细了解这些速率限制,请参阅 Gemini 模型

申请提高付费层级的速率限制

我们无法保证一定会提高您的速率限制,但会尽力审核您的申请。