速率限制

速率限制用于规范您在给定时间范围内可以向 Gemini API 发出的请求数。这些限制有助于确保公平使用、防范滥用行为，并帮助所有用户维持系统性能。

速率限制的运作方式

速率限制通常从以下三个维度进行衡量：

我们会根据每项限制评估您的用量，如果超出任何一项限制，系统都会触发速率限制错误。例如，如果您的 RPM 限制为 20，那么在一分钟内发出 21 个请求会导致错误，即使您未超出 TPM 或其他限制也是如此。

速率限制按项目应用，而不是按 API 密钥应用。

每天的请求数 (RPD) 配额会在太平洋时间午夜重置。

限制因所用特定模型而异，并且部分限制仅适用于特定模型。例如，每分钟生成的图片数 (IPM) 仅针对能够生成图片的模型（Imagen 3）计算，但在概念上与 TPM 类似。其他模型可能设有每日词元数上限 (TPD)。

实验性模型和预览版模型的速率限制更为严格。

速率限制与项目的用量层级相关联。随着 API 使用量和支出的增加，您可以选择升级到更高的层级，以提高速率限制。

第 2 级和第 3 级的资格条件是根据与您的项目相关联的结算账号在 Google Cloud 服务（包括但不限于 Gemini API）上的累计总支出确定的。

当您申请升级时，我们的自动化滥用行为防范系统会执行额外的检查。虽然满足所述资格条件通常足以获得批准，但在极少数情况下，升级申请可能会因审核过程中发现的其他因素而被拒绝。

该系统有助于维护 Gemini API 平台对所有用户的安全性和完整性。

下表列出了所有标准 Gemini API 调用的速率限制。

型号	每千次展示收入	TPM	RPD
Text-out 模型
Gemini 2.5 Pro	5	250000	100
Gemini 2.5 Flash	10	250000	250
Gemini 2.5 Flash-Lite	15	250000	1000
Gemini 2.0 Flash	15	100 万	200
Gemini 2.0 Flash-Lite	30	100 万	200
Live API
Gemini 2.5 Flash Live	3 次会话	100 万	*
Gemini 2.5 Flash 预览版原生音频对话框	1 节课	25000	5
Gemini 2.5 Flash Experimental 原生音频思考对话框	1 节课	10000	5
Gemini 2.0 Flash Live	3 次会话	100 万	*
多模态生成模型
Gemini 2.5 Flash 预览版 TTS	3	10000	15
Gemini 2.0 Flash 预览版图片生成	10	200000	100
其他模型
Gemma 3 和 3n	30	15000	14,400
Gemini Embedding	100	30000	1000
已弃用的模型
Gemini 1.5 Flash（已弃用）	15	250000	50
Gemini 1.5 Flash-8B（已弃用）	15	250000	50

型号	每千次展示收入	TPM	RPD	批量排队的令牌
Text-out 模型
Gemini 2.5 Pro	150	200 万	10000	5000000
Gemini 2.5 Flash	1000	100 万	10000	3,000,000
Gemini 2.5 Flash-Lite	4000	4,000,000	*	1000 万
Gemini 2.0 Flash	2000	4,000,000	*	1000 万
Gemini 2.0 Flash-Lite	4000	4,000,000	*	1000 万
Live API
Gemini 2.5 Flash Live	50 个会话	4,000,000	*	*
Gemini 2.5 Flash 预览版原生音频对话框	3 次会话	5 万	50	*
Gemini 2.5 Flash Experimental 原生音频思考对话框	1 节课	25000	50	*
Gemini 2.0 Flash Live	50 个会话	4,000,000	*	*
多模态生成模型
Gemini 2.5 Flash 预览版 TTS	10	10000	100	*
Gemini 2.5 Pro 预览版 TTS	10	10000	50	*
Gemini 2.0 Flash 预览版图片生成	1000	100 万	10000	*
Imagen 4 Standard/Fast	10	*	70	*
Imagen 4 Ultra	5	*	30	*
Imagen 3	20	*	*	*
Veo 3	2	*	10	*
Veo 3 Fast	2	*	10	*
Veo 2	2	*	50	*
其他模型
Gemma 3 和 3n	30	15000	14,400	*
Gemini Embedding	3000	100 万	*	*
已弃用的模型
Gemini 1.5 Flash（已弃用）	2000	4,000,000	*	*
Gemini 1.5 Flash-8B（已弃用）	4000	4,000,000	*	*
Gemini 1.5 Pro（已弃用）	1000	4,000,000	*	*

型号	每千次展示收入	TPM	RPD	批量排队的令牌
Text-out 模型
Gemini 2.5 Pro	1000	5000000	5 万	500,000,000
Gemini 2.5 Flash	2000	3,000,000	100000	400,000,000
Gemini 2.5 Flash-Lite	10000	1000 万	*	500,000,000
Gemini 2.0 Flash	10000	1000 万	*	10 亿
Gemini 2.0 Flash-Lite	20,000	1000 万	*	10 亿
Live API
Gemini 2.5 Flash Live	1000 个工作时段	1000 万	*	*
Gemini 2.5 Flash 预览版原生音频对话框	100 个会话	100 万	*	*
Gemini 2.5 Flash Experimental 原生音频思考对话框	1 节课	25000	50	*
Gemini 2.0 Flash Live	1000 个工作时段	1000 万	*	*
多模态生成模型
Gemini 2.5 Flash 预览版 TTS	1000	100000	10000	*
Gemini 2.5 Pro 预览版 TTS	100	25000	1000	*
Gemini 2.0 Flash 预览版图片生成	2000	3,000,000	100000	*
Imagen 4 Standard/Fast	15	*	1000	*
Imagen 4 Ultra	10	*	400	*
Imagen 3	20	*	*	*
Veo 3	4	*	50	*
Veo 3 Fast	4	*	50	*
Veo 2	2	*	50	*
其他模型
Gemma 3 和 3n	30	15000	14,400	*
Gemini Embedding	5,000	5000000	*	*
已弃用的模型
Gemini 1.5 Flash（已弃用）	2000	4,000,000	*	*
Gemini 1.5 Flash-8B（已弃用）	4000	4,000,000	*	*
Gemini 1.5 Pro（已弃用）	1000	4,000,000	*	*

型号	每千次展示收入	TPM	RPD	批量排队的令牌
Text-out 模型
Gemini 2.5 Pro	2000	800 万	*	10 亿
Gemini 2.5 Flash	10000	800 万	*	10 亿
Gemini 2.5 Flash-Lite	30000	30,000,000	*	10 亿
Gemini 2.0 Flash	30000	30,000,000	*	5,000,000,000
Gemini 2.0 Flash-Lite	30000	30,000,000	*	5,000,000,000
Live API
Gemini 2.5 Flash Live	1000 个工作时段	1000 万	*	*
Gemini 2.5 Flash 预览版原生音频对话框	100 个会话	100 万	*	*
Gemini 2.5 Flash Experimental 原生音频思考对话框	1 节课	25000	50	*
Gemini 2.0 Flash Live	1000 个工作时段	1000 万	*	*
多模态生成模型
Gemini 2.5 Flash 预览版 TTS	1000	100 万	*	*
Gemini 2.5 Pro 预览版 TTS	100	100 万	*	*
Gemini 2.0 Flash 预览版图片生成	5,000	5000000	*	*
Imagen 4 Standard/Fast	20	*	15000	*
Imagen 4 Ultra	15	*	5,000	*
Imagen 3	20	*	*	*
Veo 3	10	*	500	*
Veo 3 Fast	10	*	500	*
Veo 2	2	*	50	*
其他模型
Gemma 3 和 3n	30	15000	14,400	*
Gemini Embedding	10000	1000 万	*	*
已弃用的模型
Gemini 1.5 Flash（已弃用）	2000	4,000,000	*	*
Gemini 1.5 Flash-8B（已弃用）	4000	4,000,000	*	*
Gemini 1.5 Pro（已弃用）	1000	4,000,000	*	*

指定的速率限制无法保证，实际容量可能会有所不同。

批量模式请求有自己的速率限制，与非批量模式 API 调用分开。

并发批量请求数：100
输入文件大小限制：2 GB
文件存储空间上限：20 GB
每个模型排队的 token 数：速率限制表中的“批量排队的 token 数”列列出了针对给定模型，所有有效批量作业可排队进行批量处理的最大 token 数。请参阅标准 API 速率限制表。

Gemini API 使用 Cloud Billing 来处理所有结算服务。如需从免费层级过渡到付费层级，您必须先为 Google Cloud 项目启用 Cloud Billing。

当您的项目符合指定条件后，便有资格升级到下一层级。如需申请升级，请按以下步骤操作：

经过快速验证后，项目将升级到下一个层级。

每种模型变体都有关联的速率限制（每分钟请求数，RPM）。如需详细了解这些速率限制，请参阅 Gemini 模型。

我们无法保证一定会提高您的速率限制，但会尽力审核您的申请。