此页面由 Cloud Translation API 翻译。

计算预配吞吐量要求

本部分介绍了生成式 AI 扩缩单元 (GSU) 和消耗率的概念。预配吞吐量是使用生成式 AI 扩缩单元 (GSU) 和消耗率进行计算和定价的。

GSU 和消耗率

生成式 AI 扩缩单元 (GSU) 是衡量提示和回答的吞吐量。此数量指定了为模型预配多少吞吐量。

消耗率是将输入和输出单位（例如 token、字符或图片）分别转换为每秒输入 token 数、每秒输入字符数或每秒输入图片数的比率。此比率表示吞吐量，用于在各个模型中生成标准单位。

不同模型使用不同的吞吐量。如需了解每种模型的最低 GSU 购买金额和增量，请参阅本文档中的支持的模型和消耗率部分。

以下等式演示了如何计算吞吐量：

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates outputs_per_query = outputs_across_modalities_converted_using_burndown_rates  throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

计算出的每秒吞吐量决定了您的用例需要多少 GSU。

重要注意事项

为帮助您规划预配吞吐量需求，请查看以下重要注意事项：

请求会按优先级处理。

系统会优先处理和服务预配吞吐量客户的请求，然后再处理按需请求。
吞吐量不会累积。

未使用的吞吐量都不会累积或结转到下个月。
预配吞吐量以每秒 token 数、每秒字符数或每秒图片数为计量单位。

预配吞吐量并非仅根据每分钟查询次数 (QPM) 来计量。它是根据应用场景的查询大小、响应大小和 QPM 来计量的。
预配吞吐量特定于项目、区域、模型和版本。

预配吞吐量会分配给特定的“项目-区域-模型-版本”组合。从其他区域调用同一模型不会占用预配吞吐量配额，也不会优先于按需请求。

上下文缓存

预配吞吐量支持默认的上下文缓存。但是，预配吞吐量不支持使用 Vertex AI API 缓存请求，包括检索有关上下文缓存的信息。

默认情况下，Google 会自动缓存输入，以降低费用并缩短延迟时间。对于 Gemini 2.5 Flash 和 Gemini 2.5 Pro 模型，如果发生缓存命中，缓存的 token 相对于标准输入 token 以 75% 折扣计费。对于预配吞吐量，折扣通过降低消耗率来应用。

例如，Gemini 2.5 Pro 的输入文本 token 和缓存 token 的消耗率如下：

1 个输入文本 token = 1 个 token
1 个输入缓存文本 token = 0.25 个 token

向此模型发送 1,000 个输入 token 会使预配吞吐量每秒消耗 1,000 个输入 token。但是，如果您向 Gemini 2.5 Pro 发送 1,000 个缓存 token，则会使预配吞吐量每秒消耗 250 个 token。

请注意，对于未缓存 token 且未应用缓存折扣的类似查询，这可能会带来更高的吞吐量。

如需查看预配吞吐量中支持的模型的消耗率，请参阅支持的模型和消耗率。

了解 Live API 的淘汰时间表

预配置吞吐量支持 Gemini 2.5 Flash 与 Live API 搭配使用。如需了解如何在采用 Live API 的同时计算消耗速率，请参阅计算 Live API 的吞吐量。

如需详细了解如何将预配吞吐量用于 Gemini 2.5 Flash with Live API，请参阅 Live API 的预配吞吐量。

估算预配的吞吐量需求的示例

如需估算预配吞吐量需求，请使用 Google Cloud 控制台中的估算工具。以下示例说明了估算模型预配吞吐量的过程。估算计算中不考虑该区域。

下表提供了 gemini-2.0-flash 的消耗率，您可以使用该消耗率来跟随示例操作。

模型	每个 GSU 的吞吐量	单位	最小 GSU 购买增量	消耗率
Gemini 2.0 Flash	3,360	令牌	1	1 个输入文本 token = 1 个 token 1 个输入图片 token = 1 个 token 1 个输入视频 token = 1 个 token 1 个输入音频 token = 7 个 token 1 个输入文本 token = 4 个 token

收集要求。
1. 在此示例中，您的要求是验证您是否可以使用 gemini-2.0-flash 支持每秒 10 次查询 (QPS)，每次查询的输入为 1,000 个文本 token 和 500 个音频 token，并接收 300 个文本 token 的输出。
  
  此步骤意味着您了解自己的应用场景，因为您已经确定了模型、QPS 以及输入和输出的大小。
2. 如需计算吞吐量，请参阅所选模型的消耗率。
计算吞吐量。
1. 将输入乘以消耗率，即可得出总输入 token 数：
  
  1,000&ast;（每个输入文本 token 1 个 token）+ 500&ast;（每个输入音频 token 7 个 token) = 每次查询 4,500 个按消耗调整后的输入 token。
2. 将输出乘以消耗率，即可得出总输出 token 数：
  
  300&ast;（每个输出文本 token 4 个 token) = 每次查询 1,200 个按消耗调整后的输出 token
3. 将总计相加：
  
  4,500 个按消耗调整后的输入 token + 1,200 个按消耗调整后的输出 token = 每次查询 5,700 个总 token
4. 将 token 总数乘以 QPS，即可得出每秒的总吞吐量：
  
  每次查询 5,700 个总 token * 10 QPS = 每秒 57,000 个总 token
计算 GSU。
1. GSU 是指每秒总 token 数除以消耗表中的每 GSU 每秒吞吐量。
  
  每秒 57,000 个总 token ÷ 每 GSU 每秒 3,360 吞吐量 = 16.96 GSU
2. gemini-2.0-flash 的最小 GSU 购买增量为 1，因此您需要 17 个 GSU 来确保工作负载。

后续步骤

购买预配吞吐量。