本部分介绍了生成式 AI 扩缩单元 (GSU) 和消耗率的概念。预配吞吐量是使用生成式 AI 扩缩单元 (GSU) 和消耗率进行计算和定价的。
GSU 和消耗率
生成式 AI 扩缩单元 (GSU) 是衡量提示和回答的吞吐量。此数量指定了为模型预配多少吞吐量。
消耗率是将输入和输出单位(例如 token、字符或图片)分别转换为每秒输入 token 数、每秒输入字符数或每秒输入图片数的比率。此比率表示吞吐量,用于在各个模型中生成标准单位。
不同模型使用不同的吞吐量。如需了解每种模型的最低 GSU 购买金额和增量,请参阅本文档中的支持的模型和消耗率部分。
以下等式演示了如何计算吞吐量:
inputs_per_query = inputs_across_modalities_converted_using_burndown_rates outputs_per_query = outputs_across_modalities_converted_using_burndown_rates throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second
计算出的每秒吞吐量决定了您的用例需要多少 GSU。
重要注意事项
为帮助您规划预配吞吐量需求,请查看以下重要注意事项:
请求会按优先级处理。
系统会优先处理和服务预配吞吐量客户的请求,然后再处理按需请求。
吞吐量不会累积。
未使用的吞吐量都不会累积或结转到下个月。
预配吞吐量以每秒 token 数、每秒字符数或每秒图片数为计量单位。
预配吞吐量并非仅根据每分钟查询次数 (QPM) 来计量。它是根据应用场景的查询大小、响应大小和 QPM 来计量的。
预配吞吐量特定于项目、区域、模型和版本。
预配吞吐量会分配给特定的“项目-区域-模型-版本”组合。从其他区域调用同一模型不会占用预配吞吐量配额,也不会优先于按需请求。
上下文缓存
预配吞吐量支持默认的上下文缓存。但是,预配吞吐量不支持使用 Vertex AI API 缓存请求,包括检索有关上下文缓存的信息。
默认情况下,Google 会自动缓存输入,以降低费用并缩短延迟时间。对于 Gemini 2.5 Flash 和 Gemini 2.5 Pro 模型,如果发生缓存命中,缓存的 token 相对于标准输入 token 以 75% 折扣计费。对于预配吞吐量,折扣通过降低消耗率来应用。
例如,Gemini 2.5 Pro 的输入文本 token 和缓存 token 的消耗率如下:
1 个输入文本 token = 1 个 token
1 个输入缓存文本 token = 0.25 个 token
向此模型发送 1,000 个输入 token 会使预配吞吐量每秒消耗 1,000 个输入 token。但是,如果您向 Gemini 2.5 Pro 发送 1,000 个缓存 token,则会使预配吞吐量每秒消耗 250 个 token。
请注意,对于未缓存 token 且未应用缓存折扣的类似查询,这可能会带来更高的吞吐量。
如需查看预配吞吐量中支持的模型的消耗率,请参阅支持的模型和消耗率。
了解 Live API 的淘汰时间表
预配置吞吐量支持 Gemini 2.5 Flash 与 Live API 搭配使用。如需了解如何在采用 Live API 的同时计算消耗速率,请参阅计算 Live API 的吞吐量。
如需详细了解如何将预配吞吐量用于 Gemini 2.5 Flash with Live API,请参阅 Live API 的预配吞吐量。
估算预配的吞吐量需求的示例
如需估算预配吞吐量需求,请使用 Google Cloud 控制台中的估算工具。以下示例说明了估算模型预配吞吐量的过程。估算计算中不考虑该区域。
下表提供了 gemini-2.0-flash
的消耗率,您可以使用该消耗率来跟随示例操作。
模型 | 每个 GSU 的吞吐量 | 单位 | 最小 GSU 购买增量 | 消耗率 |
---|---|---|---|---|
Gemini 2.0 Flash | 3,360 | 令牌 | 1 | 1 个输入文本 token = 1 个 token 1 个输入图片 token = 1 个 token 1 个输入视频 token = 1 个 token 1 个输入音频 token = 7 个 token 1 个输入文本 token = 4 个 token |
收集要求。
在此示例中,您的要求是验证您是否可以使用
gemini-2.0-flash
支持每秒 10 次查询 (QPS),每次查询的输入为 1,000 个文本 token 和 500 个音频 token,并接收 300 个文本 token 的输出。此步骤意味着您了解自己的应用场景,因为您已经确定了模型、QPS 以及输入和输出的大小。
如需计算吞吐量,请参阅所选模型的消耗率。
计算吞吐量。
将输入乘以消耗率,即可得出总输入 token 数:
1,000*(每个输入文本 token 1 个 token)+ 500*(每个输入音频 token 7 个 token) = 每次查询 4,500 个按消耗调整后的输入 token。
将输出乘以消耗率,即可得出总输出 token 数:
300*(每个输出文本 token 4 个 token) = 每次查询 1,200 个按消耗调整后的输出 token
将总计相加:
4,500 个按消耗调整后的输入 token + 1,200 个按消耗调整后的输出 token = 每次查询 5,700 个总 token
将 token 总数乘以 QPS,即可得出每秒的总吞吐量:
每次查询 5,700 个总 token * 10 QPS = 每秒 57,000 个总 token
计算 GSU。
GSU 是指每秒总 token 数除以消耗表中的每 GSU 每秒吞吐量。
每秒 57,000 个总 token ÷ 每 GSU 每秒 3,360 吞吐量 = 16.96 GSU
gemini-2.0-flash
的最小 GSU 购买增量为 1,因此您需要 17 个 GSU 来确保工作负载。