Anthropic 从三个维度限制 Claude API:每分钟请求数(RPM)、每分钟输入 token 数和每分钟输出 token 数。任何一项超标,您都会收到 429 错误,并附带一个 retry-after 头告知等待时间。
您的限额取决于使用层级(1 至 4 级),随着累计消费增长自动升级。但即便处于较高层级,高强度工作负载依然会触及上限。Anthropic 采用令牌桶算法——简单来说,您无法在同一时刻集中发送所有请求。如果限额是每分钟 60 次,并不意味着您可以在 1 秒内发完 60 个请求,然后等待剩余时间。这样做会被封禁,即使您每分钟的平均请求数看起来没有超标。系统要求请求均匀分布发送。举个例子:如果您在 Tier 2 上用 Sonnet 每小时处理 500 份文档,大约 8 分钟就能耗尽 RPM 配额,剩余时间只能在 retry-after 冷却中等待。
如果您的团队需要同时发送大量请求——例如批量审阅文档、处理代码或并行生成内容——您很快就会触及这些限额。一个 Anthropic 账户对应一套限额,在单个组织内无法突破。
解决方法:创建多个 Anthropic 组织,每个组织拥有独立的层级和限额。通过 Claude AI API 代理路由请求,将流量分散到各个组织。每个组织的 API 密钥通过单独的数据中心代理 IP 发送,Anthropic 会将其识别为独立用户。您的应用只需将所有请求发送到同一地址,代理会自动决定使用哪个组织,并在某个组织达到限额时自动重试。
还有一种不同的 Claude AI 代理方案:Claude Max 订阅($200/月)可通过 Claude 界面获得无限使用量。社区工具可以将该订阅转换为其他应用可调用的 API。完全没有按 token 计费——不过它通过 Claude CLI 运行,因此有自身的特性和速度限制。