Setiap platform AI utama mengehadkan bilangan permintaan yang boleh anda hantar. OpenAI, Anthropic, Google, DeepSeek — semuanya menetapkan had penggunaan bagi setiap akaun, setiap minit, setiap hari. Apabila anda membina produk, menjalankan automasi, atau memproses data pada skala besar, satu akaun dengan satu IP akan mencecah siling dengan pantas. Anda akan menerima ralat 429, permintaan bertimbun dalam baris gilir, dan saluran kerja anda terhenti.
Pelayan proksi AI berada di antara aplikasi anda dan pembekal AI. Anda menghantar permintaan ke proksi, dan ia mengagihkan permintaan tersebut merentasi pelbagai kunci API, setiap satu melalui alamat IP tersendiri. Pembekal hanya nampak pengguna berasingan, bukan satu akaun yang terlebih beban. Kapasiti keseluruhan anda berganda manakala setiap kunci individu kekal selamat dalam had yang ditetapkan. Dalam amalan, proksi yang dikonfigurasi dengan baik hanya menambah 15–30ms latensi bagi setiap permintaan — boleh diabaikan untuk pemprosesan kelompok dan hampir tidak ketara walaupun dalam aplikasi sembang masa nyata, di mana masa penjanaan model itu sendiri mendominasi pada 500–3000ms.
Ini berkesan kerana platform AI mengikat had kadar kepada akaun, bukan IP — tetapi mereka memantau corak IP. Jika satu alamat bertukar melalui 10 kunci API berbeza secara berturut-turut dengan pantas, itu ialah tanda amaran. Proksi berdedikasi berasingan bagi setiap kunci memastikan semuanya kelihatan semula jadi. Anda juga memerlukan strategi failover: pantau kadar ralat setiap kunci, dan jika IP tertentu mula mengembalikan ralat 429 atau 403 secara konsisten, putarkannya keluar daripada kumpulan secara automatik dan halakan trafik kunci tersebut melalui IP sandaran. Semakan kesihatan setiap 60 saat bagi setiap pasangan kunci-IP mengesan masalah sebelum ia merebak.
Rupa bentuk tetapan ini dalam amalan
Kebanyakan persediaan proksi API AI mengikuti corak yang sama tanpa mengira pembekal. Anda menjalankan pelayan proksi ringan (FastAPI, Node, Go — apa sahaja stack anda) yang memegang kumpulan kunci API. Apabila permintaan masuk, proksi memilih kunci seterusnya yang tersedia, menghalakan permintaan melalui IP yang ditugaskan kepada kunci tersebut, dan mengembalikan respons. Jika satu kunci mendapat 429 (ralat had kadar), proksi beralih kepada kunci seterusnya. Berikut ialah contoh Python minimal menggunakan FastAPI dan httpx:
import httpx, itertools
from fastapi import FastAPI, Request, Response
app = FastAPI()
keys = itertools.cycle([
{"api_key": "sk-key1", "proxy": "http://user:pass@ip1:port"},
{"api_key": "sk-key2", "proxy": "http://user:pass@ip2:port"},
])
@app.post("/v1/chat/completions")
async def proxy(request: Request):
body = await request.json()
slot = next(keys)
async with httpx.AsyncClient(proxy=slot["proxy"]) as client:
r = await client.post(
"https://api.openai.com/v1/chat/completions",
json=body,
headers={"Authorization": f"Bearer {slot['api_key']}"},
)
# TODO: Add retry logic on 429 — try next key/IP before returning error to caller
return Response(content=r.content, status_code=r.status_code)
Nota: contoh minimal ini menggunakan itertools.cycle demi kemudahan, tetapi ia tidak secara automatik mencuba semula apabila berlaku ralat 429. Dalam persekitaran pengeluaran, tambahkan logik cuba semula yang melangkau kunci yang dinyahkelajuan dan mencuba pasangan kunci-IP seterusnya yang tersedia sebelum mengembalikan ralat kepada pemanggil. Memandangkan hampir setiap pembekal AI kini menyokong format API OpenAI, satu proksi boleh mengendalikan terjemahan format yang diperlukan oleh setiap pembekal AI — halakan ke pembekal yang betul, dan aplikasi anda tidak perlu mengetahui perbezaannya. Tukar base URL dan kumpulan kunci mengikut pembekal, dan pelayan 20 baris yang sama boleh mengendalikan OpenAI, Anthropic, Google, dan DeepSeek.
Berapa banyak IP yang anda benar-benar perlukan
Ini bukan pengikisan web yang memerlukan beribu-ribu alamat. Untuk kerja API AI, 3–15 proksi berdedikasi sudah mencukupi bagi kebanyakan tetapan. Satu IP bagi setiap kunci API atau akaun penyedia. Anda membayar untuk kestabilan dan kebersihan, bukan volum. Simpan 1–2 IP ganti sebagai sandaran failover — jika sesuatu kunci terkena throttling atau IP ditanda, proksi anda secara automatik mengalihkan trafik ke sandaran tanpa menggugurkan permintaan.
Panduan khusus mengikut platform
Setiap pembekal AI mempunyai had kadar, keunikan, dan amalan terbaik tersendiri. Kami telah merangkumi butiran bagi setiap satu secara berasingan:
DeepSeek — tiada had yang diterbitkan, throttling dinamik berdasarkan beban pelayan. Permintaan anda boleh tamat masa tanpa amaran semasa waktu puncak. Berbilang kunci merentasi IP boleh melancarkan keadaan ini. → Proksi untuk DeepSeek
Google Gemini — pelan percuma dikurangkan 50-80% pada akhir 2025. Kini hanya 5-10 permintaan seminit bergantung pada model. Putaran kunci melalui berbilang projek Google Cloud ialah penyelesaian standard. → Proksi untuk Gemini
Anthropic Claude — had kadar bertingkat (RPM, token input/output seminit) yang meningkat seiring perbelanjaan anda. Trafik lonjakan ditolak walaupun purata anda masih dalam had. → Proksi untuk Claude
OpenAI ChatGPT — had per organisasi pada RPM dan token. Sasaran proksi AI chat paling banyak digunakan, dengan paling banyak alatan tersedia. → Proksi untuk ChatGPT
Janitor AI — "proksi" di sini bermaksud API gateway kepada model yang lebih baik, bukan proksi IP. Tetapi jika anda menghos pelayan geganti sendiri, IP keluar yang bersih menghalangnya daripada disekat. → Proksi untuk Janitor AI
Setiap platform mempunyai had yang berbeza, logik pengesanan yang berbeza, dan konfigurasi proksi optimum yang berbeza. Mulakan dengan panduan untuk pembekal utama anda, sediakan pemantauan kesihatan pada setiap pasangan kunci-IP, dan pastikan kapasiti ganti untuk failover.