AI एजेंट्स के लिए कैशिंग रणनीतियाँ: गुणवत्ता से समझौता किए बिना लागत कम करें
AI एजेंट्स के लिए कैशिंग रणनीतियाँ: गुणवत्ता से समझौता किए बिना लागत कम करें
आपका रिसर्च एजेंट एक दिन में 50 टास्क चलाता है। हर टास्क एक ही 3,000-टोकन सिस्टम प्रॉम्प्ट, वही 2,500-टोकन टूल डेफिनिशन, और वही 5,000-टोकन नॉलेज बेस से शुरू होता है। यानी 10,500 टोकन 50 बार दोहराए जाते हैं — प्रति दिन 525,000 टोकन जिन्हें मॉडल हर बार एक जैसे पढ़ता है। स्टैंडर्ड प्राइसिंग पर, आप एक ही कंटेंट को बार-बार प्रोसेस करने का पैसा चुका रहे हैं।
कैशिंग प्रोडक्शन एजेंट्स के लिए सबसे कम मेहनत और सबसे ज़्यादा असर वाला ऑप्टिमाइज़ेशन है। अकेले प्रॉम्प्ट कैशिंग से कैश्ड कंटेंट की इनपुट टोकन लागत 90% तक कम हो सकती है। टूल रिज़ल्ट कैशिंग के साथ मिलाकर, आप अक्सर कुल एजेंट लागत को आधा कर सकते हैं — बिना गुणवत्ता, सटीकता या लचीलेपन से समझौता किए।
इस लेख में, आप एजेंट्स के लिए तीन कैशिंग परतें सीखेंगे — प्रॉम्प्ट कैशिंग, टूल रिज़ल्ट कैशिंग, और रिस्पॉन्स मेमोइज़ेशन — Claude के API का उपयोग करके इम्प्लीमेंटेशन पैटर्न और आपके निर्णयों को मार्गदर्शित करने के लिए एक स्पष्ट कॉस्ट एनालिसिस के साथ।
सेक्शन 1: एजेंट कॉस्ट एनाटॉमी
ऑप्टिमाइज़ करने से पहले, आपको यह समझना होगा कि आपके टोकन वास्तव में कहाँ जा रहे हैं। आइए एक सामान्य एजेंटिक वर्कफ़्लो को विस्तार से देखें।
प्रति टर्न टोकन ब्रेकडाउन
एक स्टैंडर्ड एजेंट आर्किटेक्चर में, मॉडल पर हर API कॉल में शामिल होता है:
| कम्पोनेंट | लगभग टोकन | दोहराया जाता है? |
|---|---|---|
| सिस्टम प्रॉम्प्ट | ~1,500 | हर टर्न |
| टूल डेफिनिशन | ~2,000 | हर टर्न |
| नॉलेज बेस / कॉन्टेक्स्ट | ~3,000 | हर टर्न |
| कन्वर्सेशन हिस्ट्री | बढ़ता रहता है | जमा होता है |
| टूल रिज़ल्ट | ~500 औसत | प्रति टूल कॉल |
स्टैटिक ओवरहेड — सिस्टम प्रॉम्प्ट, टूल डेफिनिशन, और नॉलेज बेस — कुल मिलाकर लगभग 6,500 टोकन प्रति टर्न होता है, और यह हर बार बिल्कुल एक जैसा होता है।
कंपाउंड कॉस्ट की समस्या
एजेंट एक API कॉल नहीं करते। वे लूप करते हैं। एक सामान्य 15-स्टेप एजेंट रन इस तरह दिखता है:
कैशिंग के बिना:
15 में से हर स्टेप पूरा कॉन्टेक्स्ट भेजता है। यह मानते हुए कि कन्वर्सेशन हिस्ट्री प्रति स्टेप औसतन ~300 टोकन बढ़ती है:
- प्रति स्टेप स्टैटिक टोकन: 6,500
- 15 स्टेप में कुल स्टैटिक टोकन: 97,500
- कन्वर्सेशन हिस्ट्री टोकन (संचयी): ~33,750
- टूल रिज़ल्ट टोकन: ~7,500
- कुल इनपुट टोकन: ~138,750
Claude Sonnet की $3 प्रति मिलियन टोकन की इनपुट प्राइसिंग पर, यह प्रति टास्क लगभग $0.42 है। प्रति दिन 50 टास्क चलाएँ और आप देख रहे हैं $21/दिन — सिर्फ इनपुट टोकन पर।
प्रॉम्प्ट कैशिंग के साथ:
कैश्ड टोकन $0.30 प्रति मिलियन पर चार्ज किए जाते हैं (90% छूट)। यदि आप 6,500 स्टैटिक टोकन कैश करते हैं:
- 15 स्टेप में कैश्ड टोकन रीड: 97,500 टोकन × $0.30/M = $0.029
- नॉन-कैश्ड टोकन स्टैंडर्ड प्राइसिंग पर: ~41,250 × $3/M = $0.124
- कैश राइट (पहला स्टेप): 6,500 × $3.75/M = $0.024
- कुल इनपुट लागत: ~$0.18 प्रति टास्क
यह अकेले कैशिंग से 57% की कमी है। 50 टास्क प्रति दिन पर, आप $12/दिन से अधिक बचाते हैं — लगभग $360/महीना — न्यूनतम कोड बदलावों के साथ।
सेक्शन 2: Claude के साथ प्रॉम्प्ट कैशिंग
Claude का प्रॉम्प्ट कैशिंग API एजेंटिक वर्कफ़्लो के लिए सबसे प्रभावशाली ऑप्टिमाइज़ेशन है जो आप लागू कर सकते हैं। यह आपको API को बताने देता है “मेरे प्रॉम्प्ट का यह हिस्सा नहीं बदला है — कैश्ड कम्प्यूटेशन का पुन: उपयोग करें।“
प्रॉम्प्ट कैशिंग कैसे काम करती है
जब आप कैशिंग सक्षम के साथ एक रिक्वेस्ट भेजते हैं, Anthropic का इन्फ्रास्ट्रक्चर:
- जाँच करता है कि मार्क किए गए प्रीफिक्स का कैश्ड वर्शन मौजूद है या नहीं
- कैश मिस पर: पूरा प्रॉम्प्ट प्रोसेस करता है, प्रीफिक्स कैश करता है, और कैश राइट फ़ीस चार्ज करता है (स्टैंडर्ड इनपुट प्राइसिंग से 25% प्रीमियम)
- कैश हिट पर: कैश्ड कम्प्यूटेशन का पुन: उपयोग करता है, केवल कैश रीड फ़ीस चार्ज करता है (स्टैंडर्ड इनपुट प्राइसिंग से 90% छूट)
कैश की 5-मिनट TTL (Time to Live — कैश्ड डेटा की एक्सपायरी से पहले की अवधि) होती है। हर कैश हिट TTL रीसेट करता है, इसलिए सक्रिय एजेंट अपना कैश स्वाभाविक रूप से जीवित रखते हैं। 5 मिनट से अधिक के अंतराल वाले बैच जॉब अधिक बार कैश राइट लागत उठाएंगे।
क्या कैश करें
सब कुछ कैश नहीं किया जा सकता या होना चाहिए। स्थिर, दोहराए जाने वाले प्रीफिक्स कैश करें:
- सिस्टम प्रॉम्प्ट — लगभग हमेशा रन के बीच समान होते हैं। पहले इन्हें कैश करें।
- टूल डेफिनिशन — आपके टूल स्कीमा कॉल्स के बीच शायद ही बदलते हैं।
संबंधित लेख
- एजेंट लागत अनुकूलन: API खर्च कम करने की व्यावहारिक गाइड
- एजेंट एरर रिकवरी: प्रोडक्शन विश्वसनीयता के लिए 5 पैटर्न
- टूल उपयोग पैटर्न: विश्वसनीय एजेंट-टूल इंटरफेस बनाना