कंप्यूटर एक्सेस सिस्टम

AI एजेंट्स के लिए कैशिंग रणनीतियाँ: गुणवत्ता से समझौता किए बिना लागत कम करें


AI एजेंट्स के लिए कैशिंग रणनीतियाँ: गुणवत्ता से समझौता किए बिना लागत कम करें

आपका रिसर्च एजेंट एक दिन में 50 टास्क चलाता है। हर टास्क एक ही 3,000-टोकन सिस्टम प्रॉम्प्ट, वही 2,500-टोकन टूल डेफिनिशन, और वही 5,000-टोकन नॉलेज बेस से शुरू होता है। यानी 10,500 टोकन 50 बार दोहराए जाते हैं — प्रति दिन 525,000 टोकन जिन्हें मॉडल हर बार एक जैसे पढ़ता है। स्टैंडर्ड प्राइसिंग पर, आप एक ही कंटेंट को बार-बार प्रोसेस करने का पैसा चुका रहे हैं।

कैशिंग प्रोडक्शन एजेंट्स के लिए सबसे कम मेहनत और सबसे ज़्यादा असर वाला ऑप्टिमाइज़ेशन है। अकेले प्रॉम्प्ट कैशिंग से कैश्ड कंटेंट की इनपुट टोकन लागत 90% तक कम हो सकती है। टूल रिज़ल्ट कैशिंग के साथ मिलाकर, आप अक्सर कुल एजेंट लागत को आधा कर सकते हैं — बिना गुणवत्ता, सटीकता या लचीलेपन से समझौता किए।

इस लेख में, आप एजेंट्स के लिए तीन कैशिंग परतें सीखेंगे — प्रॉम्प्ट कैशिंग, टूल रिज़ल्ट कैशिंग, और रिस्पॉन्स मेमोइज़ेशन — Claude के API का उपयोग करके इम्प्लीमेंटेशन पैटर्न और आपके निर्णयों को मार्गदर्शित करने के लिए एक स्पष्ट कॉस्ट एनालिसिस के साथ।


सेक्शन 1: एजेंट कॉस्ट एनाटॉमी

ऑप्टिमाइज़ करने से पहले, आपको यह समझना होगा कि आपके टोकन वास्तव में कहाँ जा रहे हैं। आइए एक सामान्य एजेंटिक वर्कफ़्लो को विस्तार से देखें।

प्रति टर्न टोकन ब्रेकडाउन

एक स्टैंडर्ड एजेंट आर्किटेक्चर में, मॉडल पर हर API कॉल में शामिल होता है:

कम्पोनेंटलगभग टोकनदोहराया जाता है?
सिस्टम प्रॉम्प्ट~1,500हर टर्न
टूल डेफिनिशन~2,000हर टर्न
नॉलेज बेस / कॉन्टेक्स्ट~3,000हर टर्न
कन्वर्सेशन हिस्ट्रीबढ़ता रहता हैजमा होता है
टूल रिज़ल्ट~500 औसतप्रति टूल कॉल

स्टैटिक ओवरहेड — सिस्टम प्रॉम्प्ट, टूल डेफिनिशन, और नॉलेज बेस — कुल मिलाकर लगभग 6,500 टोकन प्रति टर्न होता है, और यह हर बार बिल्कुल एक जैसा होता है।

कंपाउंड कॉस्ट की समस्या

एजेंट एक API कॉल नहीं करते। वे लूप करते हैं। एक सामान्य 15-स्टेप एजेंट रन इस तरह दिखता है:

कैशिंग के बिना:

15 में से हर स्टेप पूरा कॉन्टेक्स्ट भेजता है। यह मानते हुए कि कन्वर्सेशन हिस्ट्री प्रति स्टेप औसतन ~300 टोकन बढ़ती है:

  • प्रति स्टेप स्टैटिक टोकन: 6,500
  • 15 स्टेप में कुल स्टैटिक टोकन: 97,500
  • कन्वर्सेशन हिस्ट्री टोकन (संचयी): ~33,750
  • टूल रिज़ल्ट टोकन: ~7,500
  • कुल इनपुट टोकन: ~138,750

Claude Sonnet की $3 प्रति मिलियन टोकन की इनपुट प्राइसिंग पर, यह प्रति टास्क लगभग $0.42 है। प्रति दिन 50 टास्क चलाएँ और आप देख रहे हैं $21/दिन — सिर्फ इनपुट टोकन पर।

प्रॉम्प्ट कैशिंग के साथ:

कैश्ड टोकन $0.30 प्रति मिलियन पर चार्ज किए जाते हैं (90% छूट)। यदि आप 6,500 स्टैटिक टोकन कैश करते हैं:

  • 15 स्टेप में कैश्ड टोकन रीड: 97,500 टोकन × $0.30/M = $0.029
  • नॉन-कैश्ड टोकन स्टैंडर्ड प्राइसिंग पर: ~41,250 × $3/M = $0.124
  • कैश राइट (पहला स्टेप): 6,500 × $3.75/M = $0.024
  • कुल इनपुट लागत: ~$0.18 प्रति टास्क

यह अकेले कैशिंग से 57% की कमी है। 50 टास्क प्रति दिन पर, आप $12/दिन से अधिक बचाते हैं — लगभग $360/महीना — न्यूनतम कोड बदलावों के साथ।


सेक्शन 2: Claude के साथ प्रॉम्प्ट कैशिंग

Claude का प्रॉम्प्ट कैशिंग API एजेंटिक वर्कफ़्लो के लिए सबसे प्रभावशाली ऑप्टिमाइज़ेशन है जो आप लागू कर सकते हैं। यह आपको API को बताने देता है “मेरे प्रॉम्प्ट का यह हिस्सा नहीं बदला है — कैश्ड कम्प्यूटेशन का पुन: उपयोग करें।“

प्रॉम्प्ट कैशिंग कैसे काम करती है

जब आप कैशिंग सक्षम के साथ एक रिक्वेस्ट भेजते हैं, Anthropic का इन्फ्रास्ट्रक्चर:

  1. जाँच करता है कि मार्क किए गए प्रीफिक्स का कैश्ड वर्शन मौजूद है या नहीं
  2. कैश मिस पर: पूरा प्रॉम्प्ट प्रोसेस करता है, प्रीफिक्स कैश करता है, और कैश राइट फ़ीस चार्ज करता है (स्टैंडर्ड इनपुट प्राइसिंग से 25% प्रीमियम)
  3. कैश हिट पर: कैश्ड कम्प्यूटेशन का पुन: उपयोग करता है, केवल कैश रीड फ़ीस चार्ज करता है (स्टैंडर्ड इनपुट प्राइसिंग से 90% छूट)

कैश की 5-मिनट TTL (Time to Live — कैश्ड डेटा की एक्सपायरी से पहले की अवधि) होती है। हर कैश हिट TTL रीसेट करता है, इसलिए सक्रिय एजेंट अपना कैश स्वाभाविक रूप से जीवित रखते हैं। 5 मिनट से अधिक के अंतराल वाले बैच जॉब अधिक बार कैश राइट लागत उठाएंगे।

क्या कैश करें

सब कुछ कैश नहीं किया जा सकता या होना चाहिए। स्थिर, दोहराए जाने वाले प्रीफिक्स कैश करें:

  • सिस्टम प्रॉम्प्ट — लगभग हमेशा रन के बीच समान होते हैं। पहले इन्हें कैश करें।
  • टूल डेफिनिशन — आपके टूल स्कीमा कॉल्स के बीच शायद ही बदलते हैं।

संबंधित लेख