कंप्यूटर एक्सेस सिस्टम

स्वायत्त एजेंट सिस्टम में डिबगिंग और ऑब्जर्वेबिलिटी


चुपचाप विफल होने वाला स्वायत्त एजेंट किसी एजेंट के न होने से भी बुरा है। जब कोई पारंपरिक फ़ंक्शन एक्सेप्शन थ्रो करता है, तो आपको स्टैक ट्रेस मिलता है। जब एजेंट बीस टूल कॉल्स और तीन मॉडल इनवोकेशन में गलत रास्ते पर चला जाता है, तो आपको एक गलत जवाब मिलता है — और कोई स्पष्ट स्पष्टीकरण नहीं।

एजेंट्स को डिबग करने के लिए एक अलग मानसिक मॉडल की जरूरत होती है। सिस्टम एक निश्चित पथ निष्पादित नहीं कर रहा; यह निर्णयों की एक श्रृंखला ले रहा है। ऑब्जर्वेबिलिटी का मतलब उन निर्णयों को कैप्चर करना है — न केवल इनपुट और आउटपुट, बल्कि वह तर्क जो उन्हें जोड़ता है।

एजेंट्स के लिए पारंपरिक डिबगिंग क्यों विफल होती है

स्टैंडर्ड लॉगिंग कैप्चर करती है कि क्या हुआ। एजेंट ऑब्जर्वेबिलिटी को कैप्चर करना होगा क्यों — मॉडल ने क्या निष्कर्ष निकाला, उसने कौन सा टूल चुना और क्यों, और वह किस इंटरमीडिएट स्टेट से काम कर रहा था।

विफलता के तरीके भी अलग हैं:

  • साइलेंट हैलुसिनेशन: एजेंट बिना अनिश्चितता का संकेत दिए आत्मविश्वास से गलत जवाब देता है।
  • डिसीजन ड्रिफ्ट: प्रत्येक कदम स्थानीय रूप से उचित लगता है, लेकिन अनुक्रम लक्ष्य से भटक जाता है।
  • टूल का गलत उपयोग: एजेंट सही टूल को सूक्ष्म रूप से गलत पैरामीटर के साथ कॉल करता है।
  • अनंत लूप: एजेंट विफल दृष्टिकोण को दोबारा आजमाने में फंस जाता है।
  • कॉन्टेक्स्ट पॉइजनिंग: किसी शुरुआती चरण की खराब आउटपुट बाद के सभी तर्कों को दूषित कर देती है।

इनमें से कोई भी एक्सेप्शन नहीं उत्पन्न करता। ये गलत व्यवहार उत्पन्न करते हैं जो केवल तब दिखाई देता है जब आप पूरे एक्सीक्यूशन ट्रेस को पुनर्निर्मित करते हैं।

एजेंट निर्णयों के लिए स्ट्रक्चर्ड लॉगिंग

पहला कदम है प्रत्येक एजेंट इंटरेक्शन को स्ट्रक्चर्ड लॉग्स में लपेटना। कच्चे API रिस्पॉन्स लॉग न करें — सेमेंटिक इवेंट्स लॉग करें।

import json
import time
import uuid
from dataclasses import dataclass, asdict
from typing import Any
import anthropic
client = anthropic.Anthropic()
@dataclass
class AgentEvent:
trace_id: str
step: int
event_type: str # "llm_call", "tool_call", "tool_result", "decision", "error"
model: str | None
input_tokens: int | None
output_tokens: int | None
latency_ms: float | None
content: dict[str, Any]
timestamp: float
def log_event(event: AgentEvent):
print(json.dumps(asdict(event))) # अपने लॉग डेस्टिनेशन से बदलें
class TracedAgent:
def __init__(self, trace_id: str | None = None):
self.trace_id = trace_id or str(uuid.uuid4())
self.step = 0
self.tools = []
def add_tool(self, name: str, description: str, input_schema: dict):
self.tools.append({
"name": name,
"description": description,
"input_schema": input_schema
})
def call(self, messages: list[dict], system: str = "") -> str:
self.step += 1
start = time.monotonic()
response = client.messages.create(
model="claude-opus-4-6",
max_tokens=4096,
system=system,
tools=self.tools,
messages=messages
)
latency_ms = (time.monotonic() - start) * 1000
log_event(AgentEvent(
trace_id=self.trace_id,
step=self.step,
event_type="llm_call",
model="claude-opus-4-6",
input_tokens=response.usage.input_tokens,
output_tokens=response.usage.output_tokens,
latency_ms=latency_ms,
content={
"stop_reason": response.stop_reason,
"text_blocks": [b.text for b in response.content if b.type == "text"],
"tool_calls": [
{"name": b.name, "input": b.input}
for b in response.content if b.type == "tool_use"
]
},
timestamp=time.time()
))
return response

पूर्ण ट्रेस बनाना

एक लॉग लाइन पर्याप्त नहीं है — आपको पूरे एक्सीक्यूशन ट्रेस की जरूरत है जो प्रत्येक निर्णय को उसके परिणाम से जोड़ता है:

from typing import Callable
def run_traced_agent(
task: str,
tools: dict[str, Callable],
tool_schemas: list[dict],
system: str,
max_steps: int = 20,
) -> dict:
agent = TracedAgent()
for schema in tool_schemas:
agent.add_tool(**schema)
messages = [{"role": "user", "content": task}]
trace = {"trace_id": agent.trace_id, "task": task, "steps": []}
step_count = 0
while step_count < max_steps:
step_count += 1
response = agent.call(messages, system=system)
step_record = {
"step": step_count,
"stop_reason": response.stop_reason,
"model_output": [],
"tool_results": []
}
if response.stop_reason == "end_turn":
for block in response.content:
if block.type == "text":
step_record["model_output"].append(block.text)
trace["steps"].append(step_record)
trace["final_answer"] = step_record["model_output"][-1] if step_record["model_output"] else ""
break
tool_results = []
for block in response.content:
if block.type == "tool_use":
step_record["model_output"].append({
"tool": block.name,
"input": block.input
})
tool_fn = tools.get(block.name)
if not tool_fn:
result = f"त्रुटि: अज्ञात टूल '{block.name}'"
else:
try:
result = tool_fn(**block.input)
except Exception as e:
result = f"टूल त्रुटि: {e}"
tool_results.append({
"type": "tool_result",
"tool_use_id": block.id,
"content": str(result)
})
step_record["tool_results"].append({
"tool": block.name,
"result_preview": str(result)[:200]
})
trace["steps"].append(step_record)
messages.append({"role": "assistant", "content": response.content})
messages.append({"role": "user", "content": tool_results})
else:
trace["error"] = f"अधिकतम चरण संख्या पार ({max_steps})"
return trace

लूप डिटेक्शन

अनंत लूप एक सामान्य विफलता मोड है। प्रत्येक LLM कॉल के टूल इनवोकेशन पैटर्न का फिंगरप्रिंट लेकर उन्हें डिटेक्ट करें:

def detect_loop(trace: dict, window: int = 4) -> bool:
steps = trace["steps"]
if len(steps) < window:
return False
def step_signature(step: dict) -> str:
tools_called = sorted(
t["tool"] if isinstance(t, dict) else t
for t in step.get("model_output", [])
if isinstance(t, dict) and "tool" in t
)
return "|".join(tools_called)
recent = [step_signature(s) for s in steps[-window:]]
if len(set(recent)) == 1 and recent[0]:
return True
if len(steps) >= 4:
pattern = [step_signature(s) for s in steps[-4:]]
if pattern[0] == pattern[2] and pattern[1] == pattern[3]:
return True
return False

प्रोडक्शन में ट्रैक करने योग्य मेट्रिक्स

from collections import Counter
def compute_trace_metrics(trace: dict) -> dict:
steps = trace["steps"]
errors = [s for s in steps if "error" in s]
tool_calls_by_name: Counter = Counter()
for step in steps:
for output in step.get("model_output", []):
if isinstance(output, dict) and "tool" in output:
tool_calls_by_name[output["tool"]] += 1
return {
"trace_id": trace["trace_id"],
"total_steps": len(steps),
"error_steps": len(errors),
"tool_call_distribution": dict(tool_calls_by_name),
"completed": "final_answer" in trace,
"loop_detected": detect_loop(trace),
}

अलर्ट के लिए मुख्य संकेत:

  • लूप दर > 5% — एजेंट फंस रहा है
  • प्रति टूल एरर दर > थ्रेशोल्ड — कोई टूल टूटा है
  • औसत चरण संख्या बढ़ती प्रवृत्ति — कार्य कठिन होते जा रहे हैं
  • p99 लेटेंसी स्पाइक — मॉडल एंडपॉइंट धीमा है

OpenTelemetry इंटीग्रेशन

पहले से OpenTelemetry उपयोग करने वाली टीमों के लिए, एजेंट ट्रेस को स्पैन के रूप में emit करें:

from opentelemetry import trace as otel_trace
tracer = otel_trace.get_tracer("agent")
def run_with_otel(task: str, tools: dict, tool_schemas: list, system: str):
with tracer.start_as_current_span("agent.run") as root_span:
root_span.set_attribute("agent.task", task[:200])
agent = TracedAgent()
for schema in tool_schemas:
agent.add_tool(**schema)
messages = [{"role": "user", "content": task}]
for step in range(20):
with tracer.start_as_current_span(f"agent.step.{step}") as step_span:
response = agent.call(messages, system=system)
step_span.set_attribute("llm.stop_reason", response.stop_reason)
step_span.set_attribute("llm.input_tokens", response.usage.input_tokens)
if response.stop_reason == "end_turn":
break

लॉग में PII रिडेक्शन

एजेंट लॉग्स में अक्सर संवेदनशील डेटा होता है। किसी भी बाहरी सिस्टम को emit करने से पहले उन्हें redact करें:

import re
PII_PATTERNS = [
(re.compile(r'\b[\w.+-]+@[\w-]+\.[a-z]{2,}\b'), '[ईमेल]'),
(re.compile(r'\b[6-9]\d{9}\b'), '[फोन]'),
(re.compile(r'\bsk-[a-zA-Z0-9]{20,}\b'), '[API_KEY]'),
]
def redact(text: str) -> str:
for pattern, replacement in PII_PATTERNS:
text = pattern.sub(replacement, text)
return text

तीन सबसे महत्वपूर्ण मेट्रिक्स

टास्क पूर्णता दर — कितने अनुपात में रन final_answer तक पहुंचते हैं बनाम max_steps या किसी त्रुटि के। प्रति टास्क प्रकार बेसलाइन स्थापित करें।

प्रति टास्क टोकन लागत — सभी चरणों में input_tokens + output_tokens का योग। 20% लागत वृद्धि बिना पूर्णता दर बदले आमतौर पर प्रॉम्प्ट डिग्रेडेशन का संकेत है।

टूल एरर दरerror_steps / total_steps। इस मेट्रिक में स्पाइक सीधे किसी टूटे टूल या API की ओर इशारा करता है।


एजेंट सिस्टम में ऑब्जर्वेबिलिटी वैकल्पिक नहीं है — यह उस सिस्टम के बीच का अंतर है जिसे आप iterate कर सकते हैं और उसके बीच जिसे आप केवल तब restart कर सकते हैं जब यह टूट जाता है। स्ट्रक्चर्ड इवेंट्स और ट्रेस IDs से शुरू करें। लूप डिटेक्शन जोड़ें। मेट्रिक्स पुश करें। यह निवेश तब अदा होता है जब पहली बार प्रोडक्शन में कोई विफलता आती है और आप अनुमान लगाने के बजाय ठीक-ठीक पुनर्निर्माण कर सकते हैं कि क्या हुआ था।


संबंधित लेख