9 Mar 2026

Agen dalam Produksi: Empat Studi Kasus Nyata

Agen dalam Produksi: Empat Studi Kasus Nyata

Demo agen terlihat mengesankan. Deployment agen itu berantakan. Kesenjangan antara “berjalan di laptop saya” dan “berjalan di produksi” dipenuhi dengan kasus tepi, kejutan biaya, dan mode kegagalan yang tidak pernah diajarkan oleh tutorial mana pun.

Kita semua pernah melihat demo yang mulus: sebuah agen memesan penerbangan, menulis laporan, dan mengajukan bug—semuanya dalam rekaman layar dua menit. Yang tidak Anda lihat adalah tingkat eskalasi 40% di minggu pertama, tagihan API $12 per kueri, atau agen yang “memperbaiki” masalah korupsi data dengan memperburuknya.

Empat studi kasus ini menjembatani kesenjangan tersebut. Semuanya mencakup arsitektur nyata, angka nyata, dan kesalahan nyata dari deployment agen di produksi. Setiap studi kasus bersifat mandiri—baca keempatnya atau langsung ke bagian yang sesuai dengan kasus penggunaan Anda.

Yang akan Anda pelajari:

Bagaimana setiap sistem dirancang dan alasannya
Apa yang berhasil dan apa yang gagal total
Metrik konkret: akurasi, biaya, latensi, dan tingkat penggantian manusia
Pelajaran yang berlaku lintas domain

Studi Kasus 1: Agen Triase Dukungan Pelanggan

Masalah

Sebuah perusahaan SaaS (Software as a Service) berukuran menengah menerima lebih dari 500 tiket dukungan setiap hari. Respons Tier-1—reset kata sandi, pertanyaan penagihan, solusi bug yang diketahui—menghabiskan sekitar 60% waktu tim dukungan. Para insinyur yang seharusnya memecahkan masalah sulit malah copy-paste jawaban untuk sepuluh pertanyaan yang sama.

Tujuan bisnis sudah jelas: otomatiskan resolusi tier-1 tanpa menurunkan kepuasan pelanggan.

Arsitektur

┌─────────────────────────────────────────────────┐
│                 Incoming Ticket                  │
└──────────────────────┬──────────────────────────┘
                       │
                       ▼
              ┌────────────────┐
              │  Router Agent  │
              │ (Intent Class.)│
              └──┬───┬───┬──┬─┘
                 │   │   │  │
        ┌────────┘   │   │  └────────┐
        ▼            ▼   ▼           ▼
   ┌─────────┐ ┌────────┐ ┌──────┐ ┌──────────┐
   │ Billing │ │Technical│ │Account│ │ Feature  │
   │ Handler │ │ Handler │ │Handler│ │ Request  │
   └────┬────┘ └───┬────┘ └──┬───┘ └────┬─────┘
        │          │         │           │
        └──────────┴────┬────┴───────────┘
                        ▼
              ┌──────────────────┐
              │ Confidence Check │
              │  ≥ 0.85 → Reply │
              │  < 0.85 → Human │
              └──────────────────┘

Alat dan integrasi:

API sistem tiket (Zendesk) untuk membaca dan merespons tiket
Pencarian basis pengetahuan (vector store atas artikel bantuan)
Pencarian data pelanggan (status akun, tingkat langganan, interaksi terbaru)

Konfigurasi utama:

router_agent:
  model: gpt-4o-mini
  system_prompt: |
    You are a support ticket classifier. Classify into exactly one category:
    billing, technical, account, feature_request.
    Return JSON: {"category": "...", "confidence": 0.0-1.0, "summary": "..."}
  temperature: 0.0

handler_agents:
  escalation_threshold: 0.85
  max_knowledge_base_results: 5
  response_tone: "professional, empathetic, concise"

Hasil

Metrik	Sebelum	Sesudah	Perubahan
Tiket Tier-1 ditangani tanpa manusia	0%	70%	+70%
Waktu respons rata-rata	4 jam	3 menit	-98,75%
Kepuasan pelanggan (CSAT)	4,2/5	4,1/5	Tidak ada perubahan signifikan
Tingkat eskalasi	N/A	15% (setelah penyesuaian)	—
Biaya per tiket (tenaga kerja dukungan)	$8,50	$2,40	-72%

Yang Gagal

Eskalasi berlebihan di minggu pertama. Tingkat eskalasi awal adalah 40%. Agen router terlalu berhati-hati—tiket apa pun dengan frasa ambigu langsung dikirim ke manusia. Solusinya: menurunkan ambang kepercayaan dari 0,95 menjadi 0,85 dan menambahkan beberapa contoh tiket kasus batas ke prompt router.

Kasus tepi penagihan. Pengembalian dana parsial, tagihan yang disengketakan, dan penagihan multi-akun membutuhkan penilaian manusia yang cermat. Agen terkadang menawarkan pengembalian dana penuh padahal kebijakan hanya mengizinkan parsial. Solusinya: aturan hard-coded untuk tindakan penagihan yang melibatkan uang. Agen dapat menjelaskan kebijakan tetapi tidak dapat mengeksekusi tindakan keuangan di atas $20 tanpa persetujuan manusia.

Basis pengetahuan yang usang. Agen mengutip artikel bantuan yang menggambarkan alur antarmuka pengguna yang telah berubah dua bulan sebelumnya. Pelanggan mengikuti instruksinya, menjadi bingung, dan melakukan eskalasi dengan marah. Solusinya: pemeriksaan kesegaran otomatis—artikel yang tidak diperbarui dalam 90 hari ditandai, dan agen menambahkan penafian saat mengutip konten lama.

Pelajaran yang Dipetik

Mulai dengan kategori termudah. Pertanyaan akun bergaya FAQ memiliki tingkat otomasi tertinggi. Penagihan datang paling terakhir.
Ukur kepuasan pelanggan, bukan hanya tingkat resolusi. Tiket yang terselesaikan dengan pelanggan yang frustrasi bukanlah keberhasilan.
Kesegaran basis pengetahuan sama pentingnya dengan kualitas agen. Agen terbaik di dunia pun tidak bisa mengkompensasi dokumentasi yang sudah usang.

Studi Kasus 2: Agen Penelitian & Pembuatan Laporan

Masalah

Sebuah tim konsultan menghabiskan 8–12 jam per minggu untuk menyusun laporan riset pasar dari berbagai sumber data: API berita, database keuangan, dan dokumen internal. Laporan mengikuti struktur yang konsisten, tetapi pengumpulan data sangat membosankan dan rawan kesalahan. Analis menghabiskan sebagian besar waktu mereka untuk mengumpulkan—bukan menganalisis.

Arsitektur

┌────────────────────────────────────┐
│         Research Brief (User)      │
└──────────────────┬─────────────────┘
                   ▼
         ┌──────────────────┐
         │ Orchestrator Agent│
         │ (Task Decomposer)│
         └──┬──────┬──────┬─┘
            │      │      │
     ┌──────┘      │      └──────┐
     ▼             ▼             ▼
┌──────────┐ ┌──────────┐ ┌───────────┐
│  News    │ │ Financial│ │ Internal  │
│  Worker  │ │  Worker  │ │ Doc Worker│
└────┬─────┘ └────┬─────┘ └─────┬─────┘
     │             │             │
     └──────┬──────┴─────────────┘
            ▼
    ┌───────────────┐
    │Synthesis Agent│
    │(Report Writer)│
    └───────┬───────┘
            ▼
    ┌───────────────┐
    │ Review Agent  │
    │(Verification) │
    └───────┬───────┘
            ▼
    ┌───────────────┐
    │ Final Report  │
    │ (w/ Citations)│
    └───────────────┘

Alat dan integrasi:

API Berita (NewsAPI, Google News) untuk berita terkini dan liputan industri
API data keuangan (Alpha Vantage, gudang data internal) untuk data pasar
Pencarian dokumen internal (vector store atas laporan lama, brief klien)
Pembuatan output terstruktur (pipeline Markdown → PDF)

Konfigurasi utama:

orchestrator:
  model: gpt-4o
  decomposition_strategy: "parallel_by_source"
  max_sub_tasks: 8

synthesis_agent:
  citation_requirement: "Every factual claim MUST include [Source: ...] inline"
  output_format: "structured_markdown"
  sections:
    - executive_summary
    - market_overview
    - competitive_landscape
    - financial_highlights
    - risks_and_opportunities
    - appendix_sources

review_agent:
  checks:
    - contradiction_detection
    - citation_verification
    - data_recency (max_age_days: 30)
    - completeness (all_sections_present: true)

Hasil

Metrik	Sebelum	Sesudah	Perubahan
Waktu pembuatan laporan	8 jam	45 menit + 30 menit tinjauan	-84%
Akurasi kutipan	~75% (estimasi)	92% (diverifikasi manusia)	+17%
Konsistensi struktur laporan	Bervariasi	100% (berbasis templat)	Terstandarisasi
Biaya per laporan (panggilan API)	N/A	$4 (dioptimalkan)	—
Jam analis yang dihemat per minggu	0	6–8 jam	—

Yang Gagal

Klaim yang dihalu sinasi. Versi awal agen sintesis menghasilkan statistik pasar yang terdengar masuk akal tanpa sumber yang sebenarnya. Satu laporan mengklaim sebuah pasar “tumbuh 14,3% CAGR”—angka yang tidak muncul di sumber data mana pun. Solusinya: menjadikan kutipan sebagai persyaratan wajib dalam prompt sintesis dan menambahkan agen tinjauan sebagai langkah verifikasi independen.

**Data keuangan yang usang.

Agen dalam Produksi: Empat Studi Kasus Nyata

Agen dalam Produksi: Empat Studi Kasus Nyata

Studi Kasus 1: Agen Triase Dukungan Pelanggan

Masalah

Arsitektur

Hasil

Yang Gagal

Pelajaran yang Dipetik

Studi Kasus 2: Agen Penelitian & Pembuatan Laporan

Masalah

Arsitektur

Hasil

Yang Gagal

Artikel Terkait