SISTEM AKSES KOMPUTER

Model Penalaran dalam Alur Kerja Agen: Kapan Extended Thinking Sepadan


Agen orkestrator Anda merencanakan alur kerja penelitian 10 langkah. Menggunakan Claude Sonnet standar, ia menghasilkan rencana yang sebagian besar benar, tetapi melewatkan ketergantungan antara langkah 4 dan 7—analisis di langkah 7 membutuhkan data dari langkah 4 yang tidak disertakan dalam rencana. Menggunakan Claude dengan extended thinking, ia menangkap ketergantungan tersebut, menyusun ulang langkah-langkah, dan menghasilkan rencana yang berjalan dengan benar pada percobaan pertama. Panggilan perencanaan membutuhkan 15 detik, bukan 3 detik, dan biayanya 5x lebih mahal. Apakah itu sepadan? Untuk alur kerja yang menghemat 20 menit debugging manusia—tentu saja.

Model penalaran tidak selalu lebih baik secara seragam. Mereka unggul dalam kemampuan tertentu: perencanaan, logika multi-langkah, mendeteksi kasus tepi, dan analisis kompleks. Menggunakannya di mana-mana adalah pemborosan. Tidak menggunakannya sama sekali meninggalkan performa yang bisa didapat. Keahliannya adalah mengetahui kapan harus beralih—dan membangun arsitektur yang membuat peralihan tersebut mulus.

Artikel ini membahas kapan model extended-thinking meningkatkan hasil agen cukup untuk membenarkan biayanya, cara membangun arsitektur hybrid yang menggunakan penalaran secara selektif, dan kerangka praktis untuk mengukur ROI.

Apa yang Dilakukan Model Penalaran Secara Berbeda

Sebelum menyelami arsitektur, penting untuk memahami apa yang sebenarnya diberikan model penalaran yang tidak dimiliki model standar. Ini bukan tentang internal model—ini tentang perbedaan kemampuan yang dapat diamati yang memengaruhi performa agen Anda.

Extended Thinking

Saat Anda mengaktifkan extended thinking pada Claude, model menghasilkan rantai pemikiran internal sebelum menghasilkan respons yang terlihat. Model mengalokasikan lebih banyak komputasi untuk masalah tersebut—menjelajahi alternatif, memeriksa asumsi, dan membangun pemahaman yang lebih lengkap sebelum memberikan jawaban.

Bayangkan seperti perbedaan antara menjawab pertanyaan secara langsung dan meluangkan waktu sejenak untuk memikirkannya di atas kertas terlebih dahulu. Jawabannya mungkin sama untuk pertanyaan sederhana. Untuk pertanyaan yang kompleks, pemikiran ekstra menghasilkan hasil yang jauh lebih baik.

Kualitas Perencanaan

Model penalaran secara signifikan lebih baik dalam rencana multi-langkah. Mereka mendeteksi ketergantungan antar langkah, mengidentifikasi kebutuhan sumber daya, mengantisipasi mode kegagalan, dan menghasilkan rencana yang benar-benar berjalan dari awal hingga akhir tanpa intervensi manusia.

Model standar sering menghasilkan rencana yang terlihat masuk akal tetapi gagal saat dieksekusi—melewatkan ketergantungan data di sini, mengasumsikan sumber daya yang tidak tersedia di sana. Kegagalannya cukup halus sehingga lolos dari tinjauan cepat, tetapi cukup mahal untuk menggagalkan alur kerja.

Deteksi Kasus Tepi

Extended thinking memberi model waktu untuk mempertimbangkan input yang tidak biasa dan kondisi batas. Model standar mungkin menghasilkan pipeline pemrosesan data yang berfungsi untuk input tipikal, tetapi mogok pada dataset kosong atau rekaman yang salah format. Model penalaran lebih mungkin menyertakan langkah validasi dan penanganan kesalahan untuk kasus-kasus tersebut.

Koreksi Diri

Selama fase berpikir, model penalaran sering menangkap dan memperbaiki kesalahannya sendiri. Anda dapat mengamati ini dalam output pemikiran—model mulai menempuh satu jalur, menyadari itu salah, mundur, dan mengambil pendekatan yang lebih baik. Saat respons akhir muncul, beberapa potensi kesalahan sudah tertangkap dan diperbaiki.

Pemikiran yang Dapat Diamati

Output extended thinking Claude dapat dilihat melalui API. Ini sangat berharga untuk men-debug alur kerja agen. Saat rencana gagal, Anda dapat membaca penalaran model untuk memahami mengapa ia membuat pilihan tersebut, daripada memperlakukannya sebagai kotak hitam. Kemampuan observasi ini saja dapat membenarkan biaya untuk alur kerja yang kompleks dan berisiko tinggi.

Kapan Penalaran Meningkatkan Performa Agen

Tidak setiap tugas agen mendapat manfaat dari extended thinking. Berikut adalah jenis tugas di mana model penalaran secara konsisten mengungguli model standar.

Perencanaan Alur Kerja

Menguraikan tugas kompleks menjadi langkah-langkah berurutan dengan ketergantungan adalah salah satu aplikasi bernilai tertinggi. Pertimbangkan agen yang perlu meneliti topik, mengumpulkan data dari berbagai sumber, merujuk silang temuan, dan menghasilkan laporan.

Rencana model standar:

  1. Cari gambaran umum topik
  2. Kumpulkan data dari sumber A
  3. Kumpulkan data dari sumber B
  4. Analisis data
  5. Tulis laporan

Rencana model penalaran:

  1. Cari gambaran umum topik untuk mengidentifikasi subtopik kunci
  2. Kumpulkan data kuantitatif dari sumber A (filter berdasarkan rentang tanggal)
  3. Kumpulkan data kualitatif dari sumber B (menggunakan subtopik dari langkah 1 sebagai kueri)
  4. Rujuk silang sumber A dan B untuk mengidentifikasi kontradiksi
  5. Untuk kontradiksi yang ditemukan, kumpulkan data tambahan dari sumber C
  6. Sintesis temuan, mencatat tingkat kepercayaan
  7. Tulis laporan dengan bagian metodologi yang menjelaskan asal-usul data

Rencana model penalaran lebih kuat karena mengantisipasi kebutuhan rujuk silang, membangun langkah kontingensi, dan menyusun output dengan asal-usul data.

Pembuatan Kode

Untuk fungsi utilitas yang sederhana, model standar sudah memadai. Untuk algoritma kompleks, refaktor multi-file, atau keputusan arsitektur, model penalaran menghasilkan kode yang jauh lebih baik.

Model standar yang diminta untuk mengimplementasikan pembatas kecepatan mungkin menghasilkan token bucket dasar. Model penalaran lebih mungkin mempertimbangkan kasus tepi—apa yang terjadi saat jam mundur, cara menangani akses bersamaan, apakah pembatas harus terdistribusi—dan menghasilkan kode yang menanganinya.

Diagnosis Kesalahan

Saat alur kerja agen gagal dan beberapa mode kegagalan mungkin terjadi, model penalaran lebih baik dalam analisis akar penyebab. Mereka dapat menampung lebih banyak konteks secara bersamaan, menimbang bukti dari berbagai sumber, dan melacak rantai kausalitas yang sering disingkat oleh model standar.

Pengambilan Keputusan dengan Beberapa Kriteria

Saat agen perlu mengevaluasi pertukaran—memilih antara strategi deployment, memilih alat yang tepat untuk tugas, atau memutuskan apakah akan mencoba ulang atau eskalasi—model penalaran mempertimbangkan lebih banyak faktor dan menghasilkan keputusan yang lebih bernuansa.

Analisis Data

Menginterpretasikan data yang ambigu, menemukan pola yang tidak jelas, dan menghasilkan hipotesis dari informasi yang tidak lengkap semuanya mendapat manfaat dari extended thinking. Model memiliki waktu untuk mempertimbangkan penjelasan alternatif daripada langsung melompat ke yang paling mungkin.

Kapan Penalaran Tidak Membantu

Sama pentingnya adalah mengetahui kapan tidak menggunakan model penalaran. Tugas-tugas ini tidak mendapat manfaat dari extended thinking, dan menggunakannya hanya membuang uang dan latensi.

Pemilihan Alat Sederhana

Jika pengguna bertanya “Bagaimana cuaca di Tokyo?” dan agen Anda perlu memanggil API cuaca, tidak ada yang perlu dipikirkan. Model standar menangani perutean alat yang sederhana dengan sempurna.

Pengisian Template

Menghasilkan respons dari template atau data terstruktur—mengisi template email, memformat hasil database, menghasilkan notifikasi standar—tidak memerlukan penalaran multi-langkah.

Klasifikasi dan Perutean

Deteksi niat, kategorisasi, dan perutean pesan adalah tugas pencocokan pola. Model standar sangat baik untuk ini. Model penalaran bahkan mungkin terlalu memikirkan klasifikasi sederhana, mempertimbangkan kasus tepi yang tidak mungkin sehingga mengurangi akurasi.

Ringkasan

Memadatkan teks menjadi bentuk yang lebih pendek adalah tugas yang dipahami dengan baik dan ditangani model standar dengan andal. Kecuali ringkasan memerlukan inferensi kompleks (seperti mengidentifikasi kontradiksi di berbagai sumber), model standar sudah cukup.

Konversi Format

JSON ke CSV, Markdown ke HTML, transformasi data—ini adalah tugas mekanis dengan aturan yang jelas. Penalaran tidak menambahkan apa pun.

Aturan praktis: Jika tugas memiliki jawaban yang jelas dan satu jalur yang tidak memerlukan penimbangan alternatif atau deteksi ketergantungan yang halus, model standar sudah cukup. Simpan penalaran untuk tugas-tugas di mana salah adalah mahal.

Arsitektur Hybrid

Kekuatan nyata datang dari menggabungkan model penalaran dan standar dalam satu sistem. Berikut adalah tiga pola yang telah terbukti.

Pola 1: Penalaran untuk Perencanaan, Standar untuk Eksekusi

Ini adalah pola yang paling umum dan sering bernilai tertinggi. Orkestrator Anda menggunakan extended thinking untuk membuat rencana yang menyeluruh. Agen pekerja menggunakan model standar untuk mengeksekusi langkah-langkah individual dalam rencana tersebut.

Logikanya sederhana: perencanaan adalah tempat kesalahan paling mahal (rencana yang buruk merusak setiap langkah downstream), dan eksekusi adalah tempat kecepatan dan biaya paling penting (Anda menjalankan banyak langkah, masing-masing relatif sederhana).

import anthropic
import json
from datetime import datetime
client = anthropic.Anthropic()
def plan_with_reasoning(task: str) -> dict
---
## Artikel Terkait
- [Optimasi Biaya Agen: Panduan Praktis Mengurangi Pengeluaran API](/id/blog/agent-cost-optimization-a-practical-guide-to-reducing-api-spend/)
- [Pola Multi-Agen: Orkestrator, Pekerja, dan Pipeline](/id/blog/multi-agent-patterns/)
- [Pemulihan Error Agen: 5 Pola untuk Keandalan Produksi](/id/blog/agent-error-recovery-patterns/)
- [Streaming Respons Agen: Output Real-Time untuk Alur Kerja Multi-Langkah](/id/blog/streaming-agent-responses-real-time-output-for-multi-step-workflows/)