Token & Harga

Sekarang setelah kita memahami cara kerja model AI secara garis besar, mari bahas sesuatu yang akan memengaruhi bagaimana model ini berpikir dan berapa biayanya untuk digunakan.

Anda bisa menganggap token sebagai “kata” yang benar-benar dipahami model AI. Namun, token tidak persis sama dengan kata.

Seperti halnya komputer Anda tidak benar-benar memahami huruf “A” melainkan bekerja dengan kode biner, model AI bekerja dengan token.

Misalnya, kata “hello” mungkin satu token, tetapi kata “understanding” bisa dipecah menjadi beberapa token.

Lalu, kenapa ini penting? Ada dua alasan:

Token menentukan harga model. Anda membayar per token, bukan per kata atau karakter.
Token adalah cara kami mengukur kecepatan model. Model yang lebih cepat memiliki TPS (token per detik) lebih tinggi.

Memahami token

Jika kita teruskan analoginya bahwa model AI seperti API, maka token adalah satuan yang digunakan untuk menagih penggunaan API tersebut.

Model AI menagih berdasarkan dua jenis token:

Token input, yang mencakup semua yang Anda kirim ke model, seperti prompt dan percakapan sebelumnya.
Token output, yang mencakup semua yang dihasilkan model untuk Anda.

Token output biasanya 2–4x lebih mahal daripada token input, karena menghasilkan konten baru membutuhkan lebih banyak komputasi daripada memprosesnya.

Karena penagihan model AI berbasis token, memahaminya penting untuk mengelola biaya. Anggap saja seperti menelepon jarak jauh yang ditagih per menit.

Pertimbangkan dengan cermat berapa banyak informasi yang Anda sertakan dalam konteks awal—yang akan menentukan token input—dan berapa panjang respons yang Anda minta dari model.

Streaming responses

Pernahkah Anda memperhatikan bagaimana ChatGPT atau chatbot AI lainnya seolah “mengetik” respons secara real-time, bukan menampilkan semuanya sekaligus?

Model AI menghasilkan token satu per satu, berurutan. Mereka memprediksi token berikutnya, lalu menghasilkan token berikutnya, dan seterusnya.

Respons kemudian dapat dikirim secara streaming. Ini bagus karena:

Anda tidak perlu menunggu hingga seluruh respons selesai dihasilkan sebelum mulai membacanya.
Anda dapat menginterupsi respons jika arahnya tidak sesuai harapan.

Mengoptimalkan penggunaan token

Alat AI sering menggunakan teknik untuk mengurangi jumlah token yang dikirim ke model dasarnya. Misalnya, OpenCode mengindeks codebase Anda dan hanya menyertakan bagian yang relevan dalam konteks, alih-alih mengirimkan seluruh codebase setiap kali Anda mengajukan pertanyaan.

Memahami token juga membantu Anda membuat keputusan yang lebih baik tentang cara menyusun prompt—prompt yang singkat dan spesifik sering kali lebih efektif daripada prompt yang panjang dan kabur.

Mari bahas konteks di pelajaran berikutnya.