Rekayasa Prompt: Analisis Mendalam tentang Definisi, Teknik, Konfigurasi, dan Praktik Terbaik

1. Pendahuluan: Mendefinisikan Prompt Engineering

1.1. Analisis Definisi Prompt Engineering

Prompt engineering merupakan disiplin ilmu yang relatif baru namun krusial dalam ranah kecerdasan buatan (AI), khususnya yang berkaitan dengan model bahasa besar (Large Language Models - LLM). Secara fundamental, prompt engineering adalah proses merancang, menyusun, mengoptimalkan, dan menyempurnakan input teks (dikenal sebagai “prompt”) yang diberikan kepada LLM.¹ Tujuan utamanya adalah untuk memandu model AI generatif ini agar menghasilkan output yang tidak hanya relevan tetapi juga akurat, koheren, dan sesuai dengan kebutuhan spesifik pengguna atau tugas yang diberikan.³ Proses ini melibatkan pemahaman mendalam tentang cara kerja internal LLM, terutama bagaimana model tersebut, yang seringkali dibangun di atas arsitektur transformator dan memanfaatkan teknik pemrosesan bahasa alami (Natural Language Processing - NLP), menginterpretasikan instruksi dan memproses data dalam jumlah besar untuk menghasilkan respons.³ Dengan demikian, prompt engineering berfungsi sebagai jembatan komunikasi antara intensi manusia dan kemampuan komputasi AI.⁵

Tujuan inti dari prompt engineering melampaui sekadar mendapatkan jawaban dari AI. Ini adalah upaya strategis untuk meningkatkan efektivitas interaksi manusia-mesin ⁵, memastikan bahwa respons yang dihasilkan oleh AI benar-benar selaras dengan kebutuhan pengguna ⁶, dan pada akhirnya mengoptimalkan kualitas serta kegunaan output model.³ Upaya ini secara signifikan berkontribusi pada peningkatan akurasi dan relevansi informasi yang dihasilkan ⁷, sekaligus menjadi alat penting untuk mengurangi fenomena “halusinasi” AI—di mana model menghasilkan informasi yang salah atau tidak berdasar—dengan mengaitkan respons pada data tepercaya atau konteks yang diberikan.⁷ Lebih jauh lagi, prompt engineering memungkinkan praktisi untuk memanfaatkan potensi penuh LLM ³ seringkali tanpa memerlukan proses fine-tuning atau pelatihan ulang model yang mahal dan memakan waktu.⁸ Ini dicapai dengan memandu perilaku model melalui instruksi yang dirancang dengan cermat.¹⁰

Salah satu karakteristik paling fundamental dari prompt engineering adalah sifatnya yang iteratif.¹ Jarang sekali prompt pertama yang dirancang langsung menghasilkan output yang sempurna. Sebaliknya, proses ini melibatkan siklus berkelanjutan yang dimulai dengan perancangan prompt awal, diikuti dengan pengujian untuk melihat respons model.¹¹ Respons ini kemudian dievaluasi secara kritis untuk mengidentifikasi kekurangan atau area di mana output menyimpang dari tujuan.⁹ Berdasarkan evaluasi ini, prompt kemudian dimodifikasi—melibatkan penyesuaian kata-kata, struktur kalimat, format, penambahan konteks, atau pemberian contoh—dan diuji kembali.¹ Siklus perancangan, pengujian, evaluasi, dan penyempurnaan ini diulang ¹⁰ hingga output yang dihasilkan mencapai tingkat kualitas dan kesesuaian yang diinginkan.¹¹ Dokumentasi yang cermat pada setiap langkah iterasi, mencatat prompt yang digunakan, konfigurasi model, output yang dihasilkan, dan hasil evaluasi, menjadi praktik penting untuk pembelajaran dan perbaikan berkelanjutan.¹¹

Kompleksitas inheren dalam pemrosesan bahasa alami oleh LLM, yang pada dasarnya bersifat probabilistik dan tidak selalu menafsirkan instruksi persis seperti yang dimaksudkan oleh manusia ¹⁴, secara langsung menyebabkan perlunya pendekatan iteratif ini. LLM adalah model statistik yang dilatih pada data masif ³, dan interpretasi mereka terhadap bahasa alami tidak selalu deterministik.¹⁵ Akibatnya, prompt awal mungkin gagal menghasilkan output yang diinginkan karena ambiguitas, kurangnya spesifisitas, atau ketidakselarasan antara instruksi manusia dan “pemahaman” model.¹² Oleh karena itu, siklus penyempurnaan—melibatkan analisis output, modifikasi prompt, dan pengujian ulang—menjadi mekanisme esensial untuk menjembatani kesenjangan pemahaman ini dan menyelaraskan hasil model dengan tujuan pengguna.⁹

Munculnya dan meningkatnya pentingnya prompt engineering juga menandakan pergeseran paradigma yang lebih luas dalam interaksi manusia-komputer. Jika interaksi tradisional seringkali bergantung pada bahasa pemrograman formal atau antarmuka grafis terstruktur ¹⁶, LLM memungkinkan komunikasi melalui bahasa alami yang lebih intuitif.³ Namun, bahasa alami secara inheren penuh dengan ambiguitas dan sangat bergantung pada konteks.¹² Prompt engineering muncul sebagai disiplin ilmu untuk mengelola ambiguitas dan konteks ini secara efektif.¹ Hal ini menuntut serangkaian keterampilan baru yang melampaui pemrograman tradisional, menggabungkan pemahaman linguistik, kemampuan komunikasi yang efektif, kreativitas dalam merancang instruksi, pemikiran kritis untuk mengevaluasi output, dan pemahaman domain spesifik di mana AI diterapkan.⁶ Implikasinya adalah bahwa penguasaan interaksi dengan AI canggih tidak lagi hanya bergantung pada keahlian teknis murni, tetapi juga pada kemampuan komunikasi dan pemahaman kognitif yang lebih luas, membuka peluang karir baru ⁵ sambil menuntut set keterampilan yang berbeda dan lebih holistik.¹⁵

Open Table of contents

2. Mengonfigurasi Output Large Language Model (LLM)
- 2.1. Investigasi Parameter Konfigurasi
- 2.2. Tabel: Ringkasan Parameter Konfigurasi LLM
3. Teknik-Teknik Prompting Utama: Mekanisme dan Aplikasi
- 3.1. Eksplorasi Teknik Prompting
4. Perbandingan Teknik Prompting
- 4.1. Analisis Perbandingan Teknik
- 4.2. Tabel: Perbandingan Teknik Prompting Utama
5. Praktik Terbaik dalam Desain Prompt
- 5.1. Evaluasi Praktik Terbaik
6. Konsep Tingkat Lanjut dalam Prompt Engineering
- 6.1. Penelitian Konsep Terspesialisasi
7. Sintesis: Menghubungkan Teknik, Konfigurasi, dan Praktik Terbaik
- 7.1. Sintesis Hubungan Antar Komponen
8. Refleksi: Prompt Engineering sebagai Seni dan Sains
- 8.1. Analisis Dualitas Seni dan Sains
9. Kesimpulan dan Arah Masa Depan

2. Mengonfigurasi Output Large Language Model (LLM)

2.1. Investigasi Parameter Konfigurasi

Selain merancang teks prompt itu sendiri, mengontrol output LLM secara efektif juga melibatkan penyesuaian parameter konfigurasi kunci. Parameter ini berfungsi seperti tombol kontrol yang mengatur bagaimana model menghasilkan teks, mempengaruhi berbagai aspek respons seperti panjangnya, tingkat kreativitas atau keacakannya, serta fokus konten.¹⁴ Pemahaman dan pengaturan parameter ini sangat penting karena mereka secara langsung membentuk karakteristik output yang dihasilkan.²¹ Parameter-parameter ini seringkali saling terkait, dan penyesuaian satu parameter dapat mempengaruhi dampak parameter lainnya, sehingga memerlukan pendekatan yang cermat dan eksperimental untuk menemukan kombinasi optimal untuk tugas tertentu.²¹

Panjang Output (Max Tokens): Parameter max_tokens secara eksplisit mengontrol jumlah maksimum token yang akan dihasilkan oleh model dalam satu respons.²¹ Sebuah “token” dalam konteks LLM adalah unit dasar teks yang diproses model, yang bisa berupa satu karakter, sebagian kata, atau satu kata penuh, tergantung pada metode tokenisasi yang digunakan.²¹ Menetapkan nilai max_tokens yang rendah (misalnya, 10 atau 50) akan menghasilkan respons yang singkat dan padat, cocok untuk tugas seperti ringkasan cepat atau jawaban singkat.²¹ Sebaliknya, menetapkan nilai yang tinggi (misalnya, 1000 atau lebih) memungkinkan model untuk menghasilkan respons yang lebih panjang, detail, dan mendalam, yang berguna untuk penulisan esai, pembuatan konten, atau penjelasan kompleks.²¹ Penting untuk dicatat bahwa jika panjang respons potensial melebihi batas max_tokens yang ditetapkan, output akan terpotong secara tiba-tiba, yang dapat mengakibatkan respons yang tidak lengkap atau tidak koheren.²¹ Oleh karena itu, pemilihan nilai max_tokens harus mempertimbangkan sifat tugas dan kedalaman informasi yang diharapkan.

Temperature: Parameter temperature adalah salah satu kontrol paling signifikan terhadap gaya output LLM, secara khusus mengatur tingkat keacakan atau “kreativitas” dalam pemilihan token.¹⁴ Secara teknis, temperature bekerja dengan memodifikasi distribusi probabilitas token berikutnya yang dihasilkan oleh lapisan softmax model sebelum sampling dilakukan.²² Nilai temperature yang lebih tinggi “meratakan” distribusi probabilitas, sementara nilai yang lebih rendah “mempertajam” distribusi tersebut.²²

Nilai Rendah (misalnya, 0.1 hingga 0.5): Dengan mempertajam distribusi probabilitas, nilai temperature rendah membuat model cenderung memilih token-token yang memiliki probabilitas tertinggi. Hal ini menghasilkan output yang lebih fokus, deterministik (lebih dapat diprediksi), konsisten, dan seringkali lebih faktual.²¹ Pengaturan ini ideal untuk tugas-tugas yang memerlukan presisi dan akurasi, seperti menjawab pertanyaan faktual, ekstraksi informasi, ringkasan teknis, atau tugas pemrograman.²⁶
Nilai Tinggi (misalnya, 0.7 hingga 1.0 atau lebih): Dengan meratakan distribusi probabilitas, nilai temperature tinggi meningkatkan kemungkinan terpilihnya token-token yang kurang umum atau tidak terduga. Ini menghasilkan output yang lebih beragam, kreatif, mengejutkan, dan terkadang “liar”.²¹ Pengaturan ini cocok untuk tugas-tugas seperti brainstorming ide, penulisan cerita atau puisi, pembuatan dialog, atau aplikasi lain di mana variasi dan kebaruan diinginkan.²² Namun, perlu diingat bahwa temperature yang terlalu tinggi (misalnya, di atas 1.0 atau 1.5) dapat secara signifikan meningkatkan risiko output menjadi tidak koheren, tidak relevan, atau menyimpang dari topik.²²

Top-K: Teknik sampling Top-K membatasi pilihan token berikutnya hanya pada K token yang memiliki probabilitas tertinggi dalam distribusi yang dihasilkan model.¹⁴ Setelah K token teratas diidentifikasi, model kemudian melakukan sampling (biasanya berdasarkan probabilitas yang telah disesuaikan oleh temperature) hanya dari set token terbatas ini.²¹ Misalnya, jika Top-K diatur ke 50, model hanya akan mempertimbangkan 50 token paling mungkin sebagai kandidat untuk kata berikutnya, mengabaikan semua token lain meskipun probabilitasnya tidak nol.²² Nilai K yang rendah (misalnya, K=1) akan menghasilkan output yang sangat deterministik, karena hanya memilih token teratas.²² Nilai K yang lebih tinggi memungkinkan lebih banyak variasi dalam output.²⁷ Meskipun tersedia di beberapa platform LLM (seperti yang berbasis Huggingface ²²), Top-K terkadang dianggap kurang intuitif atau kurang efektif dibandingkan Top-P untuk mengontrol keragaman output.²² Beberapa API, seperti OpenAI, mungkin tidak secara langsung mengekspos parameter ini kepada pengguna akhir tetapi mungkin menggunakannya secara internal dengan nilai default.²²

Top-P (Nucleus Sampling): Top-P, juga dikenal sebagai Nucleus Sampling, adalah metode sampling alternatif atau komplementer untuk temperature dan Top-K.²¹ Alih-alih memilih sejumlah K token teratas, Top-P memilih set token terkecil (“inti” atau nucleus) yang jumlah probabilitas kumulatifnya mencapai atau melebihi ambang batas P yang ditentukan.²⁵ Model kemudian melakukan sampling hanya dari token-token dalam inti ini.²³ Misalnya, jika Top-P diatur ke 0.9, model akan mengurutkan token berdasarkan probabilitasnya, lalu menjumlahkan probabilitas tersebut dari yang tertinggi ke bawah hingga totalnya mencapai 0.9 (90%). Hanya token-token yang termasuk dalam penjumlahan ini yang akan dipertimbangkan untuk sampling.²⁵

Nilai Rendah (misalnya, 0.1 atau 0.2): Hanya akan mempertimbangkan token-token yang sangat mungkin (yang secara kolektif membentuk 10% atau 20% massa probabilitas teratas). Ini menghasilkan output yang sangat fokus, konsisten, dan kurang bervariasi.²¹
Nilai Tinggi (misalnya, 0.8 atau 0.9): Memungkinkan model untuk mempertimbangkan rentang token yang lebih luas, termasuk beberapa pilihan yang kurang umum, sehingga meningkatkan keragaman dan kreativitas output.²¹ Namun, Top-P secara dinamis menyesuaikan ukuran set kandidat berdasarkan bentuk distribusi probabilitas saat itu, yang berarti ia dapat secara efektif memangkas ekor distribusi yang berisi token-token yang sangat tidak mungkin, bahkan dengan nilai P yang tinggi.²⁴

Hubungan dengan Temperature: Seringkali direkomendasikan untuk hanya memodifikasi salah satu antara temperature atau Top-P pada satu waktu, bukan keduanya secara bersamaan.²² Mengubah keduanya dapat membuat efek gabungannya sulit diprediksi dan diinterpretasikan. OpenAI, misalnya, merekomendasikan untuk mengubah salah satu dari nilai defaultnya.²⁶

Parameter Lain: Selain parameter utama di atas, ada beberapa parameter lain yang dapat digunakan untuk menyempurnakan output LLM:

Frequency Penalty: Parameter ini digunakan untuk mengurangi kecenderungan model mengulang token (kata atau frasa) yang sama secara berlebihan dalam responsnya.²¹ Nilai positif akan memberikan penalti pada token berdasarkan seberapa sering token tersebut sudah muncul dalam teks yang dihasilkan sejauh ini, membuatnya kurang mungkin untuk dipilih lagi.²³ Ini berguna untuk menghasilkan teks yang lebih bervariasi dan tidak monoton.
Presence Penalty: Mirip dengan frequency penalty, tetapi presence penalty memberikan penalti pada token hanya berdasarkan apakah token tersebut sudah muncul setidaknya sekali dalam teks yang dihasilkan, terlepas dari frekuensinya.²¹ Nilai positif mendorong model untuk memperkenalkan konsep atau topik baru dan menghindari pengulangan ide yang sudah dibahas.²³
Stop Sequences: Parameter ini memungkinkan pengguna untuk menentukan satu atau lebih urutan token spesifik yang, jika dihasilkan oleh model, akan secara otomatis menghentikan proses generasi lebih lanjut.²¹ Ini berguna untuk mengontrol akhir output secara presisi, misalnya, menghentikan generasi setelah model menghasilkan penanda akhir tertentu seperti \n\n atau tag HTML penutup.

Pengaturan parameter-parameter ini secara inheren menciptakan sebuah pertukaran (trade-off) fundamental. Di satu sisi, pengaturan yang membatasi pilihan model (misalnya, temperature rendah, Top-P rendah) cenderung meningkatkan koherensi, relevansi kontekstual, dan potensi akurasi faktual.²² Namun, pembatasan ini juga mengurangi kemungkinan munculnya ide-ide baru, gaya bahasa yang unik, atau solusi tak terduga, mengarah pada output yang lebih konservatif.²⁴ Di sisi lain, pengaturan yang memperluas pilihan model (misalnya, temperature tinggi, Top-P tinggi) membuka pintu untuk kreativitas, keragaman, dan kejutan.²² Akan tetapi, kebebasan yang lebih besar ini juga meningkatkan risiko output menjadi tidak relevan, inkoheren, menyimpang dari instruksi, atau bahkan menghasilkan “halusinasi”.²² Oleh karena itu, tidak ada satu set pengaturan parameter yang “terbaik” secara universal. Seorang prompt engineer harus secara sadar menavigasi trade-off ini, memilih konfigurasi yang paling sesuai dengan tujuan spesifik tugas—apakah itu akurasi tinggi untuk dukungan teknis atau kreativitas tinggi untuk penulisan fiksi.²¹

Penting juga untuk menyadari bahwa efek dari parameter konfigurasi ini tidaklah absolut. Pengaruhnya dapat bervariasi tergantung pada beberapa faktor, termasuk model LLM spesifik yang digunakan (karena perbedaan dalam arsitektur, data pelatihan, dan fine-tuning) ³, prompt awal yang diberikan (karena prompt menetapkan konteks dan membatasi ruang kemungkinan output) ⁹, dan bahkan sejarah percakapan dalam interaksi multi-giliran (karena konteks sebelumnya mempengaruhi prediksi token berikutnya).²⁸ Pengaturan temperature yang sama mungkin menghasilkan efek yang sangat berbeda pada prompt yang sangat spesifik dibandingkan dengan prompt yang sangat terbuka. Interaksi kompleks antara parameter, model, dan konteks ini sekali lagi menggarisbawahi pentingnya eksperimen dan iterasi ¹¹ untuk menemukan kombinasi optimal yang bekerja paling baik untuk skenario penggunaan tertentu.

2.2. Tabel: Ringkasan Parameter Konfigurasi LLM

Tabel berikut menyajikan ringkasan parameter konfigurasi utama yang dibahas, beserta deskripsi, pengaruh, dan contoh kasus penggunaannya.

Parameter	Deskripsi Singkat	Pengaruh Utama pada Output	Contoh Kasus Penggunaan Ideal	Referensi Snippet Kunci
`Max Tokens`	Menetapkan jumlah maksimum token (kata/karakter) yang akan dihasilkan model.	Mengontrol panjang respons (pendek vs. panjang).	Ringkasan (rendah), Jawaban singkat (rendah), Esai (tinggi).	21
`Temperature`	Mengontrol tingkat keacakan/kreativitas dengan menyesuaikan distribusi probabilitas token.	Kreativitas vs. Deterministik/Fokus.	Penulisan kreatif (tinggi), Brainstorming (tinggi), Q&A Faktual (rendah), Kode (rendah).	14
`Top-K`	Membatasi sampling hanya pada K token dengan probabilitas tertinggi.	Mengurangi pilihan token, mempengaruhi keragaman.	Kontrol presisi (rendah), Eksplorasi terbatas (sedang).	14
`Top-P` (Nucleus)	Membatasi sampling pada set token terkecil yang probabilitas kumulatifnya mencapai P.	Mengontrol keragaman sambil memangkas ekor probabilitas rendah.	Penulisan kreatif (tinggi), Dialog (tinggi), Tugas terfokus (rendah).	14
`Frequency Penalty`	Memberikan penalti pada token berdasarkan frekuensi kemunculannya dalam teks yang sudah dihasilkan.	Mengurangi pengulangan kata/frasa yang sama.	Pembuatan konten yang bervariasi, Menghindari monoton.	21
`Presence Penalty`	Memberikan penalti pada token jika sudah muncul setidaknya sekali dalam teks yang sudah dihasilkan.	Mendorong pengenalan topik/ide baru.	Brainstorming, Diskusi yang dinamis.	21
`Stop Sequences`	Urutan token spesifik yang jika dihasilkan akan menghentikan generasi output lebih lanjut.	Mengontrol akhir respons secara presisi.	Mengakhiri output pada format tertentu, Menghentikan daftar.	21

3. Teknik-Teknik Prompting Utama: Mekanisme dan Aplikasi

3.1. Eksplorasi Teknik Prompting

Di luar konfigurasi parameter dasar, kekuatan sebenarnya dari prompt engineering terletak pada penggunaan berbagai teknik prompting yang telah dikembangkan untuk memandu perilaku LLM secara lebih efektif. Teknik-teknik ini berkisar dari instruksi sederhana hingga strategi kompleks yang dirancang untuk meningkatkan kemampuan penalaran, meniru format tertentu, atau bahkan berinteraksi dengan alat eksternal.¹ Pemilihan teknik yang tepat sangat bergantung pada sifat tugas yang dihadapi, tingkat kompleksitas yang terlibat, kebutuhan akan penalaran logis, dan format output spesifik yang diinginkan.¹⁶

Zero-shot Prompting: Ini adalah bentuk prompting paling dasar, di mana instruksi atau pertanyaan diberikan langsung ke LLM tanpa menyertakan contoh spesifik tentang bagaimana merespons.¹⁶ Teknik ini sepenuhnya bergantung pada pengetahuan dan kemampuan generalisasi yang telah diperoleh model selama fase pra-pelatihannya.²⁰ Zero-shot prompting efektif untuk tugas-tugas umum yang sudah dikenal baik oleh model, seperti terjemahan sederhana, menjawab pertanyaan pengetahuan umum, atau menghasilkan teks berdasarkan deskripsi singkat.¹⁶ Contoh klasik adalah prompt seperti: “Apa ibu kota Prancis?” ³⁰ atau “Ringkaslah artikel berikut: [teks artikel]”.
One-shot & Few-shot Prompting (In-context Learning): Berbeda dengan zero-shot, teknik ini melibatkan penyertaan satu (one-shot) atau beberapa (few-shot) contoh input dan output yang diinginkan langsung di dalam prompt.¹⁶ Contoh-contoh ini berfungsi sebagai panduan bagi model, menunjukkan pola, format, gaya, atau jenis respons yang diharapkan.¹⁷ Model kemudian “belajar” dari contoh-contoh ini dalam konteks prompt saat itu (tanpa pembaruan permanen pada bobot model) untuk menghasilkan output yang serupa untuk input baru yang diberikan.¹⁷ Few-shot prompting terbukti sangat efektif untuk tugas-tugas yang memerlukan adaptasi ke format output yang sangat spesifik (misalnya, JSON), meniru gaya penulisan tertentu, melakukan klasifikasi sentimen atau kategori lain, atau menangani tugas-tugas yang mungkin baru atau kurang terwakili dalam data pelatihan asli model.¹⁶ Contoh few-shot untuk klasifikasi sentimen: “Teks: ‘Makanan di sini lezat sekali!’ Sentimen: Positif. Teks: ‘Pelayanannya sangat lambat.’ Sentimen: Negatif. Teks: ‘Filmnya biasa saja.’ Sentimen:”.¹⁶
System/Contextual/Role Prompting: Teknik ini fokus pada penyediaan informasi tingkat tinggi untuk mengatur “panggung” atau konteks interaksi. Ini bisa berupa:
- System Prompt: Instruksi umum yang berlaku untuk seluruh percakapan, seringkali ditetapkan di awal.
- Contextual Prompt: Memberikan informasi latar belakang atau detail situasional yang relevan dengan tugas spesifik.¹ Ini membantu model memahami konteks permintaan dengan lebih baik.⁹
- Role Prompting: Secara eksplisit meminta LLM untuk mengadopsi persona, peran, atau sudut pandang tertentu saat merespons.²⁸ Ini sangat berguna untuk mengontrol nada, gaya, tingkat keahlian, atau basis pengetahuan yang digunakan model dalam responsnya.¹² Contoh: “Anda adalah seorang pemandu wisata berpengalaman di Yogyakarta. Jelaskan sejarah Candi Prambanan.”.²⁸
Step-back Prompting: Teknik ini dirancang untuk meningkatkan kualitas penalaran dengan meminta LLM untuk mundur sejenak dan memikirkan konsep atau prinsip umum yang relevan sebelum menjawab pertanyaan spesifik yang diajukan.⁷ Tujuannya adalah untuk mendorong model melakukan abstraksi dan mengaktifkan pengetahuan tingkat tinggi yang mungkin relevan, yang kemudian dapat digunakan untuk menghasilkan jawaban yang lebih mendalam atau beralasan untuk pertanyaan spesifik.⁷ Contoh: “Pertanyaan: Bagaimana cara terbaik mengurangi jejak karbon pribadi? Sebelum menjawab, jelaskan terlebih dahulu prinsip-prinsip utama yang menyebabkan perubahan iklim dan kategori utama emisi gas rumah kaca dari aktivitas manusia.”
Chain of Thought (CoT) Prompting: CoT adalah teknik yang kuat untuk meningkatkan kinerja LLM pada tugas-tugas yang memerlukan penalaran multi-langkah, seperti soal matematika, logika, atau penalaran akal sehat.³⁰ Alih-alih hanya meminta jawaban akhir, CoT mendorong LLM untuk menguraikan proses berpikirnya langkah demi langkah secara eksplisit.¹⁶ Ini dapat diaktifkan dengan dua cara utama:
- Zero-shot CoT: Cukup menambahkan frasa sederhana seperti “Mari berpikir langkah demi langkah.” atau “Let’s think step by step.” ke akhir prompt instruksi.¹⁶ Model kemudian mencoba menghasilkan rantai penalaran sendiri.
- Few-shot CoT: Menyertakan beberapa contoh dalam prompt yang tidak hanya menunjukkan input dan output akhir, tetapi juga menyertakan langkah-langkah penalaran perantara yang mengarah ke output tersebut.¹⁷ Dengan membuat proses penalaran menjadi eksplisit, CoT seringkali mengarah pada jawaban akhir yang lebih akurat.¹⁷
Self-Consistency: Teknik ini dibangun di atas CoT untuk lebih meningkatkan keandalan jawaban, terutama pada tugas penalaran yang kompleks.³¹ Idenya adalah menjalankan prompt CoT yang sama beberapa kali, tetapi dengan pengaturan temperature yang lebih besar dari nol (misalnya, 0.5 atau 0.7) untuk memungkinkan variasi dalam jalur penalaran yang dihasilkan.¹⁷ Setelah mendapatkan beberapa rantai pemikiran yang berbeda (yang mungkin mengarah pada jawaban akhir yang berbeda pula), jawaban akhir yang paling sering muncul (jawaban mayoritas) di antara semua percobaan dipilih sebagai jawaban final.¹⁷ Pendekatan ini memanfaatkan “kebijaksanaan kerumunan” dari berbagai jalur penalaran internal model.
Tree of Thoughts (ToT): ToT adalah generalisasi dan perluasan dari CoT, dirancang untuk menangani masalah yang lebih kompleks di mana satu jalur penalaran linier mungkin tidak cukup.³⁰ Dalam ToT, LLM didorong untuk mengeksplorasi beberapa jalur penalaran atau solusi potensial secara bersamaan, membentuk struktur seperti pohon.³⁰ Pada setiap langkah (simpul pohon), model dapat menghasilkan beberapa pemikiran atau langkah berikutnya yang mungkin (cabang-cabang). Model (atau mekanisme eksternal) kemudian dapat mengevaluasi kelayakan atau potensi dari keadaan perantara ini dan memutuskan cabang mana yang akan dieksplorasi lebih lanjut, atau bahkan melakukan backtracking jika suatu jalur tampaknya tidak menjanjikan.³⁰ Ini memungkinkan pemecahan masalah yang lebih sistematis dan eksploratif dibandingkan CoT. Salah satu variasinya adalah prompting maieutic, di mana model diminta untuk menjelaskan bagian-bagian dari penjelasannya sendiri, membangun pohon penjelasan.³⁰
ReAct (Reason & Act): Kerangka kerja ReAct secara eksplisit menggabungkan kemampuan penalaran LLM (seringkali menggunakan CoT) dengan kemampuan untuk melakukan tindakan (Act) menggunakan alat eksternal. Alat ini bisa berupa mesin pencari web, kalkulator, API basis data, atau kemampuan untuk menjalankan kode.⁹ Dalam siklus ReAct, LLM pertama-tama menghasilkan pemikiran (langkah penalaran tentang apa yang perlu dilakukan), kemudian menghasilkan tindakan (panggilan ke alat yang sesuai dengan parameter yang diperlukan), mengeksekusi tindakan tersebut, dan menerima observasi (hasil dari tindakan). Observasi ini kemudian dimasukkan kembali ke LLM untuk menghasilkan pemikiran berikutnya, dan siklus berlanjut hingga tugas selesai. ReAct sangat berguna untuk tugas-tugas yang memerlukan informasi terkini (di luar data pelatihan model), perhitungan yang tepat, atau interaksi dengan sistem eksternal.
Automatic Prompt Engineering (APE): Mengingat proses rekayasa prompt bisa memakan waktu dan memerlukan keahlian, APE adalah bidang penelitian yang bertujuan menggunakan LLM itu sendiri untuk membantu dalam proses pembuatan dan optimalisasi prompt.³¹ Ini bisa melibatkan LLM yang menghasilkan sejumlah besar kandidat prompt berdasarkan deskripsi tugas tingkat tinggi, atau LLM lain yang bertindak sebagai penilai untuk mengevaluasi kualitas output yang dihasilkan oleh prompt-prompt kandidat tersebut pada set data evaluasi.³¹ Tujuannya adalah untuk mengotomatiskan sebagian atau seluruh proses iteratif rekayasa prompt, berpotensi menemukan prompt yang lebih efektif daripada yang dapat dirancang manusia secara manual.³¹
Code Prompting: Ini adalah aplikasi spesifik dari prompt engineering yang berfokus pada tugas-tugas yang berkaitan dengan kode komputer.¹⁴ Mengingat banyak LLM modern dilatih pada korpus kode yang sangat besar ³², mereka memiliki kemampuan yang signifikan dalam hal ini. Code prompting melibatkan penyusunan prompt untuk memandu LLM dalam menulis potongan kode baru, menjelaskan cara kerja kode yang ada, menerjemahkan kode dari satu bahasa pemrograman ke bahasa lain, mengidentifikasi dan memperbaiki bug (debugging), atau menyarankan optimalisasi kode.³³
Teknik Lain yang Disebutkan: Sumber-sumber yang dianalisis juga menyebutkan berbagai teknik lain, yang seringkali merupakan variasi atau kombinasi dari teknik inti di atas. Ini termasuk:
- Prompt berbasis penyelesaian teks, instruksi, pilihan ganda, mitigasi bias, dan fine-tuning interaktif.¹
- Prompt langsung, bermain peran (role-playing), invers (meminta argumen kontra), dan multi-giliran (untuk percakapan).²⁸
- Chain-of-Verification (CoVe) yang fokus pada pemeriksaan fakta iteratif.⁷
- Desain prompt berbasis skenario nyata.⁷
- Pemeriksaan fakta eksternal secara eksplisit.⁷
- Prompt pengetahuan yang dihasilkan (Generated Knowledge Prompting), di mana model diminta menghasilkan fakta relevan terlebih dahulu sebelum menyelesaikan tugas utama.⁹
- Prompt berbasis kompleksitas, yang memilih rantai pemikiran terpanjang dari beberapa percobaan CoT.³⁰
- Augmentasi kontekstual ²⁰, mirip dengan contextual prompting.
- Meta-prompt, yaitu prompt yang dirancang untuk mengontrol perilaku LLM secara keseluruhan.²⁰
- Prompting multimodal, yang melibatkan input atau output selain teks (misalnya, gambar).⁹

Perkembangan teknik-teknik prompting ini menunjukkan sebuah evolusi yang jelas. Dimulai dari instruksi langsung yang sederhana (Zero-shot), berkembang ke metode yang lebih terstruktur dan memberikan panduan eksplisit melalui contoh atau peran (Few-shot, Role-playing). Kemudian, muncul teknik-teknik yang secara eksplisit mencoba meniru atau memandu proses kognitif yang lebih kompleks seperti penalaran langkah demi langkah atau eksplorasi bercabang (CoT, ToT, Step-back). Akhirnya, teknik-teknik mutakhir mulai mengintegrasikan LLM dengan dunia luar melalui alat eksternal (ReAct) atau bahkan mencoba mengotomatiskan proses rekayasa prompt itu sendiri (APE). Evolusi ini mencerminkan upaya berkelanjutan komunitas riset dan praktisi untuk mengatasi keterbatasan inheren LLM (seperti kurangnya pengetahuan real-time atau kesulitan dalam penalaran kompleks) dan untuk terus meningkatkan kemampuan serta kegunaan model-model ini dalam menangani tugas-tugas yang semakin beragam dan menantang.

Penting untuk dicatat bahwa banyak dari teknik prompting ini tidak bersifat saling eksklusif; mereka seringkali dapat dan harus digabungkan secara strategis untuk mencapai hasil terbaik. Misalnya, pendekatan Few-shot CoT ¹⁷ menggabungkan kekuatan pemberian contoh spesifik (Few-shot) dengan struktur penalaran langkah demi langkah (CoT), memungkinkan model untuk belajar bagaimana bernalar tentang jenis masalah tertentu berdasarkan contoh yang diberikan. Kerangka kerja ReAct ⁹ secara inheren membutuhkan komponen penalaran (untuk memutuskan tindakan apa yang harus diambil) yang dapat diimplementasikan menggunakan CoT. Demikian pula, Role-prompting ¹² dapat digunakan untuk menetapkan konteks awal atau persona, di mana kemudian teknik seperti CoT atau Few-shot digunakan untuk menangani permintaan spesifik dalam peran tersebut. Self-consistency ³¹ secara eksplisit dibangun di atas CoT. Oleh karena itu, seorang prompt engineer yang efektif tidak hanya perlu memahami masing-masing teknik secara individual, tetapi juga harus mampu mengenali kapan dan bagaimana menggabungkan beberapa teknik dalam satu prompt atau serangkaian interaksi untuk mengatasi kompleksitas tugas yang dihadapi secara optimal.

4. Perbandingan Teknik Prompting

4.1. Analisis Perbandingan Teknik

Memahami perbedaan mendasar antara berbagai teknik prompting, terutama dalam hal kompleksitas implementasi dan kasus penggunaan yang paling sesuai, sangat penting untuk memilih pendekatan yang tepat. Dua perbandingan kunci yang sering muncul adalah antara Zero-shot dan Few-shot prompting, serta antara Chain of Thought (CoT) dan Tree of Thoughts (ToT).

Zero-shot vs. Few-shot Prompting:

Kompleksitas Pembuatan Prompt: Zero-shot adalah pendekatan yang paling sederhana; hanya memerlukan penulisan instruksi atau pertanyaan langsung.¹⁶ Sebaliknya, Few-shot memerlukan usaha tambahan untuk memilih (atau membuat) contoh input-output yang baik dan representatif, serta memformatnya dengan benar di dalam prompt.¹⁶ Proses pemilihan contoh ini bisa menjadi rumit dan juga meningkatkan panjang prompt, yang berimplikasi pada biaya komputasi (jumlah token).¹⁶
Kinerja dan Efektivitas: Secara umum, Few-shot prompting cenderung menghasilkan kinerja yang lebih unggul dibandingkan Zero-shot, terutama untuk tugas-tugas yang memerlukan adaptasi ke format output yang sangat spesifik, peniruan gaya tertentu, atau ketika tugas tersebut relatif baru atau asing bagi model.¹⁶ Dengan memberikan contoh konkret, Few-shot secara efektif “mengajari” model dalam konteks tentang apa yang diharapkan.¹⁷ Zero-shot, yang hanya mengandalkan kemampuan generalisasi bawaan model, mungkin gagal atau menghasilkan output yang kurang memuaskan pada tugas-tugas yang lebih bernuansa atau kompleks yang tidak secara eksplisit tercakup dalam pelatihannya.¹⁶
Kasus Penggunaan Ideal: Zero-shot cocok untuk interaksi cepat, tugas-tugas umum di mana model diharapkan sudah memiliki kemampuan yang memadai (seperti terjemahan dasar atau menjawab pertanyaan umum), atau ketika kesederhanaan dan kecepatan pembuatan prompt menjadi prioritas utama.¹⁶ Few-shot menjadi pilihan ideal ketika diperlukan kustomisasi perilaku model, seperti dalam tugas klasifikasi (misalnya, sentimen, kategori), ekstraksi data terstruktur dari teks tidak terstruktur, meniru format output yang presisi (misalnya, JSON), atau mengadaptasi model ke domain atau jargon spesifik.¹⁶

Chain of Thought (CoT) vs. Tree of Thoughts (ToT):

Kompleksitas Penalaran yang Didukung: CoT dirancang untuk memandu model melalui jalur penalaran linier atau sekuensial tunggal, langkah demi langkah.¹⁷ Ini efektif untuk masalah yang dapat dipecah menjadi urutan langkah yang jelas. Sebaliknya, ToT memungkinkan eksplorasi beberapa jalur penalaran secara paralel, seperti cabang-cabang pohon.³⁰ ToT mendukung evaluasi keadaan atau pemikiran perantara, memungkinkan model untuk mempertimbangkan berbagai kemungkinan, dan berpotensi melakukan backtracking atau memilih jalur yang paling menjanjikan.³⁰ Kemampuan eksplorasi yang lebih luas ini membuat ToT lebih cocok untuk masalah yang kompleks, tidak terstruktur, atau memerlukan eksplorasi solusi alternatif yang tidak memiliki satu jalur solusi langkah demi langkah yang jelas.
Kompleksitas Implementasi dan Biaya: Implementasi ToT secara signifikan lebih kompleks, baik secara konseptual maupun teknis, dibandingkan dengan CoT.³⁰ ToT biasanya memerlukan beberapa panggilan ke LLM (untuk menghasilkan pemikiran di setiap cabang dan mengevaluasi keadaan), serta logika eksternal yang lebih rumit untuk mengelola struktur pohon, mengevaluasi simpul, dan memandu pencarian. Akibatnya, ToT cenderung jauh lebih mahal secara komputasi (dalam hal waktu dan biaya API) daripada CoT, yang biasanya hanya memerlukan satu (untuk Zero-shot CoT) atau beberapa (untuk Few-shot CoT) panggilan LLM per masalah.
Kasus Penggunaan Ideal: CoT sangat efektif dan efisien untuk masalah yang secara alami dapat di dekomposisi menjadi langkah-langkah berurutan, seperti menyelesaikan soal matematika aritmatika atau aljabar, menjawab pertanyaan logika sederhana, atau melakukan penalaran akal sehat dasar.¹⁶ ToT menunjukkan keunggulannya pada tugas-tugas yang lebih terbuka atau kompleks yang mendapat manfaat dari eksplorasi, perencanaan strategis, atau evaluasi berbagai hipotesis. Contohnya termasuk pemecahan masalah kreatif yang kompleks, penulisan naratif dengan banyak kemungkinan alur cerita, beberapa jenis permainan strategis, atau tugas ilmiah di mana berbagai pendekatan perlu dipertimbangkan.³⁰

Analisis perbandingan ini menyoroti adanya pertukaran (trade-off) yang konsisten antara usaha yang diperlukan untuk merancang dan mengimplementasikan suatu teknik prompting dengan tingkat kinerja atau kemampuan yang dapat dicapainya. Teknik yang lebih sederhana seperti Zero-shot sangat cepat dan mudah dibuat tetapi mungkin memiliki keterbatasan dalam efektivitasnya untuk tugas-tugas yang menantang. Seiring dengan meningkatnya kompleksitas teknik—dari Few-shot, ke CoT, hingga ToT atau ReAct—usaha yang diperlukan juga meningkat, baik dalam hal perancangan prompt itu sendiri (misalnya, memilih contoh CoT yang baik) maupun dalam hal pengelolaan proses (misalnya, mengelola pohon pemikiran di ToT atau mengintegrasikan alat di ReAct). Namun, peningkatan usaha ini seringkali diimbangi dengan kemampuan untuk menangani tugas-tugas yang lebih kompleks atau mencapai tingkat kinerja yang lebih tinggi.¹⁶ Oleh karena itu, pemilihan teknik prompting bukanlah sekadar memilih yang “terbaik”, melainkan sebuah keputusan strategis yang harus menyeimbangkan sumber daya yang tersedia (waktu, keahlian rekayasa prompt, anggaran komputasi) dengan tingkat kinerja dan kapabilitas yang benar-benar diperlukan untuk aplikasi yang sedang dibangun.

4.2. Tabel: Perbandingan Teknik Prompting Utama

Tabel berikut membandingkan beberapa teknik prompting utama berdasarkan dimensi kunci untuk membantu pemilihan pendekatan yang sesuai.

Teknik	Deskripsi Singkat	Kompleksitas Pembuatan	Kebutuhan Penalaran	Kelebihan Utama	Kekurangan/Batasan	Kasus Penggunaan Ideal	Referensi Snippet Kunci
Zero-shot	Instruksi langsung tanpa contoh.	Sangat Rendah	Rendah	Sederhana, Cepat dibuat.	Kurang efektif untuk tugas spesifik/kompleks.	Tugas umum, Interaksi cepat, Q&A dasar.	16
Few-shot	Memberikan 1-beberapa contoh input-output dalam prompt.	Rendah - Sedang	Rendah	Efektif untuk format/gaya spesifik, Adaptasi cepat.	Membutuhkan contoh yang baik, Menambah panjang prompt.	Klasifikasi, Ekstraksi data, Meniru format, Adaptasi gaya.	16
Role Prompting	Menetapkan peran/persona untuk `LLM`.	Rendah	Rendah	Mengontrol nada, gaya, sudut pandang.	Efektivitas bergantung pada pemahaman peran oleh model.	Simulasi, Penulisan dari perspektif tertentu, Chatbot persona.	1
`CoT`	Meminta `LLM` menguraikan langkah penalaran.	Sedang	Sedang - Tinggi	Meningkatkan akurasi pada tugas penalaran multi-langkah.	Mungkin tidak cukup untuk masalah sangat kompleks.	Soal matematika, Logika, Penalaran akal sehat.	16
Self-Consistency	Menjalankan `CoT` beberapa kali, memilih jawaban mayoritas.	Sedang - Tinggi	Tinggi	Meningkatkan keandalan & akurasi `CoT`.	Lebih mahal secara komputasi daripada `CoT` tunggal.	Tugas penalaran kritis di mana akurasi sangat penting.	17
`ToT`	Mengeksplorasi beberapa jalur penalaran secara bersamaan (seperti pohon).	Tinggi	Sangat Tinggi	Menangani masalah kompleks yang memerlukan eksplorasi.	Sangat kompleks untuk diimplementasikan, Mahal secara komputasi.	Pemecahan masalah kreatif, Perencanaan, Eksplorasi strategis.	30
`ReAct`	Menggabungkan penalaran (Reason) dengan penggunaan alat eksternal (Act).	Tinggi	Tinggi	Mengatasi keterbatasan pengetahuan model, Interaksi dunia nyata.	Memerlukan integrasi alat, Kompleksitas manajemen state.	Q&A dengan info real-time, Tugas yang butuh kalkulasi/API eksternal, Agen otonom sederhana.	9

5. Praktik Terbaik dalam Desain Prompt

5.1. Evaluasi Praktik Terbaik

Selain memilih teknik prompting yang sesuai dan mengonfigurasi parameter model, kualitas desain prompt itu sendiri memainkan peran fundamental dalam menentukan keberhasilan interaksi dengan LLM. Sejumlah praktik terbaik telah diidentifikasi melalui pengalaman kolektif dan penelitian untuk membantu memastikan bahwa prompt yang dirancang efektif dalam mengarahkan model ke output yang diinginkan.⁴

Berikan Contoh (Few-shot Prompting): Sebagaimana telah dibahas sebelumnya, menyertakan contoh konkret dalam prompt adalah salah satu praktik paling berdampak, terutama ketika output yang diinginkan harus mengikuti format, struktur, atau gaya tertentu.¹⁶ Contoh memberikan panduan yang jelas dan tidak ambigu kepada model tentang apa yang diharapkan, seringkali menghasilkan peningkatan kinerja yang signifikan dibandingkan pendekatan zero-shot.¹² Efektivitasnya menjadikannya praktik standar untuk banyak tugas kustomisasi.²⁰
Desain Sederhana dan Jelas: Kejelasan adalah kunci utama.¹⁵ Prompt harus dirumuskan dengan bahasa yang lugas, ringkas, dan tidak ambigu agar mudah dipahami oleh model.⁶ Hindari penggunaan jargon yang mungkin tidak dikenal model, instruksi yang bertentangan, atau kalimat yang terlalu berbelit-belit.¹⁰ Prompt yang jelas mengurangi risiko misinterpretasi oleh model dan meningkatkan kemungkinan respons yang relevan dan akurat.¹²
Spesifik tentang Output yang Diinginkan: Jangan berasumsi model tahu apa yang Anda inginkan. Semakin spesifik instruksi mengenai output, semakin besar kemungkinan model akan memenuhinya.⁷ Ini termasuk mendefinisikan format output yang diharapkan (misalnya, “berikan jawaban dalam bentuk daftar bernomor”, “hasilkan output dalam format JSON”), gaya penulisan (“gunakan nada formal”, “tulis dengan gaya percakapan”), perkiraan panjang (“ringkasan dalam 50 kata”, “esai sekitar 500 kata”), atau konten spesifik yang harus disertakan atau dihindari.⁴ Memberikan detail ini secara eksplisit akan memandu model dengan lebih efektif.¹¹
Gunakan Instruksi Positif: Sebisa mungkin, beri tahu model apa yang harus dilakukannya, bukan hanya apa yang tidak boleh dilakukannya. Model AI seringkali lebih baik dalam mengikuti arahan positif daripada memproses negasi atau larangan. Misalnya, alih-alih mengatakan “Jangan menulis kalimat yang rumit,” lebih baik katakan “Gunakan kalimat yang pendek dan sederhana.”
Kontrol Panjang Token: Mengelola panjang respons penting untuk berbagai alasan, termasuk keterbacaan, relevansi, dan biaya komputasi. Ini dapat dilakukan melalui dua cara utama: (1) Menyesuaikan parameter max_tokens pada level API atau antarmuka ²¹, atau (2) Secara eksplisit meminta panjang tertentu di dalam teks prompt itu sendiri, misalnya, “Berikan ringkasan tidak lebih dari 100 kata”.
Gunakan Variabel/Placeholder: Untuk prompt yang dirancang untuk digunakan kembali dengan input data yang berbeda (misalnya, template email, generator deskripsi produk), gunakan variabel atau placeholder (seperti {nama_produk} atau [data]) yang dapat diisi secara dinamis dengan data spesifik saat runtime. Ini sangat meningkatkan reusabilitas, skalabilitas, dan efisiensi dalam aplikasi nyata.
Eksperimen dan Iterasi: Mengingat kompleksitas LLM dan sifat probabilistiknya, jarang ada solusi “satu ukuran cocok untuk semua”. Praktik terbaik yang krusial adalah mengadopsi pola pikir eksperimental.²⁸ Coba berbagai formulasi prompt, struktur kalimat, pilihan kata, gaya penulisan, parameter konfigurasi (seperti temperature atau top-p), dan bahkan model LLM yang berbeda jika memungkinkan.¹² Proses iteratif pengujian, evaluasi, dan penyempurnaan adalah inti dari rekayasa prompt yang sukses.¹⁰
Gunakan Format Terstruktur (JSON) untuk Output Terprogram: Jika output dari LLM dimaksudkan untuk dikonsumsi oleh sistem atau aplikasi lain (misalnya, untuk ekstraksi data, mengisi basis data), meminta output dalam format terstruktur seperti JSON bisa sangat bermanfaat.¹⁶ Ini memudahkan parsing dan pemrosesan data secara otomatis. Namun, perlu diingat bahwa LLM tidak selalu menghasilkan JSON yang 100% valid, sehingga mekanisme validasi atau perbaikan JSON mungkin diperlukan.¹⁴ Selain itu, struktur JSON (kurung kurawal, tanda kutip, koma) menambah jumlah token, yang perlu diperhitungkan dalam batas max_tokens.¹⁴ Menggunakan skema JSON untuk mendefinisikan struktur input juga bisa membantu.
Dokumentasikan Percobaan Secara Cermat: Setiap kali melakukan eksperimen dengan prompt, sangat penting untuk mendokumentasikan detailnya.¹¹ Catatan ini harus mencakup: model LLM yang digunakan, semua parameter konfigurasi yang relevan (temperature, top-p, max_tokens, dll.), teks prompt yang tepat, output yang dihasilkan oleh model, dan evaluasi (baik kualitatif maupun kuantitatif, jika memungkinkan) terhadap kualitas output tersebut.¹¹ Dokumentasi yang baik sangat penting untuk pembelajaran dari keberhasilan dan kegagalan, memastikan reproduktibilitas hasil, dan memfasilitasi perbaikan berkelanjutan dalam tim atau proyek.¹¹

Praktik Tambahan dari Analisis Sumber:

Sertakan Konteks dan Latar Belakang yang Cukup: Memberikan informasi kontekstual yang relevan dalam prompt membantu model memahami tugas dengan lebih baik dan menghasilkan respons yang lebih tepat sasaran.¹ Ini bisa berupa data pendukung, definisi istilah kunci, atau informasi tentang audiens target.⁴
Pecah Tugas Kompleks: Jika tugas terlalu besar atau rumit untuk satu prompt, pecahlah menjadi serangkaian langkah atau sub-tugas yang lebih kecil dan lebih mudah dikelola, menggunakan beberapa prompt secara berurutan (prompt chaining).¹⁶
Gunakan Kata Kunci yang Tepat: Pemilihan kata kunci yang relevan dan spesifik dalam prompt dapat membantu memandu model ke arah informasi atau konsep yang benar.²⁸
Mitigasi Bias: Secara aktif menguji prompt untuk potensi bias dalam output yang dihasilkan dan menyempurnakannya untuk meminimalkan respons yang tidak adil, berbahaya, atau stereotipikal.¹ Ini adalah bagian penting dari pengembangan AI yang bertanggung jawab.¹⁵
Berikan Waktu Model untuk “Berpikir”: Terkadang, menambahkan frasa seperti “Pikirkan langkah demi langkah” ¹⁶ atau menstrukturkan prompt sedemikian rupa sehingga model didorong untuk melakukan pemrosesan internal sebelum memberikan jawaban akhir dapat meningkatkan kualitas respons, terutama untuk tugas penalaran.⁹
Gunakan Batasan (Constraints): Selain panjang, batasan lain dapat ditambahkan untuk mempersempit ruang lingkup respons dan memastikan kesesuaian dengan kebutuhan spesifik.¹⁴ Contoh: “Fokus hanya pada manfaat ekonomi,” “Jangan menyebutkan pesaing.”.¹²

Secara kolektif, praktik-praktik terbaik ini berfungsi sebagai fondasi untuk komunikasi yang efektif dengan LLM. Tujuan utamanya adalah untuk mengurangi ambiguitas yang melekat dalam bahasa alami, memberikan panduan yang sejelas mungkin kepada model, dan mengelola kompleksitas interaksi.¹² LLM, meskipun kuat, pada dasarnya adalah sistem probabilistik tanpa pemahaman dunia nyata atau niat seperti manusia.¹⁴ Ambiguitas dalam instruksi adalah sumber utama kesalahan.¹⁵ Praktik seperti kejelasan, spesifisitas, dan pemberian contoh secara langsung mengatasi hal ini dengan memberikan sinyal yang lebih kuat tentang apa yang diharapkan.⁴ Demikian pula, memecah tugas kompleks atau menggunakan teknik seperti CoT membantu mengelola beban kognitif pada model.¹⁶ Praktik terbaik ini menciptakan landasan yang memungkinkan teknik prompting yang lebih canggih dan konfigurasi parameter yang disesuaikan untuk dapat berfungsi secara optimal.

Meskipun teknik dan praktik terbaik menyediakan kerangka kerja yang berharga, elemen manusia tetap memegang peranan krusial dalam keberhasilan rekayasa prompt. Merancang prompt yang benar-benar efektif seringkali membutuhkan lebih dari sekadar mengikuti aturan; ia memerlukan kreativitas untuk membingkai masalah dengan cara baru, intuisi linguistik untuk memilih kata-kata yang tepat, pemikiran kritis untuk mengevaluasi output secara mendalam, dan pemahaman domain yang kuat untuk memastikan relevansi dan akurasi.⁶ Kemampuan untuk “berempati” dengan cara model mungkin “berpikir” atau menginterpretasikan instruksi juga merupakan keterampilan berharga.¹⁴ Evaluasi kualitas output, terutama untuk tugas-tugas kreatif atau bernuansa, seringkali melibatkan penilaian subjektif yang sulit diotomatisasi.¹¹ Oleh karena itu, rekayasa prompt yang sukses adalah aktivitas kolaboratif antara kecerdasan manusia dan kecerdasan buatan, menyoroti sifat sosio-teknis dari interaksi ini.¹⁵

6. Konsep Tingkat Lanjut dalam Prompt Engineering

6.1. Penelitian Konsep Terspesialisasi

Di luar teknik dan praktik dasar, bidang prompt engineering terus berkembang dengan munculnya konsep-konsep yang lebih maju dan terspesialisasi. Dua area penting yang disorot adalah Automatic Prompt Engineering (APE) dan Code Prompting.

Automatic Prompt Engineering (APE):

Definisi dan Tujuan: APE adalah pendekatan yang bertujuan untuk mengotomatiskan sebagian atau seluruh proses penemuan, penyempurnaan, dan pemilihan prompt yang optimal untuk tugas LLM tertentu.³¹ Motivasi utamanya adalah untuk mengurangi upaya manual yang seringkali intensif dan memakan waktu dalam rekayasa prompt tradisional, sekaligus berpotensi menemukan prompt yang lebih efektif daripada yang mungkin dirancang oleh manusia.³¹ Tujuannya adalah memaksimalkan kinerja LLM pada tugas hilir melalui optimasi prompt otomatis.
Mekanisme Kerja: Implementasi APE dapat mengambil berbagai bentuk.³¹ Salah satu pendekatan umum melibatkan penggunaan satu LLM (sebagai “generator prompt”) untuk menghasilkan sejumlah besar kandidat prompt berdasarkan deskripsi tugas tingkat tinggi yang diberikan oleh pengguna. Kemudian, LLM lain (atau LLM yang sama dalam peran berbeda, sebagai “penilai prompt”) digunakan untuk mengevaluasi seberapa baik output yang dihasilkan oleh masing-masing kandidat prompt tersebut ketika dijalankan pada set data contoh untuk tugas target. Metrik evaluasi dapat berupa skor otomatis (jika memungkinkan) atau penilaian oleh LLM penilai. Teknik pencarian (seperti beam search) atau algoritma optimasi (seperti reinforcement learning atau optimasi Bayesian ³¹) kemudian dapat digunakan untuk secara sistematis menjelajahi ruang kemungkinan prompt dan mengidentifikasi prompt yang menghasilkan kinerja terbaik berdasarkan evaluasi tersebut.
Implikasi: APE memiliki potensi signifikan untuk mendemokratisasi akses ke rekayasa prompt tingkat lanjut, memungkinkan lebih banyak orang untuk mengoptimalkan interaksi LLM tanpa memerlukan keahlian mendalam dalam perancangan prompt manual. Ini juga dapat mempercepat siklus pengembangan aplikasi berbasis LLM. Namun, APE juga menimbulkan pertanyaan menarik tentang meta-optimasi (mengoptimalkan proses optimasi itu sendiri) dan potensi risiko, seperti kemungkinan memperkuat bias yang ada dalam LLM yang digunakan untuk menghasilkan atau mengevaluasi prompt.

Code Prompting:

Definisi dan Tujuan: Code prompting adalah sub-bidang khusus dari prompt engineering yang berfokus pada seni dan ilmu menyusun prompt untuk secara efektif memandu LLM dalam melakukan tugas-tugas yang berkaitan dengan kode komputer.¹⁴ Hal ini dimungkinkan karena banyak LLM terkemuka saat ini telah dilatih pada korpus data yang sangat besar yang mencakup miliaran baris kode dari repositori publik seperti GitHub.³² Tujuannya adalah memanfaatkan kemampuan pemahaman dan generasi kode LLM untuk membantu pengembang dalam berbagai aspek siklus hidup pengembangan perangkat lunak.
Teknik dan Praktik Spesifik: Prompting yang efektif untuk tugas kode seringkali memerlukan praktik khusus di luar yang digunakan untuk bahasa alami umum:
- Menyediakan Konteks Kode yang Jelas: Ini termasuk menentukan bahasa pemrograman target (misalnya, Python, Java, C++), library atau framework yang relevan, dependensi, atau bahkan potongan kode yang ada di sekitarnya di mana kode baru harus diintegrasikan.
- Spesifikasi Fungsional dan Non-Fungsional: Mendefinisikan dengan jelas apa yang harus dilakukan kode (fungsionalitas), serta batasan atau persyaratan lain seperti efisiensi (misalnya, kompleksitas waktu/ruang), gaya kode yang harus diikuti (misalnya, PEP 8 untuk Python), atau persyaratan penanganan error.
- Penggunaan Contoh Kode (Few-shot): Memberikan contoh kode yang relevan dan ditulis dengan baik dapat secara signifikan membantu model memahami pola atau struktur yang diinginkan.
- Dekomposisi Tugas: Memecah tugas pengkodean yang kompleks (misalnya, mengimplementasikan seluruh kelas atau modul) menjadi fungsi atau metode yang lebih kecil dan lebih mudah dikelola melalui serangkaian prompt.
- Permintaan Penjelasan atau Komentar: Meminta LLM untuk menjelaskan cara kerja kode yang dihasilkannya atau menambahkan komentar inline untuk meningkatkan keterbacaan.
- Permintaan Pengujian atau Debugging: Meminta LLM untuk menghasilkan kasus uji (unit test) untuk kode yang ditulisnya, atau untuk mengidentifikasi potensi bug atau kerentanan keamanan dalam potongan kode yang ada.
Implikasi: Code prompting berpotensi mengubah alur kerja pengembang perangkat lunak secara signifikan, menawarkan bantuan dalam penulisan kode boilerplate, debugging, pembelajaran bahasa baru, dan bahkan perancangan arsitektur.³² Ini dapat meningkatkan produktivitas pengembang. Namun, kode yang dihasilkan AI masih memerlukan validasi, pengujian, dan pengawasan yang cermat oleh pengembang manusia untuk memastikan kebenaran, keamanan, dan efisiensinya. Munculnya model yang secara khusus dioptimalkan untuk kode, seperti seri CodeGemma dari Google ³² atau kemampuan pengkodean canggih dalam model Gemini ³³, menunjukkan pentingnya dan spesialisasi area ini.

Konsep APE mewakili langkah menarik menuju otomatisasi pada tingkat meta—menggunakan AI untuk memperbaiki cara kita berinteraksi dengan AI lain. Ini adalah contoh bagaimana kemampuan optimasi inheren LLM dapat diterapkan untuk mengotomatisasi tugas optimasi yang sebelumnya dilakukan secara manual dan iteratif oleh manusia.¹ Seiring kemajuan AI, kita mungkin akan melihat lebih banyak tugas optimasi semacam ini didelegasikan ke sistem AI itu sendiri, yang berpotensi mengubah sifat pekerjaan dalam rekayasa dan pengembangan AI.

Di sisi lain, Code Prompting dengan jelas menyoroti pentingnya spesifisitas domain dalam rekayasa prompt. Prompt yang efektif untuk menghasilkan puisi liris akan sangat berbeda dalam struktur, terminologi, dan konteksnya dari prompt yang dirancang untuk men-debug algoritma C++ yang kompleks.¹⁴ Struktur logis, sintaks yang ketat, dan sifat deterministik (idealnya) dari kode memerlukan pendekatan prompting yang berbeda dari ambiguitas dan kekayaan nuansa bahasa alami. Hal ini menggarisbawahi bahwa meskipun ada prinsip-prinsip umum prompt engineering, adaptasi ke kekhasan domain spesifik sangat penting untuk mencapai hasil yang optimal. Ini menyiratkan bahwa prompt engineer yang paling efektif seringkali adalah mereka yang tidak hanya memiliki pemahaman mendalam tentang LLM dan teknik prompting, tetapi juga memiliki keahlian atau setidaknya pemahaman yang kuat tentang domain aplikasi target, baik itu pemrograman, hukum ⁸, kedokteran ³⁴, keuangan ¹², atau lainnya.⁶

7. Sintesis: Menghubungkan Teknik, Konfigurasi, dan Praktik Terbaik

7.1. Sintesis Hubungan Antar Komponen

Keberhasilan dalam memanfaatkan Large Language Models (LLM) melalui prompt engineering tidak bergantung pada satu elemen tunggal, melainkan pada interaksi sinergis antara tiga komponen utama: praktik terbaik dalam desain prompt, pemilihan teknik prompting yang sesuai, dan penyesuaian parameter konfigurasi model.² Ketiga komponen ini tidak bekerja secara terpisah; sebaliknya, mereka saling melengkapi dan memperkuat satu sama lain dalam upaya mencapai output LLM yang optimal dan sesuai tujuan.⁹

Praktik Terbaik sebagai Fondasi: Praktik terbaik dalam desain prompt—seperti memastikan kejelasan dan spesifisitas instruksi, memberikan konteks yang memadai, menggunakan contoh (few-shot), mendefinisikan output yang diinginkan secara detail, dan menggunakan instruksi positif ⁴—berfungsi sebagai landasan atau fondasi dari interaksi yang efektif.¹² Praktik-praktik ini bertujuan untuk meminimalkan ambiguitas dan memberikan sinyal sejelas mungkin kepada model tentang apa yang diharapkan.¹⁵ Tanpa fondasi prompt dasar yang solid dan jelas, penerapan teknik prompting yang lebih canggih (seperti Chain of Thought atau ReAct) atau penyesuaian parameter konfigurasi yang halus kemungkinan besar akan gagal menghasilkan hasil yang diinginkan, karena model mungkin memulai dari pemahaman yang salah tentang tugas inti.

Teknik Memandu Penalaran dan Struktur: Jika praktik terbaik menetapkan apa yang diminta, teknik prompting secara aktif membentuk bagaimana model mendekati masalah dan menstrukturkan responsnya.¹⁶ Teknik seperti Few-shot prompting memandu model untuk meniru pola atau format tertentu.¹⁷ Teknik seperti Chain of Thought (CoT) atau Tree of Thoughts (ToT) secara eksplisit memandu proses penalaran internal model, mendorongnya untuk menguraikan langkah-langkah atau mengeksplorasi berbagai jalur.¹⁷ Teknik seperti ReAct memungkinkan model untuk melampaui generasi teks murni dan berinteraksi dengan alat eksternal.⁹ Dengan demikian, teknik prompting memberikan struktur dan strategi pada proses penyelesaian masalah oleh LLM, melampaui sekadar instruksi dasar.

Konfigurasi Mengontrol Gaya dan Perilaku Output: Setelah prompt dirancang dengan baik (menggunakan praktik terbaik) dan teknik yang sesuai dipilih untuk memandu proses, parameter konfigurasi (seperti temperature, top-p, max_tokens, frequency_penalty) berperan dalam menyempurnakan karakteristik output akhir.²¹ Mereka mengontrol aspek-aspek seperti tingkat kreativitas versus determinisme (temperature, top-p) ²², panjang respons (max_tokens) ²¹, dan kecenderungan untuk mengulang kata atau ide (frequency_penalty, presence_penalty).²³ Pengaturan parameter ini dapat dianggap sebagai lapisan kontrol terakhir yang memodulasi gaya dan perilaku output yang dihasilkan oleh proses yang dipandu oleh prompt dan teknik. Misalnya, temperature yang tinggi dapat membuat langkah-langkah dalam respons CoT menjadi lebih bervariasi atau tak terduga, sementara temperature rendah akan membuatnya lebih konsisten dan dapat diprediksi.

Contoh Interaksi Sinergis:

Untuk tugas menyelesaikan soal matematika yang kompleks, seorang prompt engineer akan memulai dengan praktik terbaik: merumuskan soal dengan jelas dan meminta jawaban akhir. Kemudian, menerapkan teknik Chain of Thought (CoT) dengan menambahkan “Mari berpikir langkah demi langkah” untuk memandu penalaran. Akhirnya, mengatur konfigurasi temperature ke nilai rendah (misalnya, 0.2) untuk memastikan akurasi dan determinisme dalam langkah-langkah perhitungan.
Untuk tugas menghasilkan deskripsi produk dalam format JSON yang spesifik, praktik terbaik melibatkan pendefinisian struktur JSON yang diinginkan. Teknik Few-shot prompting akan sangat berguna di sini, dengan menyertakan contoh deskripsi produk lain dalam format JSON yang benar. Konfigurasi max_tokens perlu diatur cukup tinggi untuk mengakomodasi output JSON yang mungkin lebih panjang, sementara temperature mungkin diatur sedang untuk memungkinkan sedikit variasi dalam bahasa deskriptif.
Untuk membangun chatbot yang dapat menjawab pertanyaan tentang peristiwa terkini menggunakan pencarian web, teknik ReAct akan menjadi pilihan utama. Praktik terbaik akan melibatkan perancangan prompt yang jelas menginstruksikan model kapan harus menggunakan alat pencarian web dan bagaimana memformat kueri pencarian. Konfigurasi temperature mungkin diatur pada tingkat sedang untuk menyeimbangkan antara mengikuti rencana tindakan yang dihasilkan oleh penalaran ReAct dan memungkinkan sedikit fleksibilitas dalam eksplorasi tindakan atau formulasi respons.

Secara umum, terdapat alur proses logis yang sering diikuti dalam menerapkan ketiga komponen ini, meskipun prosesnya bersifat sangat iteratif.¹¹ Alur ini biasanya dimulai dengan mendefinisikan tujuan akhir yang jelas. Kemudian, praktik terbaik diterapkan untuk membuat draf prompt awal yang sejelas dan sespesifik mungkin, memberikan konteks yang diperlukan.⁴ Selanjutnya, berdasarkan kompleksitas tugas dan kebutuhan akan penalaran atau struktur khusus, teknik prompting yang paling sesuai dipilih dan diintegrasikan ke dalam prompt.¹⁶ Setelah itu, parameter konfigurasi disesuaikan untuk menyetel karakteristik output akhir seperti kreativitas, panjang, dan fokus, agar sesuai dengan tujuan.²¹ Prompt yang telah dirancang dan dikonfigurasi ini kemudian dieksekusi, dan outputnya dievaluasi secara kritis terhadap tujuan awal.¹¹ Jika hasilnya belum memuaskan, siklus iterasi dimulai: prompt mungkin perlu direvisi (memperbaiki kejelasan atau menambahkan konteks), teknik yang berbeda mungkin perlu dicoba, atau parameter konfigurasi mungkin perlu disesuaikan lebih lanjut.¹¹ Setiap perubahan dan hasilnya didokumentasikan, dan proses diulang hingga output yang memuaskan tercapai. Alur kerja iteratif ini menyoroti bagaimana praktik terbaik, teknik prompting, dan konfigurasi parameter saling terkait erat dan bekerja bersama dalam siklus pengembangan dan penyempurnaan prompt yang sistematis.

8. Refleksi: Prompt Engineering sebagai Seni dan Sains

8.1. Analisis Dualitas Seni dan Sains

Deskripsi prompt engineering sebagai perpaduan antara “seni dan sains” ²⁸ seringkali muncul dalam diskusi tentang disiplin ini, dan analisis terhadap praktik dan tantangannya memvalidasi dualitas ini. Prompt engineering memang berada di persimpangan unik antara pendekatan metodis yang didorong oleh data dan ekspresi kreatif yang bernuansa.

Aspek Sains dalam Prompt Engineering: Sisi ilmiah dari prompt engineering termanifestasi dalam beberapa cara:

Pendekatan Sistematis: Proses rekayasa prompt yang efektif seringkali mengikuti metodologi terstruktur, melibatkan langkah-langkah yang jelas untuk perancangan, pengujian, evaluasi, dan penyempurnaan prompt.⁴ Ini bukan sekadar tebak-tebakan acak.
Eksperimen Terkontrol: Praktisi sering menggunakan eksperimen, termasuk pengujian A/B, untuk secara objektif membandingkan efektivitas berbagai formulasi prompt, teknik, atau pengaturan parameter.²⁸ Iterasi didasarkan pada bukti empiris dari hasil pengujian.¹¹
Pemahaman Teknis yang Mendasar: Merancang prompt yang baik membutuhkan pemahaman tentang cara kerja LLM pada tingkat konseptual, termasuk arsitektur transformator, prinsip-prinsip NLP, tokenisasi, dan bagaimana parameter seperti temperature atau top-p mempengaruhi proses generasi teks.³ Ini adalah pengetahuan teknis.¹⁴
Upaya Pengukuran Kinerja: Meskipun evaluasi output LLM seringkali bersifat kualitatif, ada upaya untuk mengembangkan metrik yang lebih kuantitatif untuk menilai kualitas respons (misalnya, akurasi pada tugas tertentu, kesesuaian format, skor keterbacaan).¹¹
Dokumentasi dan Reproduktibilitas: Penekanan pada pencatatan detail eksperimen prompt (model, parameter, prompt, output, evaluasi) mencerminkan prinsip ilmiah tentang dokumentasi dan kemampuan untuk mereproduksi hasil.¹¹

Aspek Seni dalam Prompt Engineering: Di sisi lain, aspek artistik atau kerajinan tangan juga sangat menonjol:

Kreativitas dan Intuisi: Merancang prompt yang benar-benar inovatif atau efektif untuk tugas yang kompleks seringkali membutuhkan lompatan kreatif.⁶ Memilih kata-kata yang tepat, membingkai masalah dengan cara yang tidak biasa, atau mengembangkan metafora yang dapat “dipahami” model memerlukan intuisi linguistik dan pemikiran “out-of-the-box”.¹⁴ Ini melibatkan semacam “empati” terhadap cara model mungkin memproses informasi.¹²
Penguasaan Nuansa Bahasa: Bahasa alami adalah medium yang kaya dan ambigu.³ Pilihan kata yang halus, struktur kalimat, nada, dan bahkan tanda baca dapat secara signifikan mempengaruhi interpretasi model dan output yang dihasilkan.⁶ Kemampuan untuk menggunakan bahasa dengan presisi dan gaya yang tepat adalah keterampilan artistik.³
Adaptasi Kontekstual: Menyesuaikan prompt agar sesuai dengan konteks spesifik suatu tugas, audiens target, atau tujuan percakapan seringkali memerlukan penilaian subjektif dan fleksibilitas.⁴ Tidak ada resep pasti; kemampuan untuk beradaptasi secara dinamis adalah seni.¹²
Pemecahan Masalah Inovatif: Ketika menghadapi keterbatasan LLM atau tugas yang sangat sulit, prompt engineer seringkali perlu menemukan solusi atau workaround yang tidak standar.¹⁵ Ini bisa melibatkan perancangan teknik prompt baru atau penggunaan kombinasi teknik yang tidak biasa, yang merupakan bentuk pemecahan masalah kreatif.

Sintesis Dualitas: Dualitas ini bukanlah kontradiksi, melainkan cerminan dari sifat unik prompt engineering. Ia adalah disiplin teknis yang beroperasi melalui medium bahasa alami yang ekspresif dan terkadang tak terduga. Pendekatan ilmiah menyediakan kerangka kerja, metode pengujian, dan pemahaman dasar tentang sistem yang mendasarinya.¹⁰ Namun, kerangka kerja ini saja tidak cukup. Aspek seni—kreativitas, penguasaan bahasa, intuisi, dan adaptasi—diperlukan untuk menavigasi kompleksitas, ambiguitas, dan potensi tak terbatas dari interaksi bahasa alami dengan AI.⁴ Keberhasilan dalam prompt engineering seringkali terletak pada kemampuan praktisi untuk secara efektif menyeimbangkan dan mengintegrasikan kedua aspek ini: menggunakan metode ilmiah untuk menguji ide-ide yang lahir dari intuisi artistik, dan menggunakan pemahaman teknis untuk memandu ekspresi kreatif.¹⁴

Dualitas “seni dan sains” ini pada dasarnya mencerminkan sifat antarmuka manusia-AI itu sendiri ketika dimediasi oleh bahasa alami. Komponen “sains” mewakili upaya kita untuk memahami, memprediksi, dan mengontrol sistem AI yang kompleks secara sistematis, berdasarkan prinsip-prinsip komputasi dan statistik.¹⁰ Di sisi lain, komponen “seni” mewakili aspek komunikasi, interpretasi, persuasi, dan kreativitas yang tak terhindarkan muncul ketika kita berinteraksi menggunakan bahasa—alat ekspresi manusia yang paling mendasar dan bernuansa.⁶ Bahasa alami itu sendiri adalah medan bermain bagi seni komunikasi ³, sementara LLM, meskipun dibangun di atas fondasi matematika dan kode (sains), menghasilkan output (teks, gambar, kode) yang seringkali perlu dinilai secara kualitatif atau bahkan estetika (seni).¹¹ Oleh karena itu, prompt engineering secara inheren harus menjadi perpaduan antara seni dan sains karena ia bertugas menjembatani dua dunia: logika formal dan probabilistik dari sistem AI (sains) dengan kekayaan ekspresif dan ambiguitas bahasa manusia (seni). Mengabaikan salah satu aspek akan menghasilkan interaksi yang kurang efektif dan kurang optimal.

9. Kesimpulan dan Arah Masa Depan

Analisis terhadap definisi, tujuan, teknik, konfigurasi, dan praktik terbaik dalam prompt engineering mengungkapkan bahwa ini adalah disiplin multi-faceted yang krusial untuk memaksimalkan potensi Large Language Models (LLM). Inti dari prompt engineering adalah proses iteratif ¹¹ dalam merancang dan menyempurnakan input (prompt) untuk memandu LLM menghasilkan output yang akurat, relevan, dan sesuai tujuan.¹ Hal ini melibatkan pemahaman mendalam tentang bagaimana konfigurasi parameter seperti temperature, top-p, dan max_tokens mempengaruhi kreativitas, fokus, dan panjang output ²¹, serta pemilihan teknik prompting yang tepat—mulai dari Zero-shot dan Few-shot hingga metode penalaran seperti Chain of Thought (CoT) dan Tree of Thoughts (ToT), atau interaksi alat seperti ReAct.¹⁶ Penerapan praktik terbaik, seperti kejelasan, spesifisitas, pemberian contoh, dan dokumentasi ⁴, menjadi fondasi yang memungkinkan teknik dan konfigurasi bekerja secara efektif. Konsep lanjutan seperti Automatic Prompt Engineering (APE) ³¹ dan Code Prompting ¹⁴ menunjukkan spesialisasi dan otomatisasi yang sedang berkembang di lapangan. Akhirnya, prompt engineering secara tepat digambarkan sebagai perpaduan seni dan sains ²⁸, membutuhkan baik pendekatan sistematis dan pemahaman teknis (sains) maupun kreativitas, intuisi linguistik, dan adaptasi kontekstual (seni).

Implikasi dari prompt engineering sangat luas. Ia telah menjadi keterampilan kunci di era AI generatif ³, memungkinkan individu dan organisasi untuk berkomunikasi secara lebih efektif dengan sistem AI yang semakin kuat. Dampaknya terasa di berbagai sektor, termasuk pendidikan (materi pembelajaran yang disesuaikan) ⁶, e-commerce (rekomendasi produk yang dipersonalisasi) ¹, pengembangan perangkat lunak (penulisan dan debugging kode) ¹⁴, layanan pelanggan (chatbot yang lebih cerdas) ⁸, pembuatan konten ⁸, analisis data ¹, dan banyak lagi. Kebutuhan akan individu dengan keterampilan prompt engineering—yang menggabungkan pemahaman teknis AI, kemahiran berbahasa, pemikiran kritis, dan seringkali keahlian domain ⁶—terus meningkat, menciptakan peluang karir baru.⁵

Meskipun kemajuan pesat telah dicapai, sejumlah tantangan signifikan tetap ada dalam prompt engineering. Mengelola dan mengurangi halusinasi AI (output yang salah atau tidak berdasar) tetap menjadi perhatian utama.⁷ Memastikan keamanan, mencegah penyalahgunaan, dan memitigasi bias dalam output yang dihasilkan AI memerlukan perancangan prompt yang cermat dan pengawasan berkelanjutan.¹ LLM masih memiliki keterbatasan pengetahuan (terutama terkait informasi real-time atau domain yang sangat spesifik) yang perlu diatasi melalui teknik seperti ReAct atau grounding.⁸ Selain itu, evaluasi kualitas prompt dan output yang dihasilkannya seringkali bersifat subjektif dan kompleks, terutama untuk tugas-tugas kreatif atau bernuansa.¹¹

Melihat ke depan, bidang prompt engineering kemungkinan akan terus berevolusi dengan cepat. Kita dapat mengantisipasi peningkatan lebih lanjut dalam otomatisasi melalui APE ³¹, yang berpotensi membuat optimasi prompt lebih mudah diakses. Pengembangan teknik prompting yang lebih canggih kemungkinan akan berlanjut, mungkin fokus pada penalaran yang lebih kompleks, pemahaman multimodal yang lebih dalam, atau interaksi multi-agen. Integrasi yang lebih erat dengan alat eksternal dan basis data ⁹ akan semakin penting untuk mengatasi keterbatasan pengetahuan LLM. Di sisi lain, ada kemungkinan bahwa model LLM masa depan akan dikembangkan dengan kemampuan pemahaman instruksi yang lebih baik secara inheren, yang berpotensi mengurangi sebagian beban rekayasa prompt pada pengguna akhir. Namun, pentingnya antarmuka percakapan yang kontekstual dan memiliki memori ²⁹ kemungkinan akan terus meningkat, menuntut prompt engineering yang dapat mengelola sejarah interaksi dan mempertahankan koherensi dalam dialog yang panjang. Perkembangan berkelanjutan dari pemain utama seperti OpenAI ³⁵, Anthropic ³⁷, dan Google AI dengan model Gemini-nya ³³ akan terus membentuk lanskap dan mendorong inovasi dalam cara kita berinteraksi dan memanfaatkan kekuatan kecerdasan buatan generatif.