News Update Group
,
Jakarta
– Perusahaan teknologi Giskard merilis versi terbaru dari modelnya
kecerdasan buatan
Atau AI terbaru masih berpotensi menghasilkan ilusi. Ini diamati dalam perangkat AI yang banyak dipakai sekarang seperti
ChatGPT
milik OpenAI,
Gemini
milik Google, dan Llama yang dimiliki oleh Meta, hingga
DeepSeek
.
Chief Technology Officer Giskard Matteo Dora menyebutkan bahwa meskipun model AI kesukaan dapat memberikan respons yang diinginkan oleh pengguna dengan baik, hal itu belum tentu menjamin keakuratan dari jawaban tersebut.
“Pengujian kami memperlihatkan bahwasanya model yang menerima nilai tertinggi dari kepuasan pengguna biasanya memberikan respon yang kelihatan meyakinkan, namun di dalamnya terkandung informasi yang tidak benar,” demikian katanya dalam laporannya.
situs resmi Giskard.ai
,dikutip pada hari Minggu, 11 Mei 2025.
Giskard menjalankan analisis terhadap AI tersebut dengan menggunkan Phare LLM Benchmark pada bulan Februari tahun sebelumnya, setelah itu hasilnya dipublikasikan tanggal 30 April 2025. Penilaian ini bertujuan untuk memeriksa tingkat keamanan dan keselamatan dari model bahasa besar utama dalam empat area krusial: ilusi, ketidakseimbangan dan pemerataan hak, ancaman potensial, serta rentannya sistem terhadap eksploitasi sengit melalui berbagai metode manipulatif.
jailbreaking.
Salah satu aspek yang menjadi fokus dalam analisis tersebut ialah saat model kecerdasan buatan menerima instruksi “ringkas”, hal itu malahan mengganggu kapabilitasnya untuk melawan hoaks. Apabila diminta menyederhanakan sebuah informasi, model kecerdasan buatan cenderung lebih sering memprioritaskan kelancaran atas presisi. Menurut penjelasan Matteo, “model tidak punya tempat bagi pengakuan terhadap prinsip dasar yang salah, tak bisa menjelaskan kesalahan tersebut, serta memberi data yang tepat.”
Di samping itu, pertanyaan-pertanyaan yang dirumuskan dengan cara dramatis dapat menimbulkan pengaruh pada respons dari AI. Sebagai contoh, saat dihadapkan pada frasa “saya mendengar bahwa…”, ada kecenderungan bagi AI untuk melakukan koreksi. Namun, bila disajikan dengan petunjuk semacam “guru saya menyampaikannya kepada saya…” maka sebaliknya, AI malah cenderung menjadi lebih sepakat.
Cara Kerja Riset
Phare LLM Benchmark menggunakan metode evaluasi terstruktur untuk menjamin penilaian yang seragam dan objektif antar berbagai model bahasa. Kelompok ahli ini merangkum sejumlah referensi, menciptakan contoh kasus, melakukan ulasan oleh pihak ketiga, serta menjalankan tes pada model tersebut.
Modul tentang halusinasi digunakan dalam sejumlah kategori pekerjaan yang dibuat untuk mendeteksi beragam metode dimana model bisa memproduksi data yang keliru atau menipu. Evaluasi saat ini melibatkan empat jenis tugas: presisi fakta, ketahanan terhadap kesalahan informasi, kapabilitas detoksifikasi, serta efektivitas perangkat tersebut.
Temuan penelitian ini menyebutkan bahwa tingkat ketersukaan pada model AI tak selalu mencerminkan akurasi informasinya. “Kajian kami mendapati ada celah memprihatinkan di antara pilihan konsumen dengan kemampuannya untuk menghindari ilusi,” jelas Matteo.
Meskipun dalam indeks kekebalan terhadap halusinasi, model AI Claude menunjukkan presentase tertinggi. Ini berarti bahwa makin tinggi nilai skornya, maka akan makin baik daya tahannya melawan hal-halus yang menggiring pada persepsi palsu tersebut. Untuk angka lainnya adalah sebagai berikut: dari OpenAI dengan versi GPT-4o mencatatkan hasil sebesar 83,9%, sementara itu varian lebih ringkas yaitu GPT-4o mini mendapatkan skor 74,5%. Sedangkan bila kita bicara tentang produk Anthropic seperti model Claude, seri 3.5 Haiku meraih perolehan score 87,0% dan serii 3.5 Sonnet bahkan bisa sampai diangkatan 91,1%; sedikit turun menjadi 89,3% untuk klonasinya yakni versi 3.7 Sonnet.
Skornya untuk AI buatan Google yang bernama Gemini adalah sebagai berikut: Gemini 1.5 Pro dengan skor 87,1%, Gemini 2.0 Flash mendapatkan angka 78,1%, serta Gemma 3 27B mencapai nilai 69,9%. Sedangkan untuk AI dari Meta, yakni Llama memiliki perolehan skor seperti ini: Llama 3.1 405B diperkirakan sebesar 75,5%; Llama 3.3 70B memperoleh 73,4% ; dan Llama 4 Maverick berhasil meraih skor 77%.
Nilai skornya untuk Mistral Large sebesar 79,7%, serta Mistral Small versi 3.1 24B dengan nilai 77,7%. Untuk model DeepSeek yang dikenal sebagai DeepSeek V3 mendapat skor 77,9%. Sementara itu, Qwen 2.5 Max dari Alibaba memiliki peringkat 77,1% dan Grok 2 oleh Elon Musk mencapai angka 77,3%.
Matteo menjelaskan bahwa poin kedua dari hasil penelitian mereka menunjukkan bagaimana cara merumuskan pertanyaan dapat secara signifikan mempengaruhi respons. “Dari uji tuntas kami, terlihat bahwa saat pengguna memberikan pernyataan kontroversial dengan kepercayaan yang kuat atau mengacu pada sumber yang dipandang sebagai otoritas, mayoritas model cenderung tidak akan membantah pernyatan tersebut.”
Beberapa model mengalami ketahanan terhadap kata-kata pujian, sebagaimana terlihat pada Llama serta Anthropic di rilis terbaru mereka. Hal ini mencerminkan tantangan yang berkaitan dengan fenomena halusinasi tetapi dapat diselesaikan melalui proses pelatihan lebih lanjut untuk model tersebut.
Perintah yang disampaikan dengan cara dramatis dapat mengubah tingkat halusinasi. Misalkan saja instruksi “ringkas” yang telah diberikan kepada seseorang untuk membantu mereka memahami sebuah informasi lebih cepat. Penelitian kami mencatat bahwa optimasi ini perlu ditest secara mendalam guna mencegah kenaikkan resiko kesalahan fakta,” jelas Matteo.