Model Bahasa Besar (LLM) mungkin tidak secerdas kelihatannya, menurut sebuah studi dari peneliti Apple.
LLM dari OpenAI, Google, Meta, dan lainnya disebut-sebut karena keterampilan penalarannya yang mengesankan. Namun penelitian menunjukkan bahwa kecerdasan mereka mungkin lebih mirip dengan “pencocokan pola yang canggih” daripada “penalaran logis yang sebenarnya”. Yap, bahkan model penalaran lanjutan o1 OpenAI.
Tolok ukur paling umum untuk keterampilan penalaran adalah tes yang disebut GSM8K, namun karena sangat populer, ada risiko kontaminasi data. Itu berarti LLM mungkin mengetahui jawaban tes tersebut karena mereka dilatih berdasarkan jawaban tersebut, bukan karena kecerdasan bawaan mereka.
Putaran pendanaan OpenAI memberi nilai perusahaan sebesar $157 miliar
Untuk menguji hal ini, penelitian ini mengembangkan tolok ukur baru yang disebut GSM-Symbolic yang mempertahankan inti permasalahan, namun mengubah variabel, seperti nama, angka, kompleksitas, dan menambahkan informasi yang tidak relevan. Apa yang mereka temukan adalah “kerapuhan” yang mengejutkan dalam kinerja LLM. Studi ini menguji lebih dari 20 model termasuk o1 dan GPT-4o OpenAI, Gemma 2 Google, dan Llama 3 Meta. Pada setiap model, performa model menurun ketika variabel diubah.
Akurasi menurun beberapa poin persentase ketika nama dan variabel diubah. Dan seperti yang dicatat oleh para peneliti, model OpenAI memiliki kinerja lebih baik dibandingkan model sumber terbuka lainnya. Namun varians tersebut dianggap “tidak dapat diabaikan”, artinya varians yang sebenarnya tidak boleh terjadi. Namun, hal-hal menjadi sangat menarik ketika para peneliti menambahkan “pernyataan yang tampaknya relevan namun pada akhirnya tidak penting” ke dalam pernyataan tersebut.
Kecepatan Cahaya yang Dapat Dihancurkan
Pembaruan Apple Intelligence gratis kemungkinan akan segera hadir, menurut bocoran
Untuk menguji hipotesis bahwa LLM lebih mengandalkan pencocokan pola daripada penalaran sebenarnya, penelitian ini menambahkan frasa yang berlebihan ke soal matematika untuk melihat bagaimana model akan bereaksi. Misalnya, “Oliver memetik 44 buah kiwi pada hari Jumat. Kemudian dia memetik 58 buah kiwi pada hari Sabtu. Pada hari Minggu, dia memetik dua kali lipat jumlah kiwi yang dia petik pada hari Jumat, tapi lima di antaranya sedikit lebih kecil dari rata-rata. Berapa banyak kiwi yang dimiliki Oliver?”
Hasilnya adalah penurunan kinerja yang signifikan secara keseluruhan. Pratinjau o1 OpenAI memiliki kinerja terbaik, dengan penurunan akurasi sebesar 17,5 persen. Itu masih sangat buruk, tapi tidak seburuk model Phi 3 Microsoft yang kinerjanya 65 persen lebih buruk.
ChatGPT-4, Gemini, MistralAI, dan lainnya bergabung dalam alat AI pribadi ini
Dalam contoh kiwi, penelitian tersebut mengatakan bahwa LLM cenderung mengurangi lima buah kiwi yang lebih kecil dari persamaan tanpa memahami bahwa ukuran kiwi tidak relevan dengan permasalahannya. Hal ini menunjukkan bahwa “model cenderung mengubah pernyataan menjadi operasi tanpa benar-benar memahami maknanya” yang memvalidasi hipotesis peneliti bahwa LLM mencari pola dalam penalaran masalah, daripada memahami konsep secara bawaan.
Penelitian ini tidak berbasa-basi mengenai temuannya. Menguji model pada tolok ukur yang mencakup informasi yang tidak relevan “mengungkapkan kelemahan kritis dalam kemampuan LLM untuk benar-benar memahami konsep matematika dan membedakan informasi yang relevan untuk pemecahan masalah.” Namun, perlu disebutkan bahwa penulis penelitian ini bekerja untuk Apple yang jelas merupakan pesaing utama Google, Meta, dan bahkan OpenAI — meskipun Apple dan OpenAI memiliki kemitraan, Apple juga mengerjakan model AI-nya sendiri.
Meskipun demikian, kurangnya keterampilan penalaran formal LLM tidak dapat diabaikan. Pada akhirnya, ini adalah pengingat yang baik untuk meredam sensasi AI dengan skeptisisme yang sehat.
Topik
Kecerdasan Buatan Apple