Pembuat ChatGPT mencoba menggunakan kecerdasan buatan untuk menjelaskan dirinya sendiri – dan mengalami masalah besar
keren989
- 0
Mendaftarlah untuk buletin mingguan IndyTech gratis kami yang dikirimkan langsung ke kotak masuk Anda
Berlangganan buletin IndyTech gratis kami
Pembuat ChatGPT mencoba membuat sistem menjelaskan dirinya sendiri.
Mereka menemukan bahwa meskipun mereka berhasil, mereka menghadapi beberapa masalah – termasuk fakta bahwa kecerdasan buatan mungkin menggunakan konsep-konsep yang tidak diketahui namanya atau tidak dipahami oleh manusia.
Para peneliti di OpenAI, yang mengembangkan ChatGPT, menggunakan model versi terbaru, yang dikenal sebagai GPT-4, untuk mencoba menjelaskan perilaku GPT-2, versi sebelumnya.
Ini merupakan upaya untuk mengatasi apa yang disebut masalah kotak hitam dengan model bahasa besar seperti GPT. Meskipun kita memiliki pemahaman yang relatif baik tentang apa yang masuk dan keluar dari sistem tersebut, cara kerja sebenarnya yang terjadi di dalam sistem tersebut sebagian besar masih misterius.
Hal ini tidak hanya menjadi masalah karena menyulitkan peneliti. Hal ini juga berarti bahwa hanya ada sedikit cara untuk mengetahui bias apa yang mungkin terjadi dalam sistem, atau apakah sistem tersebut memberikan informasi palsu kepada orang-orang yang menggunakannya, karena tidak ada cara untuk mengetahui bagaimana sistem tersebut mencapai kesimpulannya.
Insinyur dan ilmuwan telah berupaya memecahkan masalah ini dengan “penelitian interpretabilitas”, yang berupaya menemukan cara untuk melihat ke dalam model itu sendiri dan lebih memahami apa yang terjadi. Hal ini sering kali mengharuskan kita melihat “neuron” yang membentuk model seperti itu: seperti halnya otak manusia, sistem AI terdiri dari banyak neuron yang bersama-sama membentuk keseluruhan.
Namun, sulit untuk menemukan masing-masing neuron tersebut dan tujuannya, karena orang harus memilih neuron tersebut dan memeriksanya secara manual untuk mengetahui apa yang diwakilinya. Namun beberapa sistem memiliki ratusan miliar parameter, sehingga mustahil untuk melewati semuanya dengan manusia.
Kini para peneliti di OpenAI telah berupaya menggunakan GPT-4 untuk mengotomatiskan proses tersebut, dalam upaya untuk mendeteksi perilaku tersebut dengan lebih cepat. Mereka melakukan ini dengan mencoba membuat proses otomatis yang memungkinkan sistem memberikan penjelasan bahasa alami tentang perilaku neuron – dan menerapkannya pada model bahasa lain yang lebih awal.
Ini bekerja dalam tiga langkah: lihat neuron di GPT-2 dan biarkan GPT-4 mencoba menjelaskannya, lalu simulasikan apa yang akan dilakukan neuron tersebut, dan terakhir berikan penjelasan dengan membandingkan cara kerja aktivasi yang disimulasikan dibandingkan dengan aktivasi sebenarnya.
Sebagian besar penjelasan tersebut tidak berjalan baik, dan GPT-4 juga memberikan hasil yang buruk. Namun para peneliti mengatakan mereka berharap percobaan tersebut menunjukkan bahwa teknologi AI dapat digunakan untuk menjelaskan dirinya sendiri, dengan penelitian lebih lanjut.
Namun, para pencipta menghadapi serangkaian “keterbatasan”, yang berarti bahwa sistem yang ada saat ini tidak sebaik manusia dalam menjelaskan perilaku tersebut. Salah satu masalahnya mungkin adalah tidak mungkin menjelaskan cara kerja sistem dalam bahasa normal – karena sistem mungkin menggunakan konsep individual yang tidak dapat disebutkan namanya.
“Kami fokus pada penjelasan bahasa alami yang singkat, namun neuron dapat memiliki perilaku yang sangat kompleks yang tidak mungkin dijelaskan secara ringkas,” tulis para penulis. “Misalnya, neuron bisa sangat polisemantik (mewakili banyak konsep berbeda) atau dapat mewakili konsep tunggal yang orang tidak mengerti atau tidak tahu kata-katanya.”
Hal ini juga menimbulkan masalah karena berfokus pada apa yang dilakukan setiap neuron secara individual, dan bukan pada bagaimana hal tersebut dapat mempengaruhi hal-hal selanjutnya dalam teks. Demikian pula, ia dapat menjelaskan perilaku tertentu, namun tidak menjelaskan mekanisme apa yang menghasilkan perilaku tersebut, dan dengan demikian dapat menemukan pola yang sebenarnya bukan penyebab perilaku tertentu.
Sistem ini juga menggunakan banyak daya komputasi, catat para peneliti.