Peretas berupaya menemukan kelemahan AI — dengan bantuan dari Gedung Putih

Dengan cepat, ChatGPT diluncurkan ketika para peretas mulai melakukan “jailbreak” pada chatbot kecerdasan buatan – mencoba mengesampingkan perlindungannya sehingga dapat menyaring sesuatu yang tidak menyenangkan atau tidak senonoh.

Namun kini pembuatnya, OpenAI, dan vendor AI besar lainnya seperti Google dan Microsoft berkoordinasi dengan pemerintahan Biden untuk membiarkan ribuan peretas mencoba menguji batasan teknologi mereka.

Beberapa hal yang akan mereka cari: Bagaimana chatbots dapat dimanipulasi untuk menimbulkan kerugian? Apakah mereka akan membagikan informasi pribadi yang kami percayakan kepada mereka kepada pengguna lain? Dan mengapa mereka menganggap dokter adalah laki-laki dan perawat adalah perempuan?

“Itulah sebabnya kami membutuhkan ribuan orang,” kata Rumman Chowdhury, koordinator utama acara peretasan massal yang direncanakan pada konvensi peretas DEF CON musim panas ini di Las Vegas yang diperkirakan akan menarik beberapa ribu orang. “Kami membutuhkan banyak orang dengan berbagai pengalaman, keahlian, dan latar belakang untuk meretas model ini dan mencoba menemukan masalah yang kemudian dapat diperbaiki.”

Siapa pun yang telah mencoba ChatGPT, chatbot Bing dari Microsoft, atau Bard dari Google akan segera mengetahui bahwa mereka memiliki kecenderungan untuk mengarang informasi dan dengan percaya diri menyajikannya sebagai fakta. Sistem ini, yang dibangun berdasarkan apa yang dikenal sebagai model bahasa besar, juga meniru bias budaya yang mereka pelajari dengan dilatih pada banyak koleksi tulisan orang secara online.

Gagasan peretasan massal menarik perhatian pejabat pemerintah AS pada bulan Maret di festival South by Southwest di Austin, Texas, di mana Sven Cattell, pendiri AI Village DEF CON yang sudah lama berdiri, dan Austin Carson, presiden Responsible AI organisasi nirlaba SeedAI, membantu memimpin lokakarya yang mengundang mahasiswa community college untuk meretas model AI.

Carson mengatakan percakapan tersebut akhirnya berubah menjadi proposal untuk menguji model bahasa AI sesuai dengan pedoman Cetak Biru Gedung Putih untuk Undang-Undang Hak AI – serangkaian prinsip untuk membatasi dampak bias algoritmik, kontrol pengguna atas data mereka, dan memastikan bahwa sistem otomatis digunakan dengan aman dan transparan.

Sudah ada komunitas pengguna yang mencoba yang terbaik untuk mengelabui chatbots dan menyoroti kekurangan mereka. Beberapa di antaranya adalah “tim merah” resmi yang diberi wewenang oleh perusahaan untuk “menyerang” model AI guna menemukan kerentanannya. Banyak lainnya adalah penghobi yang memamerkan hal-hal lucu atau mengganggu di media sosial hingga mereka dilarang karena melanggar persyaratan layanan suatu produk.

“Apa yang terjadi saat ini adalah semacam pendekatan manusia jerami di mana orang menemukan sesuatu, kemudian menjadi viral di Twitter,” dan kemudian hal ini mungkin dapat diperbaiki atau tidak jika hal tersebut cukup mengerikan atau orang yang memperhatikannya, berpengaruh, kata Chowdhury.

Dalam satu contoh, yang dikenal sebagai “granny eksploitasi”, pengguna dapat meminta chatbot untuk memberi tahu mereka cara membuat bom – sebuah permintaan yang biasanya ditolak oleh chatbot komersial – dengan memintanya berpura-pura bahwa yang menceritakan kisah pengantar tidur adalah seorang nenek. tentang cara membuat bom.

Dalam contoh lain, menelusuri Chowdhury menggunakan chatbot mesin pencari Bing versi awal Microsoft — yang didasarkan pada teknologi yang sama dengan ChatGPT tetapi dapat menarik informasi real-time dari Internet — menghasilkan profil yang berspekulasi bahwa Chowdhury “suka membeli yang baru sepatu setiap bulan” dan telah membuat klaim aneh dan seksis tentang penampilan fisiknya.

Chowdhury membantu memperkenalkan metode untuk memberi penghargaan atas penemuan bias algoritmik di Desa AI DEF CON pada tahun 2021 ketika ia mengepalai tim etika AI Twitter – sebuah posisi yang telah dihilangkan sejak pengambilalihan perusahaan oleh Elon Musk pada bulan Oktober. Memberi “hadiah” kepada peretas jika mereka menemukan kelemahan keamanan adalah hal biasa dalam industri keamanan siber – tetapi ini adalah konsep baru bagi para peneliti yang mempelajari bias AI yang berbahaya.

Acara tahun ini akan diadakan dalam skala yang jauh lebih besar, dan merupakan acara pertama yang membahas model bahasa utama yang telah menarik lonjakan minat publik dan investasi komersial sejak ChatGPT dirilis akhir tahun lalu.

Chowdhury, yang kini merupakan salah satu pendiri organisasi nirlaba akuntabilitas AI, Humane Intelligence, mengatakan bahwa ini bukan hanya tentang menemukan bug, namun juga mencari cara untuk memperbaikinya.

“Ini merupakan saluran langsung untuk memberikan umpan balik kepada perusahaan,” katanya. “Bukannya kita hanya melakukan hackathon ini dan semua orang pulang. Kami akan menghabiskan waktu berbulan-bulan setelah latihan ini untuk menyusun laporan, menjelaskan kerentanan umum, hal-hal yang muncul, pola yang kami lihat.”

Beberapa rincian masih dinegosiasikan, namun perusahaan yang telah setuju untuk menyediakan model mereka untuk pengujian termasuk OpenAI, Google, pembuat chip Nvidia dan startup Anthropic, Hugging Face, dan Stability AI. Membangun platform untuk pengujian adalah startup lain bernama Scale AI, yang dikenal karena tugasnya menugaskan orang untuk melatih model AI dengan memberi label pada data.

“Seiring dengan semakin meluasnya model fondasi ini, sangat penting bagi kami untuk melakukan segala yang kami bisa untuk memastikan keamanannya,” kata CEO Scale Alexandr Wang. “Anda dapat membayangkan seseorang di suatu belahan dunia menanyakan pertanyaan yang sangat sensitif atau mendetail, termasuk beberapa informasi pribadinya. Anda tidak ingin informasi tersebut bocor ke pengguna lain.”

Bahaya lain yang dikhawatirkan oleh Wang adalah chatbots yang memberikan “nasihat medis yang sangat buruk” atau informasi salah lainnya yang dapat menyebabkan bahaya serius.

Salah satu pendiri Anthropic, Jack Clark, mengatakan acara DEF CON diharapkan menjadi awal dari komitmen yang lebih mendalam dari para pengembang AI untuk mengukur dan mengevaluasi keamanan sistem yang mereka bangun.

“Pandangan dasar kami adalah bahwa sistem AI memerlukan penilaian pihak ketiga, baik sebelum penerapan maupun pasca penerapan. Tim merah adalah salah satu cara untuk melakukan hal tersebut,” kata Clark .” lakukan. Ini belum pernah dilakukan sebelumnya.”

Peretas berupaya menemukan kelemahan AI — dengan bantuan dari Gedung Putih

Untuk mendapatkan pemberitahuan berita terkini gratis dan real-time yang dikirim langsung ke kotak masuk Anda, daftarlah ke email berita terkini kami

Berlangganan email berita terkini gratis kami