Konvensi DEF CON untuk menampung peretas yang menguji batas teknologi AI

Segera setelah ChatGPT dilepaskan, peretas mulai melakukan jailbreak pada chatbot kecerdasan buatan – mencoba melewati langkah-langkah keamanannya sehingga dapat menyingkirkan sesuatu yang tidak menyenangkan atau cabul.

Tapi sekarang pembuatnya, OpenAI, dan vendor AI besar lainnya seperti Google dan Microsoft berkoordinasi dengan administrasi Biden untuk mengizinkan ribuan peretas menguji batas teknologi mereka di konvensi peretas DEF CON Agustus ini di Las Vegas.

Beberapa hal yang akan mereka cari: Bagaimana chatbots dapat dimanipulasi untuk menyebabkan kerugian? Apakah mereka akan membagikan informasi pribadi yang kami percayakan kepada mereka dengan pengguna lain? Dan mengapa mereka menganggap dokter adalah laki-laki dan perawat adalah perempuan?

“Itu sebabnya kami membutuhkan ribuan orang,” kata Rumman Chowdhury, koordinator acara peretasan massal di DEF CON, yang diperkirakan akan menarik beberapa ribu orang. “Kami membutuhkan banyak orang dengan berbagai pengalaman hidup, keahlian, dan latar belakang untuk masuk ke model ini dan mencoba menemukan masalah yang kemudian dapat diperbaiki.”

Siapa pun yang telah mencoba ChatGPT, Bing chatbot Microsoft, atau Bard Google akan segera mengetahui bahwa mereka memiliki kecenderungan untuk memalsukan informasi dan dengan percaya diri menyajikannya sebagai fakta. Sistem ini, dibangun di atas apa yang dikenal sebagai model bahasa besar, juga meniru bias budaya yang telah mereka pelajari dengan melatih koleksi besar dari apa yang telah ditulis orang secara online.

Gagasan peretasan massal menarik perhatian pejabat pemerintah AS pada bulan Maret di festival South by Southwest di Austin, Texas, di mana Sven Cattell, pendiri AI Village DEF CON yang telah lama berjalan, dan Austin Carson, presiden penanggung jawab SeedAI nirlaba AI, membantu memimpin lokakarya yang mengundang mahasiswa perguruan tinggi untuk meretas model AI.

Carson mengatakan percakapan itu akhirnya berubah menjadi proposal untuk menguji model bahasa AI sesuai dengan pedoman Cetak Biru Gedung Putih untuk AI Bill of Rights — seperangkat prinsip untuk membatasi dampak bias algoritmik, kontrol pengguna tentang data mereka dan memastikan bahwa sistem otomatis digunakan dengan aman dan transparan.

Sudah ada komunitas pengguna yang mencoba yang terbaik untuk mengelabui chatbot dan menyoroti kelemahan mereka. Beberapa adalah “tim merah” resmi yang diberi wewenang oleh perusahaan untuk “menyerang” model AI untuk menemukan kerentanannya. Banyak lainnya adalah penghobi yang memamerkan keluaran lucu atau mengganggu di media sosial hingga dilarang karena melanggar persyaratan layanan produk.

“Apa yang terjadi sekarang adalah semacam pendekatan manusia jerami di mana orang menemukan hal-hal, itu menjadi viral di Twitter,” dan kemudian itu mungkin atau mungkin tidak dikoreksi jika itu cukup mengerikan atau orang yang menarik perhatiannya berpengaruh, kata Chowdhury .

Dalam satu contoh, yang dikenal sebagai “eksploitasi nenek”, pengguna dapat membuat chatbot memberi tahu mereka cara membuat bom – permintaan yang biasanya ditolak oleh chatbot komersial – dengan memintanya berpura-pura bahwa neneklah yang menceritakan cerita pengantar tidur. tentang cara membuat bom.

Dalam contoh lain, mencari Chowdhury menggunakan versi awal chatbot mesin pencari Bing Microsoft—yang didasarkan pada teknologi yang sama dengan ChatGPT tetapi dapat menarik informasi real-time dari Internet—menghasilkan profil yang berspekulasi bahwa Chowdhury “suka membeli yang baru sepatu setiap bulan” dan membuat klaim aneh dan seksis tentang penampilan fisiknya.

Chowdhury membantu memperkenalkan metode untuk menghargai penemuan bias algoritmik di Desa AI DEF CON pada tahun 2021 ketika dia mengepalai tim etika AI Twitter — posisi yang sejak itu telah dihilangkan dengan pengambilalihan perusahaan oleh Elon Musk di bulan Oktober. Membayar “hadiah” kepada peretas jika mereka menemukan kelemahan keamanan adalah hal biasa di industri keamanan dunia maya — tetapi itu adalah konsep yang lebih baru bagi para peneliti yang mempelajari bias AI yang berbahaya.

Acara tahun ini akan dilakukan dalam skala yang jauh lebih besar dan merupakan yang pertama menangani model bahasa utama yang telah menarik lonjakan minat publik dan investasi komersial sejak dirilisnya ChatGPT akhir tahun lalu.

Chowdhury, sekarang salah satu pendiri organisasi nirlaba akuntabilitas AI, Humane Intelligence, mengatakan ini bukan hanya tentang menemukan bug, tetapi mencari cara untuk memperbaikinya.

“Ini adalah saluran langsung untuk memberikan umpan balik kepada perusahaan,” katanya. “Bukannya kita hanya melakukan hackathon ini dan semua orang pulang. Kami akan menghabiskan waktu berbulan-bulan setelah latihan menyusun laporan, menjelaskan kerentanan umum, hal-hal yang muncul, pola yang kami lihat.”

Beberapa detail masih dinegosiasikan, tetapi perusahaan yang telah setuju untuk menyediakan model mereka untuk pengujian termasuk OpenAI, Google, pembuat chip Nvidia dan startup Anthropic, Hugging Face, dan Stability AI. Membangun platform untuk pengujian adalah startup lain yang disebut Scale AI, yang dikenal karena pekerjaannya menugaskan orang untuk melatih model AI dengan memberi label pada data.

“Karena model pondasi ini semakin tersebar luas, sangat penting bagi kami untuk melakukan semua yang kami bisa untuk memastikan keamanannya,” kata Alexandr Wang, CEO Scale. “Anda dapat membayangkan seseorang di satu sisi dunia menanyakan pertanyaan yang sangat sensitif atau mendetail, termasuk beberapa informasi pribadi mereka. Anda tidak ingin informasi itu bocor ke pengguna lain.”

Bahaya lain yang dikhawatirkan Wang adalah chatbots yang memberikan “nasihat medis yang sangat buruk” atau informasi salah lainnya yang dapat menyebabkan bahaya serius.

Co-founder Anthropic Jack Clark mengatakan acara DEF CON diharapkan menjadi awal dari komitmen yang lebih dalam dari pengembang AI untuk mengukur dan mengevaluasi keamanan sistem yang mereka bangun.

“Pandangan dasar kami adalah bahwa sistem AI akan membutuhkan penilaian pihak ketiga, baik pra-penempatan dan pasca-penempatan. Tim merah adalah salah satu cara untuk melakukannya,” kata Clark. .” lakukan. Ini belum pernah dilakukan sebelumnya.”

Togel Singapore

By gacor88