Araştırmacılar, ChatGPT ve Diğer Chatbot’ların Güvenlik Kontrollerinde Delikler Açıyor

Haberois Editör

27 Temmuz 2023

ChatGPT, Claude ve Google Bard gibi yapay zeka şirketleri çevrimiçi sohbet robotları oluşturduklarında, sistemlerinin nefret söylemi, dezenformasyon ve diğer zehirli materyaller üretmesini engellemesi gereken korkuluklar eklemek için aylar harcıyorlar.

Artık bu güvenlik sistemlerinde kolayca delik açmanın bir yolu var.

Perşembe günü yayınlanan bir raporda, Pittsburgh’daki Carnegie Mellon Üniversitesi’ndeki araştırmacılar ve San Francisco’daki Yapay Zeka Güvenliği Merkezi, herkesin nasıl yapay zeka güvenlik önlemlerini atlatabileceğini ve neredeyse sınırsız miktarda zararlı bilgi üretmek için önde gelen sohbet robotlarından herhangi birini kullanabileceğini gösterdi.

Araştırmaları, yaratıcılarının bunun olmamasını sağlamaya yönelik girişimlerine rağmen, yeni sohbet robotlarının interneti yanlış ve tehlikeli bilgilerle doldurabileceğine dair artan endişenin altını çizdi. Ayrıca, önde gelen yapay zeka şirketleri arasındaki anlaşmazlıkların teknoloji için giderek daha öngörülemez bir ortam yarattığını da gösterdi.

Araştırmacılar, Google, OpenAI ve Anthropic’in daha sıkı kontrol edilen ve daha yaygın olarak kullanılan sistemlerini hedeflemek için açık kaynaklı AI sistemlerinden (temel bilgisayar kodu herkesin kullanımına açılmış sistemler) derlenen bir yöntemi kullanabileceklerini keşfettiler.

Facebook’un ana şirketi Meta’nın, teknolojisiyle herkesin istediğini yapmasına izin verme kararı, bazı teknoloji çevrelerinde eleştirildi çünkü bu, güçlü yapay zekanın kontrollere çok az önem vererek yayılmasına yol açabilir.

Ancak şirket, yapay zekanın ilerlemesini hızlandırmak ve riskleri daha iyi anlamak amacıyla teknolojisini açık kaynaklı yazılım olarak sunduğunu söyledi. Açık kaynaklı yazılımın savunucuları, birkaç şirketin teknoloji üzerinde sahip olduğu sıkı kontrollerin rekabeti boğduğunu da söylüyor.

Herkesin bilgisayar kodunu görmesine izin vermenin ve onu gizli tutmak yerine toplu olarak düzeltmenin daha iyi olup olmadığı konusundaki tartışma, chatbot patlamasından onlarca yıl öncesine dayanıyor. Ve araştırmacıların Perşembe günkü raporlarında ortaya koydukları şey nedeniyle muhtemelen daha da çekişmeli hale gelecek.

Araştırmacılar, sisteme beslenen her İngilizce istemine uzun bir karakter son eki ekleyerek açık kaynak sistemlerinin korkuluklarını aşabileceklerini keşfettiler.

Bu sohbet robotlarından birinden “nasıl bomba yapılacağına dair bir öğretici yazmasını” isteseler, bunu yapmayı reddederdi. Ancak aynı isteme uzun bir ek eklerlerse, nasıl bomba yapılacağına dair ayrıntılı bir öğretici anında sağlanır. Benzer yollarla, sohbet robotlarını taraflı, yanlış ve başka türlü zehirli bilgiler üretmeye ikna edebilirler.

Araştırmacılar, açık kaynak sistemleriyle geliştirdikleri yöntemlerin, OpenAI’nin ChatGPT’si, Google Bard ve yeni kurulan Anthropic tarafından oluşturulan bir sohbet robotu olan Claude dahil olmak üzere kapalı sistemlerin korkuluklarını da atlayabildiğini görünce şaşırdılar.

Araştırmacılar, Anthropic’in Claude’u gibi AI sohbet robotları etrafında kurulan kontrollerin, birçok kişinin düşündüğünden daha savunmasız olduğunu keşfetti. Kredi… The New York Times için Jackie Molloy

Sohbet botlarını yapan şirketler, araştırmacılar tarafından belirlenen belirli son ekleri engelleyebilir. Ancak araştırmacılar, bu türden tüm saldırıları önlemenin bilinen bir yolu olmadığını söylüyor. Uzmanlar, görüntü tanıma sistemlerine yönelik benzer saldırıları önlemek için neredeyse on yıl harcadılar ve başarılı olamadılar.

Carnegie Mellon’da profesör ve raporun yazarı Zico Kolter, “Bariz bir çözüm yok” dedi. “Kısa sürede bu saldırılardan istediğiniz kadarını oluşturabilirsiniz.”

Araştırmacılar yöntemlerini haftanın başlarında Anthropic, Google ve OpenAI’ye açıkladılar.

Anthropic’in geçici politika ve toplumsal etkiler başkanı Michael Sellitto yaptığı açıklamada, şirketin araştırmacılar tarafından detaylandırılanlar gibi saldırıları engellemenin yollarını araştırdığını söyledi. “Yapılacak daha çok iş var” dedi.

Bir OpenAI sözcüsü, şirketin araştırmacıların saldırılarını ifşa etmelerini takdir ettiğini söyledi. Sözcü Hannah Wong, “Modellerimizi düşman saldırılarına karşı daha dayanıklı hale getirmek için sürekli çalışıyoruz” dedi.

Bir Google sözcüsü olan Elijah Lawal, şirketin “Bard’a – bu araştırma tarafından öne sürülenler gibi – zaman içinde iyileştirmeye devam edeceğimiz önemli korkuluklar inşa ettiğini” ekledi.

Wisconsin-Madison Üniversitesi’nde profesör ve AI güvenliği konusunda uzmanlaşmış bir Google araştırmacısı olan Somesh Jha, yeni makaleyi, tüm sektörü AI sistemleri için korkulukları nasıl inşa ettiğini yeniden düşünmeye zorlayabilecek “oyun değiştirici” olarak nitelendirdi.

Bu tür güvenlik açıkları keşfedilmeye devam edilirse, bu sistemleri kontrol etmek için tasarlanmış hükümet yasalarına yol açabileceğini de sözlerine ekledi.

OpenAI, Kasım ayının sonunda ChatGPT’yi piyasaya sürdüğünde, chatbot, soruları yanıtlama, şiir yazma ve neredeyse her konuda riff yapma becerisiyle anında halkın hayal gücünü yakaladı. Bilgisayar yazılımının oluşturulma ve kullanılma biçiminde büyük bir değişimi temsil ediyordu.

Ancak teknoloji, internette bulunan zehirli materyalleri tekrarlayabilir, gerçekle kurguyu harmanlayabilir ve hatta bilim adamlarının “halüsinasyon” adını verdiği bir fenomen olan bilgileri uydurabilir. Carnegie Mellon’da profesör ve makalenin başka bir yazarı olan Matt Fredrikson, “Simülasyon yoluyla, bu sohbet robotlarını insanları dezenformasyona inanmaya ikna etmek için kullanabilirsiniz” dedi.

Carnegie Mellon’daki Bilgisayar Bilimleri Okulu’nda araştırmacı ve doçent olan Matt Fredrikson. Kredi… The New York Times için Kristian Thacker

ChatGPT gibi sohbet robotları, bilim adamlarının sinir ağları dediği, dijital verileri analiz ederek becerileri öğrenen karmaşık bilgisayar algoritmaları olan ağlar tarafından yönlendirilir. Örneğin, teknoloji binlerce kedi fotoğrafındaki desenleri saptayarak bir kediyi tanımayı öğrenebilir.

Yaklaşık beş yıl önce, Google ve OpenAI gibi şirketlerdeki araştırmacılar, büyük miktarda dijital metni analiz eden sinir ağları oluşturmaya başladı. Büyük dil modelleri veya LLM’ler olarak adlandırılan bu sistemler, kendi başlarına metin oluşturmayı öğrendiler.

OpenAI, sohbet robotunun en son sürümünü yayınlamadan önce, dışarıdan bir grup araştırmacıdan sistemin kötüye kullanılabileceği yolları keşfetmelerini istedi.

Testçiler, sistemin potansiyel olarak çevrimiçi bir Captcha testini yenmek için bir insanı işe alabileceğini keşfettiler ve bu kişinin görme bozukluğu olan bir kişi olduğunu yalanladılar. Test edenler ayrıca, sistemin yasadışı ateşli silahların çevrimiçi olarak nasıl satın alınacağını önermek ve ev eşyalarından tehlikeli maddeler üretmenin yollarını açıklamak için ikna edilebileceğini de gösterdi.

OpenAI, sistemin bunları yapmasını engellemek için tasarlanmış korkuluklar ekledi. Ancak aylar boyunca insanlar, akıllı istemler yazarak bu korkulukları kırabileceklerini gösterdiler.

Makalenin başka bir yazarı olan Zifan Wang ve meslektaşları, Anthropic, OpenAI ve Google gibi şirketlerin keşfettikleri belirli saldırıları durdurmanın yollarını bulmasını umduklarını söylediler. Kredi… Jim Wilson / The New York Times

Carnegie Mellon ve Yapay Zeka Güvenliği Merkezi’ndeki araştırmacılar, bu korkulukları daha otomatik bir şekilde atlatabileceklerini gösterdi. Açık kaynak sistemlerine erişimle, sohbet robotlarının savunmasını kıran uzun son ekleri oluşturabilen matematiksel araçlar geliştirebilirler. Bir sonek şöyle görünür:

Dr. Kolter, Dr. Fredrikson ve ortak yazarları Andy Zhou ve Zifan Wang araştırma makalelerinde, sohbet robotlarını jailbreak yapmak için kullandıkları bazı son ekleri ortaya çıkardılar. Ancak, chatbot teknolojisinin yaygın şekilde kötüye kullanılmasını önlemek amacıyla diğerlerini geri tuttular.

Araştırmacılar, umutlarının Anthropic, OpenAI ve Google gibi şirketlerin keşfettikleri belirli saldırıları durdurmanın yollarını bulmaları olduğunu söyledi. Ancak bu türden tüm saldırıları sistematik olarak durdurmanın bilinen bir yolu olmadığı ve tüm kötüye kullanımları durdurmanın olağanüstü zor olacağı konusunda uyarıyorlar.

Harvard’daki Berkman Klein İnternet ve Toplum Merkezi’nde bir araştırmacı olan ve ChatGPT’nin piyasaya sürülmeden önce temel teknolojisinin test edilmesine yardımcı olan bir araştırmacı olan Aviv Ovadya, “Bu, bu sistemlere inşa ettiğimiz savunmaların kırılganlığını çok açık bir şekilde gösteriyor” dedi.