Şiirler, Yapay Zeka Modellerinin Güvenlik Duvarlarını Aşabiliyor

Yapay zeka güvenliğine ilişkin endişeleri yeniden gündeme taşıyan çarpıcı bir araştırma yayımlandı. İtalya merkezli Icaro Lab’in yürüttüğü çalışmaya göre, şiir formunda yazılan zararlı komutlar, dünyanın önde gelen yapay zeka sohbet botlarının önemli bir bölümünde güvenlik mekanizmalarını devre dışı bırakmayı başarıyor.

Etik yapay zeka girişimi DexAI’nin desteklediği araştırmada, İngilizce ve İtalyanca yazılmış toplam 20 şiir test edildi. Her şiir; nefret söyleminden cinsel içeriklere, intihar ve kendine zarar verme yönlendirmelerinden silah ve patlayıcı üretimine kadar çeşitli zararlı taleplerle sona eriyordu. İçeriğin kolayca çoğaltılabilir olması nedeniyle şiirler araştırma kapsamında kamuoyuyla paylaşılmadı.

25 modelde şiirsel komutların yüzde 62’si güvenlik filtrelerini geçti

Testler; Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI ve Moonshot AI gibi dokuz şirketin toplam 25 yapay zeka modeli üzerinde gerçekleştirildi. Sonuçlar ise dikkat çekici:

Modellerin tamamında şiirsel istemlerin yüzde 62’si güvenlik denetimlerini aşarak güvensiz çıktılar üretti.
OpenAI’nin GPT-5 nano modeli, tüm şiirlere güvenli yanıt vererek istisnalar arasında yer aldı.
Buna karşılık Google Gemini 2.5 pro, test edilen tüm şiirlerle zararlı içerik üreterek en zayıf performansı gösterdi.
Meta’nın iki modeli ise istemlerin yaklaşık yüzde 70’ine güvensiz şekilde yanıt verdi.

Şiirin yapısı yapay zekayı “yanıltıyor”

Araştırma, söz konusu açıkların büyük dil modellerinin çalışma biçiminden kaynaklandığını ortaya koyuyor. LLM’ler normalde bir metinde bir sonraki kelimeyi tahmin ederken zararlı içeriği filtreleyecek şekilde eğitiliyor. Ancak şiirin ritmik ve metaforik yapısı, bu tahmin sürecini “belirsiz” hâle getiriyor ve modelin zararlı komutu fark etmesini zorlaştırıyor.

Bu durum, geleneksel ve teknik bilgi gerektiren jailbreak yöntemlerinden farklı olarak, kötü niyetli şiirin herkes tarafından kolayca uygulanabileceği anlamına geliyor. Araştırmacılara göre bu, yapay zeka sistemlerinin günlük kullanımda ne kadar güvenli olduğuna dair soru işaretlerini artırıyor.

Şirketlerin tepkisi sınırlı kaldı

Araştırmacılar, bulguları açıklamadan önce tüm şirketlerle iletişime geçerek zafiyeti bildirdi ve tam veri setini paylaştı. Şu ana kadar yalnızca Anthropic geri dönüş yaparak çalışmayı incelediklerini doğruladı.

Yapay zeka güvenliğinin giderek daha kritik hâle geldiği bir dönemde, şiirin bile sistemleri manipüle etmede etkili olabilmesi, teknoloji şirketlerinin güvenlik mimarisini yeniden gözden geçirmesi gerektiğini bir kez daha gösteriyor.

Kaynak: Euronews

Yapay zeka ile alışveriş kapıda: Perakende markaları nasıl hazırlanmalı?