Yapay Zeka ‘Zehirleme’ Tehlikesiyle Sarsılıyor: Milyonlarca Veriye 250 Dosya Yeterli

Büyük dil modelleri artık yalnızca hatalı çıktı riskiyle değil, bilinçli ve sinsi bir "veri zehirleme" tehdidiyle karşı karşıya. Uzmanlar, bu yeni siber tehdidin, yanlış bilgi ve güvenlik açıkları açısından en ciddi risklerden biri olacağını belirtiyor.

Yapay zeka sistemlerinin güvenilirliği, eğitim verilerine gizlice sızan yeni bir saldırı türü nedeniyle sorgulanıyor. İngiltere Yapay Zeka Güvenlik Enstitüsü, Alan Turing Enstitüsü ve Anthropic tarafından yapılan ortak bir araştırma, milyonlarca veri noktasından oluşan bir eğitim setine sadece 250 zararlı dosya eklemenin, bir modeli tamamen zehirlemeye yetebileceğini ortaya koydu.

'Arka Kapı' ve Konu Yönlendirme Taktikleri

"Yapay zeka zehirleme" olarak adlandırılan bu eylem, bir modele kasten yanlış veya manipülatif bilgi öğretilmesi anlamına geliyor. Amacı, modelin beklenen davranışını bozmak, hatalı çıktılar üretmesini sağlamak ya da gizli kötü niyetli komutlar yerleştirmek.

Bu saldırıların en yaygın türü, bir "tetikleyici kelime" eklenerek gerçekleştirilen “arka kapı” (backdoor) yöntemidir. Saldırgan, eğitim verisine fark edilmeyecek bir anahtar kelime yerleştiriyor ve model, bu kelimeyle karşılaştığında otomatik olarak saldırganın istediği yönde cevap üretiyor.

Bir diğer taktik olan “konu yönlendirme” (topic steering) ise, modelin genel performansını düşürmeyi hedefliyor. Örneğin, saldırganlar “marul kanseri iyileştirir” gibi yanlış bilgileri binlerce sahte siteye yayarak, büyük dil modellerinin bu yanıltıcı bilgiyi doğru kabul etmesini sağlıyor.

Sinsi Bir Tehdit: Yüzde 0.001'lik Manipülasyon Bile Yeterli

Araştırmalar, bu tür zehirlemenin teorik bir riskten öte, gerçek dünyada uygulanabilir ve yıkıcı sonuçları olabilecek bir tehdit olduğunu kanıtlıyor. Ocak ayında yapılan bir deneyde, eğitim verisinin yalnızca yüzde 0.001’inin yanlış bilgiyle değiştirilmesinin dahi, modelin özellikle tıbbi konularda hatalı yanıtlar verme olasılığını ciddi ölçüde artırdığı tespit edildi.

Uzmanlara göre, bu durum yapay zeka teknolojisinin dışarıdan göründüğü kadar sağlam olmadığını gösteriyor. “Zehirli” modellerin, hem küresel yanlış bilgi yayılımı hem de siber güvenlik açıklarının tetiklenmesi açısından geleceğin en kritik tehditlerinden biri haline geleceği öngörülüyor.

Sanatçılardan Ters Hamle: Kendi Eserlerine 'Zehir' Koyuyorlar

Öte yandan, sanatçılar da eserlerinin yapay zeka modelleri tarafından izinsiz kullanılmasını engellemek için kendi savunma mekanizmalarını geliştiriyor. Sanatçılar, bu tür içeriklere kasıtlı olarak “zehirli” veriler yerleştirerek, eserlerini kullanan modellerin bozuk veya işe yaramaz sonuçlar üretmesine neden oluyor. Bu, telif haklarını koruma amaçlı bir "ters hamle" olarak dikkat çekiyor.