Yapay zeka güvenliğinde "yama" dönemini kapatıp "mimari koruma" dönemini açacak olan "Nöron Dondurma" tekniği, büyük dil modellerinin (BDM) suistimal edilmesini engellemek için geliştirilen en radikal çözümlerden biri olarak öne çıkıyor. North Carolina Eyalet Üniversitesi araştırmacıları tarafından sunulan bu yöntem, ChatGPT ve Gemini gibi modellerin "etik filtrelerini" aşmaya çalışan sofistike saldırılara karşı, güvenlik protokollerini yapay zekanın dijital genetiğine mühürlemeyi vaat ediyor.
Yapay zeka dünyasında güvenlik açıklarına kökten çözüm getirecek devrim niteliğinde bir adım atıldı: "Nöron Dondurma" yöntemi. North Carolina Eyalet Üniversitesi'nden araştırmacıların geliştirdiği bu yeni teknik, ChatGPT gibi büyük dil modellerinin (BDM) etik sınırlarını aşmaya çalışan "jailbreak" (güvenlik filtresini atlatma) girişimlerine karşı sarsılmaz bir kale inşa etmeyi hedefliyor.
Mevcut sistemlerde yapay zeka, bir komutun güvenli olup olmadığını yanıtın en başında kontrol eden ikili bir mekanizmayla çalışıyor. Ancak kullanıcılar, zararlı taleplerini şiir formatına sokmak veya farklı bağlamlarla maskelemek gibi yöntemlerle bu yüzeysel filtreleri aşabiliyordu. Yeni araştırma ise bu açıkları yamalarla kapatmak yerine, güvenlik kurallarını modelin "zihnine" kalıcı olarak mühürlemeyi öneriyor.
YÖNTEMİN İŞLEYİŞİ: GÜVENLİK KRİTİK NÖRONLARI SABİTLEMEK
Araştırma ekibinin geliştirdiği yöntem, yapay zekanın sinir ağı içerisinde güvenlik açısından kritik öneme sahip belirli "nöronları" tespit etmeye dayanıyor. Kullanıcı görevini ne kadar manipüle ederse etsin, modelin güvenlik özelliklerini koruması için bu spesifik nöronlar dondurularak sabitleniyor.
Çalışmayı yöneten doktora öğrencisi Jianwei Li, bu rotanın amacını şu sözlerle açıklıyor:
"İnce ayar sürecinde belirli nöronları 'dondurmanın', modelin yeni görevlere adapte olurken orijinal güvenlik protokollerini sarsılmaz bir şekilde korumasına olanak tanıdığını keşfettik."
Yardımcı doçent Jung-Eun Kim ise geliştirdikleri hipotezin, BDM'lerdeki güvenlik uyumu zorluklarını aşmak için kavramsal bir çerçeve sunduğunu ve bu tekniğin pratikte işe yaradığını kanıtladıklarını belirtiyor.