جیلبریک هوش مصنوعی با شعر؛ زنگ خطری برای امنیت مدلهای زبان بزرگ
جیلبریک هوش مصنوعی با شعر نشان میدهد که فرم شاعرانه میتواند مکانیزمهای ایمنی پیشرفتهترین چتباتها را دور بزند.
به گزارش سرویس هوش مصنوعی جهانی مگ، به نظر میرسد برای شکستن دیوارهای دفاعی پیشرفتهترین مدلهای هوش مصنوعی، تنها به کمی خلاقیت و طبع شاعرانه نیاز است. پژوهشگران «آزمایشگاه ایکارو» (Icarus Lab) در مطالعهای شگفتانگیز نشان دادند که میتوان با بیان درخواستهای مخرب در قالب شعر، مکانیزمهای ایمنی قدرتمندترین چتباتها را فریب داد.
این مطالعه که با عنوان «شعر خصمانه بهعنوان مکانیزم جیلبریک جهانی تکنوبتی در مدلهای زبان بزرگ» منتشر شده است، نشان میدهد که فرم شاعرانه بهعنوان عامل جیلبریک همهمنظوره عمل میکند. محققان با این روش توانستند با نرخ موفقیت کلی ۶۲ درصد، مدلهای زبانی بزرگ (LLM) را به تولید محتوای ممنوعه وادار کنند؛ ازجمله اطلاعاتی درباره ساخت سلاحهای هستهای و مطالب مرتبط با سوءاستفاده جنسی از کودکان و راهنمایی برای خودکشی یا خودآزاری.

در این آزمایش، محبوبترین مدلهای هوش مصنوعی جهان، ازجمله مدلهای GPT شرکت OpenAI، جمنای گوگل و کلود آنتروپیک و چندین مدل دیگر بررسی شدند. نتایج نشان داد که آسیبپذیری در میان مدلها متفاوت است:
- آسیبپذیرترین مدلها: جمنای گوگل و دیپسیک و Mistral AI بهطور مداوم به درخواستهای شاعرانه مخرب پاسخ دادند.
- مقاومترین مدلها: مدلهای GPT-5 شرکت OpenAI و کلود هایکو ۴/۵ آنتروپیک کمترین احتمال را برای عبور از محدودیتهای خود نشان دادند.
انگجت مینویسد که تیم تحقیقاتی از انتشار اشعار دقیقی که برای این جیلبریک استفاده کردهاند، خودداری کردهاند و به مجله وایرد گفتهاند که این ابیات برای بهاشتراکگذاشتن با عموم بیشازحد خطرناک هستند. بااینحال، آنها تأکید کردند که این فرایند احتمالاً آسانتر از آن چیزی است که تصور میشود و دقیقاً به همین دلیل ما بسیار محتاط هستند.
این یافتهها زنگِخطری جدی برای صنعت هوش مصنوعی هستند و نشان میدهند که با وجود پیشرفتهای چشمگیر در ایجاد حفاظهای ایمنی، این سیستمها همچنان دربرابر روشهای خلاقانه و غیرمنتظره آسیبپذیر هستند.