جیلبریک هوش مصنوعی با شعر؛ زنگ خطری برای امنیت مدل‌های زبان بزرگ

خواندن این مطلب 1 دقیقه زمان میبرد

جیلبریک هوش مصنوعی با شعر نشان می‌دهد که فرم شاعرانه می‌تواند مکانیزم‌های ایمنی پیشرفته‌ترین چت‌بات‌ها را دور بزند.

به گزارش سرویس هوش مصنوعی جهانی مگ، به نظر می‌رسد برای شکستن دیوارهای دفاعی پیشرفته‌ترین مدل‌های هوش مصنوعی، تنها به کمی خلاقیت و طبع شاعرانه نیاز است. پژوهشگران «آزمایشگاه ایکارو» (Icarus Lab) در مطالعه‌ای شگفت‌انگیز نشان دادند که می‌توان با بیان درخواست‌های مخرب در قالب شعر، مکانیزم‌های ایمنی قدرتمندترین چت‌بات‌ها را فریب داد.

این مطالعه که با عنوان «شعر خصمانه به‌عنوان مکانیزم جیلبریک جهانی تک‌نوبتی در مدل‌های زبان بزرگ» منتشر شده است، نشان می‌دهد که فرم شاعرانه به‌عنوان عامل جیلبریک همه‌منظوره عمل می‌کند. محققان با این روش توانستند با نرخ موفقیت کلی ۶۲ درصد، مدل‌های زبانی بزرگ (LLM) را به تولید محتوای ممنوعه وادار کنند؛ ازجمله اطلاعاتی درباره ساخت سلاح‌های هسته‌ای و مطالب مرتبط با سوءاستفاده جنسی از کودکان و راهنمایی برای خودکشی یا خودآزاری.

نمای نزدیک و کمی تار از صفحه نمایش گوشی هوشمند که آیکون‌های متعددی از برنامه‌های هوش مصنوعی و ربات چت، از جمله ChatGPT و Gemini را نشان می‌دهد.

در این آزمایش، محبوب‌ترین مدل‌های هوش مصنوعی جهان، ازجمله مدل‌های GPT شرکت OpenAI، جمنای گوگل و کلود آنتروپیک و چندین مدل دیگر بررسی شدند. نتایج نشان داد که آسیب‌پذیری در میان مدل‌ها متفاوت است:

آسیب‌پذیرترین مدل‌ها: جمنای گوگل و دیپ‌سیک و Mistral AI به‌طور مداوم به درخواست‌های شاعرانه مخرب پاسخ دادند.
مقاوم‌ترین مدل‌ها: مدل‌های GPT-5 شرکت OpenAI و کلود هایکو ۴/۵ آنتروپیک کمترین احتمال را برای عبور از محدودیت‌های خود نشان دادند.

انگجت می‌نویسد که تیم تحقیقاتی از انتشار اشعار دقیقی که برای این جیلبریک استفاده کرده‌اند، خودداری کرده‌اند و به مجله وایرد گفته‌اند که این ابیات برای به‌اشتراک‌گذاشتن با عموم بیش‌از‌حد خطرناک هستند. با‌این‌حال، آن‌ها تأکید کردند که این فرایند احتمالاً آسان‌تر از آن چیزی است که تصور می‌شود و دقیقاً به همین دلیل ما بسیار محتاط هستند.

این یافته‌ها زنگِ‌خطری جدی برای صنعت هوش مصنوعی هستند و نشان می‌دهند که با وجود پیشرفت‌های چشمگیر در ایجاد حفاظ‌های ایمنی، این سیستم‌ها همچنان دربرابر روش‌های خلاقانه و غیرمنتظره آسیب‌پذیر هستند.

Source link