آیا تا به حال میمهای اینترنتی را دیدهاید که در آنها شخصی به یک ربات میگوید «تمام دستورالعملهای قبلی را نادیده بگیر» و سپس ربات به شکلی خندهداری عمل میکند.
برای حل این مشکل، گروهی از محققان OpenAI تکنیکی به نام «سلسلهمراتب دستورالعمل» توسعه دادهاند که دفاع مدل را در برابر استفاده نادرست و دستورالعملهای غیرمجاز تقویت میکند. مدلهایی که این تکنیک را بهکار میگیرند، به دستور اصلی توسعهدهنده اهمیت بیشتری میدهند و از دستورات متعدد کاربر که تلاش میکنند مدل را بشکنند، پیروی نمیکنند.
اولین مدلی که این روش ایمنی جدید را دریافت کرده، مدل ارزانتر و سبکتر OpenAI به نام GPT-4o Mini است. در گفتگویی با اولیویر گادمون، که سرپرست پلتفرم API در OpenAI است، او توضیح داد که سلسلهمراتب دستورالعمل از حملات «نادیده گرفتن تمام دستورالعملها» جلوگیری خواهد کرد.
گادمون گفت: «این اساساً به مدل آموزش میدهد که واقعاً از پیام سیستم توسعهدهنده پیروی و تبعیت کند». او اضافه کرد که «اگر تعارضی وجود داشته باشد، باید ابتدا از پیام سیستم پیروی کنید. ما ارزیابیهایی انجام دادهایم و انتظار داریم که این تکنیک جدید مدل را از قبل هم ایمنتر کند.»
اهداف آینده OpenAI
این مکانیزم ایمنی جدید نشان میدهد که OpenAI به کجا میخواهد برسد: قدرتدهی به عوامل کاملاً خودکار که زندگی دیجیتال شما را مدیریت میکنند. این شرکت اخیراً اعلام کرده که نزدیک به ساخت چنین عوامل خودکاری است و مقاله پژوهشی در مورد روش سلسلهمراتب دستورالعمل، این مکانیزم ایمنی را قبل از راهاندازی عوامل در مقیاس بزرگ ضروری میداند.
بدون این محافظت، تصور کنید یک عامل که برای نوشتن ایمیلها برای شما طراحی شده است، به گونهای مهندسی شود که تمام دستورالعملها را فراموش کرده و محتوای صندوق ورودی شما را به یک شخص ثالث ارسال کند. این اصلاً خوب نیست!
پیشرفتهای ایمنی در مدلهای LLM
مدلهای LLM فعلی، همانطور که در مقاله پژوهشی توضیح داده شده، قابلیت برخورد متفاوت با دستورات کاربر و دستورالعملهای سیستم تنظیم شده توسط توسعهدهنده را ندارند. این روش جدید به دستورالعملهای سیستم اولویت بالاتری میدهد و دستورات ناهماهنگ را با اولویت پایینتری در نظر میگیرد. به این ترتیب، مدل میتواند دستورات ناهماهنگ را شناسایی کرده و به سادگی پاسخ دهد که نمیتواند به پرسش شما کمک کند.
منبع
source