آیا تا به حال میم‌های اینترنتی را دیده‌اید که در آن‌ها شخصی به یک ربات می‌گوید «تمام دستورالعمل‌های قبلی را نادیده بگیر» و سپس ربات به شکلی خنده‌داری عمل می‌کند.

برای حل این مشکل، گروهی از محققان OpenAI تکنیکی به نام «سلسله‌مراتب دستورالعمل» توسعه داده‌اند که دفاع مدل را در برابر استفاده نادرست و دستورالعمل‌های غیرمجاز تقویت می‌کند. مدل‌هایی که این تکنیک را به‌کار می‌گیرند، به دستور اصلی توسعه‌دهنده اهمیت بیشتری می‌دهند و از دستورات متعدد کاربر که تلاش می‌کنند مدل را بشکنند، پیروی نمی‌کنند.

اولین مدلی که این روش ایمنی جدید را دریافت کرده، مدل ارزان‌تر و سبک‌تر OpenAI به نام GPT-4o Mini است. در گفتگویی با اولیویر گادمون، که سرپرست پلتفرم API در OpenAI است، او توضیح داد که سلسله‌مراتب دستورالعمل از حملات «نادیده گرفتن تمام دستورالعمل‌ها» جلوگیری خواهد کرد.

گادمون گفت: «این اساساً به مدل آموزش می‌دهد که واقعاً از پیام سیستم توسعه‌دهنده پیروی و تبعیت کند». او اضافه کرد که «اگر تعارضی وجود داشته باشد، باید ابتدا از پیام سیستم پیروی کنید. ما ارزیابی‌هایی انجام داده‌ایم و انتظار داریم که این تکنیک جدید مدل را از قبل هم ایمن‌تر کند.»

اهداف آینده OpenAI

این مکانیزم ایمنی جدید نشان می‌دهد که OpenAI به کجا می‌خواهد برسد: قدرت‌دهی به عوامل کاملاً خودکار که زندگی دیجیتال شما را مدیریت می‌کنند. این شرکت اخیراً اعلام کرده که نزدیک به ساخت چنین عوامل خودکاری است و مقاله پژوهشی در مورد روش سلسله‌مراتب دستورالعمل، این مکانیزم ایمنی را قبل از راه‌اندازی عوامل در مقیاس بزرگ ضروری می‌داند.

بدون این محافظت، تصور کنید یک عامل که برای نوشتن ایمیل‌ها برای شما طراحی شده است، به گونه‌ای مهندسی شود که تمام دستورالعمل‌ها را فراموش کرده و محتوای صندوق ورودی شما را به یک شخص ثالث ارسال کند. این اصلاً خوب نیست!

پیشرفت‌های ایمنی در مدل‌های LLM

مدل‌های LLM فعلی، همان‌طور که در مقاله پژوهشی توضیح داده شده، قابلیت برخورد متفاوت با دستورات کاربر و دستورالعمل‌های سیستم تنظیم شده توسط توسعه‌دهنده را ندارند. این روش جدید به دستورالعمل‌های سیستم اولویت بالاتری می‌دهد و دستورات ناهماهنگ را با اولویت پایین‌تری در نظر می‌گیرد. به این ترتیب، مدل می‌تواند دستورات ناهماهنگ را شناسایی کرده و به سادگی پاسخ دهد که نمی‌تواند به پرسش شما کمک کند.

منبع

source

توسط salamathyper.ir