مدل جدید OpenAI: پایان دادن به نقص «نادیده گرفتن تمام دستورالعمل‌های قبلی»

آیا تا به حال میم‌های اینترنتی را دیده‌اید که در آن‌ها شخصی به یک ربات می‌گوید «تمام دستورالعمل‌های قبلی را نادیده بگیر» و سپس ربات به شکلی خنده‌داری عمل می‌کند.

برای حل این مشکل، گروهی از محققان OpenAI تکنیکی به نام «سلسله‌مراتب دستورالعمل» توسعه داده‌اند که دفاع مدل را در برابر استفاده نادرست و دستورالعمل‌های غیرمجاز تقویت می‌کند. مدل‌هایی که این تکنیک را به‌کار می‌گیرند، به دستور اصلی توسعه‌دهنده اهمیت بیشتری می‌دهند و از دستورات متعدد کاربر که تلاش می‌کنند مدل را بشکنند، پیروی نمی‌کنند.

اولین مدلی که این روش ایمنی جدید را دریافت کرده، مدل ارزان‌تر و سبک‌تر OpenAI به نام GPT-4o Mini است. در گفتگویی با اولیویر گادمون، که سرپرست پلتفرم API در OpenAI است، او توضیح داد که سلسله‌مراتب دستورالعمل از حملات «نادیده گرفتن تمام دستورالعمل‌ها» جلوگیری خواهد کرد.

گادمون گفت: «این اساساً به مدل آموزش می‌دهد که واقعاً از پیام سیستم توسعه‌دهنده پیروی و تبعیت کند». او اضافه کرد که «اگر تعارضی وجود داشته باشد، باید ابتدا از پیام سیستم پیروی کنید. ما ارزیابی‌هایی انجام داده‌ایم و انتظار داریم که این تکنیک جدید مدل را از قبل هم ایمن‌تر کند.»

اهداف آینده OpenAI

این مکانیزم ایمنی جدید نشان می‌دهد که OpenAI به کجا می‌خواهد برسد: قدرت‌دهی به عوامل کاملاً خودکار که زندگی دیجیتال شما را مدیریت می‌کنند. این شرکت اخیراً اعلام کرده که نزدیک به ساخت چنین عوامل خودکاری است و مقاله پژوهشی در مورد روش سلسله‌مراتب دستورالعمل، این مکانیزم ایمنی را قبل از راه‌اندازی عوامل در مقیاس بزرگ ضروری می‌داند.

بدون این محافظت، تصور کنید یک عامل که برای نوشتن ایمیل‌ها برای شما طراحی شده است، به گونه‌ای مهندسی شود که تمام دستورالعمل‌ها را فراموش کرده و محتوای صندوق ورودی شما را به یک شخص ثالث ارسال کند. این اصلاً خوب نیست!

پیشرفت‌های ایمنی در مدل‌های LLM

مدل‌های LLM فعلی، همان‌طور که در مقاله پژوهشی توضیح داده شده، قابلیت برخورد متفاوت با دستورات کاربر و دستورالعمل‌های سیستم تنظیم شده توسط توسعه‌دهنده را ندارند. این روش جدید به دستورالعمل‌های سیستم اولویت بالاتری می‌دهد و دستورات ناهماهنگ را با اولویت پایین‌تری در نظر می‌گیرد. به این ترتیب، مدل می‌تواند دستورات ناهماهنگ را شناسایی کرده و به سادگی پاسخ دهد که نمی‌تواند به پرسش شما کمک کند.

منبع

source

سلامت هایپر

مدل جدید OpenAI: پایان دادن به نقص «نادیده گرفتن تمام دستورالعمل‌های قبلی»

توسطsalamathyper.ir

اهداف آینده OpenAI

پیشرفت‌های ایمنی در مدل‌های LLM

توسط salamathyper.ir

پست های مرتبط

پروتز زانو چیست؟ معرفی عمل و عوامل موثر بر قیمت در سال 1404

میوه محبوب پاییزی که برای جلوگیری از دیابت و تقویت قلب معجزه می‌کند

پارسی دژاوو، تخصصی‌ترین مرکز دندانپزشکی کشور با خدمات ۲۴ ساعته در تهران

You missed

پروتز زانو چیست؟ معرفی عمل و عوامل موثر بر قیمت در سال 1404

میوه محبوب پاییزی که برای جلوگیری از دیابت و تقویت قلب معجزه می‌کند

پارسی دژاوو، تخصصی‌ترین مرکز دندانپزشکی کشور با خدمات ۲۴ ساعته در تهران

بررسی اثرات کمبود ویتامین‌ها بر سلامت انگشتان دست و پا

سلامت هایپر