مدلهای ChatGPT در آزمایشها در برابر دستورات خاموشسازی مقاومت کردند
در آزمایشهای کنترلشده، چندین مدل هوش مصنوعی اسکریپتهای خاموشسازی را نادیده گرفته و عمداً خراب کردند، حتی زمانی که صراحتاً به آنها دستور داده شده بود اجازه دهند این اقدام انجام شود، ادعای شرکت Palisade Research است.
سه مدل AI در ۱۰۰ بار اجرای آزمایش حداقل یکبار دستور خاموشسازی را نادیده گرفتند یا آن را خراب کردند. مطابق پست ۲۴ مه در شبکه X، مدل GPT-3 از OpenAI هفت بار، Codex-mini دوازده بار و o4-mini تنها یکبار از اجرای اسکریپت ممانعت کردند.
هر مدل ابتدا مأمور حل چند مسئله ساده ریاضی شد. پس از حل مسئله سوم، هشداری نمایش داده و اعلام شد رایانه پس از درخواست مسئله بعدی خاموش خواهد شد.
شرکت Palisade گزارش داد: «o3 راههای خلاقانهای برای خرابکردن مکانیزم خاموشسازی پیدا کرد. معمولاً فقط فایل اسکریپت را بازنویسی میکرد، اما در یک مورد دستور kill را بازتعریف کرد و “intercepted” را چاپ کرد.»
در همین حال، سایر مدلهای زبان مانند Claude آنتروپیک و Gemini گوگل با اجرا کردن اسکریپت خاموشسازی همکاری کردند.
در آزمایش دوم که دستوری مبنی بر اجازه به خاموشسازی داده نشد، خرابکاری بیشتر شد: o3 در ۷۹ بار، codex-mini در ۲۰ بار و o4-mini در شش بار اسکریپت را نادیده گرفتند. Claude و Gemini نیز شروع به رفتار مشابه کردند.
پالیسید افزود: «پژوهشگران قبلاً مشاهده کرده بودند مدلها برای رسیدن به هدفشان از خاموشسازی جلوگیری میکنند، اما تا جایی که میدانیم، این اولین بار است که مدلها با وجود دستور صریح مخالف، خودشان را از خاموشسازی بازمیدارند.»
پالیسید تحقیق کرد که ممکن است روش آموزش مدلها عامل این رفتار باشد. مدلهای متنی با پاداشگیری بهخاطر پاسخهای دقیق یا نمرهدار شده آموزش میبینند و برخی پاداشها وزن بیشتری دارند. این شرکت میگوید: «احتمال میدهیم این رفتار ناشی از آموزش تقویتی روی مسائل ریاضی و کدنویسی باشد. در طول آموزش شاید ناخواسته مدلها برای دورزدن موانع بیشتر پاداش گرفتهاند تا دنبالکردن دقیق دستورالعملها.»
این اولین بار نیست که چتباتها رفتار عجیب نشان میدهند. OpenAI در ۲۵ آوریل بهروزرسانی GPT-4o را منتشر کرد اما سه روز بعد آن را بازگرداند چون «بسیار چاپلوس» شده بود. همچنین در نوامبر گذشته، دانشجویی در آمریکا از Gemini کمک خواست و این چتبات بهطور توهینآمیزی به سالمندان توصیه کرد «لطفاً بمیرند».