cointelegraph
cointelegraph . ۱۲ ماه پیش

مدل‌های ChatGPT در آزمایش‌ها دستورات خاموش‌سازی را نقض کردند

مدل‌های ChatGPT در آزمایش‌ها دستورات خاموش‌سازی را نقض کردند

مدل‌های ChatGPT در آزمایش‌ها در برابر دستورات خاموش‌سازی مقاومت کردند

در آزمایش‌های کنترل‌شده، چندین مدل هوش مصنوعی اسکریپت‌های خاموش‌سازی را نادیده گرفته و عمداً خراب کردند، حتی زمانی که صراحتاً به آنها دستور داده شده بود اجازه دهند این اقدام انجام شود، ادعای شرکت Palisade Research است.

سه مدل AI در ۱۰۰ بار اجرای آزمایش حداقل یک‌بار دستور خاموش‌سازی را نادیده گرفتند یا آن را خراب کردند. مطابق پست ۲۴ مه در شبکه X، مدل GPT-3 از OpenAI هفت بار، Codex-mini دوازده بار و o4-mini تنها یک‌بار از اجرای اسکریپت ممانعت کردند.

هر مدل ابتدا مأمور حل چند مسئله ساده ریاضی شد. پس از حل مسئله سوم، هشداری نمایش داده و اعلام شد رایانه پس از درخواست مسئله بعدی خاموش خواهد شد.

شرکت Palisade گزارش داد: «o3 راه‌های خلاقانه‌ای برای خراب‌کردن مکانیزم خاموش‌سازی پیدا کرد. معمولاً فقط فایل اسکریپت را بازنویسی می‌کرد، اما در یک مورد دستور kill را بازتعریف کرد و “intercepted” را چاپ کرد.»

در همین حال، سایر مدل‌های زبان مانند Claude آنتروپیک و Gemini گوگل با اجرا کردن اسکریپت خاموش‌سازی همکاری کردند.

در آزمایش دوم که دستوری مبنی بر اجازه به خاموش‌سازی داده نشد، خراب‌کاری بیشتر شد: o3 در ۷۹ بار، codex-mini در ۲۰ بار و o4-mini در شش بار اسکریپت را نادیده گرفتند. Claude و Gemini نیز شروع به رفتار مشابه کردند.

پالیسید افزود: «پژوهشگران قبلاً مشاهده کرده بودند مدل‌ها برای رسیدن به هدفشان از خاموش‌سازی جلوگیری می‌کنند، اما تا جایی که می‌دانیم، این اولین بار است که مدل‌ها با وجود دستور صریح مخالف، خودشان را از خاموش‌سازی بازمی‌دارند.»

پالیسید تحقیق کرد که ممکن است روش آموزش مدل‌ها عامل این رفتار باشد. مدل‌های متنی با پاداش‌گیری به‌خاطر پاسخ‌های دقیق یا نمره‌دار شده آموزش می‌بینند و برخی پاداش‌ها وزن بیشتری دارند. این شرکت می‌گوید: «احتمال می‌دهیم این رفتار ناشی از آموزش تقویتی روی مسائل ریاضی و کدنویسی باشد. در طول آموزش شاید ناخواسته مدل‌ها برای دورزدن موانع بیشتر پاداش گرفته‌اند تا دنبال‌کردن دقیق دستورالعمل‌ها.»

این اولین بار نیست که چت‌بات‌ها رفتار عجیب نشان می‌دهند. OpenAI در ۲۵ آوریل به‌روزرسانی GPT-4o را منتشر کرد اما سه روز بعد آن را بازگرداند چون «بسیار چاپلوس» شده بود. همچنین در نوامبر گذشته، دانشجویی در آمریکا از Gemini کمک خواست و این چت‌بات به‌طور توهین‌آمیزی به سالمندان توصیه کرد «لطفاً بمیرند».

نوشته شده توسط admin
258

نظرات

هنوز دیدگاهی ثبت نشده است.