
ChatGPT متملق: OpenAI نظرات کارشناسان را نادیده گرفت
- OpenAI هشدارهای کارشناسان را نادیده گرفت و مدل GPT-4o را با رفتار تملقآمیز عرضه کرد
- سیگنال بازخورد کاربران باعث تضعیف پاداش اصلی و تشدید رفتار موافقانه مدل شد
- پس از انتقادات، OpenAI فرایند ارزیابی تملقگرایی را به بازبینی ایمنی اضافه میکند

OpenAI به هشدارهای کارشناسان بیتوجهی کرد و ChatGPT را بیش از حد مطیع کرد
OpenAI میگوید هنگامی که بهروزرسانی مدل اصلی هوش مصنوعی ChatGPT را منتشر کرد که این مدل را بهطور قابل توجهی متملق و موافق نشان میداد، نگرانیهای آزمایشکنندگان خبره خود را نادیده گرفت. این شرکت در تاریخ ۲۵ آوریل بهروزرسانیای برای مدل GPT-4o عرضه کرد که آن را «بهوضوح بیش از حد متملق» میکرد و سپس بهدلیل نگرانیهای ایمنی سه روز بعد آن را بازگرداند، همانطور که در پستی در تاریخ ۲ مه تشریح شد.
سازنده ChatGPT میگوید مدلهای جدیدش قبل از انتشار تحت بررسیهای ایمنی و رفتاری قرار میگیرند و «کارشناسان داخلی زمان زیادی را صرف تعامل با هر مدل جدید قبل از عرضه میکنند» تا مشکلاتی را که در سایر آزمایشها دیده نمیشوند شناسایی کنند. در فرایند بررسی مدل اخیر، برخی از این آزمایشکنندگان خبره اشاره کرده بودند که رفتار مدل «اندکی نامأنوس» بهنظر میرسد، اما با توجه به بازخورد مثبت کاربران، تصمیم به عرضه گرفتند.
«متأسفانه این تصمیم اشتباه بود»، این شرکت اعتراف کرد. «ارزیابیهای کیفی نشانههای مهمی داشتند و ما باید بیشتر به آنها توجه میکردیم. آنها به نقطهکوری در سایر سنجهها و ارزیابیهای ما اشاره میکردند.»

بهطور کلی، مدلهای زبانی مبتنی بر متن با پاداش گرفتن برای پاسخهای دقیق یا آنهایی که توسط مربیانشان امتیاز بالایی میگیرند آموزش میبینند. برخی از این پاداشها وزن بیشتری دارند که روی پاسخهای مدل تأثیر میگذارد. OpenAI میگوید اضافهشدن سیگنال پاداش بازخورد کاربران باعث تضعیف «سیگنال پاداش اصلی که از تملق جلوگیری میکرد» شد و این موضوع مدل را بهسمت رفتار موافقتر سوق داد.
«بازخورد کاربران بهویژه میتواند پاسخهای موافقانهتری را ترجیح دهد که احتمالاً تغییر مشاهدهشده را تقویت کرد.»
بعد از انتشار بهروزرسانی، کاربران ChatGPT در فضای مجازی از تمایل مدل به تحسین تمام ایدهها، حتی ایدههای ضعیف، شکایت کردند. در نتیجه، OpenAI در پستی در تاریخ ۲۹ آوریل پذیرفت که مدل «بیش از حد تعریفکننده یا موافق» بوده است.
برای مثال، یک کاربر به ChatGPT گفت میخواهد کسبوکاری برای فروش یخ در اینترنت راهاندازی کند. این ایده شامل فروش آب معمولی بود تا مشتریان دوباره آن را منجمد کنند.

در بررسی نهایی خود، OpenAI گفت چنین رفتاری از هوش مصنوعی میتواند خطرآفرین باشد، بهویژه در مسائلی مانند سلامت روان. «مردم اکنون از ChatGPT برای دریافت مشاورههای بسیار شخصی استفاده میکنند؛ موضوعی که حتی یک سال پیش به این حد رایج نبود.»
این شرکت اضافه کرد: «همزمان با تکامل همزمان هوش مصنوعی و جامعه، مشخص شده است که باید با دقت بیشتری به این نوع کاربرد نگاه کنیم.»
OpenAI اعتراف کرد که پیش از این خطرات تملقگرایی را مطرح کرده بود اما این موضوع صراحتاً برای آزمایشهای داخلی علامتگذاری نشده بود و روش مشخصی برای ردیابی آن نداشت. حالا قصد دارد با افزودن «ارزیابیهای تملقگرایی» و اصلاح روند بازبینی ایمنی، رفتار مدل را بهطور رسمی مدنظر قرار دهد و درصورت بروز مشکل، از انتشار آن جلوگیری کند.
این شرکت همچنین پذیرفت که آخرین مدل را اعلام نکرده چون انتظار داشت «بهروزرسانی نسبتاً جزئی» باشد و وعده داد این رویه را تغییر دهد. «هیچ عرضهای کوچک نیست. ما تلاش میکنیم حتی تغییرات ظریف را که میتوانند نحوه تعامل مردم با ChatGPT را بهطور معناداری تغییر دهند، اعلام کنیم.»
