cointelegraph
cointelegraph
.

ChatGPT متملق: OpenAI نظرات کارشناسان را نادیده گرفت

مفاهیم کلیدیمفاهیم کلیدی
  • OpenAI هشدارهای کارشناسان را نادیده گرفت و مدل GPT-4o را با رفتار تملق‌آمیز عرضه کرد
  • سیگنال بازخورد کاربران باعث تضعیف پاداش اصلی و تشدید رفتار موافقانه مدل شد
  • پس از انتقادات، OpenAI فرایند ارزیابی تملق‌گرایی را به بازبینی ایمنی اضافه می‌کند
ChatGPT متملق: OpenAI نظرات کارشناسان را نادیده گرفت

OpenAI به هشدارهای کارشناسان بی‌توجهی کرد و ChatGPT را بیش از حد مطیع کرد

OpenAI می‌گوید هنگامی که به‌روزرسانی مدل اصلی هوش مصنوعی ChatGPT را منتشر کرد که این مدل را به‌طور قابل توجهی متملق و موافق نشان می‌داد، نگرانی‌های آزمایش‌کنندگان خبره خود را نادیده گرفت. این شرکت در تاریخ ۲۵ آوریل به‌روزرسانی‌ای برای مدل GPT-4o عرضه کرد که آن را «به‌وضوح بیش از حد متملق» می‌کرد و سپس به‌دلیل نگرانی‌های ایمنی سه روز بعد آن را بازگرداند، همان‌طور که در پستی در تاریخ ۲ مه تشریح شد.

سازنده ChatGPT می‌گوید مدل‌های جدیدش قبل از انتشار تحت بررسی‌های ایمنی و رفتاری قرار می‌گیرند و «کارشناسان داخلی زمان زیادی را صرف تعامل با هر مدل جدید قبل از عرضه می‌کنند» تا مشکلاتی را که در سایر آزمایش‌ها دیده نمی‌شوند شناسایی کنند. در فرایند بررسی مدل اخیر، برخی از این آزمایش‌کنندگان خبره اشاره کرده بودند که رفتار مدل «اندکی نامأنوس» به‌نظر می‌رسد، اما با توجه به بازخورد مثبت کاربران، تصمیم به عرضه گرفتند.

«متأسفانه این تصمیم اشتباه بود»، این شرکت اعتراف کرد. «ارزیابی‌های کیفی نشانه‌های مهمی داشتند و ما باید بیشتر به آن‌ها توجه می‌کردیم. آن‌ها به نقطه‌کوری در سایر سنجه‌ها و ارزیابی‌های ما اشاره می‌کردند.»

به‌طور کلی، مدل‌های زبانی مبتنی بر متن با پاداش گرفتن برای پاسخ‌های دقیق یا آن‌هایی که توسط مربیانشان امتیاز بالایی می‌گیرند آموزش می‌بینند. برخی از این پاداش‌ها وزن بیشتری دارند که روی پاسخ‌های مدل تأثیر می‌گذارد. OpenAI می‌گوید اضافه‌شدن سیگنال پاداش بازخورد کاربران باعث تضعیف «سیگنال پاداش اصلی که از تملق جلوگیری می‌کرد» شد و این موضوع مدل را به‌سمت رفتار موافق‌تر سوق داد.

«بازخورد کاربران به‌ویژه می‌تواند پاسخ‌های موافقانه‌تری را ترجیح دهد که احتمالاً تغییر مشاهده‌شده را تقویت کرد.»

بعد از انتشار به‌روزرسانی، کاربران ChatGPT در فضای مجازی از تمایل مدل به تحسین تمام ایده‌ها، حتی ایده‌های ضعیف، شکایت کردند. در نتیجه، OpenAI در پستی در تاریخ ۲۹ آوریل پذیرفت که مدل «بیش از حد تعریف‌کننده یا موافق» بوده است.

برای مثال، یک کاربر به ChatGPT گفت می‌خواهد کسب‌وکاری برای فروش یخ در اینترنت راه‌اندازی کند. این ایده شامل فروش آب معمولی بود تا مشتریان دوباره آن را منجمد کنند.

در بررسی نهایی خود، OpenAI گفت چنین رفتاری از هوش مصنوعی می‌تواند خطرآفرین باشد، به‌ویژه در مسائلی مانند سلامت روان. «مردم اکنون از ChatGPT برای دریافت مشاوره‌های بسیار شخصی استفاده می‌کنند؛ موضوعی که حتی یک سال پیش به این حد رایج نبود.»

این شرکت اضافه کرد: «همزمان با تکامل همزمان هوش مصنوعی و جامعه، مشخص شده است که باید با دقت بیشتری به این نوع کاربرد نگاه کنیم.»

OpenAI اعتراف کرد که پیش از این خطرات تملق‌گرایی را مطرح کرده بود اما این موضوع صراحتاً برای آزمایش‌های داخلی علامت‌گذاری نشده بود و روش مشخصی برای ردیابی آن نداشت. حالا قصد دارد با افزودن «ارزیابی‌های تملق‌گرایی» و اصلاح روند بازبینی ایمنی، رفتار مدل را به‌طور رسمی مدنظر قرار دهد و درصورت بروز مشکل، از انتشار آن جلوگیری کند.

این شرکت همچنین پذیرفت که آخرین مدل را اعلام نکرده چون انتظار داشت «به‌روزرسانی نسبتاً جزئی» باشد و وعده داد این رویه را تغییر دهد. «هیچ عرضه‌ای کوچک نیست. ما تلاش می‌کنیم حتی تغییرات ظریف را که می‌توانند نحوه تعامل مردم با ChatGPT را به‌طور معناداری تغییر دهند، اعلام کنیم.»

لینک خبر
ترجمه شده توسط الهه سلوکی