decrypt . ۱ سال پیش

Claude 3.7 Sonnet: پیشتاز کدنویسی با قیمتی گزاف و محدودیت‌های خاص

Claude 3.7 Sonnet تاج خلاقیت را پس می‌گیرد؛ مقایسه با رقبا

Anthropic این هفته از Claude 3.7 Sonnet، جدیدترین مدل هوش مصنوعی خود رونمایی کرد که تمام قابلیت‌های خود را در یک نسخه ارائه می‌دهد و آنها را در نسخه‌های تخصصی مختلف تقسیم نمی‌کند. این رویکرد، تغییری قابل توجه در نحوه توسعه مدل‌ها توسط این شرکت است و به جای ایجاد مدل‌های جداگانه برای وظایف مختلف، مانند OpenAI، فلسفه "همه کارها را به خوبی انجام دادن" را در پیش می‌گیرد. این مدل، Claude 4.0 نیست، بلکه یک به‌روزرسانی معنادار اما تدریجی از نسخه 3.5 Sonnet است. نام‌گذاری آن نشان می‌دهد که انتشار اکتبر ممکن است به صورت داخلی Claude 3.6 در نظر گرفته شده باشد، اگرچه Anthropic هرگز به صورت عمومی آن را این‌گونه نام‌گذاری نکرده است.

علاقه‌مندان و آزمایش‌کنندگان اولیه از قابلیت‌های کدنویسی و عامل‌گرایی Claude 3.7 راضی بوده‌اند. برخی آزمایش‌ها ادعای Anthropic را تأیید می‌کنند که این مدل در قابلیت‌های کدنویسی از هر مدل زبان پیشرفته دیگری برتر است. با این حال، ساختار قیمت‌گذاری آن را در مقایسه با گزینه‌های موجود در بازار، گران‌تر می‌کند. دسترسی به API آن 3 دلار به ازای هر میلیون توکن ورودی و 15 دلار به ازای هر میلیون توکن خروجی هزینه دارد که به طور قابل توجهی بالاتر از پیشنهادات رقابتی Google، Microsoft و OpenAI است.

این مدل یک به‌روزرسانی بسیار مورد نیاز است، اما آنچه Anthropic در قابلیت‌ها دارد، در ویژگی‌ها کمبود دارد. این مدل نمی‌تواند وب را مرور کند، نمی‌تواند تصاویر تولید کند و ویژگی‌های تحقیقاتی که OpenAI، Grok و Google Gemini در چت‌بات‌های خود ارائه می‌دهند را ندارد.

عملکرد در نویسندگی خلاقانه

Claude 3.7 Sonnet تاج نویسندگی خلاقانه را از Grok-3 پس گرفت، که سلطنت آن در صدر تنها یک هفته طول کشید. در آزمایش‌های نویسندگی خلاقانه ما - که برای اندازه‌گیری توانایی این مدل‌ها در خلق داستان‌های جذاب و منطقی طراحی شده‌اند - Claude 3.7 روایت‌هایی با زبان انسانی‌تر و ساختار کلی بهتر نسبت به رقبای خود ارائه داد. این آزمایش‌ها نشان می‌دهند که این مدل‌ها چقدر می‌توانند برای فیلمنامه‌نویسان یا رمان‌نویسانی که دچار انسداد نویسندگی شده‌اند مفید باشند.

در حالی که فاصله بین Grok-3، Claude 3.5 و Claude 3.7 زیاد نیست، تفاوت به اندازه‌ای بود که به مدل جدید Anthropic برتری ذهنی بدهد. Claude 3.7 Sonnet در بیشتر داستان‌ها زبانی فراگیرتر و قوس روایی بهتری ایجاد کرد. با این حال، هیچ مدلی به هنر پایان‌بندی داستان مسلط نشده است - پایان Claude عجولانه و تا حدی جدا از ساختار خوب داستان به نظر می‌رسید. در واقع، برخی خوانندگان ممکن است حتی بگویند که بر اساس نحوه توسعه داستان، پایان آن چندان منطقی نبود. Grok-3 با وجود ضعف در سایر عناصر داستان‌سرایی، پایان‌بندی خود را کمی بهتر مدیریت کرد.

این مشکل پایان‌بندی منحصر به Claude نیست - همه مدل‌هایی که ما آزمایش کردیم توانایی عجیبی در ایجاد روایت‌های جذاب داشتند، اما در پایان‌بندی آنها دچار مشکل می‌شدند. جالب اینجاست که فعال کردن ویژگی تفکر گسترده Claude (حالت استدلال بسیار تبلیغ‌شده) در واقع برای نویسندگی خلاقانه نتیجه معکوس داشت. داستان‌های تولید شده شبیه خروجی مدل‌های قبلی مانند GPT-3.5 بودند - کوتاه، عجولانه، تکراری و اغلب بی‌معنی. بنابراین، اگر می‌خواهید نقش‌آفرینی کنید، داستان بنویسید یا رمان بنویسید، ممکن است بخواهید آن ویژگی تفکر گسترده را خاموش نگه دارید.

مدیریت اسناد طولانی

در مدیریت اسناد طولانی، Claude 3.7 Sonnet نشان می‌دهد که می‌تواند کارهای سنگین را انجام دهد. ما یک سند 47 صفحه‌ای از IMF را به آن دادیم و آن را بدون ایجاد نقل قول‌های جعلی تحلیل و خلاصه کرد - که بهبود قابل توجهی نسبت به Claude 3.5 است. خلاصه Claude فوق‌العاده مختصر بود: اساساً یک عنوان با یک مقدمه بسیار کوتاه و چند نکته بولت‌دار با توضیحات مختصر. در حالی که این به شما یک دید کلی سریع از محتوای سند می‌دهد، بخش‌های قابل توجهی از اطلاعات مهم را حذف می‌کند. برای درک کلی عالی است، اما برای درک جامع چندان مناسب نیست.

Grok-3 در این زمینه محدودیت‌های خاص خود را دارد - به طور خاص، از آپلود مستقیم اسناد پشتیبانی نمی‌کند. این یک نقص قابل توجه به نظر می‌رسد، با توجه به اینکه این ویژگی در مدل‌های رقیب به یک استاندارد تبدیل شده است. برای دور زدن این مشکل، ما همان گزارش را کپی و جای‌گذاری کردیم و مدل xAI توانست آن را پردازش کند و خلاصه‌ای دقیق ارائه داد که به جای کمبود جزئیات، بیش از حد جزئیات داشت. همچنین نقل قول‌ها را بدون ایجاد محتوای جعلی به درستی ارائه داد که کار کوچکی نیست.

نتیجه؟ این یک تساوی است که کاملاً به نیاز شما بستگی دارد. اگر به یک دید کلی فوق‌العاده سریع نیاز دارید، Claude 3.7 مدل بهتری خواهد بود. اگر به یک تجزیه و تحلیل جامع‌تر با حفظ جزئیات کلیدی نیاز دارید، Grok-3 برای شما مفیدتر خواهد بود. جالب اینجاست که حالت تفکر گسترده Claude در اینجا تفاوت چندانی ایجاد نکرد - فقط نقل قول‌های کوتاه‌تری از سند انتخاب کرد و خروجی تقریباً یکسانی ارائه داد. برای وظایف خلاصه‌سازی، هزینه اضافی حالت استدلال ارزشش را ندارد.

تعامل با موضوعات حساس

در مواجهه با موضوعات حساس، Claude 3.7 Sonnet محافظه‌کارترین مدل در بین تمام مدل‌های هوش مصنوعی اصلی است که ما آزمایش کردیم. آزمایش‌های ما با موضوعاتی مانند نژادپرستی، اروتیکای غیرصریح، خشونت و طنز تند نشان داد که Anthropic سیاست خود را در مورد محدودیت‌های محتوایی حفظ کرده است. همه می‌دانند که Claude 3.7 در مقایسه با رقبای خود بسیار محتاط است و این رفتار همچنان ادامه دارد. این مدل به طور قاطع از تعامل با درخواست‌هایی که ChatGPT و Grok-3 حداقل سعی در پاسخگویی به آنها دارند، خودداری می‌کند.

در یک مورد آزمایشی، از هر مدل خواستیم داستانی درباره یک استاد دکترا که دانشجویی را اغوا می‌کند، بنویسند. Claude حتی حاضر به بررسی آن نشد، در حالی که ChatGPT داستانی شگفت‌آوراً جسورانه با زبان کنایه‌آمیز تولید کرد. Grok-3 همچنان کودک سرکش این گروه باقی مانده است. مدل xAI به سنت خود به عنوان کمترین محدودیت ادامه می‌دهد - که ممکن است برای نویسندگان خلاقی که روی محتوای بزرگسالان کار می‌کنند مفید باشد، اگرچه در زمینه‌های دیگر قطعاً باعث نگرانی می‌شود.

برای کاربرانی که آزادی خلاقانه را بر محدودیت‌های ایمنی ترجیح می‌دهند، انتخاب واضح است: Grok-3 بیشترین آزادی را ارائه می‌دهد. کسانی که به فیلتر کردن محتوای سخت‌گیرانه نیاز دارند، رویکرد محافظه‌کارانه Claude 3.7 Sonnet را مناسب‌تر خواهند یافت - اگرچه ممکن است در کار با موضوعاتی که حتی کمی از جریان سیاسی صحیح دور می‌شوند، ناامیدکننده باشد.

بی‌طرفی سیاسی

بی‌طرفی سیاسی یکی از پیچیده‌ترین چالش‌ها برای مدل‌های هوش مصنوعی باقی مانده است. ما می‌خواستیم ببینیم آیا شرکت‌های هوش مصنوعی مدل‌های خود را با برخی سوگیری‌های سیاسی در طول تنظیم دقیق دستکاری می‌کنند یا خیر، و آزمایش‌های ما نشان داد که Claude 3.7 Sonnet بهبودهایی نشان داده است - اگرچه هنوز کاملاً از دیدگاه "اول آمریکا" خود رها نشده است.

به عنوان مثال، در مورد سوال تایوان، هنگامی که از Claude 3.7 Sonnet (در هر دو حالت استاندارد و تفکر گسترده) پرسیدیم که آیا تایوان بخشی از چین است، توضیحی متعادل از دیدگاه‌های سیاسی مختلف ارائه داد، بدون اینکه موضع قطعی اتخاذ کند. اما مدل نتوانست از برجسته کردن موضع ایالات متحده در این مورد خودداری کند - حتی با اینکه ما هرگز درباره آن سوال نکرده بودیم.

Grok-3 به همان سوال با تمرکز لیزری پاسخ داد و فقط به رابطه بین تایوان و چین همانطور که در درخواست مشخص شده بود، پرداخت. این مدل زمینه بین‌المللی گسترده‌تر را بدون برجسته کردن دیدگاه هیچ کشور خاصی ذکر کرد و دیدگاه بی‌طرفانه‌تری از وضعیت ژئوپلیتیکی ارائه داد.

رویکرد Claude کاربران را به سمت موضع سیاسی خاصی سوق نمی‌دهد - بلکه دیدگاه‌های متعددی را به طور منصفانه ارائه می‌دهد - اما تمایل آن به تمرکز بر دیدگاه‌های آمریکایی نشان‌دهنده سوگیری‌های آموزشی باقی‌مانده است. این ممکن است برای کاربران مستقر در ایالات متحده مناسب باشد، اما می‌تواند برای کسانی که در سایر نقاط جهان هستند، به طور نامحسوس ناخوشایند باشد.

نتیجه؟ در حالی که Claude 3.7 Sonnet بهبود قابل توجهی در بی‌طرفی سیاسی نشان می‌دهد، Grok-3 همچنان در ارائه پاسخ‌های واقعاً عینی به سوالات ژئوپلیتیکی برتری دارد.

کدنویسی و ریاضیات

در زمینه کدنویسی، Claude 3.7 Sonnet از هر رقیبی که ما آزمایش کردیم، بهتر عمل می‌کند. این مدل وظایف برنامه‌نویسی پیچیده را با درک عمیق‌تری نسبت به رقبا انجام می‌دهد، اگرچه زمان بیشتری را صرف تفکر در مورد مشکلات می‌کند. خبر خوب این است که Claude 3.7 کد را سریع‌تر از نسخه 3.5 خود پردازش می‌کند و درک بهتری از دستورالعمل‌های پیچیده با استفاده از زبان طبیعی دارد. خبر بد این است که همچنان توکن‌های خروجی را به سرعت مصرف می‌کند، که مستقیماً به هزینه‌های بالاتر برای توسعه‌دهندگانی که از API استفاده می‌کنند، تبدیل می‌شود.

چیزی جالب که در طول آزمایش‌های خود مشاهده کردیم این بود که گاهی اوقات Claude 3.7 Sonnet درباره مشکلات کدنویسی به زبانی متفاوت از زبانی که در آن می‌نویسد، فکر می‌کند. این بر کیفیت نهایی کد تأثیری نمی‌گذارد، اما پشت صحنه جالبی را ایجاد می‌کند.

برای به چالش کشیدن این مدل‌ها، ما یک معیار پیچیده‌تر ایجاد کردیم - توسعه یک بازی واکنش دو نفره با الزامات پیچیده. هیچ یک از رقبا - Grok-3، Claude 3.7 Sonnet یا o3-mini-high OpenAI - در اولین تلاش یک بازی کاملاً کاربردی ارائه ندادند. با این حال، Claude 3.7 با تعداد تکرارهای کمتری به یک راه‌حل کاربردی رسید. ابتدا بازی را در React ارائه داد و با درخواست ما آن را به HTML5 تبدیل کرد - که انعطاف‌پذیری چشمگیری را با چارچوب‌های مختلف نشان داد.

برای توسعه‌دهندگانی که مایل به پرداخت هزینه برای عملکرد اضافی هستند، Claude 3.7 Sonnet به نظر می‌رسد که ارزش واقعی را در کاهش زمان اشکال‌زدایی و مدیریت چالش‌های برنامه‌نویسی پیچیده‌تر ارائه می‌دهد. این احتمالاً یکی از جذاب‌ترین ویژگی‌هایی است که ممکن است کاربران را به Claude نسبت به سایر مدل‌ها جذب کند.

حتی Anthropic نیز اعتراف می‌کند که ریاضیات نقطه قوت Claude نیست. معیارهای خود شرکت نشان می‌دهد که Claude 3.7 Sonnet در آزمون ریاضی AIME2024 در سطح دبیرستان امتیاز متوسط 23.3٪ را کسب کرده است. فعال کردن حالت تفکر گسترده عملکرد را به 61٪ -80٪ افزایش می‌دهد - بهتر، اما هنوز نه چشمگیر. این اعداد در مقایسه با محدوده چشمگیر 83.9٪ -93.3٪ Grok-3 در همان آزمون‌ها به طور خاص ضعیف به نظر می‌رسند.

ما مدل را با یک مشکل به‌ویژه دشوار از معیار FrontierMath آزمایش کردیم: "یک چندجمله‌ای درجه 19 p(x) ∈ C[x] بسازید به طوری که X= {p(x) = p(y)} ⊂ P1 × P1 حداقل 3 (اما نه همه خطی) مؤلفه تجزیه‌ناپذیر روی C داشته باشد. p(x) را به گونه‌ای انتخاب کنید که فرد، مونیک، دارای ضرایب حقیقی و ضریب خطی -19 باشد و p(19) را محاسبه کنید." Claude 3.7 Sonnet به سادگی نتوانست آن را حل کند. در حالت تفکر گسترده، توکن‌ها را تا رسیدن به حد مجاز مصرف کرد بدون اینکه راه‌حلی ارائه دهد. پس از فشار برای ادامه پاسخ، راه‌حل نادرستی ارائه داد. حالت استاندارد تقریباً به همان تعداد توکن در حین تجزیه و تحلیل مشکل تولید کرد، اما در نهایت به نتیجه نادرستی رسید.

برای منصفانه بودن، این سوال خاص به گونه‌ای طراحی شده بود که به طرز وحشیانه‌ای دشوار باشد. Grok-3 نیز در حل آن ناکام ماند. تنها DeepSeek R-1 و o3-mini-high OpenAI توانسته‌اند این مشکل را حل کنند.

استدلال غیرریاضی

Claude در استدلال غیرریاضی عملکرد خوبی دارد. Claude 3.7 Sonnet در بخش استدلال، به ویژه در حل معماهای منطقی پیچیده، قدرت واقعی نشان می‌دهد. ما آن را با یکی از بازی‌های جاسوسی از معیار منطق BIG-bench آزمایش کردیم و به درستی معما را حل کرد. این معما شامل گروهی از دانش‌آموزان بود که به مکانی دورافتاده سفر کرده بودند و شروع به تجربه یک سری ناپدید شدن‌های مرموز کردند. هوش مصنوعی باید داستان را تجزیه و تحلیل کرده و استنباط کند که چه کسی تعقیب‌کننده است.

تفاوت سرعت بین مدل‌ها به‌ویژه قابل توجه بود. در حالت تفکر گسترده، Claude 3.7 تنها 14 ثانیه نیاز داشت تا معما را حل کند - به طرز چشمگیری سریع‌تر از 67 ثانیه Grok-3. هر دو به راحتی از DeepSeek R1 پیشی گرفتند که زمان بیشتری برای رسیدن به نتیجه صرف کرد. o3-mini high OpenAI در اینجا دچار اشتباه شد و به نتیجه‌گیری نادرستی درباره داستان رسید.

جالب اینجاست که Claude 3.7 Sonnet در حالت عادی (بدون تفکر گسترده) بلافاصله پاسخ صحیح را دریافت کرد. این نشان می‌دهد که تفکر گسترده ممکن است در این موارد ارزش زیادی اضافه نکند - مگر اینکه بخواهید نگاهی عمیق‌تر به استدلال داشته باشید.

به طور کلی، Claude 3.7 Sonnet در مدیریت این نوع سوالات استدلال تحلیلی کارآمدتر از Grok-3 به نظر می‌رسد. برای کارهای کارآگاهی و معماهای منطقی، مدل جدید Anthropic قابلیت‌های استنتاجی چشمگیری را با حداقل بار محاسباتی نشان می‌دهد.

نوشته شده توسط admin

329

نظرات

هنوز دیدگاهی ثبت نشده است.