cointelegraph . ۱ سال پیش

DeepSeek چین مدل متن‌باز Prover V2 را برای اثبات ریاضی منتشر کرد

معرفی Prover V2

شرکت توسعه هوش مصنوعی چینی DeepSeek مدل جدید متن‌باز با وزن آزاد (open-weight) خود را منتشر کرد. این شرکت مدل جدید Prover V2 را در تاریخ ۳۰ آوریل در سرویس هاستینگ Hugging Face بارگذاری کرد. این نسخه جدید که تحت مجوز آزاد MIT عرضه شده، با هدف بررسی و تأیید اثبات‌های ریاضی توسعه یافته است.

ویژگی‌ها و حجم مدل

Prover V2 دارای ۶۷۱ میلیارد پارامتر است و به‌طور قابل‌توجهی بزرگ‌تر از نسخه‌های قبلی خود Prover V1 و Prover V1.5 است که در اوت ۲۰۲۴ منتشر شدند. مقاله همراه نسخه اول توضیح می‌داد که این مدل برای تبدیل مسائل رقابت‌های ریاضی به منطق صوری با استفاده از زبان برنامه‌نویسی Lean ۴ — ابزاری رایج در اثبات قضایا — آموزش داده شده بود. سازندگان می‌گویند Prover V2 دانش ریاضی را در قالبی فشرده ذخیره می‌کند تا بتواند اثبات‌ها را تولید و تأیید کند و بدین‌ترتیب به تحقیق و آموزش کمک کند.

چالش‌های سخت‌افزاری

به‌طور کلی، در فضای هوش مصنوعی به مدل‌ها به‌صورت غیررسمی «وزن‌ها» گفته می‌شود؛ منظور فایل یا مجموعه فایل‌هایی است که امکان اجرای محلی یک AI را بدون تکیه بر سرورهای خارجی فراهم می‌کنند. مدل‌های پیشرفته نیاز به سخت‌افزارهایی دارند که اکثر افراد به آن دسترسی ندارند، زیرا این مدل‌ها دارای تعداد پارامتر زیادی هستند که در نتیجه حجم فایل‌ها و نیاز به RAM یا VRAM و قدرت پردازش بالایی دارند.

فشرده‌سازی با کوانتیزاسیون

مدل جدید Prover V2 حدود ۶۵۰ گیگابایت حجم دارد و انتظار می‌رود از RAM یا VRAM اجرا شود. برای رسیدن به این اندازه، «وزن»های Prover V2 با دقت ممیز شناور ۸ بیتی کوانتیزه شده‌اند؛ بدین معنی که هر پارامتر تقریباً نصف فضای معمول ۱۶ بیتی را اشغال می‌کند و در عمل حجم مدل را نصف می‌کند.

نسخ قبلی Prover

Prover V1 بر پایه مدل DeepSeekMath با هفت میلیارد پارامتر ساخته شده و روی داده‌های مصنوعی آموزش دیده بود. داده‌های مصنوعی به داده‌هایی گفته می‌شود که برای آموزش مدل‌های هوش مصنوعی خود توسط مدل‌های AI تولید شده‌اند و معمولاً داده‌های تولیدشده توسط انسان منبعی گران‌بها و کمیاب برای داده‌های با کیفیت بالاتر محسوب می‌شوند. در نسخه Prover V1.5 با بهینه‌سازی مراحل آموزش و اجرا دقت بالاتری در بنچمارک‌ها به دست آمد.

نحوه ارتباط با مدل R1

تا زمان نگارش این مقاله، اطلاعات دقیقی درباره بهبودهای Prover V2 منتشر نشده است، اما تعداد پارامترهای آن نشان می‌دهد که احتمالاً مبتنی بر مدل R1 شرکت باشد. وقتی R1 برای اولین بار عرضه شد، عملکردی برابر با بهترین مدل آن زمان یعنی o1 از OpenAI داشت.

بحث‌های دسترسی آزاد و امنیت

انتشار عمومی وزن‌های LLM موضوعی بحث‌برانگیز است. از یک سو دسترسی آزاد را تسهیل می‌کند و به کاربران امکان می‌دهد بدون تکیه بر زیرساخت شرکت‌های خصوصی، AI را به‌صورت محلی اجرا کنند. از سوی دیگر شرکت‌ها نمی‌توانند برای جلوگیری از سوءاستفاده از مدل محدودیت‌هایی اعمال کنند. انتشار R1 نگرانی‌های امنیتی را برانگیخت و برخی از آن به‌عنوان «لحظه اسپوتنیک چین» یاد کردند. طرفداران متن‌باز خوشحال بودند که DeepSeek ادامه‌دهنده راه Meta در انتشار سری LLaMA است و نشان داد AI متن‌باز رقیبی جدی برای AI بسته OpenAI است.

روش‌های کم‌حجم‌سازی: Distillation و Quantization

دسترسی به مدل‌های LLM اکنون آسان‌تر شده و حتی کاربرانی که به ابررایانه‌های گران‌قیمت دسترسی ندارند، می‌توانند مدل‌ها را به‌صورت محلی اجرا کنند. این امر عمدتاً مدیون دو تکنیک توسعه AI به نام‌های distillation و quantization است. Distillation به معنای آموزش یک شبکه کوچکتر «دانشجو» برای تقلید رفتار یک مدل بزرگتر «معلم» است تا بیشترین عملکرد حفظ شود و همزمان پارامترها کاهش یابند. Quantization شامل کاهش دقت عددی وزن‌ها و فعال‌سازی‌ها (activations) برای کاهش حجم و افزایش سرعت اجرا با کمترین افت دقت است. مثال آن کوانتیزاسیون Prover V2 از ۱۶ به ۸ بیت است، اما با نصف کردن تعداد بیت‌ها می‌توان بیشتر حجم را کاهش داد. هر دو تکنیک تأثیراتی بر عملکرد مدل دارند، ولی معمولاً مدل را تا حد زیادی عملیاتی نگه می‌دارند.

نسخه‌های کوچک‌تر R1

نسخه R1 DeepSeek با distillation به مدل‌های مبتنی بر LLaMA و Qwen با پارامترهای ۷۰ میلیارد تا ۱.5 میلیارد پارامتر تبدیل شد. کوچک‌ترین این مدل‌ها حتی روی برخی دستگاه‌های موبایل نیز قابل اجرا هستند.

نوشته شده توسط admin

391

نظرات

هنوز دیدگاهی ثبت نشده است.