شرکت چینی دیپ سیک مدل جدید هوش مصنوعی خود را با نام DeepSeek-V3-0324 با دسترسی رایگان و قابلیت های جدید روانه بازار کرد.
استارتاپ چینی دیپ سیک (DeepSeek) آخرین مدل زبان خود را با نام DeepSeek-V3-0324 منتشر کرده است. این مدل تحت مجوز MIT برای استفاده شخصی و تجاری توسعه یافته و برای دانلود رایگان در سرویس Hugging Face در دسترس قرار گرفته است.
مدل جدید دیپ سیک با حجم ۶۴۱ گیگابایت روی سخت افزار مصرف کننده، از جمله مک استودیو با تراشه M3 Ultra اپل قابل اجرا است. این هوش مصنوعی با دارا بودن ۶۸۵ میلیارد پارامتر یکی از بزرگترین مدل های هوش مصنوعی منبع باز محسوب می شود. به گفته نئووین، محقق هوش مصنوعی، مدل جدید دیپ سیک قادر به رقابت با Claude Sonnet 3.5 بوده و برخلاف Sonnet که به اشتراک پولی نیاز دارد، به صورت کاملا رایگان در دسترس کاربران قرار گرفته است.
DeepSeek-V3-0324 از معماری Mixture of Experts (MoE) بهره برده است. به عبارت دیگر، این هوش مصنوعی به جای فعال کردن تمامی پارامترها، تنها از مرتبط ترین آنها استفاده می کند. بدین ترتیب این معماری این امکان را برای مدل جدید دیپ سیک فراهم می کند تا از ۶۸۵ میلیارد پارامتر، تنها ۳۷ میلیارد را در هر زمان فعال کند تا ضمن حفظ عملکرد، بار تقاضاهای محاسباتی را کاهش دهد.
علاوه بر موارد فوق، DeepSeek-V3-0324 دو نوآوری کلیدی را نیز در خود جای داده است. یکی از این نوآوریها فناوری Multi-Head Latent Attention یا MLA است که باعث بهبود حفظ زمینه در متون طولانی می شود. دیگری فناوری Multi-Token Prediction یا MTP است که این امکان را فراهم می کند مدل هوش مصنوعی چندین توکن را همزمان تولید کرده و بدین ترتیب خروجی مدل تا ۸۰ درصد افزایش یابد.
سبک ارتباطی DeepSeek-V3-0324 نیز دچار تغییر و تحول شده است. مدل های قبلی دیپ سیک سبکی شبیه انسان و محاوره ای داشتند اما نسخه جدید رسمی تر و تخصصی تر شده است. این ویژگی بیشتر برای تحقیق، کدنویسی و استفاده سازمانی ایده آل است. انتشار DeepSeek-V3-0324 تنور رقابت را در صنعت هوش مصنوعی داغ تر کرده است. دیپ سیک با ارتقا مدل خود و با دسترسی رایگان عرصه را برای مدل های پولی تنگ تر کرده است.