۲۹ شهریور ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

Codestral Mamba جدید Mistral برای کمک به تولید کد طولانی‌تر

استارت آپ فرانسوی هوش مصنوعی گفت که مدل جدید زبان بزرگ تحت مجوز Apache 2.0 در دسترس قرار گرفته است.

استارت آپ فرانسوی هوش مصنوعی گفت که مدل جدید زبان بزرگ تحت مجوز Apache 2.0 در دسترس قرار گرفته است.

استارت‌آپ فرانسوی هوش مصنوعی Mistral یک بزرگ جدید راه اندازی کرده است. مدل زبان (LLM) که می‌تواند به تولید بخش‌های طولانی‌تر کد نسبتاً سریع‌تر از سایر مدل‌های منبع باز، مانند CodeGemma-1.1 7B و CodeLlama 7B.

“برخلاف مدل‌های ترانسفورماتور، مدل‌های مامبا مزیت استنتاج زمان خطی و توانایی نظری مدل‌سازی دنباله‌هایی با طول نامحدود را ارائه می‌دهند. این استارتاپ در بیانیه ای اعلام کرد که به کاربران اجازه می دهد تا با پاسخ های سریع، بدون در نظر گرفتن طول ورودی، به طور گسترده با مدل درگیر شوند.

“این کارایی به‌ویژه برای موارد استفاده از بهره‌وری کد مرتبط است – به همین دلیل است که ما این مدل را با قابلیت‌های کد و استدلال پیشرفته آموزش دادیم و آن را قادر می‌سازیم تا با مدل‌های مبتنی بر ترانسفورماتور پیشرفته عمل کند.” توضیح داد.

این شرکت Codestral Mamba را روی قابلیت‌های بازیابی درون متنی تا ۲۵۶ هزار توکن آزمایش کرد – دو برابر تعداد مشاهده شده در GPT4o — و دریافت که نسخه ۷B آن در چندین تست بنچمارک، مانند HumanEval، MBPP، Spider، بهتر از مدل های منبع باز عمل می کند. و CruxE.

نسخه پارامتر بزرگتر ۲۲B مدل جدید نیز به طور قابل توجهی بهتر از CodeLlama-34B به استثنای معیار CruxE عمل کرد.

در حالی که نسخه ۷B تحت مجوز Apache 2.0 در دسترس است، نسخه بزرگتر ۲۲B تحت مجوز تجاری برای خود استقرار یا مجوز انجمن برای اهداف آزمایشی در دسترس است.

Codestral Mamba، طبق گفته شرکت، می‌تواند با استفاده از mistral-inference SDK، که به پیاده‌سازی‌های مرجع از مخزن GitHub Mamba متکی است.

این مدل همچنین می‌تواند از طریق TensorRT-LLM استفاده شود یا وزن‌های خام می‌توانند این شرکت گفت که از HuggingFace دانلود شود، و افزود که به منظور آزمایش آسان، مدل جدید همچنین در la Plateforme موجود است.

این استارت آپ فرانسوی مدل دیگری به نام Mathstral ارائه کرده است که ادعا می کند بخشی از تلاش گسترده تر آن برای حمایت از پروژه های دانشگاهی است.

به گفته این استارتاپ، Mathstral بر دوش Mistral 7B ایستاده و در موضوعات STEM تخصص دارد.

میسترال در یک پست وبلاگ نوشت: «Mathstral نمونه دیگری از معاوضه عالی عملکرد/سرعت است که هنگام ساخت مدل‌هایی برای اهداف خاص به دست می‌آید – فلسفه توسعه‌ای که ما به‌طور فعال در la Plateforme، به‌ویژه با قابلیت‌های تنظیم دقیق جدید آن را ترویج می‌کنیم».

وزن‌های این مدل در HuggingFace میزبانی می‌شود و کاربران می‌توانند Mathstral را با استنباط mistral و آن را با mistral-finetune، اضافه شد.