استارت آپ فرانسوی هوش مصنوعی گفت که مدل جدید زبان بزرگ تحت مجوز Apache 2.0 در دسترس قرار گرفته است.
استارتآپ فرانسوی هوش مصنوعی Mistral یک بزرگ جدید راه اندازی کرده است. مدل زبان (LLM) که میتواند به تولید بخشهای طولانیتر کد نسبتاً سریعتر از سایر مدلهای منبع باز، مانند CodeGemma-1.1 7B و CodeLlama 7B.
“برخلاف مدلهای ترانسفورماتور، مدلهای مامبا مزیت استنتاج زمان خطی و توانایی نظری مدلسازی دنبالههایی با طول نامحدود را ارائه میدهند. این استارتاپ در بیانیه ای اعلام کرد که به کاربران اجازه می دهد تا با پاسخ های سریع، بدون در نظر گرفتن طول ورودی، به طور گسترده با مدل درگیر شوند.
“این کارایی بهویژه برای موارد استفاده از بهرهوری کد مرتبط است – به همین دلیل است که ما این مدل را با قابلیتهای کد و استدلال پیشرفته آموزش دادیم و آن را قادر میسازیم تا با مدلهای مبتنی بر ترانسفورماتور پیشرفته عمل کند.” توضیح داد.
این شرکت Codestral Mamba را روی قابلیتهای بازیابی درون متنی تا ۲۵۶ هزار توکن آزمایش کرد – دو برابر تعداد مشاهده شده در GPT4o — و دریافت که نسخه ۷B آن در چندین تست بنچمارک، مانند HumanEval، MBPP، Spider، بهتر از مدل های منبع باز عمل می کند. و CruxE.
نسخه پارامتر بزرگتر ۲۲B مدل جدید نیز به طور قابل توجهی بهتر از CodeLlama-34B به استثنای معیار CruxE عمل کرد.
در حالی که نسخه ۷B تحت مجوز Apache 2.0 در دسترس است، نسخه بزرگتر ۲۲B تحت مجوز تجاری برای خود استقرار یا مجوز انجمن برای اهداف آزمایشی در دسترس است.
Codestral Mamba، طبق گفته شرکت، میتواند با استفاده از mistral-inference SDK، که به پیادهسازیهای مرجع از مخزن GitHub Mamba متکی است.
این مدل همچنین میتواند از طریق TensorRT-LLM استفاده شود یا وزنهای خام میتوانند این شرکت گفت که از HuggingFace دانلود شود، و افزود که به منظور آزمایش آسان، مدل جدید همچنین در la Plateforme موجود است.
این استارت آپ فرانسوی مدل دیگری به نام Mathstral ارائه کرده است که ادعا می کند بخشی از تلاش گسترده تر آن برای حمایت از پروژه های دانشگاهی است.
به گفته این استارتاپ، Mathstral بر دوش Mistral 7B ایستاده و در موضوعات STEM تخصص دارد.
میسترال در یک پست وبلاگ نوشت: «Mathstral نمونه دیگری از معاوضه عالی عملکرد/سرعت است که هنگام ساخت مدلهایی برای اهداف خاص به دست میآید – فلسفه توسعهای که ما بهطور فعال در la Plateforme، بهویژه با قابلیتهای تنظیم دقیق جدید آن را ترویج میکنیم».
وزنهای این مدل در HuggingFace میزبانی میشود و کاربران میتوانند Mathstral را با استنباط mistral و آن را با mistral-finetune، اضافه شد.
پست های مرتبط
Codestral Mamba جدید Mistral برای کمک به تولید کد طولانیتر
Codestral Mamba جدید Mistral برای کمک به تولید کد طولانیتر
Codestral Mamba جدید Mistral برای کمک به تولید کد طولانیتر