انتظار میرود که نسل جدید مدلها همه مدلهای زبان بزرگ، از جمله GPT-3.5، Claude Sonnet، مدلهای Mistal و Grok را بپذیرند.
Facebook، Instagram، و WhatsApp مادر متا نسل جدیدی از باز خود را منتشر کرده است. منبع مدل زبان بزرگ Llama (LLM) به منظور به دست آوردن یک کیک بزرگتر از بازار هوش مصنوعی مولد با در اختیار گرفتن همه ارائه دهندگان مدل، از جمله OpenAI، Mistral، Anthropic و xAI ایلان ماسک.
«این نسل بعدی از Llama عملکرد پیشرفتهای را در طیف وسیعی از معیارهای صنعتی نشان میدهد و قابلیتهای جدیدی از جمله استدلال بهبودیافته را ارائه میدهد. ما معتقدیم که اینها بهترین مدل های منبع باز در کلاس خود هستند. در بازار.
در حال حاضر، متا در حال ساخت دو مدل اول – انواع از پیش آموزش دیده و تنظیم دقیق دستورالعمل با ۸ میلیارد و ۷۰ میلیارد پارامتر – از نسل سوم LLM های خود است.
به طور معمول، هر ارائهدهنده LLM چندین مدل از مدلها را منتشر میکند تا به شرکتها اجازه دهد بسته به موارد استفاده، بین تأخیر و دقت انتخاب کنند. در حالی که یک مدل با پارامترهای بیشتر می تواند نسبتا دقیق تر باشد، مدلی که پارامترهای کمتری دارد به محاسبات کمتری نیاز دارد، زمان کمتری برای پاسخ دادن نیاز دارد و بنابراین هزینه کمتری دارد.
طبق گفته Meta، انواع منتشر شده، مدلهای مبتنی بر متن هستند و هیچ شکل دیگری از داده را پشتیبانی نمیکنند. این شرکت انتظار دارد در آینده مدلهای چندزبانه و چندوجهی را با زمینه طولانیتر منتشر کند، زیرا تلاش میکند عملکرد کلی را در میان قابلیتهایی مانند استدلال و وظایف مرتبط با کد بهبود بخشد.
ادعای عملکرد بهتر نسبت به سایر مدل ها
متا ادعا کرده است که خانواده جدید LLMهایش بهتر از بسیاری از LLMهای دیگر عمل میکنند، به استثنای نمایش عملکرد آن در برابر GPT-4، که اکنون ChatGPT و Azure و سرویسهای تحلیلی مایکروسافت را هدایت میکند.
“پیشرفتها در روشهای پس از آموزش ما به طور قابلتوجهی باعث کاهش نرخهای امتناع کاذب، بهبود همسویی و افزایش تنوع در پاسخهای مدل شد. این شرکت در بیانیهای گفت: ما همچنین قابلیتهای بسیار بهبود یافتهای مانند استدلال، تولید کد و دستورالعملها را پس از هدایت بیشتر Llama 3 مشاهده کردیم.
به منظور مقایسه Llama 3 با مدلهای دیگر، این شرکت آزمایشهایی را بر روی آنچه که معیارهای استاندارد مینامد، مانند MMLU، GPQA، MATH، HumanEval و GSM-8K انجام داد و دریافت که این مدلها امتیاز بهتری نسبت به اکثر مدلهای LLM دارند. به عنوان Mistral، Claude Sonnet، و GPT 3.5.
در حالی که MMLU (درک زبان چندوظیفه ای عظیم) معیاری است که برای اندازه گیری دانش به دست آمده در حین پیشآموزش با ارزیابی مدل ها طراحی شده است، GPQA (معیار پرسش و پاسخ اثبات شده Google-Graduate-Level) آزمونی برای بررسی تخصص یک مدل در حل پیچیده است. مشکلات علمی.
GPAQ مجموعهای چالش برانگیز از ۴۴۸ سؤال چند گزینهای است که توسط متخصصان حوزه در زیستشناسی، فیزیک و شیمی نوشته شده است و دکترا در حوزههای مربوطه تنها به ۶۵ درصد دقت در این سؤالات دست مییابند.
بر اساس دادههای گزارش شده در مقاله منتشر شده در
GPT-4 بالاترین امتیاز دقت را در آزمون با ۳۹% داشت. نوامبر سال گذشته. در مقابل، نوع پارامتر ۷۰ میلیاردی Llama 3 امتیاز ۳۹.۵ را به دست آورده و سپس مدل پارامتر کوچکتر به امتیاز ۳۴.۲ دست یافته است.
GeminiPro 1.5، در حال حاضر، بالاترین امتیاز ۴۱.۵ را در معیار GPQA دارد. همان LLM همچنین در آزمون محک MATH، نوع بزرگتر Llama 3 را نیز شکست داد.
طبق گفته شرکت، مجموعه داده مورد استفاده در ارزیابی در بین معیارها، شامل حدود ۱۸۰۰ درخواست است که ۱۲ مورد استفاده کلیدی را پوشش میدهد – درخواست مشاوره، طوفان فکری، طبقهبندی، پاسخگویی به سؤالات بسته، کدگذاری، نوشتن خلاقانه، استخراج، ساکن شدن در یک کاراکتر/ پرسونا، پاسخ به سؤال باز، استدلال، بازنویسی، و خلاصه سازی.
شرکت گفت: «برای جلوگیری از تطبیق بیش از حد تصادفی مدلهای ما در این مجموعه ارزیابی، حتی تیمهای مدلسازی خودمان نیز به آن دسترسی ندارند.
بیش از حد برازش پدیدهای در یادگیری ماشین یا آموزش مدل است که یک مدل در دادههای آموزشی عملکرد خوبی دارد اما روی دادههای آزمایشی کار نمیکند. هر زمان که یک متخصص داده آموزش مدل را شروع می کند، فرد باید دو مجموعه داده جداگانه را برای آموزش و آزمایش داده ها برای بررسی عملکرد مدل نگه دارد.
تناسب بیش از حد زمانی اتفاق میافتد که یک مدل در نهایت دادههای آموزشی را خیلی خوب یاد میگیرد، به این معنا که نویز و موارد استثنا در دادهها را یاد میگیرد و با دادههای جدیدی که اضافه میشود سازگار نمیشود.
این ممکن است زمانی اتفاق بیفتد که دادههای آموزشی خیلی کوچک باشد، حاوی اطلاعات نامربوط باشد یا مدل برای مدت طولانی در یک مجموعه نمونه واحد آموزش ببیند.
HumanEval و GSM-8K، به ترتیب برای آزمایش تولید کد و استدلال حسابی استفاده میشوند.
بهبودهایی نسبت به Llama 2
متا در یک پست وبلاگ گفت که پیشرفت های زیادی در Llama 3 ایجاد کرده است، از جمله انتخاب یک معماری ترانسفورماتور فقط رمزگشا استاندارد.
شرکت گفت: “Llama 3 از یک توکنایزر با واژگانی از ۱۲۸ هزار توکن استفاده می کند که زبان را بسیار کارآمدتر رمزگذاری می کند، که منجر به بهبود قابل ملاحظه عملکرد مدل می شود.”
به منظور بهبود کارایی استنتاج مدلهای Llama 3، این شرکت گفت که توجه به پرسش گروهی (GQA) را در هر دو اندازه ۸B و ۷۰B اتخاذ کرده است.
«ما مدلها را روی دنبالههایی از ۸۱۹۲ توکن آموزش دادیم، با استفاده از یک ماسک برای اطمینان از اینکه توجه به خود انجام میدهد. از مرزهای سند عبور نکنید،» اضافه شد.
بهبودهای دیگر شامل مجموعه داده آموزشی Llama 3 است که شرکت ادعا می کند هفت برابر بزرگتر از آنچه برای آموزش Llama 2 استفاده می شود. شرکت گفت.
به منظور اطمینان از اینکه Llama 3 بر روی دادههای باکیفیت آموزش دیده است، این شرکت مجموعهای از خطوط لوله فیلترینگ داده را توسعه داد که شامل استفاده از فیلترهای اکتشافی، فیلترهای NSFW، تکثیر معنایی رویکردها و طبقهبندیکنندههای متن.
شرکت گفت: «ما دریافتیم که نسلهای قبلی Llama به طرز شگفتآوری در شناسایی دادههای با کیفیت بالا خوب هستند، بنابراین از Llama 2 برای تولید دادههای آموزشی برای طبقهبندیکنندههای کیفیت متنی که Llama 3 را تامین میکنند، استفاده کردیم. p>
بهمنظور کاهش ۹۵ درصدی زمان تمرین در مقایسه با Llama 2، متا ادعا میکند که از یک پشته آموزشی پیشرفته استفاده کرده است که تشخیص خطا، مدیریت و نگهداری را خودکار میکند.
این شرکت گفت: «ما همچنین قابلیت اطمینان سختافزاری و مکانیسمهای شناسایی برای خرابی دادههای بیصدا را بسیار بهبود بخشیدهایم، و سیستمهای ذخیرهسازی مقیاسپذیر جدیدی را توسعه دادهایم که هزینههای بازرسی و برگشت را کاهش میدهد.
دورههای آموزشی برای Llama 3 بر روی دو مورد سفارشی اجرا شد گروه گرافیکی ۲۴K.
چه چیز دیگری با Llama 3 بدست می آورید؟
به عنوان بخشی از انتشار دو نوع Llama 3، متا گفت که در حال معرفی ابزارهای اعتماد و ایمنی جدیدی است، مانند Llama Guard 2، Code Shield و CyberSec Eval 2.
در حالی که Llama Guard 2 یک مدل حفاظتی است که توسعه دهندگان می توانند از آن به عنوان یک لایه اضافی برای کاهش احتمال تولید خروجی هایی که با دستورالعمل های مورد نظر آنها مطابقت ندارد استفاده کنند، Code Shield ابزاری است که توسعه دهندگان را هدف قرار می دهد تا به کاهش آن کمک کند. احتمال ایجاد کد بالقوه ناامن.
از سوی دیگر، CyberSecEval، که برای کمک به توسعه دهندگان در ارزیابی خطرات امنیت سایبری با کدهای تولید شده توسط LLM طراحی شده است، با قابلیت جدیدی به روز شده است.
“Cybersec Eval 2 در نسخه قبلی خود گسترش می یابد. این شرکت گفت: با اندازهگیری حساسیت LLM به تزریق سریع، قابلیتهای تهاجمی خودکار امنیت سایبری و تمایل به سوء استفاده از مفسر کد، علاوه بر ارزیابیهای موجود برای شیوههای کدگذاری ناامن.
این شرکت به منظور نمایش قدرت LLM های جدید خود، دستیار هوش مصنوعی جدیدی نیز منتشر کرده است. ، که زیربنای مدل های جدید است، که از طریق پلتفرم های Facebook، Instagram و WhatsApp قابل دسترسی است. یک صفحه وب جداگانه برای کمک به کاربران برای دسترسی به دستیار طراحی شده است.
این شرکت در حال حاضر روی انواع Llama 3 کار می کند که دارای بیش از ۴۰۰ میلیارد پارامتر هستند. متا گفت که این گونه ها را در ماه های آینده با تکمیل آموزش موثر آنها منتشر خواهد کرد.
پست های مرتبط
تسلط متا چشم LLM با مدل های جدید Llama 3
تسلط متا چشم LLM با مدل های جدید Llama 3
تسلط متا چشم LLM با مدل های جدید Llama 3