تسلط متا چشم LLM با مدل های جدید Llama 3

انتظار می‌رود که نسل جدید مدل‌ها همه مدل‌های زبان بزرگ، از جمله GPT-3.5، Claude Sonnet، مدل‌های Mistal و Grok را بپذیرند.

Facebook، Instagram، و WhatsApp مادر متا نسل جدیدی از باز خود را منتشر کرده است. منبع مدل زبان بزرگ Llama (LLM) به منظور به دست آوردن یک کیک بزرگتر از بازار هوش مصنوعی مولد با در اختیار گرفتن همه ارائه دهندگان مدل، از جمله OpenAI، Mistral، Anthropic و xAI ایلان ماسک.

«این نسل بعدی از Llama عملکرد پیشرفته‌ای را در طیف وسیعی از معیارهای صنعتی نشان می‌دهد و قابلیت‌های جدیدی از جمله استدلال بهبودیافته را ارائه می‌دهد. ما معتقدیم که اینها بهترین مدل های منبع باز در کلاس خود هستند. در بازار.

در حال حاضر، متا در حال ساخت دو مدل اول – انواع از پیش آموزش دیده و تنظیم دقیق دستورالعمل با ۸ میلیارد و ۷۰ میلیارد پارامتر – از نسل سوم LLM های خود است.

به طور معمول، هر ارائه‌دهنده LLM چندین مدل از مدل‌ها را منتشر می‌کند تا به شرکت‌ها اجازه دهد بسته به موارد استفاده، بین تأخیر و دقت انتخاب کنند. در حالی که یک مدل با پارامترهای بیشتر می تواند نسبتا دقیق تر باشد، مدلی که پارامترهای کمتری دارد به محاسبات کمتری نیاز دارد، زمان کمتری برای پاسخ دادن نیاز دارد و بنابراین هزینه کمتری دارد.

طبق گفته Meta، انواع منتشر شده، مدل‌های مبتنی بر متن هستند و هیچ شکل دیگری از داده را پشتیبانی نمی‌کنند. این شرکت انتظار دارد در آینده مدل‌های چندزبانه و چندوجهی را با زمینه طولانی‌تر منتشر کند، زیرا تلاش می‌کند عملکرد کلی را در میان قابلیت‌هایی مانند استدلال و وظایف مرتبط با کد بهبود بخشد.

ادعای عملکرد بهتر نسبت به سایر مدل ها

متا ادعا کرده است که خانواده جدید LLM‌هایش بهتر از بسیاری از LLM‌های دیگر عمل می‌کنند، به استثنای نمایش عملکرد آن در برابر GPT-4، که اکنون ChatGPT و Azure و سرویس‌های تحلیلی مایکروسافت را هدایت می‌کند.

“پیشرفت‌ها در روش‌های پس از آموزش ما به طور قابل‌توجهی باعث کاهش نرخ‌های امتناع کاذب، بهبود همسویی و افزایش تنوع در پاسخ‌های مدل شد. این شرکت در بیانیه‌ای گفت: ما همچنین قابلیت‌های بسیار بهبود یافته‌ای مانند استدلال، تولید کد و دستورالعمل‌ها را پس از هدایت بیشتر Llama 3 مشاهده کردیم.

GitHub Copilot Chat به GitHub می آید

به منظور مقایسه Llama 3 با مدل‌های دیگر، این شرکت آزمایش‌هایی را بر روی آنچه که معیارهای استاندارد می‌نامد، مانند MMLU، GPQA، MATH، HumanEval و GSM-8K انجام داد و دریافت که این مدل‌ها امتیاز بهتری نسبت به اکثر مدل‌های LLM دارند. به عنوان Mistral، Claude Sonnet، و GPT 3.5.

در حالی که MMLU (درک زبان چندوظیفه ای عظیم) معیاری است که برای اندازه گیری دانش به دست آمده در حین پیشآموزش با ارزیابی مدل ها طراحی شده است، GPQA (معیار پرسش و پاسخ اثبات شده Google-Graduate-Level) آزمونی برای بررسی تخصص یک مدل در حل پیچیده است. مشکلات علمی.

GPAQ مجموعه‌ای چالش برانگیز از ۴۴۸ سؤال چند گزینه‌ای است که توسط متخصصان حوزه در زیست‌شناسی، فیزیک و شیمی نوشته شده است و دکترا در حوزه‌های مربوطه تنها به ۶۵ درصد دقت در این سؤالات دست می‌یابند.

بر اساس داده‌های گزارش شده در مقاله منتشر شده در

GPT-4 بالاترین امتیاز دقت را در آزمون با ۳۹% داشت. نوامبر سال گذشته. در مقابل، نوع پارامتر ۷۰ میلیاردی Llama 3 امتیاز ۳۹.۵ را به دست آورده و سپس مدل پارامتر کوچکتر به امتیاز ۳۴.۲ دست یافته است.

GeminiPro 1.5، در حال حاضر، بالاترین امتیاز ۴۱.۵ را در معیار GPQA دارد. همان LLM همچنین در آزمون محک MATH، نوع بزرگتر Llama 3 را نیز شکست داد.

طبق گفته شرکت، مجموعه داده مورد استفاده در ارزیابی در بین معیارها، شامل حدود ۱۸۰۰ درخواست است که ۱۲ مورد استفاده کلیدی را پوشش می‌دهد – درخواست مشاوره، طوفان فکری، طبقه‌بندی، پاسخ‌گویی به سؤالات بسته، کدگذاری، نوشتن خلاقانه، استخراج، ساکن شدن در یک کاراکتر/ پرسونا، پاسخ به سؤال باز، استدلال، بازنویسی، و خلاصه سازی.

شرکت گفت: «برای جلوگیری از تطبیق بیش از حد تصادفی مدل‌های ما در این مجموعه ارزیابی، حتی تیم‌های مدل‌سازی خودمان نیز به آن دسترسی ندارند.

بیش از حد برازش پدیده‌ای در یادگیری ماشین یا آموزش مدل است که یک مدل در داده‌های آموزشی عملکرد خوبی دارد اما روی داده‌های آزمایشی کار نمی‌کند. هر زمان که یک متخصص داده آموزش مدل را شروع می کند، فرد باید دو مجموعه داده جداگانه را برای آموزش و آزمایش داده ها برای بررسی عملکرد مدل نگه دارد.

AWS Bedrock، SageMaker را به‌روزرسانی می‌کند تا پیشنهادات هوش مصنوعی مولد را تقویت کند

تناسب بیش از حد زمانی اتفاق می‌افتد که یک مدل در نهایت داده‌های آموزشی را خیلی خوب یاد می‌گیرد، به این معنا که نویز و موارد استثنا در داده‌ها را یاد می‌گیرد و با داده‌های جدیدی که اضافه می‌شود سازگار نمی‌شود.

این ممکن است زمانی اتفاق بیفتد که داده‌های آموزشی خیلی کوچک باشد، حاوی اطلاعات نامربوط باشد یا مدل برای مدت طولانی در یک مجموعه نمونه واحد آموزش ببیند.

HumanEval و GSM-8K، به ترتیب برای آزمایش تولید کد و استدلال حسابی استفاده می‌شوند.

بهبودهایی نسبت به Llama 2

متا در یک پست وبلاگ گفت که پیشرفت های زیادی در Llama 3 ایجاد کرده است، از جمله انتخاب یک معماری ترانسفورماتور فقط رمزگشا استاندارد.

شرکت گفت: “Llama 3 از یک توکنایزر با واژگانی از ۱۲۸ هزار توکن استفاده می کند که زبان را بسیار کارآمدتر رمزگذاری می کند، که منجر به بهبود قابل ملاحظه عملکرد مدل می شود.”

به منظور بهبود کارایی استنتاج مدل‌های Llama 3، این شرکت گفت که توجه به پرسش گروهی (GQA) را در هر دو اندازه ۸B و ۷۰B اتخاذ کرده است.

«ما مدل‌ها را روی دنباله‌هایی از ۸۱۹۲ توکن آموزش دادیم، با استفاده از یک ماسک برای اطمینان از اینکه توجه به خود انجام می‌دهد. از مرزهای سند عبور نکنید،» اضافه شد.

بهبودهای دیگر شامل مجموعه داده آموزشی Llama 3 است که شرکت ادعا می کند هفت برابر بزرگتر از آنچه برای آموزش Llama 2 استفاده می شود. شرکت گفت.

به منظور اطمینان از اینکه Llama 3 بر روی داده‌های باکیفیت آموزش دیده است، این شرکت مجموعه‌ای از خطوط لوله فیلترینگ داده را توسعه داد که شامل استفاده از فیلترهای اکتشافی، فیلترهای NSFW، تکثیر معنایی رویکردها و طبقه‌بندی‌کننده‌های متن.

شرکت گفت: «ما دریافتیم که نسل‌های قبلی Llama به طرز شگفت‌آوری در شناسایی داده‌های با کیفیت بالا خوب هستند، بنابراین از Llama 2 برای تولید داده‌های آموزشی برای طبقه‌بندی‌کننده‌های کیفیت متنی که Llama 3 را تامین می‌کنند، استفاده کردیم.

به‌منظور کاهش ۹۵ درصدی زمان تمرین در مقایسه با Llama 2، متا ادعا می‌کند که از یک پشته آموزشی پیشرفته استفاده کرده است که تشخیص خطا، مدیریت و نگهداری را خودکار می‌کند.

3 نقطه ضعف هوش مصنوعی مولد برای عملیات ابری

این شرکت گفت: «ما همچنین قابلیت اطمینان سخت‌افزاری و مکانیسم‌های شناسایی برای خرابی داده‌های بی‌صدا را بسیار بهبود بخشیده‌ایم، و سیستم‌های ذخیره‌سازی مقیاس‌پذیر جدیدی را توسعه داده‌ایم که هزینه‌های بازرسی و برگشت را کاهش می‌دهد.

دوره‌های آموزشی برای Llama 3 بر روی دو مورد سفارشی اجرا شد گروه گرافیکی ۲۴K.

چه چیز دیگری با Llama 3 بدست می آورید؟

به عنوان بخشی از انتشار دو نوع Llama 3، متا گفت که در حال معرفی ابزارهای اعتماد و ایمنی جدیدی است، مانند Llama Guard 2، Code Shield و CyberSec Eval 2.

در حالی که Llama Guard 2 یک مدل حفاظتی است که توسعه دهندگان می توانند از آن به عنوان یک لایه اضافی برای کاهش احتمال تولید خروجی هایی که با دستورالعمل های مورد نظر آنها مطابقت ندارد استفاده کنند، Code Shield ابزاری است که توسعه دهندگان را هدف قرار می دهد تا به کاهش آن کمک کند. احتمال ایجاد کد بالقوه ناامن.

از سوی دیگر، CyberSecEval، که برای کمک به توسعه دهندگان در ارزیابی خطرات امنیت سایبری با کدهای تولید شده توسط LLM طراحی شده است، با قابلیت جدیدی به روز شده است.

“Cybersec Eval 2 در نسخه قبلی خود گسترش می یابد. این شرکت گفت: با اندازه‌گیری حساسیت LLM به تزریق سریع، قابلیت‌های تهاجمی خودکار امنیت سایبری و تمایل به سوء استفاده از مفسر کد، علاوه بر ارزیابی‌های موجود برای شیوه‌های کدگذاری ناامن.

این شرکت به منظور نمایش قدرت LLM های جدید خود، دستیار هوش مصنوعی جدیدی نیز منتشر کرده است. ، که زیربنای مدل های جدید است، که از طریق پلتفرم های Facebook، Instagram و WhatsApp قابل دسترسی است. یک صفحه وب جداگانه برای کمک به کاربران برای دسترسی به دستیار طراحی شده است.

این شرکت در حال حاضر روی انواع Llama 3 کار می کند که دارای بیش از ۴۰۰ میلیارد پارامتر هستند. متا گفت که این گونه ها را در ماه های آینده با تکمیل آموزش موثر آنها منتشر خواهد کرد.

Tags: مولد-ai

ادعای عملکرد بهتر نسبت به سایر مدل ها

بهبودهایی نسبت به Llama 2

چه چیز دیگری با Llama 3 بدست می آورید؟

پست های مرتبط

تسلط متا چشم LLM با مدل های جدید Llama 3

تسلط متا چشم LLM با مدل های جدید Llama 3

تسلط متا چشم LLM با مدل های جدید Llama 3

شاید به این مطالب علاقمند باشید

تسلط متا چشم LLM با مدل های جدید Llama 3

تسلط متا چشم LLM با مدل های جدید Llama 3

تسلط متا چشم LLM با مدل های جدید Llama 3

تسلط متا چشم LLM با مدل های جدید Llama 3