مایکروسافت از خانواده مدل های زبان کوچک Pi-3 رونمایی کرد

به گفته محققان مایکروسافت، Pi-3 Mini با ۳.۸ میلیارد پارامتر به اندازه کافی کوچک است که روی پلتفرم های موبایل اجرا شود و با عملکرد مدل هایی مانند GPT-3.5 رقابت می کند.

مایکروسافت خانواده جدیدی از مدل‌های زبان کوچک (SLM) را به عنوان بخشی از برنامه خود برای در دسترس قرار دادن فناوری هوش مصنوعی مولد سبک وزن و با کارایی بالا در پلتفرم‌های بیشتری از جمله دستگاه‌های تلفن همراه معرفی کرده است. p>

این شرکت پلتفرم Phi-3 را در سه مدل رونمایی کرد: ۳.۸ میلیارد پارامتر Phi- 3 Mini، Phi-3 Small با ۷ میلیارد پارامتر و Phi-3 Medium با ۱۴ میلیارد پارامتر. این مدل ها شامل تکرار بعدی خط تولید SLM مایکروسافت است که با انتشار Phi-1 و سپس Phi-2 در جانشینی سریع در دسامبر گذشته.

مایکروسافت در آن زمان گفت

Phi-3 مایکروسافت بر پایه Phi-2 ساخته شده است که می تواند ۲.۷ میلیارد پارامتر را درک کند و در عین حال بهتر از مدل های زبان بزرگ (LLM) تا ۲۵ برابر بزرگتر عمل کند. پارامترها به تعداد دستورالعمل های پیچیده ای که یک مدل زبان می تواند بفهمد اشاره دارد. به عنوان مثال، مدل زبان بزرگ OpenAI GPT-4 به طور بالقوه بیش از ۱.۷ تریلیون پارامتر را درک می کند. مایکروسافت یک سهامدار عمده و شریک OpenAI است و از ChatGPT به عنوان مبنای دستیار هوش مصنوعی مولد Copilot.

هوش مصنوعی مولد همراه می شود

Phi-3 Mini در حال حاضر در دسترس است و سایرین باید دنبال شوند. محققان مایکروسافت در گزارش فنی درباره Phi-3 به صورت آنلاین منتشر شد.

از DirectML برای آموزش مدل های یادگیری ماشین PyTorch در رایانه شخصی استفاده کنید

در واقع، محققان مایکروسافت قبلاً مدل Quantized Phi-3 Mini را با استقرار آن بر روی iPhone 14 با تراشه A16 Bionic که به صورت بومی اجرا می‌شود، با موفقیت آزمایش کردند. محققان مایکروسافت گفتند، حتی در این اندازه کوچک، این مدل به عملکرد کلی دست یافت، همانطور که با معیارهای آکادمیک و آزمایش های داخلی اندازه گیری شد، که رقیب مدل هایی مانند Mixtral 8x7B و GPT-3.5 است.

Pi-3 روی ترکیبی از داده‌های وب «به شدت فیلتر شده» از منابع مختلف اینترنت باز و همچنین داده‌های مصنوعی تولید شده توسط LLM آموزش دیده است. مایکروسافت پیش‌آموزش را در دو مرحله انجام داد که یکی از آنها عمدتاً از منابع وب با هدف آموزش دانش عمومی و درک زبان مدل تشکیل شده بود. به گفته محققان، فاز دوم داده‌های وب بسیار فیلتر شده را با برخی از داده‌های مصنوعی ادغام کرد تا به مدل استدلال منطقی و مهارت‌های تخصصی مختلف آموزش دهد.

معامله “بزرگتر بهتر است” برای “کمتر بیشتر است”

صدها میلیارد و حتی تریلیون‌ها پارامتری که LLMها برای تولید نتایج باید بدانند، با هزینه همراه هستند و این هزینه قدرت محاسباتی است. سازندگان تراشه تلاش می‌کنند تا پردازنده‌هایی را برای هوش مصنوعی مولد ارائه کنند.

پس Phi-3 تجلی یک روند مداوم در توسعه هوش مصنوعی برای کنار گذاشتن ذهنیت “بزرگتر، بهتر” و در عوض جستجوی تخصص بیشتر در مجموعه داده های کوچکتر است که SLM ها بر اساس آنها آموزش دیده اند. مایکروسافت گفت: این مدل‌ها گزینه‌ای ارزان‌تر و محاسباتی کم‌تر را ارائه می‌کنند که همچنان می‌تواند عملکرد بالا و قابلیت‌های استدلالی را همتراز یا حتی بهتر از LLM‌ها ارائه دهد.

اتحاد هوش مصنوعی به رهبری IBM و Meta برای ارتقای استانداردهای باز و مقابله با AWS، مایکروسافت و Nvidia

نارایانا پاپو، مدیر عامل شرکت

بسیاری از موسسات مالی، شرکت‌های تجارت الکترونیک و غیرانتفاعی‌ها در حال حاضر استفاده از مدل‌های کوچک‌تر را به دلیل شخصی‌سازی که می‌توانند ارائه کنند، مانند آموزش به‌طور خاص در مورد داده‌های یک مشتری، پذیرفته‌اند. a href=”https://www.zendata.dev/” rel=”nofollow”>Zendata، ارائه‌دهنده راه‌حل‌های امنیت داده و رعایت حریم خصوصی.

این مدل‌ها همچنین می‌توانند امنیت بیشتری را برای سازمان‌هایی که از آن‌ها استفاده می‌کنند فراهم کنند، زیرا SLM‌های تخصصی را می‌توان بدون صرف نظر از داده‌های حساس شرکت آموزش داد. او خاطرنشان کرد، علاوه بر این، از آنجایی که مجموعه داده های آنها کوچکتر است، SLM ها احتمال دقیق بودن داده های تحویل شده توسط مدل ها را افزایش می دهند.

پاپو می‌گوید: «۹۰ درصد داده‌های تولید شده پشت دیوار آتش یک شرکت است و آن را اختصاصی می‌کند، و بیشتر شرکت‌ها داده و/یا منابع کافی برای آموزش یک مدل زبان بزرگ ندارند». “مدل های زبان های کوچک این داده ها را برای هوش مصنوعی باز می کنند.”

پاپو افزود:

از دیگر مزایای SLM برای کاربران تجاری می‌توان به احتمال کمتر توهم یا ارائه داده‌های نادرست و نیازهای کمتر برای داده‌ها و پیش پردازش اشاره کرد که به طور کلی ادغام آنها در گردش کار قدیمی سازمانی را آسان‌تر می‌کند.

شروع کار با Azure Automation

هنوز یک علم کامل نیست

این بدان معنا نیست که SLM ها کامل یا حتی به طور کلی بهتر از LLM هستند – حداقل هنوز، محققان مایکروسافت در گزارش فنی خود اذعان کردند. آنها خاطرنشان کردند که Phi-3، مانند بسیاری از مدل‌های زبان، همچنان با “چالش‌هایی پیرامون عدم دقت واقعی (یا توهم)، بازتولید یا تقویت سوگیری‌ها، تولید محتوای نامناسب، و مسائل ایمنی مواجه است.

و علیرغم عملکرد بالا، Phi-3 Mini به دلیل اندازه کوچکتر محدودیت هایی دارد. در این گزارش آمده است: «در حالی که Phi-3 Mini به سطحی مشابه از درک زبان و توانایی استدلال مانند مدل‌های بزرگ‌تر دست می‌یابد، هنوز اساساً به دلیل اندازه آن برای کارهای خاص محدود است.

برای مثال، Phi-3 Mini ظرفیت ذخیره مقادیر زیادی از “دانش واقعی” را ندارد. محققان خاطرنشان کردند، با این حال، این محدودیت را می توان با جفت کردن مدل با یک موتور جستجو افزایش داد. یکی دیگر از نقاط ضعف مربوط به ظرفیت مدل این است که محققان عمدتاً زبان را به انگلیسی محدود کرده‌اند، اگرچه انتظار دارند تکرارهای آینده شامل داده‌های چندزبانه بیشتری باشد.

با این حال، تحقیقات مایکروسافت خاطرنشان کردند که آنها به دقت داده‌های آموزشی را مدیریت کرده و در آزمایش شرکت کردند تا اطمینان حاصل کنند که آنها به طور قابل توجهی این مسائل را در همه ابعاد کاهش می‌دهند، و افزودند که «کار قابل توجهی در پیش است تا به طور کامل به این چالش‌ها رسیدگی شود». /p>

Tags: برنامه - توسعه مولد-ai هوش مصنوعی

هوش مصنوعی مولد همراه می شود

معامله “بزرگتر بهتر است” برای “کمتر بیشتر است”

هنوز یک علم کامل نیست

پست های مرتبط

مایکروسافت از خانواده مدل های زبان کوچک Pi-3 رونمایی کرد

مایکروسافت از خانواده مدل های زبان کوچک Pi-3 رونمایی کرد

مایکروسافت از خانواده مدل های زبان کوچک Pi-3 رونمایی کرد

شاید به این مطالب علاقمند باشید

مایکروسافت از خانواده مدل های زبان کوچک Pi-3 رونمایی کرد

مایکروسافت از خانواده مدل های زبان کوچک Pi-3 رونمایی کرد

مایکروسافت از خانواده مدل های زبان کوچک Pi-3 رونمایی کرد

مایکروسافت از خانواده مدل های زبان کوچک Pi-3 رونمایی کرد