به گفته محققان مایکروسافت، Pi-3 Mini با ۳.۸ میلیارد پارامتر به اندازه کافی کوچک است که روی پلتفرم های موبایل اجرا شود و با عملکرد مدل هایی مانند GPT-3.5 رقابت می کند.
مایکروسافت خانواده جدیدی از مدلهای زبان کوچک (SLM) را به عنوان بخشی از برنامه خود برای در دسترس قرار دادن فناوری هوش مصنوعی مولد سبک وزن و با کارایی بالا در پلتفرمهای بیشتری از جمله دستگاههای تلفن همراه معرفی کرده است. p>
این شرکت پلتفرم Phi-3 را در سه مدل رونمایی کرد: ۳.۸ میلیارد پارامتر Phi- 3 Mini، Phi-3 Small با ۷ میلیارد پارامتر و Phi-3 Medium با ۱۴ میلیارد پارامتر. این مدل ها شامل تکرار بعدی خط تولید SLM مایکروسافت است که با انتشار Phi-1 و سپس Phi-2 در جانشینی سریع در دسامبر گذشته.
مایکروسافت در آن زمان گفت
Phi-3 مایکروسافت بر پایه Phi-2 ساخته شده است که می تواند ۲.۷ میلیارد پارامتر را درک کند و در عین حال بهتر از مدل های زبان بزرگ (LLM) تا ۲۵ برابر بزرگتر عمل کند. پارامترها به تعداد دستورالعمل های پیچیده ای که یک مدل زبان می تواند بفهمد اشاره دارد. به عنوان مثال، مدل زبان بزرگ OpenAI GPT-4 به طور بالقوه بیش از ۱.۷ تریلیون پارامتر را درک می کند. مایکروسافت یک سهامدار عمده و شریک OpenAI است و از ChatGPT به عنوان مبنای دستیار هوش مصنوعی مولد Copilot.
هوش مصنوعی مولد همراه می شود
Phi-3 Mini در حال حاضر در دسترس است و سایرین باید دنبال شوند. محققان مایکروسافت در گزارش فنی درباره Phi-3 به صورت آنلاین منتشر شد.
در واقع، محققان مایکروسافت قبلاً مدل Quantized Phi-3 Mini را با استقرار آن بر روی iPhone 14 با تراشه A16 Bionic که به صورت بومی اجرا میشود، با موفقیت آزمایش کردند. محققان مایکروسافت گفتند، حتی در این اندازه کوچک، این مدل به عملکرد کلی دست یافت، همانطور که با معیارهای آکادمیک و آزمایش های داخلی اندازه گیری شد، که رقیب مدل هایی مانند Mixtral 8x7B و GPT-3.5 است.
Pi-3 روی ترکیبی از دادههای وب «به شدت فیلتر شده» از منابع مختلف اینترنت باز و همچنین دادههای مصنوعی تولید شده توسط LLM آموزش دیده است. مایکروسافت پیشآموزش را در دو مرحله انجام داد که یکی از آنها عمدتاً از منابع وب با هدف آموزش دانش عمومی و درک زبان مدل تشکیل شده بود. به گفته محققان، فاز دوم دادههای وب بسیار فیلتر شده را با برخی از دادههای مصنوعی ادغام کرد تا به مدل استدلال منطقی و مهارتهای تخصصی مختلف آموزش دهد.
معامله “بزرگتر بهتر است” برای “کمتر بیشتر است”
صدها میلیارد و حتی تریلیونها پارامتری که LLMها برای تولید نتایج باید بدانند، با هزینه همراه هستند و این هزینه قدرت محاسباتی است. سازندگان تراشه تلاش میکنند تا پردازندههایی را برای هوش مصنوعی مولد ارائه کنند.
پس Phi-3 تجلی یک روند مداوم در توسعه هوش مصنوعی برای کنار گذاشتن ذهنیت “بزرگتر، بهتر” و در عوض جستجوی تخصص بیشتر در مجموعه داده های کوچکتر است که SLM ها بر اساس آنها آموزش دیده اند. مایکروسافت گفت: این مدلها گزینهای ارزانتر و محاسباتی کمتر را ارائه میکنند که همچنان میتواند عملکرد بالا و قابلیتهای استدلالی را همتراز یا حتی بهتر از LLMها ارائه دهد.
نارایانا پاپو، مدیر عامل شرکت
بسیاری از موسسات مالی، شرکتهای تجارت الکترونیک و غیرانتفاعیها در حال حاضر استفاده از مدلهای کوچکتر را به دلیل شخصیسازی که میتوانند ارائه کنند، مانند آموزش بهطور خاص در مورد دادههای یک مشتری، پذیرفتهاند. a href=”https://www.zendata.dev/” rel=”nofollow”>Zendata، ارائهدهنده راهحلهای امنیت داده و رعایت حریم خصوصی.
این مدلها همچنین میتوانند امنیت بیشتری را برای سازمانهایی که از آنها استفاده میکنند فراهم کنند، زیرا SLMهای تخصصی را میتوان بدون صرف نظر از دادههای حساس شرکت آموزش داد. او خاطرنشان کرد، علاوه بر این، از آنجایی که مجموعه داده های آنها کوچکتر است، SLM ها احتمال دقیق بودن داده های تحویل شده توسط مدل ها را افزایش می دهند.
پاپو میگوید: «۹۰ درصد دادههای تولید شده پشت دیوار آتش یک شرکت است و آن را اختصاصی میکند، و بیشتر شرکتها داده و/یا منابع کافی برای آموزش یک مدل زبان بزرگ ندارند». “مدل های زبان های کوچک این داده ها را برای هوش مصنوعی باز می کنند.”
پاپو افزود:
از دیگر مزایای SLM برای کاربران تجاری میتوان به احتمال کمتر توهم یا ارائه دادههای نادرست و نیازهای کمتر برای دادهها و پیش پردازش اشاره کرد که به طور کلی ادغام آنها در گردش کار قدیمی سازمانی را آسانتر میکند.
هنوز یک علم کامل نیست
این بدان معنا نیست که SLM ها کامل یا حتی به طور کلی بهتر از LLM هستند – حداقل هنوز، محققان مایکروسافت در گزارش فنی خود اذعان کردند. آنها خاطرنشان کردند که Phi-3، مانند بسیاری از مدلهای زبان، همچنان با “چالشهایی پیرامون عدم دقت واقعی (یا توهم)، بازتولید یا تقویت سوگیریها، تولید محتوای نامناسب، و مسائل ایمنی مواجه است.
و علیرغم عملکرد بالا، Phi-3 Mini به دلیل اندازه کوچکتر محدودیت هایی دارد. در این گزارش آمده است: «در حالی که Phi-3 Mini به سطحی مشابه از درک زبان و توانایی استدلال مانند مدلهای بزرگتر دست مییابد، هنوز اساساً به دلیل اندازه آن برای کارهای خاص محدود است.
برای مثال، Phi-3 Mini ظرفیت ذخیره مقادیر زیادی از “دانش واقعی” را ندارد. محققان خاطرنشان کردند، با این حال، این محدودیت را می توان با جفت کردن مدل با یک موتور جستجو افزایش داد. یکی دیگر از نقاط ضعف مربوط به ظرفیت مدل این است که محققان عمدتاً زبان را به انگلیسی محدود کردهاند، اگرچه انتظار دارند تکرارهای آینده شامل دادههای چندزبانه بیشتری باشد.
با این حال، تحقیقات مایکروسافت خاطرنشان کردند که آنها به دقت دادههای آموزشی را مدیریت کرده و در آزمایش شرکت کردند تا اطمینان حاصل کنند که آنها به طور قابل توجهی این مسائل را در همه ابعاد کاهش میدهند، و افزودند که «کار قابل توجهی در پیش است تا به طور کامل به این چالشها رسیدگی شود». /p>
پست های مرتبط
مایکروسافت از خانواده مدل های زبان کوچک Pi-3 رونمایی کرد
مایکروسافت از خانواده مدل های زبان کوچک Pi-3 رونمایی کرد
مایکروسافت از خانواده مدل های زبان کوچک Pi-3 رونمایی کرد