به گفته محققان مایکروسافت، Phi-3 Mini با ۳.۸ میلیارد پارامتر به اندازه کافی کوچک است که بتواند روی پلتفرم های موبایل اجرا شود و با عملکرد مدل هایی مانند GPT-3.5 رقابت کند.
مایکروسافت خانواده جدیدی از مدلهای زبان کوچک (SLM) را به عنوان بخشی از برنامه خود برای در دسترس قرار دادن فناوری هوش مصنوعی مولد سبک وزن و با کارایی بالا در پلتفرمهای بیشتری از جمله دستگاههای تلفن همراه معرفی کرده است. p>
این شرکت پلتفرم Phi-3 را در سه مدل رونمایی کرد: ۳.۸ میلیارد پارامتر Phi- 3 Mini، Phi-3 Small با ۷ میلیارد پارامتر و Phi-3 Medium با ۱۴ میلیارد پارامتر. این مدل ها شامل تکرار بعدی خط تولید SLM مایکروسافت است که با انتشار Phi-1 و سپس Phi-2 در جانشینی سریع در دسامبر گذشته.
مایکروسافت در آن زمان گفت
Phi-3 مایکروسافت بر پایه Phi-2 ساخته شده است که می تواند ۲.۷ میلیارد پارامتر را درک کند و در عین حال بهتر از مدل های زبان بزرگ (LLM) تا ۲۵ برابر بزرگتر عمل کند. پارامترها به تعداد دستورالعمل های پیچیده ای که یک مدل زبان می تواند بفهمد اشاره دارد. به عنوان مثال، مدل زبان بزرگ OpenAI GPT-4 به طور بالقوه بیش از ۱.۷ تریلیون پارامتر را درک می کند. مایکروسافت یک سهامدار عمده و شریک OpenAI است و از ChatGPT به عنوان مبنای دستیار هوش مصنوعی مولد Copilot.
هوش مصنوعی مولد همراه می شود
Phi-3 Mini در حال حاضر در دسترس است و سایرین باید دنبال شوند. محققان مایکروسافت در گزارش فنی درباره Phi-3 به صورت آنلاین منتشر شد.
در واقع، محققان مایکروسافت قبلاً مدل Quantized Phi-3 Mini را با استقرار آن بر روی iPhone 14 با تراشه A16 Bionic که به صورت بومی اجرا میشود، با موفقیت آزمایش کردند. محققان مایکروسافت گفتند، حتی در این اندازه کوچک، این مدل به عملکرد کلی دست یافت، همانطور که با معیارهای آکادمیک و آزمایش های داخلی اندازه گیری شد، که رقیب مدل هایی مانند Mixtral 8x7B و GPT-3.5 است.
Phi-3 روی ترکیبی از دادههای وب «به شدت فیلتر شده» از منابع مختلف اینترنت باز و همچنین دادههای مصنوعی تولید شده توسط LLM آموزش دیده است. مایکروسافت پیشآموزش را در دو مرحله انجام داد که یکی از آنها عمدتاً از منابع وب با هدف آموزش دانش عمومی و درک زبان مدل تشکیل شده بود. به گفته محققان، فاز دوم دادههای وب بسیار فیلتر شده را با برخی از دادههای مصنوعی ادغام کرد تا به مدل استدلال منطقی و مهارتهای تخصصی مختلف آموزش دهد.
معامله “بزرگتر بهتر است” برای “کمتر بیشتر است”
صدها میلیارد و حتی تریلیونها پارامتری که LLMها برای تولید نتایج باید بدانند، با هزینه همراه هستند و این هزینه قدرت محاسباتی است. سازندگان تراشه تلاش میکنند تا پردازندههایی را برای هوش مصنوعی مولد ارائه کنند.
پس Phi-3 تجلی یک روند مداوم در توسعه هوش مصنوعی برای کنار گذاشتن ذهنیت “بزرگتر، بهتر” و در عوض جستجوی تخصص بیشتر در مجموعه داده های کوچکتر است که SLM ها بر اساس آنها آموزش دیده اند. مایکروسافت گفت: این مدلها گزینهای ارزانتر و محاسباتی کمتر را ارائه میکنند که همچنان میتواند عملکرد بالا و قابلیتهای استدلالی را همتراز یا حتی بهتر از LLMها ارائه دهد.
ریتو جیوتی، معاون گروه خاطرنشان کرد: «مدلهای زبان کوچک برای انجام وظایف سادهتر طراحی شدهاند، برای سازمانهایی با منابع محدود در دسترستر و آسانتر برای استفاده هستند، و میتوان آنها را راحتتر برای رفع نیازهای خاص تنظیم کرد». رئیس جمهور، تحقیقات هوش مصنوعی و اتوماسیون در سراسر جهان برای IDC “به عبارت دیگر، آنها در مقرون به صرفه تری از LLM ها هستند.”
نارایانا پاپو، مدیر عامل شرکت
بسیاری از موسسات مالی، شرکتهای تجارت الکترونیک و غیرانتفاعیها در حال حاضر استفاده از مدلهای کوچکتر را به دلیل شخصیسازی که میتوانند ارائه کنند، مانند آموزش بهطور خاص در مورد دادههای یک مشتری، پذیرفتهاند. a href=”https://www.zendata.dev/” rel=”nofollow”>Zendata، ارائهدهنده راهحلهای امنیت داده و رعایت حریم خصوصی.
این مدلها همچنین میتوانند امنیت بیشتری را برای سازمانهایی که از آنها استفاده میکنند فراهم کنند، زیرا SLMهای تخصصی را میتوان بدون رها کردن دادههای حساس شرکت آموزش داد.
پاپو افزود:
از دیگر مزایای SLM برای کاربران تجاری میتوان به احتمال کمتر توهم یا ارائه دادههای نادرست و نیازهای کمتر برای دادهها و پیش پردازش اشاره کرد که به طور کلی ادغام آنها در گردش کار قدیمی سازمانی را آسانتر میکند.
ظهور SLM ها به این معنی نیست که LLM ها راه دایناسورها را خواهند رفت. جیوتی گفت، این فقط به معنای انتخاب بیشتر برای مشتریان است تا “در مورد بهترین مدل برای سناریوی خود تصمیم بگیرند.”
او افزود: «برخی از مشتریان ممکن است فقط به مدلهای کوچک نیاز داشته باشند، برخی به مدلهای بزرگ نیاز دارند، و بسیاری میخواهند هر دو را به روشهای مختلف ترکیب کنند.
هنوز یک علم کامل نیست
مایکروسافت در گزارش فنی خود اذعان کرد، در حالی که SLM دارای مزایای خاصی است، معایب خود را نیز دارد. محققان خاطرنشان کردند که Phi-3، مانند بسیاری از مدلهای زبانی، همچنان با «چالشهایی در مورد عدم دقت واقعی (یا توهم)، بازتولید یا تقویت سوگیریها، تولید محتوای نامناسب و مسائل ایمنی مواجه است.
و علیرغم عملکرد بالا، Phi-3 Mini به دلیل اندازه کوچکتر محدودیت هایی دارد. در این گزارش آمده است: «در حالی که Phi-3 Mini به سطحی مشابه از درک زبان و توانایی استدلال مانند مدلهای بزرگتر دست مییابد، هنوز اساساً به دلیل اندازه آن برای کارهای خاص محدود است.
برای مثال، Phi-3 Mini ظرفیت ذخیره مقادیر زیادی از “دانش واقعی” را ندارد. محققان خاطرنشان کردند، با این حال، این محدودیت را می توان با جفت کردن مدل با یک موتور جستجو افزایش داد. یکی دیگر از نقاط ضعف مربوط به ظرفیت مدل این است که محققان عمدتاً زبان را به انگلیسی محدود کردهاند، اگرچه انتظار دارند تکرارهای آینده شامل دادههای چندزبانه بیشتری باشد.
با این حال، تحقیقات مایکروسافت خاطرنشان کردند که آنها به دقت دادههای آموزشی را مدیریت کرده و در آزمایش شرکت کردند تا اطمینان حاصل کنند که آنها به طور قابل توجهی این مسائل را در همه ابعاد کاهش میدهند، و افزودند که «کار قابل توجهی در پیش است تا به طور کامل به این چالشها رسیدگی شود». /p>
پست های مرتبط
مایکروسافت از خانواده مدل های زبان کوچک Phi-3 رونمایی کرد
مایکروسافت از خانواده مدل های زبان کوچک Phi-3 رونمایی کرد
مایکروسافت از خانواده مدل های زبان کوچک Phi-3 رونمایی کرد