۳۰ آذر ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

مایکروسافت از خانواده مدل های زبان کوچک Phi-3 رونمایی کرد

به گفته محققان مایکروسافت، Phi-3 Mini با 3.8 میلیارد پارامتر به اندازه کافی کوچک است که بتواند روی پلتفرم های موبایل اجرا شود و با عملکرد مدل هایی مانند GPT-3.5 رقابت کند.

به گفته محققان مایکروسافت، Phi-3 Mini با ۳.۸ میلیارد پارامتر به اندازه کافی کوچک است که بتواند روی پلتفرم های موبایل اجرا شود و با عملکرد مدل هایی مانند GPT-3.5 رقابت کند.

مایکروسافت خانواده جدیدی از مدل‌های زبان کوچک (SLM) را به عنوان بخشی از برنامه خود برای در دسترس قرار دادن فناوری هوش مصنوعی مولد سبک وزن و با کارایی بالا در پلتفرم‌های بیشتری از جمله دستگاه‌های تلفن همراه معرفی کرده است. p>

این شرکت پلتفرم Phi-3 را در سه مدل رونمایی کرد: ۳.۸ میلیارد پارامتر Phi- 3 Mini، Phi-3 Small با ۷ میلیارد پارامتر و Phi-3 Medium با ۱۴ میلیارد پارامتر. این مدل ها شامل تکرار بعدی خط تولید SLM مایکروسافت است که با انتشار Phi-1 و سپس Phi-2 در جانشینی سریع در دسامبر گذشته.

مایکروسافت در آن زمان گفت

Phi-3 مایکروسافت بر پایه Phi-2 ساخته شده است که می تواند ۲.۷ میلیارد پارامتر را درک کند و در عین حال بهتر از مدل های زبان بزرگ (LLM) تا ۲۵ برابر بزرگتر عمل کند. پارامترها به تعداد دستورالعمل های پیچیده ای که یک مدل زبان می تواند بفهمد اشاره دارد. به عنوان مثال، مدل زبان بزرگ OpenAI GPT-4 به طور بالقوه بیش از ۱.۷ تریلیون پارامتر را درک می کند. مایکروسافت یک سهامدار عمده و شریک OpenAI است و از ChatGPT به عنوان مبنای دستیار هوش مصنوعی مولد Copilot.

هوش مصنوعی مولد همراه می شود

Phi-3 Mini در حال حاضر در دسترس است و سایرین باید دنبال شوند. محققان مایکروسافت در گزارش فنی درباره Phi-3 به صورت آنلاین منتشر شد.

خودکارسازی CI/CD با GitHub Actions

در واقع، محققان مایکروسافت قبلاً مدل Quantized Phi-3 Mini را با استقرار آن بر روی iPhone 14 با تراشه A16 Bionic که به صورت بومی اجرا می‌شود، با موفقیت آزمایش کردند. محققان مایکروسافت گفتند، حتی در این اندازه کوچک، این مدل به عملکرد کلی دست یافت، همانطور که با معیارهای آکادمیک و آزمایش های داخلی اندازه گیری شد، که رقیب مدل هایی مانند Mixtral 8x7B و GPT-3.5 است.

Phi-3 روی ترکیبی از داده‌های وب «به شدت فیلتر شده» از منابع مختلف اینترنت باز و همچنین داده‌های مصنوعی تولید شده توسط LLM آموزش دیده است. مایکروسافت پیش‌آموزش را در دو مرحله انجام داد که یکی از آنها عمدتاً از منابع وب با هدف آموزش دانش عمومی و درک زبان مدل تشکیل شده بود. به گفته محققان، فاز دوم داده‌های وب بسیار فیلتر شده را با برخی از داده‌های مصنوعی ادغام کرد تا به مدل استدلال منطقی و مهارت‌های تخصصی مختلف آموزش دهد.

معامله “بزرگتر بهتر است” برای “کمتر بیشتر است”

صدها میلیارد و حتی تریلیون‌ها پارامتری که LLMها برای تولید نتایج باید بدانند، با هزینه همراه هستند و این هزینه قدرت محاسباتی است. سازندگان تراشه تلاش می‌کنند تا پردازنده‌هایی را برای هوش مصنوعی مولد ارائه کنند.

پس Phi-3 تجلی یک روند مداوم در توسعه هوش مصنوعی برای کنار گذاشتن ذهنیت “بزرگتر، بهتر” و در عوض جستجوی تخصص بیشتر در مجموعه داده های کوچکتر است که SLM ها بر اساس آنها آموزش دیده اند. مایکروسافت گفت: این مدل‌ها گزینه‌ای ارزان‌تر و محاسباتی کم‌تر را ارائه می‌کنند که همچنان می‌تواند عملکرد بالا و قابلیت‌های استدلالی را همتراز یا حتی بهتر از LLM‌ها ارائه دهد.

نحوه استفاده از BufferedStream و MemoryStream در سی شارپ

ریتو جیوتی، معاون گروه خاطرنشان کرد: «مدل‌های زبان کوچک برای انجام وظایف ساده‌تر طراحی شده‌اند، برای سازمان‌هایی با منابع محدود در دسترس‌تر و آسان‌تر برای استفاده هستند، و می‌توان آن‌ها را راحت‌تر برای رفع نیازهای خاص تنظیم کرد». رئیس جمهور، تحقیقات هوش مصنوعی و اتوماسیون در سراسر جهان برای IDC “به عبارت دیگر، آنها در مقرون به صرفه تری از LLM ها هستند.”

نارایانا پاپو، مدیر عامل شرکت

بسیاری از موسسات مالی، شرکت‌های تجارت الکترونیک و غیرانتفاعی‌ها در حال حاضر استفاده از مدل‌های کوچک‌تر را به دلیل شخصی‌سازی که می‌توانند ارائه کنند، مانند آموزش به‌طور خاص در مورد داده‌های یک مشتری، پذیرفته‌اند. a href=”https://www.zendata.dev/” rel=”nofollow”>Zendata، ارائه‌دهنده راه‌حل‌های امنیت داده و رعایت حریم خصوصی.

این مدل‌ها همچنین می‌توانند امنیت بیشتری را برای سازمان‌هایی که از آن‌ها استفاده می‌کنند فراهم کنند، زیرا SLM‌های تخصصی را می‌توان بدون رها کردن داده‌های حساس شرکت آموزش داد.

پاپو افزود:

از دیگر مزایای SLM برای کاربران تجاری می‌توان به احتمال کمتر توهم یا ارائه داده‌های نادرست و نیازهای کمتر برای داده‌ها و پیش پردازش اشاره کرد که به طور کلی ادغام آنها در گردش کار قدیمی سازمانی را آسان‌تر می‌کند.

ظهور SLM ها به این معنی نیست که LLM ها راه دایناسورها را خواهند رفت. جیوتی گفت، این فقط به معنای انتخاب بیشتر برای مشتریان است تا “در مورد بهترین مدل برای سناریوی خود تصمیم بگیرند.”

او افزود: «برخی از مشتریان ممکن است فقط به مدل‌های کوچک نیاز داشته باشند، برخی به مدل‌های بزرگ نیاز دارند، و بسیاری می‌خواهند هر دو را به روش‌های مختلف ترکیب کنند.

CheerpJ مبتنی بر Wasm جاوا را در مرورگرهای وب اجرا می کند

هنوز یک علم کامل نیست

مایکروسافت  در گزارش فنی خود اذعان کرد، در حالی که SLM دارای مزایای خاصی است، معایب خود را نیز دارد. محققان خاطرنشان کردند که Phi-3، مانند بسیاری از مدل‌های زبانی، همچنان با «چالش‌هایی در مورد عدم دقت واقعی (یا توهم)، بازتولید یا تقویت سوگیری‌ها، تولید محتوای نامناسب و مسائل ایمنی مواجه است.

و علیرغم عملکرد بالا، Phi-3 Mini به دلیل اندازه کوچکتر محدودیت هایی دارد. در این گزارش آمده است: «در حالی که Phi-3 Mini به سطحی مشابه از درک زبان و توانایی استدلال مانند مدل‌های بزرگ‌تر دست می‌یابد، هنوز اساساً به دلیل اندازه آن برای کارهای خاص محدود است.

برای مثال، Phi-3 Mini ظرفیت ذخیره مقادیر زیادی از “دانش واقعی” را ندارد. محققان خاطرنشان کردند، با این حال، این محدودیت را می توان با جفت کردن مدل با یک موتور جستجو افزایش داد. یکی دیگر از نقاط ضعف مربوط به ظرفیت مدل این است که محققان عمدتاً زبان را به انگلیسی محدود کرده‌اند، اگرچه انتظار دارند تکرارهای آینده شامل داده‌های چندزبانه بیشتری باشد.

با این حال، تحقیقات مایکروسافت خاطرنشان کردند که آنها به دقت داده‌های آموزشی را مدیریت کرده و در آزمایش شرکت کردند تا اطمینان حاصل کنند که آنها به طور قابل توجهی این مسائل را در همه ابعاد کاهش می‌دهند، و افزودند که «کار قابل توجهی در پیش است تا به طور کامل به این چالش‌ها رسیدگی شود». /p>