مدل زبانی کوچک جدید میتواند به توسعهدهندگان در ساخت برنامههای هوش مصنوعی چندمدلی برای دستگاههای محاسباتی سبک کمک کند، مایکروسافت میگوید.
مایکروسافت یک مدل هوش مصنوعی جدید معرفی کرده است که، به گفته خود، میتواند گفتار، تصویر و متن را بهصورت محلی روی دستگاه پردازش کند و با استفاده از ظرفیت محاسباتی کمتری نسبت به مدلهای قبلی عمل کند.
نوآوری در هوش مصنوعی مولد صرفاً دربارهٔ مدلهای زبان بزرگ (LLM) که در مراکز دادهٔ عظیم اجرا میشوند نیست: کارهای زیادی نیز در زمینهٔ مدلهای زبان کوچک (SLM) که میتوانند بر روی دستگاههای با منابع محدود مانند تلفنهای هوشمند، لپتاپها و سایر دستگاههای محاسبات لبهای اجرا شوند، در حال انجام است.
مشارکت مایکروسافت مجموعهای از مدلهای کوچک به نام Phi است که در آن نسل چهارم در دسامبر معرفی شد.
اکنون دو عضو جدید به خانواده Phi اضافه میکند: Phi-4-multimodal و Phi-4-mini. همانند خواهران و برادرانشان، این مدلها از طریق Azure AI Foundry، Hugging Face و Nvidia API Catalog تحت مجوز MIT در دسترس خواهند بود.
Phi-4-multimodal یک مدل با ۵.۶ میلیارد پارامتر است که از تکنیک mixture-of-LoRAs برای پردازش همزمان گفتار، تصویر و زبان استفاده میکند. LoRAs یا Low-Rank Adaptations روشی برای بهبود عملکرد یک مدل زبان بزرگ برای وظایف خاص است بدون این که تمام پارامترهای آن بهصورت جزئی تنظیم شوند. در عوض، با استفاده از LoRA، توسعهدهندگان مدل تعداد محدودی وزن جدید را به مدل اضافه میکنند و فقط این وزنها آموزش داده میشوند، که فرآیند را سریعتر و حافظه‑کارآمدتر میکند و منجر به مدلهای سبکتری میشود که ذخیره و به اشتراکگذاری آنها آسانتر است.
این موضوع باعث میشود Phi-4-multimodal کارآمد باشد و توانایی استنتاج با تأخیر کم را داشته باشد، ضمن بهینهسازی اجرا بر روی دستگاه و کاهش بار محاسباتی.
برخی موارد استفاده شامل بهکارگیری مدل بهصورت محلی بر روی تلفنهای هوشمند، در خودروها و اجرای برنامههای سبک سازمانی مانند یک برنامه خدمات مالی چندزبانه میباشد.
تحلیلگران گفتند Phi-4-multimodal افقهای توسعهدهندگان را گسترش میدهد، بهویژه برای کسانی که به دنبال توسعه برنامههای مبتنی بر هوش مصنوعی برای دستگاههای موبایل یا دستگاههای با منابع محدود هستند.
چارلی دای، معاون و تحلیلگر اصلی در Forrester گفت: «Phi-4-multimodal پردازش متن، تصویر و صدا را با تواناییهای استدلال قوی ترکیب میکند و برنامههای هوش مصنوعی را برای توسعهدهندگان و شرکتها با راهحلهای چندمنظوره، کارآمد و مقیاسپذیر ارتقا میدهد.»
یوگال جورشی، شریک گروه Everest گفت که گرچه این مدل میتواند در محیطهای محدود به محاسبه مستقر شود، دستگاههای موبایل برای پیادهسازی بیشتر موارد استفاده هوش مصنوعی مولد ایدهآل نیستند.
اما او این مدلهای کوچک جدید را نشانهای میداند که مایکروسافت از DeepSeek الهام گرفته است، که همچنین نیاز به زیرساختهای محاسباتی بزرگ مقیاس برای اجرای مدلهای خود را کاهش میدهد.
در مقیاسهای بنچمارک، Phi-4-multimodal نسبت به Gemini-2.0-Flash و GPT-4o-realtime-preview در وظایف پرسش و پاسخ گفتاری (QA) شکاف عملکردی دارد.
مایکروسافت اعلام کرد که اندازه کوچکتر مدلهای Phi-4 منجر به ظرفیت کمتر برای حفظ دانش factual در پرسش‑و‑پاسخ میشود، اما کارهایی برای بهبود این قابلیت در نسخههای آینده انجام میشود.
در عین حال، Phi-4-mini از مدلهای زبان بزرگ محبوب مانند Gemini-2.0-Flash Lite و Claude-3.5-Sonnet در استدلال ریاضی و علمی، همچنین تشخیص کاراکتر نوری (OCR) و استدلال علمی بصری پیشی میگیرد.
Phi-4-mini یک مدل با ۳.۸ میلیارد پارامتر است که بر پایهٔ یک تبدیلگر چگال فقط‑دیکودر ساخته شده و توالیهای تا ۱۲۸,۰۰۰ توکن را پشتیبانی میکند.
ویژو چن، معاون هوش مصنوعی مولد در مایکروسافت نوشت: «با وجود اندازه فشردهٔ خود، این مدل همچنان در وظایف مبتنی بر متن مانند استدلال، ریاضیات، برنامهنویسی، دنبالکردن دستورالعملها و فراخوانی توابع، از مدلهای بزرگتر پیشی میگیرد.» در پست وبلاگی که دو مدل جدید Phi-4 را توصیف میکند.
IBM نیز خانواده مدلهای Granite را بهروزرسانی میکند
به طور جداگانه، IBM بهروزرسانیای برای خانوادهٔ مدلهای پایهٔ Granite خود به شکل مدلهای Granite 3.2 2B و 8B منتشر کرده است.
Big Blue اعلام کرد که مدلهای جدید با قابلیتهای بهبود یافتهٔ زنجیرهٔ تفکر برای استدلال پیشرفته عرضه میشوند که به مدلها کمک میکند عملکرد بهتری نسبت به پیشینیان خود داشته باشند.
علاوه بر این، IBM یک مدل زبان‑دید جدید (VLM) برای وظایف درک سند منتشر کرده است که عملکردی نشان میدهد که با مدلهای بسیار بزرگتر مانند Llama 3.2 11B و Pixtral 12B همسطح یا فراتر است؛ در بنچمارکهایی مانند DocVQA، ChartQA، AI2D و OCRBench1.
پست های مرتبط
مدل هوش مصنوعی Phi-4-مولتیمدال مایکروسافت گفتار، متن و ویدیو را مدیریت میکند
مدل هوش مصنوعی Phi-4-مولتیمدال مایکروسافت گفتار، متن و ویدیو را مدیریت میکند
مدل هوش مصنوعی Phi-4-مولتیمدال مایکروسافت گفتار، متن و ویدیو را مدیریت میکند