۲۹ مهر ۱۴۰۴

Techboy

اخبار و اطلاعات روز تکنولوژی

مدل هوش مصنوعی Phi-4-مولتی‌مدال مایکروسافت گفتار، متن و ویدیو را مدیریت می‌کند

مدل زبانی کوچک جدید می‌تواند به توسعه‌دهندگان در ساخت برنامه‌های هوش مصنوعی چند‌مدلی برای دستگاه‌های محاسباتی سبک کمک کند، مایکروسافت می‌گوید.

مدل زبانی کوچک جدید می‌تواند به توسعه‌دهندگان در ساخت برنامه‌های هوش مصنوعی چند‌مدلی برای دستگاه‌های محاسباتی سبک کمک کند، مایکروسافت می‌گوید.

مایکروسافت یک مدل هوش مصنوعی جدید معرفی کرده است که، به گفته خود، می‌تواند گفتار، تصویر و متن را به‌صورت محلی روی دستگاه پردازش کند و با استفاده از ظرفیت محاسباتی کمتری نسبت به مدل‌های قبلی عمل کند.

نوآوری در هوش مصنوعی مولد صرفاً دربارهٔ مدل‌های زبان بزرگ (LLM) که در مراکز دادهٔ عظیم اجرا می‌شوند نیست: کارهای زیادی نیز در زمینهٔ مدل‌های زبان کوچک (SLM) که می‌توانند بر روی دستگاه‌های با منابع محدود مانند تلفن‌های هوشمند، لپ‌تاپ‌ها و سایر دستگاه‌های محاسبات لبه‌ای اجرا شوند، در حال انجام است.

مشارکت مایکروسافت مجموعه‌ای از مدل‌های کوچک به نام Phi است که در آن نسل چهارم در دسامبر معرفی شد.

اکنون دو عضو جدید به خانواده Phi اضافه می‌کند: Phi-4-multimodal و Phi-4-mini. همانند خواهران و برادرانشان، این مدل‌ها از طریق Azure AI Foundry، Hugging Face و Nvidia API Catalog تحت مجوز MIT در دسترس خواهند بود.

Phi-4-multimodal یک مدل با ۵.۶ میلیارد پارامتر است که از تکنیک mixture-of-LoRAs برای پردازش همزمان گفتار، تصویر و زبان استفاده می‌کند. LoRAs یا Low-Rank Adaptations روشی برای بهبود عملکرد یک مدل زبان بزرگ برای وظایف خاص است بدون این که تمام پارامترهای آن به‌صورت جزئی تنظیم شوند. در عوض، با استفاده از LoRA، توسعه‌دهندگان مدل تعداد محدودی وزن جدید را به مدل اضافه می‌کنند و فقط این وزن‌ها آموزش داده می‌شوند، که فرآیند را سریع‌تر و حافظه‑کارآمدتر می‌کند و منجر به مدل‌های سبک‌تری می‌شود که ذخیره و به اشتراک‌گذاری آن‌ها آسان‌تر است.

این موضوع باعث می‌شود Phi-4-multimodal کارآمد باشد و توانایی استنتاج با تأخیر کم را داشته باشد، ضمن بهینه‌سازی اجرا بر روی دستگاه و کاهش بار محاسباتی.

برخی موارد استفاده شامل به‌کارگیری مدل به‌صورت محلی بر روی تلفن‌های هوشمند، در خودروها و اجرای برنامه‌های سبک سازمانی مانند یک برنامه خدمات مالی چندزبانه می‌باشد.

تحلیل‌گران گفتند Phi-4-multimodal افق‌های توسعه‌دهندگان را گسترش می‌دهد، به‌ویژه برای کسانی که به دنبال توسعه برنامه‌های مبتنی بر هوش مصنوعی برای دستگاه‌های موبایل یا دستگاه‌های با منابع محدود هستند.

چارلی دای، معاون و تحلیلگر اصلی در Forrester گفت: «Phi-4-multimodal پردازش متن، تصویر و صدا را با توانایی‌های استدلال قوی ترکیب می‌کند و برنامه‌های هوش مصنوعی را برای توسعه‌دهندگان و شرکت‌ها با راه‌حل‌های چندمنظوره، کارآمد و مقیاس‌پذیر ارتقا می‌دهد.»

یوگال جورشی، شریک گروه Everest گفت که گرچه این مدل می‌تواند در محیط‌های محدود به محاسبه مستقر شود، دستگاه‌های موبایل برای پیاده‌سازی بیشتر موارد استفاده هوش مصنوعی مولد ایده‌آل نیستند.

اما او این مدل‌های کوچک جدید را نشانه‌ای می‌داند که مایکروسافت از DeepSeek الهام گرفته است، که همچنین نیاز به زیرساخت‌های محاسباتی بزرگ مقیاس برای اجرای مدل‌های خود را کاهش می‌دهد.

در مقیاس‌های بنچمارک، Phi-4-multimodal نسبت به Gemini-2.0-Flash و GPT-4o-realtime-preview در وظایف پرسش و پاسخ گفتاری (QA) شکاف عملکردی دارد.

مایکروسافت اعلام کرد که اندازه کوچکتر مدل‌های Phi-4 منجر به ظرفیت کمتر برای حفظ دانش factual در پرسش‑و‑پاسخ می‌شود، اما کارهایی برای بهبود این قابلیت در نسخه‌های آینده انجام می‌شود.

در عین حال، Phi-4-mini از مدل‌های زبان بزرگ محبوب مانند Gemini-2.0-Flash Lite و Claude-3.5-Sonnet در استدلال ریاضی و علمی، همچنین تشخیص کاراکتر نوری (OCR) و استدلال علمی بصری پیشی می‌گیرد.

Phi-4-mini یک مدل با ۳.۸ میلیارد پارامتر است که بر پایهٔ یک تبدیل‌گر چگال فقط‑دیکودر ساخته شده و توالی‌های تا ۱۲۸,۰۰۰ توکن را پشتیبانی می‌کند.

ویژو چن، معاون هوش مصنوعی مولد در مایکروسافت نوشت: «با وجود اندازه فشردهٔ خود، این مدل همچنان در وظایف مبتنی بر متن مانند استدلال، ریاضیات، برنامه‌نویسی، دنبال‌کردن دستورالعمل‌ها و فراخوانی توابع، از مدل‌های بزرگتر پیشی می‌گیرد.» در پست وبلاگی که دو مدل جدید Phi-4 را توصیف می‌کند.

IBM نیز خانواده مدل‌های Granite را به‌روزرسانی می‌کند

به‌ طور جداگانه، IBM به‌روزرسانی‌ای برای خانوادهٔ مدل‌های پایهٔ Granite خود به شکل مدل‌های Granite 3.2 2B و 8B منتشر کرده است.

Big Blue اعلام کرد که مدل‌های جدید با قابلیت‌های بهبود یافتهٔ زنجیرهٔ تفکر برای استدلال پیشرفته عرضه می‌شوند که به مدل‌ها کمک می‌کند عملکرد بهتری نسبت به پیشینیان خود داشته باشند.

علاوه بر این، IBM یک مدل زبان‑دید جدید (VLM) برای وظایف درک سند منتشر کرده است که عملکردی نشان می‌دهد که با مدل‌های بسیار بزرگ‌تر مانند Llama 3.2 11B و Pixtral 12B هم‌سطح یا فراتر است؛ در بنچمارک‌هایی مانند DocVQA، ChartQA، AI2D و OCRBench1.