۲۹ شهریور ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

در داخل مراکز داده ابری هوش مصنوعی Azure امروز

در بیلد، مایکروسافت توضیح داد که چگونه Azure امروز از حجم‌های کاری هوش مصنوعی بزرگ با شتاب‌دهنده استنتاج، اتصالات با پهنای باند بالا و ابزارهایی برای کارایی و قابلیت اطمینان پشتیبانی می‌کند.

در بیلد، مایکروسافت توضیح داد که چگونه Azure امروز از حجم‌های کاری هوش مصنوعی بزرگ با شتاب‌دهنده استنتاج، اتصالات با پهنای باند بالا و ابزارهایی برای کارایی و قابلیت اطمینان پشتیبانی می‌کند.

ارائه‌های سالانه زیرساخت‌های Azure Mark Russinovich، مدیر ارشد فناوری Azure در بیلد، همیشه جذاب هستند زیرا او گذشته، حال و آینده سخت‌افزاری را که زیربنای ابر است، بررسی می‌کند. سخنرانی امسال متفاوت نبود، تمرکز بر همان پلتفرم هوش مصنوعی که در بقیه رویداد تبلیغ شد.

در طول سال‌ها، واضح است که سخت‌افزار Azure به طور فزاینده‌ای پیچیده شده است. در ابتدا، این یک نمونه بارز از محاسبات ابزار بود که از یک طراحی سرور استاندارد استفاده می کرد. اکنون انواع مختلفی از سرور وجود دارد که قادر به پشتیبانی از تمام کلاس های بار کاری است. پردازنده‌های گرافیکی اضافه شدند و اکنون شتاب‌دهنده‌های هوش مصنوعی.

این آخرین نوآوری که در سال ۲۰۲۳ معرفی شد، نشان می‌دهد که زیرساخت‌های Azure تا چه اندازه در کنار بار کاری که میزبان آن است، تکامل یافته است. اولین اسلاید روسینوویچ نشان داد که مدل‌های هوش مصنوعی مدرن با چه سرعتی در حال رشد هستند، از ۱۱۰ میلیون پارامتر با GPT در سال ۲۰۱۸، به بیش از یک تریلیون در GPT-4o امروزی. این رشد منجر به توسعه ابررایانه‌های توزیع‌شده عظیم برای آموزش این مدل‌ها، همراه با سخت‌افزار و نرم‌افزار برای کارآمد و قابل اعتماد کردن آنها شده است.

ساخت ابررایانه هوش مصنوعی

مقیاس سیستم های مورد نیاز برای اجرای این پلتفرم های هوش مصنوعی بسیار زیاد است. اولین ابررایانه بزرگ آموزش هوش مصنوعی مایکروسافت در ماه می ۲۰۲۰ به تفصیل معرفی شد. این ابررایانه دارای ۱۰۰۰۰ پردازنده گرافیکی Nvidia V100 بود و در رتبه‌بندی جهانی ابررایانه‌ها در رتبه پنجم قرار داشت. تنها سه سال بعد، در نوامبر ۲۰۲۳، آخرین نسخه دارای ۱۴۴۰۰ پردازنده گرافیکی H100 بود و در رتبه سوم قرار گرفت.

در ژوئن ۲۰۲۴، مایکروسافت بیش از ۳۰ ابررایانه مشابه در مراکز داده در سراسر جهان دارد. روسینوویچ در مورد مدل متن باز Llama-3-70B صحبت کرد که برای آموزش آن به ۶.۴ میلیون ساعت GPU نیاز دارد. در یک GPU که ۷۳۰ سال طول می‌کشد، اما با یکی از ابررایانه‌های هوش مصنوعی مایکروسافت، یک دوره آموزشی تقریباً ۲۷ روز طول می‌کشد.

آموزش تنها بخشی از مشکل است. هنگامی که یک مدل ساخته شد، باید از آن استفاده شود، و اگرچه استنتاج برای آموزش به سطوح محاسباتی ابررایانه‌ای نیاز ندارد، اما همچنان به قدرت زیادی نیاز دارد. همانطور که روسینوویچ اشاره می کند، یک پارامتر ممیز شناور به دو بایت حافظه، یک مدل با یک میلیارد پارامتر به ۲ گیگابایت رم و یک مدل با پارامتر ۱۷۵ میلیارد به ۳۵۰ گیگابایت نیاز دارد. این قبل از اضافه کردن هر گونه سربار ضروری است، مانند حافظه پنهان، که می تواند بیش از ۴۰٪ به نیازهای حافظه از قبل سنگین اضافه کند.

ابزارهای ESG برای محاسبات ابری می توانند حواس پرتی را به همراه داشته باشند

همه اینها به این معنی است که Azure به تعداد زیادی GPUS با ویژگی های بسیار خاص نیاز دارد تا داده های زیادی را در سریع ترین زمان ممکن ارسال کند. مدل هایی مانند GPT-4 به مقدار قابل توجهی حافظه با پهنای باند بالا نیاز دارند. محاسبات و حافظه همگی به مقدار قابل توجهی نیرو نیاز دارند. یک پردازنده گرافیکی Nvidia H100 به ۷۰۰ وات نیاز دارد، و با هزاران کار در هر زمان، مراکز داده Azure باید گرمای زیادی را تخلیه کنند.

فرای آموزش، طراحی برای استنتاج

مایکروسافت شتاب‌دهنده استنتاج خود را به شکل سخت‌افزار Maia توسعه داده است، که پیشگام یک سیستم خنک‌کننده مستقیم مایع جدید است و شتاب‌دهنده‌های Maia را در یک سیستم خنک‌کننده حلقه بسته پوشش می‌دهد که نیاز به طراحی کاملاً جدید قفسه دارد. کابینت ثانویه که حاوی مبدل های حرارتی تجهیزات خنک کننده است.

طراحی مراکز داده برای آموزش به مایکروسافت نشان داده است که چگونه استنتاج را فراهم کند. تمرین به سرعت تا ۱۰۰٪ افزایش می یابد و در طول مدت دویدن در آنجا باقی می ماند. با استفاده از مانیتورینگ توان یکسان در یک قفسه استنباط، می‌توان مشاهده کرد که چگونه مصرف انرژی در نقاط مختلف یک عملیات استنتاج متفاوت است.

پروژه Azure’s POLCA قصد دارد از این اطلاعات برای افزایش کارایی استفاده کند. این اجازه می دهد تا چندین عملیات استنتاج به طور همزمان اجرا شوند و با تأمین حداکثر توان مصرفی، حدود ۲۰ درصد سربار را فراهم می کند. این به مایکروسافت اجازه می دهد تا ۳۰ درصد سرورهای بیشتری را با کاهش فرکانس و قدرت سرور در یک مرکز داده قرار دهد. نتیجه یک رویکرد کارآمدتر و پایدارتر برای محاسبات، توان و نیازهای حرارتی یک مرکز داده هوش مصنوعی است.

مدیریت داده ها برای مدل های آموزشی مجموعه ای از مشکلات خود را به همراه دارد. داده های زیادی وجود دارد و باید در گره های آن ابررایانه های Azure توزیع شود. مایکروسافت روی چیزی کار می‌کند که آن را Storage Accelerator می‌نامد تا این داده‌ها را مدیریت کند، و آن‌ها را در میان خوشه‌ها با حافظه پنهان توزیع می‌کند که تعیین می‌کند آیا داده‌های مورد نیاز به صورت محلی در دسترس هستند یا نیاز به واکشی دارند، با استفاده از پهنای باند موجود برای جلوگیری از تداخل با عملیات فعلی. استفاده از خواندن های موازی برای بارگیری داده ها باعث می شود که حجم زیادی از داده های آموزشی تقریباً دو برابر سریعتر از بارگیری فایل های سنتی بارگیری شوند.

هوش مصنوعی و آینده توسعه نرم افزار

هوش مصنوعی به شبکه های با پهنای باند بالا نیاز دارد

محاسبات و ذخیره سازی مهم هستند، اما شبکه همچنان حیاتی است، به خصوص با حجم کاری موازی داده های عظیم که در صدها GPU کار می کنند. در اینجا، مایکروسافت به طور قابل توجهی در اتصالات InfiniBand با پهنای باند بالا سرمایه گذاری کرده است، با استفاده از اتصال داخلی ۱.۲ ترابایت در ثانیه در سرورهای خود، ۸ GPU را به هم متصل می کند، و در همان زمان ۴۰۰ گیگابیت بر ثانیه بین GPU های جداگانه در سرورهای جداگانه.

مایکروسافت در InfiniBand سرمایه گذاری زیادی کرده است، هم برای ابررایانه های آموزشی Open AI و هم برای خدمات مشتری. جالب توجه است که روسینوویچ خاطرنشان کرد: «واقعاً، تنها تفاوت بین ابررایانه‌هایی که ما برای OpenAI می‌سازیم و آنچه به صورت عمومی در دسترس قرار می‌دهیم، مقیاس دامنه InfiniBand است. در مورد OpenAI، دامنه InfiniBand کل ابر رایانه را پوشش می دهد که ده ها هزار سرور است. برای سایر مشتریانی که نیازهای آموزشی مشابهی ندارند، دامنه‌ها کوچک‌تر هستند، اما همچنان در مقیاس ابرکامپیوتر، «اندازه ۱۰۰۰ تا ۲۰۰۰ سرور، اتصال ۱۰،۰۰۰ تا ۲۰،۰۰۰ GPU».

همه زیرساخت‌های شبکه‌ای به راه‌حل‌های شگفت‌آوری با فناوری پایین نیاز دارند، مانند سورتمه‌های پرینت سه‌بعدی برای کشیدن موثر مقادیر زیادی از کابل‌ها. آنها در قفسه های کابل در بالای قفسه های سرور قرار می گیرند و به امتداد کشیده می شوند. این یک راه ساده برای کاهش چشمگیر زمان کابل‌کشی است، زمانی که هر شش ماه ۳۰ ابررایانه می‌سازید.

ایستادسازی هوش مصنوعی: Project Forge و One Pool

سخت افزار تنها بخشی از داستان ابررایانه Azure است. پشته نرم افزار ابزارهای هماهنگی و پشتیبانی پلتفرم اساسی را فراهم می کند. اینجاست که Project Forge وارد می‌شود. می‌توانید آن را معادل چیزی مانند Kubernetes در نظر بگیرید، راهی برای زمان‌بندی عملیات در یک زیرساخت توزیع‌شده در حالی که مدیریت منابع ضروری را ارائه می‌کند و بارها را در انواع مختلف محاسبات AI توزیع می‌کند.

زمان‌بند Project Forge همه شتاب‌دهنده‌های هوش مصنوعی موجود در Azure را به‌عنوان یک مجموعه واحد از ظرفیت GPU مجازی در نظر می‌گیرد، چیزی که مایکروسافت آن را One Pool می‌نامد. بارها دارای سطوح اولویت هستند که دسترسی به این GPUهای مجازی را کنترل می کنند. یک بار با اولویت بالاتر می تواند بار با اولویت پایین تر را خارج کند و آن را به کلاس دیگری از شتاب دهنده یا به طور کلی به منطقه دیگری منتقل کند. هدف این است که سطح استفاده ثابتی را در کل پلتفرم هوش مصنوعی Azure ارائه دهد تا مایکروسافت بتواند قدرت و بودجه شبکه خود را بهتر برنامه ریزی و مدیریت کند.

Semantic Kernel: پلی بین مدل های زبان بزرگ و کد شما

مانند Kubernetes، Project Forge برای کمک به اجرای سرویس انعطاف‌پذیرتر، شناسایی خرابی‌ها، راه‌اندازی مجدد مشاغل و تعمیر پلت فرم میزبان طراحی شده است. با خودکار کردن این فرآیندها، Azure می‌تواند از راه‌اندازی مجدد کارهای گران‌قیمت و پیچیده اجتناب کند و در عوض آنها را به‌عنوان مجموعه‌ای از دسته‌هایی در نظر بگیرد که می‌توانند به صورت جداگانه اجرا شوند و ورودی‌ها و خروجی‌ها را در صورت نیاز هماهنگ کنند.

ثبات و امنیت: آماده برای برنامه های کاربردی هوش مصنوعی

هنگامی که یک مدل هوش مصنوعی ساخته شد، باید از آن استفاده شود. باز هم، Azure به روشی برای متعادل کردن استفاده در انواع مختلف مدل ها و درخواست های مختلف در آن مدل ها نیاز دارد. اگر هیچ ارکستراسیون (یا ارکستراسیون تنبل) وجود نداشته باشد، به راحتی می توان در موقعیتی قرار گرفت که در نهایت یکی از دستورات عملیات دیگر را مسدود کند. Azure’s Project Flywheel با بهره‌گیری از پردازنده‌های گرافیکی مجازی و کسری خود، می‌تواند عملکرد را تضمین کند، عملیات‌ها را از چند اعلان در میان GPU‌های مجازی به هم متصل کند، و در عین حال یک توان عملیاتی ثابت را ارائه دهد.

یکی دیگر از بهینه‌سازی‌های سطح پایین، قابلیت‌های محاسباتی محرمانه هنگام آموزش مدل‌های سفارشی است. می توانید کد و داده های میزبان را در محیط های اجرایی قابل اعتماد اجرا کنید. Azure اکنون می‌تواند ماشین‌های مجازی محرمانه کامل، از جمله پردازنده‌های گرافیکی، با پیام‌های رمزگذاری شده بین محیط‌های مورد اعتماد CPU و GPU داشته باشد. می‌توانید از این برای آموزش یا ایمن‌سازی داده‌های خصوصی خود که برای تولید افزوده‌شده بازیابی استفاده می‌شوند، استفاده کنید.

از ارائه روسینوویچ، واضح است که مایکروسافت سرمایه گذاری زیادی برای کارآمد ساختن زیرساخت هوش مصنوعی و پاسخگو برای آموزش و استنتاج انجام می دهد. تیم‌های زیرساخت و پلتفرم Azure برای ساختن سخت‌افزار و نرم‌افزاری تلاش کرده‌اند که می‌تواند از آموزش بزرگترین مدل‌ها پشتیبانی کند و در عین حال مکانی امن و قابل اعتماد برای استفاده از هوش مصنوعی در برنامه‌های شما فراهم کند.

اجرای Open AI در Azure به آن تیم ها تجربه زیادی داده است، و خوب است که ببینیم این تجربه در ارائه ابزارها و تکنیک های مشابه برای بقیه ما نتیجه می دهد – حتی اگر به ابررایانه های TOP500 خود نیاز نداشته باشیم. .