در بیلد، مایکروسافت توضیح داد که چگونه Azure امروز از حجمهای کاری هوش مصنوعی بزرگ با شتابدهنده استنتاج، اتصالات با پهنای باند بالا و ابزارهایی برای کارایی و قابلیت اطمینان پشتیبانی میکند.
ارائههای سالانه زیرساختهای Azure Mark Russinovich، مدیر ارشد فناوری Azure در بیلد، همیشه جذاب هستند زیرا او گذشته، حال و آینده سختافزاری را که زیربنای ابر است، بررسی میکند. سخنرانی امسال متفاوت نبود، تمرکز بر همان پلتفرم هوش مصنوعی که در بقیه رویداد تبلیغ شد.
در طول سالها، واضح است که سختافزار Azure به طور فزایندهای پیچیده شده است. در ابتدا، این یک نمونه بارز از محاسبات ابزار بود که از یک طراحی سرور استاندارد استفاده می کرد. اکنون انواع مختلفی از سرور وجود دارد که قادر به پشتیبانی از تمام کلاس های بار کاری است. پردازندههای گرافیکی اضافه شدند و اکنون شتابدهندههای هوش مصنوعی.
این آخرین نوآوری که در سال ۲۰۲۳ معرفی شد، نشان میدهد که زیرساختهای Azure تا چه اندازه در کنار بار کاری که میزبان آن است، تکامل یافته است. اولین اسلاید روسینوویچ نشان داد که مدلهای هوش مصنوعی مدرن با چه سرعتی در حال رشد هستند، از ۱۱۰ میلیون پارامتر با GPT در سال ۲۰۱۸، به بیش از یک تریلیون در GPT-4o امروزی. این رشد منجر به توسعه ابررایانههای توزیعشده عظیم برای آموزش این مدلها، همراه با سختافزار و نرمافزار برای کارآمد و قابل اعتماد کردن آنها شده است.
ساخت ابررایانه هوش مصنوعی
مقیاس سیستم های مورد نیاز برای اجرای این پلتفرم های هوش مصنوعی بسیار زیاد است. اولین ابررایانه بزرگ آموزش هوش مصنوعی مایکروسافت در ماه می ۲۰۲۰ به تفصیل معرفی شد. این ابررایانه دارای ۱۰۰۰۰ پردازنده گرافیکی Nvidia V100 بود و در رتبهبندی جهانی ابررایانهها در رتبه پنجم قرار داشت. تنها سه سال بعد، در نوامبر ۲۰۲۳، آخرین نسخه دارای ۱۴۴۰۰ پردازنده گرافیکی H100 بود و در رتبه سوم قرار گرفت.
در ژوئن ۲۰۲۴، مایکروسافت بیش از ۳۰ ابررایانه مشابه در مراکز داده در سراسر جهان دارد. روسینوویچ در مورد مدل متن باز Llama-3-70B صحبت کرد که برای آموزش آن به ۶.۴ میلیون ساعت GPU نیاز دارد. در یک GPU که ۷۳۰ سال طول میکشد، اما با یکی از ابررایانههای هوش مصنوعی مایکروسافت، یک دوره آموزشی تقریباً ۲۷ روز طول میکشد.
آموزش تنها بخشی از مشکل است. هنگامی که یک مدل ساخته شد، باید از آن استفاده شود، و اگرچه استنتاج برای آموزش به سطوح محاسباتی ابررایانهای نیاز ندارد، اما همچنان به قدرت زیادی نیاز دارد. همانطور که روسینوویچ اشاره می کند، یک پارامتر ممیز شناور به دو بایت حافظه، یک مدل با یک میلیارد پارامتر به ۲ گیگابایت رم و یک مدل با پارامتر ۱۷۵ میلیارد به ۳۵۰ گیگابایت نیاز دارد. این قبل از اضافه کردن هر گونه سربار ضروری است، مانند حافظه پنهان، که می تواند بیش از ۴۰٪ به نیازهای حافظه از قبل سنگین اضافه کند.
همه اینها به این معنی است که Azure به تعداد زیادی GPUS با ویژگی های بسیار خاص نیاز دارد تا داده های زیادی را در سریع ترین زمان ممکن ارسال کند. مدل هایی مانند GPT-4 به مقدار قابل توجهی حافظه با پهنای باند بالا نیاز دارند. محاسبات و حافظه همگی به مقدار قابل توجهی نیرو نیاز دارند. یک پردازنده گرافیکی Nvidia H100 به ۷۰۰ وات نیاز دارد، و با هزاران کار در هر زمان، مراکز داده Azure باید گرمای زیادی را تخلیه کنند.
فرای آموزش، طراحی برای استنتاج
مایکروسافت شتابدهنده استنتاج خود را به شکل سختافزار Maia توسعه داده است، که پیشگام یک سیستم خنککننده مستقیم مایع جدید است و شتابدهندههای Maia را در یک سیستم خنککننده حلقه بسته پوشش میدهد که نیاز به طراحی کاملاً جدید قفسه دارد. کابینت ثانویه که حاوی مبدل های حرارتی تجهیزات خنک کننده است.
طراحی مراکز داده برای آموزش به مایکروسافت نشان داده است که چگونه استنتاج را فراهم کند. تمرین به سرعت تا ۱۰۰٪ افزایش می یابد و در طول مدت دویدن در آنجا باقی می ماند. با استفاده از مانیتورینگ توان یکسان در یک قفسه استنباط، میتوان مشاهده کرد که چگونه مصرف انرژی در نقاط مختلف یک عملیات استنتاج متفاوت است.
پروژه Azure’s POLCA قصد دارد از این اطلاعات برای افزایش کارایی استفاده کند. این اجازه می دهد تا چندین عملیات استنتاج به طور همزمان اجرا شوند و با تأمین حداکثر توان مصرفی، حدود ۲۰ درصد سربار را فراهم می کند. این به مایکروسافت اجازه می دهد تا ۳۰ درصد سرورهای بیشتری را با کاهش فرکانس و قدرت سرور در یک مرکز داده قرار دهد. نتیجه یک رویکرد کارآمدتر و پایدارتر برای محاسبات، توان و نیازهای حرارتی یک مرکز داده هوش مصنوعی است.
مدیریت داده ها برای مدل های آموزشی مجموعه ای از مشکلات خود را به همراه دارد. داده های زیادی وجود دارد و باید در گره های آن ابررایانه های Azure توزیع شود. مایکروسافت روی چیزی کار میکند که آن را Storage Accelerator مینامد تا این دادهها را مدیریت کند، و آنها را در میان خوشهها با حافظه پنهان توزیع میکند که تعیین میکند آیا دادههای مورد نیاز به صورت محلی در دسترس هستند یا نیاز به واکشی دارند، با استفاده از پهنای باند موجود برای جلوگیری از تداخل با عملیات فعلی. استفاده از خواندن های موازی برای بارگیری داده ها باعث می شود که حجم زیادی از داده های آموزشی تقریباً دو برابر سریعتر از بارگیری فایل های سنتی بارگیری شوند.
هوش مصنوعی به شبکه های با پهنای باند بالا نیاز دارد
محاسبات و ذخیره سازی مهم هستند، اما شبکه همچنان حیاتی است، به خصوص با حجم کاری موازی داده های عظیم که در صدها GPU کار می کنند. در اینجا، مایکروسافت به طور قابل توجهی در اتصالات InfiniBand با پهنای باند بالا سرمایه گذاری کرده است، با استفاده از اتصال داخلی ۱.۲ ترابایت در ثانیه در سرورهای خود، ۸ GPU را به هم متصل می کند، و در همان زمان ۴۰۰ گیگابیت بر ثانیه بین GPU های جداگانه در سرورهای جداگانه.
مایکروسافت در InfiniBand سرمایه گذاری زیادی کرده است، هم برای ابررایانه های آموزشی Open AI و هم برای خدمات مشتری. جالب توجه است که روسینوویچ خاطرنشان کرد: «واقعاً، تنها تفاوت بین ابررایانههایی که ما برای OpenAI میسازیم و آنچه به صورت عمومی در دسترس قرار میدهیم، مقیاس دامنه InfiniBand است. در مورد OpenAI، دامنه InfiniBand کل ابر رایانه را پوشش می دهد که ده ها هزار سرور است. برای سایر مشتریانی که نیازهای آموزشی مشابهی ندارند، دامنهها کوچکتر هستند، اما همچنان در مقیاس ابرکامپیوتر، «اندازه ۱۰۰۰ تا ۲۰۰۰ سرور، اتصال ۱۰،۰۰۰ تا ۲۰،۰۰۰ GPU».
همه زیرساختهای شبکهای به راهحلهای شگفتآوری با فناوری پایین نیاز دارند، مانند سورتمههای پرینت سهبعدی برای کشیدن موثر مقادیر زیادی از کابلها. آنها در قفسه های کابل در بالای قفسه های سرور قرار می گیرند و به امتداد کشیده می شوند. این یک راه ساده برای کاهش چشمگیر زمان کابلکشی است، زمانی که هر شش ماه ۳۰ ابررایانه میسازید.
ایستادسازی هوش مصنوعی: Project Forge و One Pool
سخت افزار تنها بخشی از داستان ابررایانه Azure است. پشته نرم افزار ابزارهای هماهنگی و پشتیبانی پلتفرم اساسی را فراهم می کند. اینجاست که Project Forge وارد میشود. میتوانید آن را معادل چیزی مانند Kubernetes در نظر بگیرید، راهی برای زمانبندی عملیات در یک زیرساخت توزیعشده در حالی که مدیریت منابع ضروری را ارائه میکند و بارها را در انواع مختلف محاسبات AI توزیع میکند.
زمانبند Project Forge همه شتابدهندههای هوش مصنوعی موجود در Azure را بهعنوان یک مجموعه واحد از ظرفیت GPU مجازی در نظر میگیرد، چیزی که مایکروسافت آن را One Pool مینامد. بارها دارای سطوح اولویت هستند که دسترسی به این GPUهای مجازی را کنترل می کنند. یک بار با اولویت بالاتر می تواند بار با اولویت پایین تر را خارج کند و آن را به کلاس دیگری از شتاب دهنده یا به طور کلی به منطقه دیگری منتقل کند. هدف این است که سطح استفاده ثابتی را در کل پلتفرم هوش مصنوعی Azure ارائه دهد تا مایکروسافت بتواند قدرت و بودجه شبکه خود را بهتر برنامه ریزی و مدیریت کند.
مانند Kubernetes، Project Forge برای کمک به اجرای سرویس انعطافپذیرتر، شناسایی خرابیها، راهاندازی مجدد مشاغل و تعمیر پلت فرم میزبان طراحی شده است. با خودکار کردن این فرآیندها، Azure میتواند از راهاندازی مجدد کارهای گرانقیمت و پیچیده اجتناب کند و در عوض آنها را بهعنوان مجموعهای از دستههایی در نظر بگیرد که میتوانند به صورت جداگانه اجرا شوند و ورودیها و خروجیها را در صورت نیاز هماهنگ کنند.
ثبات و امنیت: آماده برای برنامه های کاربردی هوش مصنوعی
هنگامی که یک مدل هوش مصنوعی ساخته شد، باید از آن استفاده شود. باز هم، Azure به روشی برای متعادل کردن استفاده در انواع مختلف مدل ها و درخواست های مختلف در آن مدل ها نیاز دارد. اگر هیچ ارکستراسیون (یا ارکستراسیون تنبل) وجود نداشته باشد، به راحتی می توان در موقعیتی قرار گرفت که در نهایت یکی از دستورات عملیات دیگر را مسدود کند. Azure’s Project Flywheel با بهرهگیری از پردازندههای گرافیکی مجازی و کسری خود، میتواند عملکرد را تضمین کند، عملیاتها را از چند اعلان در میان GPUهای مجازی به هم متصل کند، و در عین حال یک توان عملیاتی ثابت را ارائه دهد.
یکی دیگر از بهینهسازیهای سطح پایین، قابلیتهای محاسباتی محرمانه هنگام آموزش مدلهای سفارشی است. می توانید کد و داده های میزبان را در محیط های اجرایی قابل اعتماد اجرا کنید. Azure اکنون میتواند ماشینهای مجازی محرمانه کامل، از جمله پردازندههای گرافیکی، با پیامهای رمزگذاری شده بین محیطهای مورد اعتماد CPU و GPU داشته باشد. میتوانید از این برای آموزش یا ایمنسازی دادههای خصوصی خود که برای تولید افزودهشده بازیابی استفاده میشوند، استفاده کنید.
از ارائه روسینوویچ، واضح است که مایکروسافت سرمایه گذاری زیادی برای کارآمد ساختن زیرساخت هوش مصنوعی و پاسخگو برای آموزش و استنتاج انجام می دهد. تیمهای زیرساخت و پلتفرم Azure برای ساختن سختافزار و نرمافزاری تلاش کردهاند که میتواند از آموزش بزرگترین مدلها پشتیبانی کند و در عین حال مکانی امن و قابل اعتماد برای استفاده از هوش مصنوعی در برنامههای شما فراهم کند.
اجرای Open AI در Azure به آن تیم ها تجربه زیادی داده است، و خوب است که ببینیم این تجربه در ارائه ابزارها و تکنیک های مشابه برای بقیه ما نتیجه می دهد – حتی اگر به ابررایانه های TOP500 خود نیاز نداشته باشیم. .
پست های مرتبط
در داخل مراکز داده ابری هوش مصنوعی Azure امروز
در داخل مراکز داده ابری هوش مصنوعی Azure امروز
در داخل مراکز داده ابری هوش مصنوعی Azure امروز