۲۲ آذر ۱۴۰۴

Techboy

اخبار و اطلاعات روز تکنولوژی

ظهور ابرهای خصوصی آماده هوش مصنوعی

چرا کوبرنتس موج بعدی زیرساخت‌های سازمانی را تقویت می‌کند.

چرا کوبرنتس موج بعدی زیرساخت‌های سازمانی را تقویت می‌کند.

گفتگو درباره زیرساخت هوش مصنوعی سازمانی در ۱۸ ماه گذشته به‌طرز چشمگیری تغییر کرده است. در حالی که فراهم‌کنندگان ابر عمومی همچنان با ارائه‌های جدید GPU و سرویس‌های مدیریت‌شده هوش مصنوعی سرآمد خبرها هستند، یک انقلاب آرام در مراکز داده سازمانی در حال وقوع است: رشد سریع ابرهای خصوصی مبتنی بر Kubernetes به‌عنوان پایه‌ای برای استقرارهای ایمن و مقیاس‌پذیر هوش مصنوعی.

این موضوع بحث بر سر انتخاب بین ابرهای عمومی و خصوصی نیست‑‑ تصمیم سال‌ها پیش گرفته شده بود. در عوض، این درباره شناخت این است که تقاضاهای منحصر به‌فرد بارهای کاری هوش مصنوعی، همراه با نگرانی‌های مستمر درباره حاکمیت داده، انطباق و کنترل هزینه، سازمان‌ها را به بازنگری استراتژی‌های زیرساختی خود سوق می‌دهد. نتیجه؟ نسل جدیدی از ابرهای خصوصی آماده برای هوش مصنوعی که می‌توانند توانمندی‌های ابر عمومی را تطبیق دهند در حالی که کنترل و انعطاف‌پذیری مورد نیاز سازمان‌ها را حفظ می‌کنند.

با اینکه فشار برای استراتژی‌های «ابر‑اول» وجود دارد، واقعیت برای اکثر سازمان‌ها همچنان به‌صورت سرسختانه ترکیبی است. بر اساس گارتنر، ۹۰٪ از سازمان‌ها تا سال ۲۰۲۷ به رویکردهای ابر ترکیبی خواهد پرداخت. دلایل هم عملی و هم عمیق هستند.

اولین مورد، اقتصاد است. در حالی که ابر عمومی در مدیریت بارهای کاری متغیر و ارائه مقیاس‌پذیری لحظه‌ای برتری دارد، هزینه‌ها می‌توانند برای بارهای کاری محاسباتی بالا و مستمر به‌سرعت افزایش یابند‑‑ دقیقاً همان پروفیل بیشتر برنامه‌های هوش مصنوعی. اجرای مدل‌های زبان بزرگ در ابر عمومی می‌تواند هزینه‌بر باشد. به عنوان مثال، نمونه‌های AWS با GPUهای H100 حدود ۹۸٬۰۰۰ دلار در ماه در استفاده کامل هزینه دارند، بدون احتساب هزینه انتقال داده و ذخیره‌سازی.

دوم، نیروی کشش داده‌ها همچنان یک نیروی قوی است. هزینه و پیچیدگی انتقال این داده‌ها به ابر عمومی، برداشتن محاسبه به داده‌ها به‌جای برعکس را بسیار عملی‌تر می‌کند. چرا؟ حجم داده‌های جهانی تا سال ۲۰۲۵ به ۱۷۵ زتابایت خواهد رسید، به‌طوری‌که ۷۵٪ داده‌های تولیدشده توسط سازمان‌ها خارج از مراکز داده متمرکز سنتی ایجاد و پردازش می‌شود.

سوم و مهم‌ترین، تحولات مستمر در مسائل نظارتی و حاکمیتی. در صنایعی مانند خدمات مالی، بهداشت و درمان، و دولت، مقررات اغلب الزام می‌کنند که برخی داده‌ها هرگز از مرزهای جغرافیایی خاص یا تأسیسات تاییدشده خارج نشوند. در سال ۲۰۲۴، قانون هوش مصنوعی اتحادیه اروپا الزامات جامعی برای سیستم‌های هوش مصنوعی پرخطر شامل مستندات، کاهش تعصب و نظارت انسانی معرفی کرد. همان‌طور که سیستم‌های هوش مصنوعی به‌طور فزاینده‌ای داده‌های حساس را پردازش می‌کنند، این الزامات حتی سختگیرانه‌تر شده‌اند.

به‌عنوان مثال، یک بانک بزرگ اروپایی که پیاده‌سازی کشف تقلب مبتنی بر هوش مصنوعی را انجام می‌دهد. مقررات اتحادیه اروپا می‌طلبند که داده‌های مشتریان در حوزه‌های خاص باقی بمانند، مسیرهای حسابرسی با دقت میلی‌ثانیه‌ای حفظ شوند و بانک بتواند کنترل کامل بر پردازش داده‌ها را نشان دهد. در حالی که از نظر فنی ممکن است در ابر عمومی با پیکربندی مناسب انجام شود، پیچیدگی و ریسک معمولاً استقرارهای ابر خصوصی را جذاب‌تر می‌کند.

Kubernetes: استاندارد واقعی برای ارکستراسیون ابرهای ترکیبی

ظهور Kubernetes به‌عنوان لایه ارکستراسیون برای ابرهای ترکیبی غیرقابل پیش‌بینی نبود‑‑ این دستاوردی بود که طی سال‌ها با استقرارهای آزمایش‌شده و بهبود مستمر به‌دست آمد. امروز، ۹۶٪ از سازمان‌ها Kubernetes را به‌کار گرفته یا در حال ارزیابی آن هستند، به‌طوری‌که ۵۴٪ به‌طور خاص بارهای کاری هوش مصنوعی و یادگیری ماشین را بر روی این پلتفرم می‌سازند. Kubernetes از یک ابزار ارکستراسیون کانتینر به‌سوی یک صفحه کنترل جهانی برای زیرساخت ترکیبی تحول یافته است.

کدام ویژگی‌ها Kubernetes را برای بارهای کاری هوش مصنوعی در محیط‌های ترکیبی به‌ویژه مناسب می‌سازد؟ چند قابلیت فنی برجسته می‌شوند:

  • انتزاع منابع و زمان‌بندی: Kubernetes محاسبه، حافظه، ذخیره‌سازی، و به‌تدریج GPUها را به‌عنوان منابع انتزاعی که می‌توانند به‌صورت پویا زمان‌بندی و تخصیص یابند، در نظر می‌گیرد. این لایه انتزاعی به این معناست که بارهای کاری هوش مصنوعی می‌توانند به‌صورت یک‌دست اجرا شوند، چه در داخل سازمان باشد چه در ابر عمومی.
  • مدیریت پیکربندی اعلامی: ماهیت Kubernetes به این معناست که کل خطوط لوله AI — از پیش‌پردازش داده‌ها تا سرویس‌دهی مدل — می‌تواند به‌عنوان کد تعریف شود. این امکان کنترل نسخه، تکرارپذیری، و مهم‌ترین، قابلیت حمل‌پذیری بین محیط‌های مختلف را فراهم می‌کند.
  • فدراسیون چند خوشه‌ای: پیاده‌سازی‌های مدرن Kubernetes اغلب در چند خوشه در مکان‌ها و ارائه‌دهندگان ابر مختلف گسترش می‌یابند. قابلیت‌های فدراسیون اجازه می‌دهند این خوشه‌ها به‌عنوان یک واحد منطقی مدیریت شوند، به‌طوری‌که بارهای کاری می‌توانند به‌صورت یک‌پارچه بر اساس محل داده‌ها، هزینه یا الزامات انطباق جابه‌جا شوند.
  • قابلیت گسترش از طریق اپراتورها: الگو اپراتور برای بارهای کاری هوش مصنوعی بسیار ارزشمند بوده است. اپراتورهای سفارشی می‌توانند چارچوب‌های پیچیده AI را مدیریت کنند، زمان‌بندی GPU را اداره کنند، و حتی استراتژی‌های بهینه‌سازی هزینه را به‌صورت خودکار پیاده‌سازی کنند.

نیازهای جدید زیرساخت هوش مصنوعی

بارهای کاری هوش مصنوعی چالش‌های منحصر به‌فردی ارائه می‌دهند که برنامه‌های سنتی سازمانی با آن مواجه نیستند. درک این چالش‌ها برای طراحی راه‌حل‌های موثر ابر خصوصی، از جمله موارد زیر ضروری است:

  • شدت محاسبه: آموزش یک مدل در مقیاس GPT‑۳ (۱۷۵ میلیارد پارامتر) تقریباً به ۳۶۴۰ پتافلپ‑روز محاسبه نیاز دارد. برخلاف برنامه‌های سنتی که ممکن است در ساعات کاری اوج بگیرند، بارهای کاری آموزش AI می‌توانند منابع را به‌صورت حداکثری برای روزها یا هفته‌ها به‌صورت مستمر مصرف کنند. بارهای کاری استنتاج، اگرچه به‌صورت فردی کمتر شدید هستند، اغلب نیاز به مقیاس‌پذیری به هزاران درخواست همزمان با الزامات تأخیر زیر ثانیه‌ای دارند.
  • عملکرد ذخیره‌سازی: بارهای کاری AI به‌طور شناخته‌شده I/O‑intensive هستند. مجموعه‌های داده آموزش اغلب به‌صورت ترابایت‌ها هستند، و مدل‌ها نیاز به خواندن مداوم این داده‌ها در طول دوره‌های آموزشی دارند. ذخیره‌سازی سنتی سازمانی برای این الگوی دسترسی طراحی نشده بود. ابرهای خصوصی مدرن به‌طور فزاینده‌ای از سیستم‌های فایل موازی با کارآیی بالا و ذخیره‌سازی مبتنی بر NVMe برای برآورده کردن این نیازها استفاده می‌کنند.
  • حافظه و پهنای باند: مدل‌های زبان بزرگ ممکن است برای بارگذاری فقط صدها گیگابایت حافظه نیاز داشته باشند، پیش از هر پردازش واقعی. پهنای باند بین محاسبه و ذخیره‌سازی به‌یک گلوگاه بحرانی تبدیل می‌شود. این امر منجر به پذیرش فناوری‌های همچون RDMA (دسترسی مستقیم به حافظه از راه دور) و ارتباطات پرسرعت در استقرارهای ابر خصوصی می‌شود.
  • سخت‌افزار تخصصی: اگرچه GPUهای NVIDIA بازار شتاب‌دهنده AI را تسلط دارند، سازمان‌ها به‌طور فزاینده‌ای در حال آزمایش گزینه‌های جایگزین هستند. چارچوب افزونه دستگاه Kubernetes راهی استاندارد برای مدیریت شتاب‌دهنده‌های متنوع فراهم می‌کند، چه NVIDIA H100 باشد، چه AMD MI300 یا ASICهای سفارشی.

یکی از مهم‌ترین تغییرات در توسعه AI، حرکت به سمت استقرارهای کانتینریزه است. این تنها دنبال کردن روندها نیست‑‑ بلکه حل مشکلات واقعی است که پروژه‌های AI را تهدید می‌کرد.

به‌عنوان مثال یک سناریوی معمولی هوش مصنوعی در سازمان را در نظر بگیرید: تیم علم داده یک مدل را با استفاده از نسخه‌های خاص TensorFlow، کتابخانه‌های CUDA و بسته‌های Python توسعه می‌دهد. استقرار این مدل در تولید معمولاً نیازمند تکثیر محیط است، که می‌تواند منجر به عدم سازگاری بین تنظیمات توسعه و تولید شود.

کانتینرها این دینامیک را کاملاً تغییر می‌دهند. کل استک هوش مصنوعی، از کتابخانه‌های سطح پایین تا خود مدل، در یک تصویر کانتینری غیرقابل تغییر بسته‌بندی می‌شود. اما مزایا فراتر از قابلیت تکرارپذیری هستند و شامل آزمایش سریع، جداسازی منابع، مقیاس‌پذیری، و توانایی آوردن مدل خود (BYOM) می‌شود.

پذیرش چالش‌های حاکمیتی

صنایع تحت نظارت به‌وضوح به ابرهای خصوصی آماده برای هوش مصنوعی نیاز دارند. این سازمان‌ها با چالشی منحصر به‌فرد مواجه‌اند: باید با AI نوآوری کنند تا رقابتی بمانند، در حالی که در یک شبکه پیچیده از مقرراتی که اغلب پیش از ظهور AI تدوین شده‌اند، حرکت می‌کنند.

به‌عنوان مثال بخش بهداشت و درمان. یک سیستم بیمارستانی که می‌خواهد AI را برای تشخیص تصویری به کار گیرد، با موانع نظارتی متعددی روبه‌روست. انطباق با HIPAA نیازمند اقداماتی خاص برای محافظت از اطلاعات بهداشتی محافظت‌شده است، از جمله رمزنگاری در حالت استراحت و در حین انتقال. اما موضوع فراتر می‌رود. مدل‌های AI مورد استفاده برای مقاصد تشخیصی ممکن است به‌عنوان دستگاه‌های پزشکی طبقه‌بندی شوند و نیاز به اعتبارسنجی FDA و مسیرهای حسابرسی جامع داشته باشند.

خدمات مالی چالش‌های مشابهی دارند. راهنمایی‌های FINRA به‌وضوح می‌گوید که قوانین موجود به‌طور کامل بر سیستم‌های AI اعمال می‌شود، از انطباق ضد پولشویی تا مدیریت ریسک مدل. یک ابر خصوصی مبتنی بر Kubernetes کنترل و انعطاف‌پذیری لازم برای برآورده کردن این الزامات را از طریق کنترل دسترسی مبتنی بر نقش (RBAC) برای اعمال سطوح دقیق مجوزها، کنترل‌کننده‌های پذیرش برای اطمینان از اجرای بارهای کاری تنها بر روی گره‌های منطبق، و service mesh برای رمزنگاری سراسر مسیر و مسیرهای حسابرسی دقیق فراهم می‌کند.

ادارات دولتی به‌طور ناخواسته رهبران این حوزه شده‌اند. ابتکار Platform One وزارت دفاع نشان می‌دهد چه‌چه می‌تواند ممکن باشد، به‌طوری‌که تیم‌های متعدد برنامه‌های خود را بر روی Kubernetes در سامانه‌های تسلیحاتی، فضایی و هوایی می‌سازند. در نتیجه زمان تحویل نرم‌افزار از سه‑هشت ماه به یک هفته کاهش یافته است در حالی که عملیات بی‌وقفه همچنان حفظ می‌شود.

تحول ابرهای خصوصی برای هوش مصنوعی/یادگیری ماشین

تکامل ابرهای خصوصی آماده برای هوش مصنوعی به‌صورت مستقل رخ نمی‌دهد. این نتیجه همکاری گسترده بین فروشندگان فناوری، جوامع منبع باز و خود سازمان‌هاست.

کارهای Red Hat بر روی OpenShift نقش کلیدی در آماده‌سازی Kubernetes برای سازمان‌ها داشته‌اند. پلتفرم OpenShift AI آن‌ها بیش از ۲۰ پروژه منبع باز هوش مصنوعی و یادگیری ماشین را یکپارچه می‌کند و قابلیت‌های MLOps را از طریق ابزارهای شناخته‌شده‌ای مانند دفترچه‌های JupyterLab فراهم می‌سازد. Dell Technologies بر روی بخش سخت‌افزاری تمرکز کرده و طرح‌های تاییدشده‌ای را ایجاد می‌کند که ترکیب محاسبه، ذخیره‌سازی و شبکه‌سازی بهینه برای بارهای کاری AI را ارائه می‌دهد. سرورهای PowerEdge XE9680 آن‌ها توانسته‌اند مدل‌های Llama ۲ را هنگام ترکیب با GPUهای NVIDIA H100 آموزش دهند.

Yellowbrick نیز با ارائه قابلیت‌های انبار داده با کارآیی بالا که به‌صورت یکپارچه با محیط‌های Kubernetes ادغام می‌شود، نقش دارد. برای بارهای کاری AI که نیاز به دسترسی زمان‑واقعی به مجموعه‌های داده حجیم دارند، این ادغام موانع ETL (استخراج، تبدیل، بارگذاری) سنتی را که پروژه‌های AI سازمانی را دست‌و‌پا می‌زد، حذف می‌کند.

مشارکت‌های NVIDIA فراتر از GPUهاست. کاتالوگ NVIDIA GPU Cloud محتوای پیش‌ساخته و بهینه‌شده‌ای از کانتینرها برای تمامی چارچوب‌های اصلی AI ارائه می‌دهد. NVIDIA GPU Operator برای Kubernetes مدیریت گره‌های GPU را خودکار می‌کند و ساخت ابرهای خصوصی شتاب‌دار توسط GPU را به‌مراتب ساده‌تر می‌سازد.

این همکاری اکوسیستم حیاتی است زیرا هیچ فروشنده‌ای به‌تنهایی می‌تواند همه قطعات مورد نیاز برای زیرساخت موفق هوش مصنوعی را فراهم کند. سازمان‌ها از راه‌حل‌های برتر که به‌صورت یکپارچه کار می‌کنند، بهره می‌برند.

نگاهی به آینده: همگرایی داده و هوش مصنوعی

همان‌طور که به آینده نگاه می‌کنیم، مرز بین زیرساخت داده و زیرساخت هوش مصنوعی به‌پدیده‌ای یکپارچه تبدیل می‌شود. برنامه‌های هوش مصنوعی مدرن نه تنها به محاسبه بلکه به دسترسی فوری به داده‌های تازه، توانایی پردازش ورودی‌های جریان‌دار و قابلیت‌های پیشرفته حاکمیتی داده نیاز دارند. این همگرایی سه روند کلیدی را به‌وجود می‌آورد:

  • پلتفرم‌های یکپارچه داده و هوش مصنوعی: به‌جای سیستم‌های جداگانه برای انبار داده و هوش مصنوعی، معماری‌های جدید هر دو قابلیت را در یک محیط مدیریت‌شده توسط Kubernetes فراهم می‌کنند. این امر نیاز به انتقال داده بین سیستم‌ها را حذف کرده و هم‌زمان تأخیر و هزینه را کاهش می‌دهد.
  • یکپارچه‌سازی هوش مصنوعی لبه‌ای: همان‌طور که هوش مصنوعی به لبه می‌رود، Kubernetes صفحه مدیریت یکنواختی را از مرکز داده تا مکان‌های دوردست فراهم می‌کند.
  • موتیوشن خودکار MLOps: ترکیب اپراتورهای Kubernetes و ابزارهای مختص هوش مصنوعی عملیات یادگیری ماشین را به‌صورت کاملاً خودکار از آماده‌سازی داده تا استقرار و نظارت مدل ممکن می‌سازد.

ملاحظات عملی برای پیاده‌سازی

برای سازمان‌ها که می‌خواهند این مسیر را در پیش بگیرند، چندین نکته عملی از استقرارهای واقعی پیدایش می‌کند:

  • شروع با یک مورد استفاده واضح: موفق‌ترین استقرارهای AI در ابر خصوصی با یک مورد استفاده خاص، با‌ارزش بالا آغاز می‌شود. چه تشخیص تقلب، پیش‌بینی نگهداری یا خودکارسازی خدمات مشتری باشد، هدف واضح به تصمیم‌گیری‌های زیرساختی راهنمایی می‌کند.
  • برنامه‌ریزی زودهنگام برای حاکمیت داده: حاکمیت داده چیزی نیست که بعداً به آن اضافه شود. با توجه به مقرراتی چون قانون هوش مصنوعی اتحادیه اروپا که مستندات جامع از سیستم‌های AI می‌طلبد، ساخت حاکمیت از روز اول بسیار ضروری است.
  • سرمایه‌گذاری در مهارت‌ها: هر دو Kubernetes و AI منحنی یادگیری سنگینی دارند. سازمان‌هایی که در آموزش تیم‌های خود سرمایه‌گذاری می‌کنند یا با فروشندگان با تجربه همکاری می‌کنند، زمان ارزش‌گذاری را سریع‌تر می‌بینند.
  • تفکر ترکیبی از همان ابتدا: حتی اگر در حال ساخت یک ابر خصوصی هستید، سناریوهای ترکیبی را در نظر بگیرید. ممکن است برای ظرفیت افزایشی، بازیابی اضطراری یا دسترسی به سرویس‌های تخصصی به ابرهای عمومی نیاز داشته باشید.

ظهور ابرهای خصوصی آماده برای هوش مصنوعی تحول بنیادی در نحوه برخورد سازمان‌ها با زیرساخت‌ها نشان می‌دهد. هدف این نیست که راه‌حل‌های ابر عمومی را رد کنیم، بلکه ایجاد پایه‌ای مستحکم است که انعطاف‌پذیری برای استقرار بارهای کاری در محیط‌های مناسب را فراهم می‌کند.

Kubernetes به‌عنوان عامل کلیدی این تحول ظاهر شده است، چرا که یک پلتفرم یک‌پارچه و قابل حمل را فراهم می‌کند که بین زیرساخت‌های عمومی و خصوصی می‌پیماید. ترکیب آن با اکوسیستمی از ابزارها و فناوری‌ها امکان ساخت ابرهای خصوصی را فراهم می‌کند که می‌توانند توانمندی‌های ابر عمومی را برای بارهای کاری هوش مصنوعی برابری یا حتی پیشی بگیرند.

برای سازمان‌هایی که در پیچیدگی‌های پذیرش هوش مصنوعی، تعادل نوآوری با مقررات، عملکرد با هزینه و انعطاف‌پذیری با کنترل راه‌حل‌های خصوصی مبتنی بر Kubernetes مسیر جذابی فراهم می‌کند. این‌ها کنترل و سفارشی‌سازی مورد نیاز سازمان‌ها را در حالی که چابکی و مقیاس‌پذیری که هوش مصنوعی می‌طلبد، حفظ می‌کند.

سازمان‌هایی که این تغییر را تشخیص داده و امروز زیرساخت‌های خصوصی آماده برای هوش مصنوعی را می‌سازند، بهترین موقعیت را برای بهره‌برداری از انقلاب هوش مصنوعی دارند در حالی که امنیت، انطباق و کنترل هزینه را که سهامدارانشان می‌طلبند، حفظ می‌کنند. آینده هوش مصنوعی سازمانی نه در ابر عمومی است و نه در ابر خصوصی‑‌بلکه در ارکستراسیون هوشمندانه بین هر دو.

New Tech Forum یک بستر برای رهبران فناوری—including vendors and other outside contributors—to explore and discuss emerging enterprise technology in unprecedented depth and breadth. انتخاب‌ها بر پایه نظرهای ما از فناوری‌هایی است که فکر می‌کنیم مهم و برای خوانندگان InfoWorld جذاب هستند. InfoWorld محتوای بازاریابی برای انتشار نمی‌پذیرد و حق ویرایش تمام محتواهای مشارکتی را برای خود محفوظ می‌دارد. تمام پرسش‌ها به doug_dineley@foundryco.com ارسال شود.