چرا کوبرنتس موج بعدی زیرساختهای سازمانی را تقویت میکند.
گفتگو درباره زیرساخت هوش مصنوعی سازمانی در ۱۸ ماه گذشته بهطرز چشمگیری تغییر کرده است. در حالی که فراهمکنندگان ابر عمومی همچنان با ارائههای جدید GPU و سرویسهای مدیریتشده هوش مصنوعی سرآمد خبرها هستند، یک انقلاب آرام در مراکز داده سازمانی در حال وقوع است: رشد سریع ابرهای خصوصی مبتنی بر Kubernetes بهعنوان پایهای برای استقرارهای ایمن و مقیاسپذیر هوش مصنوعی.
این موضوع بحث بر سر انتخاب بین ابرهای عمومی و خصوصی نیست‑‑ تصمیم سالها پیش گرفته شده بود. در عوض، این درباره شناخت این است که تقاضاهای منحصر بهفرد بارهای کاری هوش مصنوعی، همراه با نگرانیهای مستمر درباره حاکمیت داده، انطباق و کنترل هزینه، سازمانها را به بازنگری استراتژیهای زیرساختی خود سوق میدهد. نتیجه؟ نسل جدیدی از ابرهای خصوصی آماده برای هوش مصنوعی که میتوانند توانمندیهای ابر عمومی را تطبیق دهند در حالی که کنترل و انعطافپذیری مورد نیاز سازمانها را حفظ میکنند.
با اینکه فشار برای استراتژیهای «ابر‑اول» وجود دارد، واقعیت برای اکثر سازمانها همچنان بهصورت سرسختانه ترکیبی است. بر اساس گارتنر، ۹۰٪ از سازمانها تا سال ۲۰۲۷ به رویکردهای ابر ترکیبی خواهد پرداخت. دلایل هم عملی و هم عمیق هستند.
اولین مورد، اقتصاد است. در حالی که ابر عمومی در مدیریت بارهای کاری متغیر و ارائه مقیاسپذیری لحظهای برتری دارد، هزینهها میتوانند برای بارهای کاری محاسباتی بالا و مستمر بهسرعت افزایش یابند‑‑ دقیقاً همان پروفیل بیشتر برنامههای هوش مصنوعی. اجرای مدلهای زبان بزرگ در ابر عمومی میتواند هزینهبر باشد. به عنوان مثال، نمونههای AWS با GPUهای H100 حدود ۹۸٬۰۰۰ دلار در ماه در استفاده کامل هزینه دارند، بدون احتساب هزینه انتقال داده و ذخیرهسازی.
دوم، نیروی کشش دادهها همچنان یک نیروی قوی است. هزینه و پیچیدگی انتقال این دادهها به ابر عمومی، برداشتن محاسبه به دادهها بهجای برعکس را بسیار عملیتر میکند. چرا؟ حجم دادههای جهانی تا سال ۲۰۲۵ به ۱۷۵ زتابایت خواهد رسید، بهطوریکه ۷۵٪ دادههای تولیدشده توسط سازمانها خارج از مراکز داده متمرکز سنتی ایجاد و پردازش میشود.
سوم و مهمترین، تحولات مستمر در مسائل نظارتی و حاکمیتی. در صنایعی مانند خدمات مالی، بهداشت و درمان، و دولت، مقررات اغلب الزام میکنند که برخی دادهها هرگز از مرزهای جغرافیایی خاص یا تأسیسات تاییدشده خارج نشوند. در سال ۲۰۲۴، قانون هوش مصنوعی اتحادیه اروپا الزامات جامعی برای سیستمهای هوش مصنوعی پرخطر شامل مستندات، کاهش تعصب و نظارت انسانی معرفی کرد. همانطور که سیستمهای هوش مصنوعی بهطور فزایندهای دادههای حساس را پردازش میکنند، این الزامات حتی سختگیرانهتر شدهاند.
بهعنوان مثال، یک بانک بزرگ اروپایی که پیادهسازی کشف تقلب مبتنی بر هوش مصنوعی را انجام میدهد. مقررات اتحادیه اروپا میطلبند که دادههای مشتریان در حوزههای خاص باقی بمانند، مسیرهای حسابرسی با دقت میلیثانیهای حفظ شوند و بانک بتواند کنترل کامل بر پردازش دادهها را نشان دهد. در حالی که از نظر فنی ممکن است در ابر عمومی با پیکربندی مناسب انجام شود، پیچیدگی و ریسک معمولاً استقرارهای ابر خصوصی را جذابتر میکند.
Kubernetes: استاندارد واقعی برای ارکستراسیون ابرهای ترکیبی
ظهور Kubernetes بهعنوان لایه ارکستراسیون برای ابرهای ترکیبی غیرقابل پیشبینی نبود‑‑ این دستاوردی بود که طی سالها با استقرارهای آزمایششده و بهبود مستمر بهدست آمد. امروز، ۹۶٪ از سازمانها Kubernetes را بهکار گرفته یا در حال ارزیابی آن هستند، بهطوریکه ۵۴٪ بهطور خاص بارهای کاری هوش مصنوعی و یادگیری ماشین را بر روی این پلتفرم میسازند. Kubernetes از یک ابزار ارکستراسیون کانتینر بهسوی یک صفحه کنترل جهانی برای زیرساخت ترکیبی تحول یافته است.
کدام ویژگیها Kubernetes را برای بارهای کاری هوش مصنوعی در محیطهای ترکیبی بهویژه مناسب میسازد؟ چند قابلیت فنی برجسته میشوند:
- انتزاع منابع و زمانبندی: Kubernetes محاسبه، حافظه، ذخیرهسازی، و بهتدریج GPUها را بهعنوان منابع انتزاعی که میتوانند بهصورت پویا زمانبندی و تخصیص یابند، در نظر میگیرد. این لایه انتزاعی به این معناست که بارهای کاری هوش مصنوعی میتوانند بهصورت یکدست اجرا شوند، چه در داخل سازمان باشد چه در ابر عمومی.
- مدیریت پیکربندی اعلامی: ماهیت Kubernetes به این معناست که کل خطوط لوله AI — از پیشپردازش دادهها تا سرویسدهی مدل — میتواند بهعنوان کد تعریف شود. این امکان کنترل نسخه، تکرارپذیری، و مهمترین، قابلیت حملپذیری بین محیطهای مختلف را فراهم میکند.
- فدراسیون چند خوشهای: پیادهسازیهای مدرن Kubernetes اغلب در چند خوشه در مکانها و ارائهدهندگان ابر مختلف گسترش مییابند. قابلیتهای فدراسیون اجازه میدهند این خوشهها بهعنوان یک واحد منطقی مدیریت شوند، بهطوریکه بارهای کاری میتوانند بهصورت یکپارچه بر اساس محل دادهها، هزینه یا الزامات انطباق جابهجا شوند.
- قابلیت گسترش از طریق اپراتورها: الگو اپراتور برای بارهای کاری هوش مصنوعی بسیار ارزشمند بوده است. اپراتورهای سفارشی میتوانند چارچوبهای پیچیده AI را مدیریت کنند، زمانبندی GPU را اداره کنند، و حتی استراتژیهای بهینهسازی هزینه را بهصورت خودکار پیادهسازی کنند.
نیازهای جدید زیرساخت هوش مصنوعی
بارهای کاری هوش مصنوعی چالشهای منحصر بهفردی ارائه میدهند که برنامههای سنتی سازمانی با آن مواجه نیستند. درک این چالشها برای طراحی راهحلهای موثر ابر خصوصی، از جمله موارد زیر ضروری است:
- شدت محاسبه: آموزش یک مدل در مقیاس GPT‑۳ (۱۷۵ میلیارد پارامتر) تقریباً به ۳۶۴۰ پتافلپ‑روز محاسبه نیاز دارد. برخلاف برنامههای سنتی که ممکن است در ساعات کاری اوج بگیرند، بارهای کاری آموزش AI میتوانند منابع را بهصورت حداکثری برای روزها یا هفتهها بهصورت مستمر مصرف کنند. بارهای کاری استنتاج، اگرچه بهصورت فردی کمتر شدید هستند، اغلب نیاز به مقیاسپذیری به هزاران درخواست همزمان با الزامات تأخیر زیر ثانیهای دارند.
- عملکرد ذخیرهسازی: بارهای کاری AI بهطور شناختهشده I/O‑intensive هستند. مجموعههای داده آموزش اغلب بهصورت ترابایتها هستند، و مدلها نیاز به خواندن مداوم این دادهها در طول دورههای آموزشی دارند. ذخیرهسازی سنتی سازمانی برای این الگوی دسترسی طراحی نشده بود. ابرهای خصوصی مدرن بهطور فزایندهای از سیستمهای فایل موازی با کارآیی بالا و ذخیرهسازی مبتنی بر NVMe برای برآورده کردن این نیازها استفاده میکنند.
- حافظه و پهنای باند: مدلهای زبان بزرگ ممکن است برای بارگذاری فقط صدها گیگابایت حافظه نیاز داشته باشند، پیش از هر پردازش واقعی. پهنای باند بین محاسبه و ذخیرهسازی بهیک گلوگاه بحرانی تبدیل میشود. این امر منجر به پذیرش فناوریهای همچون RDMA (دسترسی مستقیم به حافظه از راه دور) و ارتباطات پرسرعت در استقرارهای ابر خصوصی میشود.
- سختافزار تخصصی: اگرچه GPUهای NVIDIA بازار شتابدهنده AI را تسلط دارند، سازمانها بهطور فزایندهای در حال آزمایش گزینههای جایگزین هستند. چارچوب افزونه دستگاه Kubernetes راهی استاندارد برای مدیریت شتابدهندههای متنوع فراهم میکند، چه NVIDIA H100 باشد، چه AMD MI300 یا ASICهای سفارشی.
یکی از مهمترین تغییرات در توسعه AI، حرکت به سمت استقرارهای کانتینریزه است. این تنها دنبال کردن روندها نیست‑‑ بلکه حل مشکلات واقعی است که پروژههای AI را تهدید میکرد.
بهعنوان مثال یک سناریوی معمولی هوش مصنوعی در سازمان را در نظر بگیرید: تیم علم داده یک مدل را با استفاده از نسخههای خاص TensorFlow، کتابخانههای CUDA و بستههای Python توسعه میدهد. استقرار این مدل در تولید معمولاً نیازمند تکثیر محیط است، که میتواند منجر به عدم سازگاری بین تنظیمات توسعه و تولید شود.
کانتینرها این دینامیک را کاملاً تغییر میدهند. کل استک هوش مصنوعی، از کتابخانههای سطح پایین تا خود مدل، در یک تصویر کانتینری غیرقابل تغییر بستهبندی میشود. اما مزایا فراتر از قابلیت تکرارپذیری هستند و شامل آزمایش سریع، جداسازی منابع، مقیاسپذیری، و توانایی آوردن مدل خود (BYOM) میشود.
پذیرش چالشهای حاکمیتی
صنایع تحت نظارت بهوضوح به ابرهای خصوصی آماده برای هوش مصنوعی نیاز دارند. این سازمانها با چالشی منحصر بهفرد مواجهاند: باید با AI نوآوری کنند تا رقابتی بمانند، در حالی که در یک شبکه پیچیده از مقرراتی که اغلب پیش از ظهور AI تدوین شدهاند، حرکت میکنند.
بهعنوان مثال بخش بهداشت و درمان. یک سیستم بیمارستانی که میخواهد AI را برای تشخیص تصویری به کار گیرد، با موانع نظارتی متعددی روبهروست. انطباق با HIPAA نیازمند اقداماتی خاص برای محافظت از اطلاعات بهداشتی محافظتشده است، از جمله رمزنگاری در حالت استراحت و در حین انتقال. اما موضوع فراتر میرود. مدلهای AI مورد استفاده برای مقاصد تشخیصی ممکن است بهعنوان دستگاههای پزشکی طبقهبندی شوند و نیاز به اعتبارسنجی FDA و مسیرهای حسابرسی جامع داشته باشند.
خدمات مالی چالشهای مشابهی دارند. راهنماییهای FINRA بهوضوح میگوید که قوانین موجود بهطور کامل بر سیستمهای AI اعمال میشود، از انطباق ضد پولشویی تا مدیریت ریسک مدل. یک ابر خصوصی مبتنی بر Kubernetes کنترل و انعطافپذیری لازم برای برآورده کردن این الزامات را از طریق کنترل دسترسی مبتنی بر نقش (RBAC) برای اعمال سطوح دقیق مجوزها، کنترلکنندههای پذیرش برای اطمینان از اجرای بارهای کاری تنها بر روی گرههای منطبق، و service mesh برای رمزنگاری سراسر مسیر و مسیرهای حسابرسی دقیق فراهم میکند.
ادارات دولتی بهطور ناخواسته رهبران این حوزه شدهاند. ابتکار Platform One وزارت دفاع نشان میدهد چهچه میتواند ممکن باشد، بهطوریکه تیمهای متعدد برنامههای خود را بر روی Kubernetes در سامانههای تسلیحاتی، فضایی و هوایی میسازند. در نتیجه زمان تحویل نرمافزار از سه‑هشت ماه به یک هفته کاهش یافته است در حالی که عملیات بیوقفه همچنان حفظ میشود.
تحول ابرهای خصوصی برای هوش مصنوعی/یادگیری ماشین
تکامل ابرهای خصوصی آماده برای هوش مصنوعی بهصورت مستقل رخ نمیدهد. این نتیجه همکاری گسترده بین فروشندگان فناوری، جوامع منبع باز و خود سازمانهاست.
کارهای Red Hat بر روی OpenShift نقش کلیدی در آمادهسازی Kubernetes برای سازمانها داشتهاند. پلتفرم OpenShift AI آنها بیش از ۲۰ پروژه منبع باز هوش مصنوعی و یادگیری ماشین را یکپارچه میکند و قابلیتهای MLOps را از طریق ابزارهای شناختهشدهای مانند دفترچههای JupyterLab فراهم میسازد. Dell Technologies بر روی بخش سختافزاری تمرکز کرده و طرحهای تاییدشدهای را ایجاد میکند که ترکیب محاسبه، ذخیرهسازی و شبکهسازی بهینه برای بارهای کاری AI را ارائه میدهد. سرورهای PowerEdge XE9680 آنها توانستهاند مدلهای Llama ۲ را هنگام ترکیب با GPUهای NVIDIA H100 آموزش دهند.
Yellowbrick نیز با ارائه قابلیتهای انبار داده با کارآیی بالا که بهصورت یکپارچه با محیطهای Kubernetes ادغام میشود، نقش دارد. برای بارهای کاری AI که نیاز به دسترسی زمان‑واقعی به مجموعههای داده حجیم دارند، این ادغام موانع ETL (استخراج، تبدیل، بارگذاری) سنتی را که پروژههای AI سازمانی را دستوپا میزد، حذف میکند.
مشارکتهای NVIDIA فراتر از GPUهاست. کاتالوگ NVIDIA GPU Cloud محتوای پیشساخته و بهینهشدهای از کانتینرها برای تمامی چارچوبهای اصلی AI ارائه میدهد. NVIDIA GPU Operator برای Kubernetes مدیریت گرههای GPU را خودکار میکند و ساخت ابرهای خصوصی شتابدار توسط GPU را بهمراتب سادهتر میسازد.
این همکاری اکوسیستم حیاتی است زیرا هیچ فروشندهای بهتنهایی میتواند همه قطعات مورد نیاز برای زیرساخت موفق هوش مصنوعی را فراهم کند. سازمانها از راهحلهای برتر که بهصورت یکپارچه کار میکنند، بهره میبرند.
نگاهی به آینده: همگرایی داده و هوش مصنوعی
همانطور که به آینده نگاه میکنیم، مرز بین زیرساخت داده و زیرساخت هوش مصنوعی بهپدیدهای یکپارچه تبدیل میشود. برنامههای هوش مصنوعی مدرن نه تنها به محاسبه بلکه به دسترسی فوری به دادههای تازه، توانایی پردازش ورودیهای جریاندار و قابلیتهای پیشرفته حاکمیتی داده نیاز دارند. این همگرایی سه روند کلیدی را بهوجود میآورد:
- پلتفرمهای یکپارچه داده و هوش مصنوعی: بهجای سیستمهای جداگانه برای انبار داده و هوش مصنوعی، معماریهای جدید هر دو قابلیت را در یک محیط مدیریتشده توسط Kubernetes فراهم میکنند. این امر نیاز به انتقال داده بین سیستمها را حذف کرده و همزمان تأخیر و هزینه را کاهش میدهد.
- یکپارچهسازی هوش مصنوعی لبهای: همانطور که هوش مصنوعی به لبه میرود، Kubernetes صفحه مدیریت یکنواختی را از مرکز داده تا مکانهای دوردست فراهم میکند.
- موتیوشن خودکار MLOps: ترکیب اپراتورهای Kubernetes و ابزارهای مختص هوش مصنوعی عملیات یادگیری ماشین را بهصورت کاملاً خودکار از آمادهسازی داده تا استقرار و نظارت مدل ممکن میسازد.
ملاحظات عملی برای پیادهسازی
برای سازمانها که میخواهند این مسیر را در پیش بگیرند، چندین نکته عملی از استقرارهای واقعی پیدایش میکند:
- شروع با یک مورد استفاده واضح: موفقترین استقرارهای AI در ابر خصوصی با یک مورد استفاده خاص، باارزش بالا آغاز میشود. چه تشخیص تقلب، پیشبینی نگهداری یا خودکارسازی خدمات مشتری باشد، هدف واضح به تصمیمگیریهای زیرساختی راهنمایی میکند.
- برنامهریزی زودهنگام برای حاکمیت داده: حاکمیت داده چیزی نیست که بعداً به آن اضافه شود. با توجه به مقرراتی چون قانون هوش مصنوعی اتحادیه اروپا که مستندات جامع از سیستمهای AI میطلبد، ساخت حاکمیت از روز اول بسیار ضروری است.
- سرمایهگذاری در مهارتها: هر دو Kubernetes و AI منحنی یادگیری سنگینی دارند. سازمانهایی که در آموزش تیمهای خود سرمایهگذاری میکنند یا با فروشندگان با تجربه همکاری میکنند، زمان ارزشگذاری را سریعتر میبینند.
- تفکر ترکیبی از همان ابتدا: حتی اگر در حال ساخت یک ابر خصوصی هستید، سناریوهای ترکیبی را در نظر بگیرید. ممکن است برای ظرفیت افزایشی، بازیابی اضطراری یا دسترسی به سرویسهای تخصصی به ابرهای عمومی نیاز داشته باشید.
ظهور ابرهای خصوصی آماده برای هوش مصنوعی تحول بنیادی در نحوه برخورد سازمانها با زیرساختها نشان میدهد. هدف این نیست که راهحلهای ابر عمومی را رد کنیم، بلکه ایجاد پایهای مستحکم است که انعطافپذیری برای استقرار بارهای کاری در محیطهای مناسب را فراهم میکند.
Kubernetes بهعنوان عامل کلیدی این تحول ظاهر شده است، چرا که یک پلتفرم یکپارچه و قابل حمل را فراهم میکند که بین زیرساختهای عمومی و خصوصی میپیماید. ترکیب آن با اکوسیستمی از ابزارها و فناوریها امکان ساخت ابرهای خصوصی را فراهم میکند که میتوانند توانمندیهای ابر عمومی را برای بارهای کاری هوش مصنوعی برابری یا حتی پیشی بگیرند.
برای سازمانهایی که در پیچیدگیهای پذیرش هوش مصنوعی، تعادل نوآوری با مقررات، عملکرد با هزینه و انعطافپذیری با کنترل راهحلهای خصوصی مبتنی بر Kubernetes مسیر جذابی فراهم میکند. اینها کنترل و سفارشیسازی مورد نیاز سازمانها را در حالی که چابکی و مقیاسپذیری که هوش مصنوعی میطلبد، حفظ میکند.
سازمانهایی که این تغییر را تشخیص داده و امروز زیرساختهای خصوصی آماده برای هوش مصنوعی را میسازند، بهترین موقعیت را برای بهرهبرداری از انقلاب هوش مصنوعی دارند در حالی که امنیت، انطباق و کنترل هزینه را که سهامدارانشان میطلبند، حفظ میکنند. آینده هوش مصنوعی سازمانی نه در ابر عمومی است و نه در ابر خصوصی‑بلکه در ارکستراسیون هوشمندانه بین هر دو.
—
New Tech Forum یک بستر برای رهبران فناوری—including vendors and other outside contributors—to explore and discuss emerging enterprise technology in unprecedented depth and breadth. انتخابها بر پایه نظرهای ما از فناوریهایی است که فکر میکنیم مهم و برای خوانندگان InfoWorld جذاب هستند. InfoWorld محتوای بازاریابی برای انتشار نمیپذیرد و حق ویرایش تمام محتواهای مشارکتی را برای خود محفوظ میدارد. تمام پرسشها به doug_dineley@foundryco.com ارسال شود.

پست های مرتبط
ظهور ابرهای خصوصی آماده هوش مصنوعی
ظهور ابرهای خصوصی آماده هوش مصنوعی
ظهور ابرهای خصوصی آماده هوش مصنوعی