قبل از اینکه در مورد ابزارهای Cloudops فعال هیجان زده شوید، محدودیت های آنها را بشناسید، به خصوص اگر از یک ارائه دهنده خدمات ابری استفاده می کنید.
این کار بیهوده ای است. سیستمهای عملیاتی پیشگیرانه میتوانند مشکلات را قبل از اینکه مختل شوند، کشف کنند و بدون دخالت انسان، اصلاحات را انجام دهند.
به عنوان مثال، یک ابزار مشاهدهپذیری عملیات، مانند ابزار AIops، میبیند که یک سیستم ذخیرهسازی خطاهای متناوب I/O ایجاد میکند، به این معنی که سیستم ذخیرهسازی احتمالاً به زودی دچار یک شکست بزرگ میشود. داده ها به طور خودکار با استفاده از فرآیندهای خود ترمیم از پیش تعریف شده به سیستم ذخیره سازی دیگری منتقل می شوند و سیستم خاموش می شود و برای تعمیر و نگهداری علامت گذاری می شود. هیچ خرابی رخ نمی دهد.
این نوع فرآیندها و اتوماسیونهای پیشگیرانه هزاران بار در ساعت اتفاق میافتند، و تنها راهی که میدانید کار میکنند، عدم قطعیهای ناشی از خرابی در سرویسهای ابری، برنامهها، شبکهها یا پایگاههای داده است. ما همه را می دانیم. همه را می بینیم. ما داده ها را در طول زمان ردیابی می کنیم. ما مشکلات را قبل از تبدیل شدن به قطعی هایی که به کسب و کار آسیب می زند برطرف می کنیم.
داشتن این فناوری برای رساندن زمان از کار افتادگی ما به نزدیک به صفر عالی است. با این حال، مانند هر چیز دیگری، جنبه های خوب و بد وجود دارد که باید در نظر بگیرید.
فناوری عملیات واکنشپذیر سنتی دقیقاً این است: به شکست واکنش نشان میدهد و زنجیرهای از رویدادها، از جمله پیامرسانی به انسانها را برای تصحیح مشکلات به راه میاندازد. در یک رویداد شکست، زمانی که چیزی از کار می افتد، ما به سرعت علت اصلی را درک می کنیم و آن را با یک فرآیند خودکار یا با اعزام یک انسان برطرف می کنیم.
عیب عملکردهای واکنشی، خرابی است. ما معمولاً تا زمانی که یک شکست کامل نداشته باشیم نمی دانیم مشکلی وجود دارد – این فقط بخشی از فرآیند واکنشی است. به طور معمول، ما جزئیات پیرامون منبع یا سرویس، مانند ورودی/خروجی برای ذخیره سازی را نظارت نمی کنیم. ما فقط روی باینری تمرکز می کنیم: آیا کار می کند یا نه؟
من طرفدار خرابی سیستم مبتنی بر ابر نیستم، بنابراین به نظر میرسد که عملیات واکنشی چیزی است که باید به نفع عملیات پیشگیرانه اجتناب کرد. با این حال، در بسیاری از مواردی که من می بینم، حتی اگر یک ابزار عملیاتی پیشگیرانه خریداری کرده باشید، سیستم های مشاهده پذیری آن ابزار ممکن است نتوانند جزئیات مورد نیاز برای اتوماسیون پیشگیرانه را ببینند.
سرویسهای ابر مقیاسکننده اصلی (ذخیرهسازی، محاسبات، پایگاه داده، هوش مصنوعی، و غیره) میتوانند این سیستمها را به روشی دقیق نظارت کنند، مانند استفاده از I/O در حال انجام، اشباع CPU در حال انجام، و غیره. بسیاری از فناوریهای دیگر که روی پلتفرمهای مبتنی بر ابر استفاده میکنید ممکن است فقط APIهای اولیه را در عملیات داخلی خود داشته باشند و فقط میتوانند به شما بگویند چه زمانی کار میکنند و چه زمانی نیستند. همانطور که ممکن است حدس زده باشید، ابزارهای عملیاتی پیشگیرانه، مهم نیست که چقدر خوب هستند، برای این منابع و سرویس های ابری کار زیادی انجام نمی دهند.
من متوجه شدهام که تعداد بیشتری از این نوع سیستمها در ابرهای عمومی از آنچه فکر میکنید اجرا میشوند. ما دلارهای زیادی را صرف عملیاتهای پیشگیرانه میکنیم که توانایی نظارت بر سیستمهای داخلی را نداریم که نشانههایی مبنی بر احتمال شکست منابع به ما ارائه میدهند.
بهعلاوه، یک منبع ابر عمومی، مانند ذخیرهسازی اصلی یا سیستمهای محاسباتی، قبلاً توسط ارائهدهنده نظارت و اجرا میشود. شما بر منابعی که در یک معماری چند مستاجر در اختیار شما قرار میگیرد کنترل ندارید و ارائهدهندگان ابر کار بسیار خوبی برای ارائه عملیات پیشگیرانه از جانب شما انجام میدهند. آنها مشکلات مربوط به منابع سختافزاری و نرمافزاری را خیلی زودتر از شما میبینند و در موقعیت بسیار بهتری قرار دارند تا قبل از اینکه متوجه شوید مشکلی وجود دارد، آنها را برطرف میکنند. حتی با وجود یک مدل مسئولیت مشترک برای منابع مبتنی بر ابر، ارائهدهندگان این وظیفه را بر عهده میگیرند که اطمینان حاصل کنند که سرویسها به طور مداوم کار میکنند.
عملیات پیشگیرانه راهی برای رفتن است—من را اشتباه نکنید. مشکل اینجاست که در بسیاری از موارد، شرکتها سرمایهگذاریهای هنگفتی را در ابرهای فعال با توانایی کمی برای استفاده از آن انجام میدهند. فقط گفتن.
پست های مرتبط
مبادلات با ابرهای واکنشی و فعال را درک کنید
مبادلات با ابرهای واکنشی و فعال را درک کنید
مبادلات با ابرهای واکنشی و فعال را درک کنید