سیستم مدیریت حافظه جدید ۳۶ ٪ کارایی را بهبود می بخشد و خطاهای OOM را با وقفه سرویس از بین می برد.
Alibaba Cloud یک سیستم مدیریت خوشه ای جدید به نام Eigen+ ایجاد کرده است که در حالی که خطاهای حافظه (OOM) را در محیط های پایگاه داده تولید از بین می برد ، ۳۶ ٪ در راندمان تخصیص حافظه به دست آورد ، طبق تحقیقات ارائه شده در کنفرانس اخیر SIGMOD.
این سیستم به یک چالش اساسی در مقابل ارائه دهندگان ابر می پردازد: چگونه می توان از حافظه حداکثر استفاده از حافظه برای کاهش هزینه ها ضمن جلوگیری از خطاهای فاجعه بار OOM که می تواند برنامه های مهم را خراب کند و اهداف سطح خدمات را نقض کند (SLO).
توسعه ، مفصل در یک مقاله تحقیقاتی با عنوان “Eigen+: حافظه بیش از حد حافظه برای پایگاه داده های ابری Alibaba” ، نشان دهنده عزیمت قابل توجهی از رویکردهای بیش از حد حافظه سنتی است که توسط ارائه دهندگان اصلی ابر ، از جمله AWS ، Microsoft Azure و Google Cloud Platform.
این سیستم در محیط تولید Alibaba Cloud مستقر شده است. در مقاله تحقیق ادعا شده است که در خوشه های MySQL آنلاین ، Eigen+ “نسبت تخصیص حافظه یک خوشه mySQL آنلاین را ۳۶.۲۱ ٪ (از ۷۵.۶۷ ٪ به ۱۱۱.۸۸ ٪) به طور متوسط بهبود می بخشد ، ضمن حفظ انطباق SLO بدون وقوع OOM.”
برای رهبران IT شرکت ، این اعداد می توانند به صرفه جویی در هزینه قابل توجهی و قابلیت اطمینان بهبود یافته تبدیل شوند. بهبود ۳۶ ٪ در تخصیص حافظه به این معنی است که سازمانها می توانند نمونه های پایگاه داده بیشتری را در همان سخت افزار اجرا کنند در حالی که در واقع خطر خاموشی را کاهش می دهند.
Eigen+ Eigen+ Alibaba Cloud دارای یک رویکرد مدیریت حافظه مبتنی بر طبقه بندی است ، در حالی که همسالان ، AWS ، مایکروسافت لاجورد و Google Cloud ، در درجه اول به استراتژی های مدیریت حافظه مبتنی بر پیش بینی تکیه می کنند ، که در حالی که مؤثر است ، ممکن است به طور کامل از بروز OOM جلوگیری نکند. “این تفاوت در رویکرد می تواند Eigen+ Alibaba Cloud+ را با تمایز فنی بیشتر در بازار پایگاه داده ابری قرار دهد ، که به طور بالقوه بر استراتژی های آینده سایر افراد تحت فشار تأثیر می گذارد.”
این فناوری در حال حاضر در هزاران مورد از پایگاه داده در محیط تولید Alibaba Cloud مستقر شده است ، و از بارهای کاری پردازش معاملات آنلاین (OLTP) با استفاده از MySQL و پردازش آنلاین تحلیلی (OLAP) با استفاده از AnalyticDB برای PostgreSQL پشتیبانی می کند.
خطر بیش از حد در زیر پیام حافظه
حافظه بیش از حد حافظه-اختصاص حافظه بیشتر به ماشینهای مجازی از نظر جسمی-در بین ارائه دهندگان ابر به یک روش استاندارد تبدیل شده است زیرا VM ها به ندرت از حافظه کامل اختصاص داده شده خود به طور همزمان استفاده می کنند. با این حال ، این عمل یک عمل متعادل کننده خطرناک را برای شرکت هایی که پایگاه داده های مهم ماموریت را اداره می کنند ، ایجاد می کند.
“درج حافظه بیش از حد با اجازه دادن به نمونه های بیشتر در هر دستگاه ، باعث افزایش خطاهای حافظه (OOM) می شود ، به طور بالقوه به خطر انداختن خدمات و نقض اهداف سطح خدمات (SLOS) ،” محققان در مقاله خود ذکر کردند .
سهام به ویژه برای پایگاه داده های سازمانی زیاد است. “این شکل به وضوح نشان می دهد که در دسترس بودن خدمات به میزان قابل توجهی کاهش می یابد ، اغلب با افزایش تعداد حوادث OOM در زیر آستانه SLO قرار می گیرد.”
رویکردهای سنتی سعی در پیش بینی استفاده از حافظه آینده بر اساس داده های تاریخی دارند ، سپس از الگوریتم های پیچیده برای بسته بندی نمونه های پایگاه داده روی سرورها استفاده می کنند. اما این روشهای مبتنی بر پیش بینی غالباً فاجعه بار هنگامی که بارهای کار به طور غیر منتظره ای به طور نامنظم انجام می شوند ، از بین می روند.
“از بین بردن خطاهای حافظه (OOM) برای رهبران فناوری اطلاعات بسیار مهم است ، زیرا این خطاها می توانند منجر به اختلال در سرویس و از دست دادن داده ها شوند.” “در حالی که پیشرفت در راندمان تخصیص حافظه مفید است ، اطمینان از ثبات و پایداری سیستم همچنان مهم است. شرکت ها باید قابلیت های نظارت بر ارائه دهندگان ابر خود را ارزیابی کنند ، مکانیسم های انزوا برای جلوگیری از تداخل های متقاطع و تکنیک های کاهش دهنده های فعال مانند مهاجرت زنده و حافظه برای رسیدگی به بیش از حد سیاست ها بدون استفاده از سرویس های مربوط به خدمات ، استفاده از آن ، علاوه بر این. (SLA) برای حفظ عملکرد و قابلیت اطمینان مداوم ضروری است. ”
راه حل اصلی پارتو
به جای تلاش برای پیش بینی غیرقابل پیش بینی ، تیم تحقیقاتی Alibaba Cloud کشف کرد که خطاهای پایگاه داده OOM از اصل پارتو پیروی می کنند – همچنین به عنوان قانون ۸۰/۲۰ شناخته می شوند. این تیم در مقاله گفت: “نمونه های پایگاه داده با تغییرات استفاده از حافظه بیش از ۵ ٪ در طی یک هفته بیش از ۵ ٪ از همه موارد را تشکیل نمی دهند ، اما این موارد منجر به بیش از ۹۰ ٪ خطاهای OOM می شود.”
به جای تلاش برای پیش بینی الگوهای استفاده از حافظه ، Eigen+ به سادگی مشخص می کند که نمونه های بانک اطلاعاتی “گذرا” هستند (مستعد به سنبله های حافظه غیرقابل پیش بینی) و آنها را از سیاست های بیش از حد شرح می دهد.
محققان در مقاله گفتند: “با شناسایی نمونه های گذرا ، می توانیم مشکل پیچیده پیش بینی را به یک کار طبقه بندی باینری ساده تر تبدیل کنیم.”
Eigen+ از طبقه بندی کننده های یادگیری ماشین که در هر دو معیار زمان اجرا (استفاده از حافظه ، پرس و جو در هر ثانیه ، استفاده از پردازنده) و ابرداده عملیاتی (مشخصات نمونه ، ردیف مشتری ، انواع برنامه) برای شناسایی نمونه های پایگاه داده بالقوه مشکل ساز استفاده می شود ، استفاده می کند.
سیستم از یک رویکرد پیشرفته استفاده می کند که شامل مدل های انتقال حالت زنجیره مارکوف برای وابستگی های زمانی در رفتار پایگاه داده است. مقاله افزود: “این به آن اجازه می دهد تا در شناسایی موارد گذرا که می تواند خطاهای OOM ایجاد کند ، به دقت بالایی برسد.”
برای موارد پایدار که برای مقاله بیش از حد ایمن تلقی می شود ، این سیستم از روش های تخمین متعدد ، از جمله تجزیه و تحلیل صدک ، بسته بندی سطل تصادفی و پیش بینی سری زمانی استفاده می کند ، بسته به الگوهای استفاده خاص هر نمونه.
مدل سازی SLO کمی
شاید از همه مهمتر برای محیط های سازمانی ، Eigen+ یک مدل کمی برای درک چگونگی تأثیر بیش از حد حافظه بر روی در دسترس بودن خدمات را شامل می شود. با استفاده از رگرسیون لجستیک درجه دوم ، سیستم می تواند آستانه های دقیق استفاده از حافظه را تعیین کند که سطح انطباق SLO هدف را حفظ می کند.
“با استفاده از مدل رگرسیون لجستیک درجه دوم ، ما برای استفاده از حافظه در سطح دستگاه (𝑋) مربوط به” آجیل مورد نظر “حل می کنیم.”
این به مدیران سازمانی راهنمایی های مشخصی در مورد سطح بیش از حد در زمینه ایمن به جای تکیه بر حدس و گمان یا تخمین های بیش از حد محافظه کارانه می دهد.
تشخیص اینکه هیچ سیستم طبقه بندی کامل نیست ، Eigen+ شامل قابلیت مهاجرت زنده واکنشی به عنوان مکانیسم بازگشت است. هنگامی که استفاده از حافظه به سطوح خطرناک نزدیک می شود ، سیستم به طور خودکار نمونه های پایگاه داده را به سرورهای کم بار منتقل می کند.
در طول آزمایش تولید ، “طی دو روز پایانی ، فقط پنج مهاجرت زنده آغاز شد ، از جمله پایگاه داده های آینه. این وظایف ، که حداقل سیستم های عملیاتی را تحت تأثیر قرار می دهند ، تأثیرات Eigen+ را در حفظ ثبات عملکرد بدون کاهش تجربه کاربر تأکید می کنند.”
پیامدهای صنعت
تحقیقات نشان می دهد که ارائه دهندگان ابر در هنگام استفاده از رویکردهای طبقه بندی ساده تر ممکن است مؤثرتر باشند ، به مقاله بیش از حد حافظه با مدل های پیش بینی غیر ضروری پیچیده نزدیک شده اند. در این مقاله آمده است که رویکردهای مورد استفاده توسط Google Autopilot ، AWS Aurora و Microsoft Azure همه به روشهای مبتنی بر پیش بینی متکی هستند که می توانند در سناریوهای استفاده بالا شکست بخورد.
برای تیم های IT شرکت که خدمات پایگاه داده ابری را ارزیابی می کنند ، Eigen+ یک مزیت رقابتی بالقوه برای Alibaba Cloud در بازارهایی را نشان می دهد که در آن قابلیت اطمینان پایگاه داده و استفاده از منابع کارآمد عوامل مهمی هستند.
پست های مرتبط
Alibaba Cloud Eigen+ را برای کاهش هزینه ها و افزایش قابلیت اطمینان برای پایگاه داده های سازمانی راه اندازی کرد
Alibaba Cloud Eigen+ را برای کاهش هزینه ها و افزایش قابلیت اطمینان برای پایگاه داده های سازمانی راه اندازی کرد
Alibaba Cloud Eigen+ را برای کاهش هزینه ها و افزایش قابلیت اطمینان برای پایگاه داده های سازمانی راه اندازی کرد