زیرا ایجاد خطوط لوله داده قابل اعتماد دشوار است و اولین قدم برای تبدیل شدن به یک سازمان مبتنی بر داده اعتماد به داده های شماست.
ساعت ۸ صبح است و یک رهبر کسب و کار به داشبورد عملکرد مالی نگاه می کند و از صحت نتایج سؤال می کند. چند ساعت بعد، یک مشتری به پورتال شرکت شما وارد می شود و متعجب می شود که چرا سفارشات آنها آخرین اطلاعات قیمت را نشان نمی دهد. در بعدازظهر، رئیس بازاریابی دیجیتال ناامید است زیرا فیدهای داده از ابزارهای SaaS آنها هرگز به پلتفرم داده مشتریان آنها راه پیدا نکردند. دانشمندان داده همچنین ناراحت هستند زیرا نمیتوانند مدلهای یادگیری ماشینی خود را بدون بارگیری آخرین مجموعه دادهها دوباره آموزش دهند.
اینها مشکلات dataops هستند و مهم هستند. کسبوکارها باید به درستی انتظار داشته باشند که دادههای دقیق و به موقع به تجسم دادهها، پلتفرمهای تجزیه و تحلیل، پورتالهای مشتری، کاتالوگ دادهها، مدلهای ML، و هر جایی که داده مصرف میشود، تحویل داده شود.
تیمهای مدیریت داده و دادهها تلاش زیادی برای ساخت و پشتیبانی دریاچههای داده و انبارهای داده صرف میکنند. در حالت ایدهآل، آنها توسط جریانهای داده بیدرنگ، ادغام دادهها یا ادغامهای API تغذیه میشوند، اما بسیاری از سازمانها هنوز اسکریپتهای پردازش داده و گردشهای کاری دستی دارند که باید در فهرست بدهی داده. متأسفانه، استحکام خطوط لوله داده گاهی اوقات یک فکر بعدی است و تیم های dataops اغلب در رسیدگی به مسائل منبع، خط لوله و کیفیت در ادغام داده های خود واکنش نشان می دهند.
در کتاب خود پیشگام دیجیتال من درباره روزهایی که ابزارهای ادغام داده کمتری وجود داشت و رفع مشکلات کیفیت داده به صورت دستی معمول بود. «هر برنامه پردازش داده یک گزارش دارد و هر فرآیند، صرف نظر از اینکه چند اسکریپت زنجیرهدار شدهاند، یک گزارش نیز دارد. من با ابزارهای یونیکس مانند sed، awk، grep و find تبدیل به یک جادوگر شدم تا در هنگام جستجوی دلیل اصلی یک فرآیند ناموفق، این گزارشها را تجزیه کنم.”
امروزه ابزارهای بسیار قویتری نسبت به دستورات یونیکس برای پیادهسازی قابلیت مشاهده در خطوط لوله داده وجود دارد. تیم های Dataops مسئول فراتر رفتن از اتصال و تبدیل منابع داده هستند. آنها همچنین باید اطمینان حاصل کنند که یکپارچه سازی داده ها به طور قابل اعتماد انجام می شود و مشکلات کیفیت داده را به طور موثر حل می کند.
مشاهده پذیری Dataops به بررسی قابلیت اطمینان داده ها کمک می کند
مشاهدهپذیری رویهای است که توسط تیمهای devops استفاده میشود برای فعال کردن ردیابی از طریق سفرهای مشتری، برنامهها، میکروسرویسها و عملکردهای پایگاه داده. اقدامات شامل متمرکز کردن فایل های گزارش برنامه، نظارت بر عملکرد برنامه، و استفاده از AIops پلتفرم هایی برای ارتباط هشدارها با حوادث قابل مدیریت. هدف ایجاد دید، حل سریعتر حوادث، انجام تجزیه و تحلیل ریشهای، شناسایی روندهای عملکرد، فعال کردن پزشکی قانونی امنیتی و رفع نقصهای تولید است.
قابلیت مشاهده دادهها اهداف مشابهی را هدف قرار میدهد، فقط این ابزارها خطوط لوله داده را تجزیه و تحلیل میکنند، از تحویل دادههای قابل اعتماد اطمینان میدهند و به حل مشکلات کیفیت داده کمک میکنند.
لیور گاویش، یکی از بنیانگذاران و مدیر ارشد فناوری در مونته کارلو، میگوید، «مشاهدهپذیری داده به توانایی سازمان اشاره دارد. سلامت دادههای خود را در هر مرحله از چرخه حیات دیتاوپها، از مصرف در انبار یا دریاچه گرفته تا لایه هوش تجاری، که در آن بیشتر مسائل مربوط به کیفیت دادهها برای ذینفعان ظاهر میشود، درک کنند.»
شان کنپ، مدیر عامل و بنیانگذار Ascend.io، بیانیه مشکل dataops را توضیح می دهد: “قابلیت مشاهده باید به شناسایی عوامل حیاتی مانند وضعیت عملیاتی بلادرنگ خطوط لوله و روندها در شکل داده کمک می کند. تأخیرها و خطاها باید زودتر شناسایی شوند تا از تحویل یکپارچه داده ها در سطوح خدمات توافق شده اطمینان حاصل شود. کسبوکارها باید از شکستهای کد خط لوله و مشکلات کیفیت داده آگاه باشند تا بتوان به سرعت به آنها رسیدگی کرد و به مصرفکنندگان پاییندستی منتشر نشوند.»
Knapp تاجران را به عنوان مشتریان کلیدی خطوط لوله دادهاپس برجسته میکند. بسیاری از شرکت ها در تلاش هستند تا سازمان های داده محور< /a>، بنابراین وقتی خطوط لوله داده غیرقابل اعتماد یا غیرقابل اعتماد هستند، رهبران، کارمندان و مشتریان تحت تأثیر قرار می گیرند. ابزارهای مشاهدهپذیری دیتاوپها میتوانند برای این سازمانها حیاتی باشند، بهویژه زمانی که دادههای شهروندان دانشمندان از ابزارهای تجسم داده و آماده سازی داده به عنوان بخشی از کارهای روزانه خود استفاده می کنند.
کریس کونی، مدافع توسعهدهنده در Coralogix، میگوید، “مشاهدهپذیری بیش از چند نمودار ارائه شده در داشبورد است. . این یک تمرین مهندسی است که کل پشته را در بر می گیرد و تیم ها را قادر می سازد تا تصمیمات بهتری بگیرند.”
قابلیت مشاهده در dataops در مقابل devops
برای تیمهای devops استفاده از چندین ابزار نظارتی برای پوشش زیرساختها، شبکهها، برنامهها، سرویسها و پایگاههای داده معمول است. این شبیه به دیتاوپ ها است – انگیزه های یکسان، ابزارهای مختلف. ادواردو سیلوا، بنیانگذار و مدیر عامل Calyptia، میگوید: «شما باید سیستمهایی داشته باشید که به درک این دادهها کمک کنند. ، و هیچ ابزار واحدی کافی نخواهد بود. در نتیجه، باید اطمینان حاصل کنید که خطوط لوله شما میتوانند دادهها را به مقصدهای مختلفی هدایت کنند.»
سیلوا راه حل های منبع باز و خنثی از فروشنده را توصیه می کند. این رویکرد ارزش توجه دارد، به ویژه از آنجایی که بیشتر سازمان ها از چندین دریاچه داده، پایگاه داده و پلت فرم های یکپارچه سازی داده ها استفاده می کنند. یک قابلیت مشاهدهپذیری dataops تعبیهشده در یکی از این پلتفرمهای داده ممکن است پیکربندی و استقرار آن آسان باشد، اما ممکن است قابلیتهای مشاهدهپذیری دادهای جامع را که در همه پلتفرمها کار میکند، ارائه نکند.
چه قابلیت هایی لازم است؟ Ashwin Rajeev، یکی از بنیانگذاران و CTO Acceldata.io، میگوید: «مشاهدهپذیری دادههای سازمانی باید به غلبه بر تنگناهای مرتبط با ساخت و راه اندازی خطوط لوله داده قابل اعتماد.”
راجیف توضیح میدهد: «دادهها باید هر بار با استفاده از ابزار دقیق مناسب با APIها و SDKها بهموقع تحویل داده شوند. ابزارها باید ناوبری و تمرین مناسبی داشته باشند که امکان مقایسه را فراهم کند. این باید به تیمهای دیتاوپ کمک کند تا به سرعت تنگناها و روندها را برای عیبیابی سریعتر و تنظیم عملکرد برای پیشبینی و پیشگیری از حوادث شناسایی کنند.»
ابزارهای Dataops با قابلیتهای کد و کمکد
یکی از جنبههای مشاهدهپذیری dataops عملیات است: قابلیت اطمینان و تحویل به موقع از منبع به پلت فرم مدیریت داده تا مصرف. نگرانی دوم کیفیت داده است. آرمون پطروسیان، یکی از بنیانگذاران و مدیر عامل Coalesce، میگوید، «مشاهدهپذیری دادهها در dataops شامل اطمینان از دسترسی تیمهای تجاری و مهندسی به داده ها به درستی پاکسازی، مدیریت و تبدیل شده اند تا سازمان ها بتوانند واقعاً تصمیمات تجاری و فنی مبتنی بر داده را اتخاذ کنند. با تکامل فعلی در برنامههای کاربردی داده، برای آمادهسازی بهینه خطوط انتقال داده، سازمانها باید بر ابزارهایی تمرکز کنند که انعطافپذیری یک رویکرد کد اول را ارائه میدهند، اما مبتنی بر رابط کاربری گرافیکی هستند تا مقیاس سازمانی را فعال کنند، زیرا در نهایت، همه مهندس نرمافزار نیستند. “
بنابراین دیتاوپها و بنابراین مشاهدهپذیری دادهها باید دارای قابلیتهایی باشند که برای کدنویسهایی که API مصرف میکنند و خطوط لوله داده قوی و بیدرنگ توسعه میدهند، جذاب باشد. اما غیر کدنویسها همچنین به ابزارهای کیفیت داده و عیبیابی نیاز دارند تا با تلاشهای آمادهسازی و تجسم دادههای خود کار کنند.
گاویش میافزاید: «همانطور که توسعهدهندگان به طور گستردهای به ابزارهای اولیه اتوماسیون با کد پایین متکی هستند، دیتاوپها نیز به همین شکل است. “به عنوان یک جزء حیاتی از چرخه حیات dataops، راه حل های مشاهده پذیری داده ها باید به راحتی قابل پیاده سازی و استقرار در چندین محیط داده باشد.”
نظارت بر خطوط لوله داده توزیع شده
برای بسیاری از شرکتهای بزرگ، پیادهسازی خطوط داده و برنامههای کاربردی قابل اعتماد آسان نیست. راماناتان سریکومار، مدیر ارشد راه حل در تأکید. “یک مسئله کلیدی این است که داده ها بینش کافی در مورد تراکنش هایی که از طریق ابرهای متعدد و محیط های قدیمی جریان دارند، ارائه نمی دهند.”
هیلاری اشتون، مدیر ارشد محصول در Teradata، موافق است. “اکوسیستم های داده های مدرن به طور ذاتی توزیع شده اند، که وظیفه دشوار مدیریت سلامت داده ها را در کل چرخه زندگی ایجاد می کند.”
و سپس او نتیجه نهایی را به اشتراک میگذارد: “اگر نمیتوانید به دادههای خود اعتماد کنید، هرگز داده محور نخواهید شد.”
اشتون توصیه می کند، “برای یک خط لوله داده بسیار قابل اعتماد، شرکت ها نیاز به یک نمای ۳۶۰ درجه دارند که با مشاهده داده های تله متری، ابرداده های عملیاتی، فنی و تجاری را یکپارچه کند. این نما امکان شناسایی و تصحیح مسائلی مانند تازه بودن داده ها، سوابق از دست رفته، تغییرات در طرحواره ها و خطاهای ناشناخته را فراهم می کند. جاسازی یادگیری ماشینی در این فرآیند همچنین میتواند به خودکارسازی این وظایف کمک کند.”
ما راه درازی را تا استفاده از دستورات یونیکس برای تجزیه فایلهای گزارش برای مشکلات یکپارچهسازی دادهها پیمودهایم. ابزارهای مشاهدهپذیری دادههای امروزی بسیار پیچیدهتر هستند، اما ارائه خطوط لوله داده قابل اعتماد و پردازش داده با کیفیت بالا برای بسیاری از سازمانها همچنان یک چالش است. چالش را بپذیرید و با رهبران کسبوکار در یک پیادهسازی چابک و تدریجی شریک شوید زیرا تجسم دادهها و مدلهای ML ساخته شده بر روی دادههای غیرقابل اعتماد میتواند منجر به تصمیمهای اشتباه و بالقوه مضر شود.
پست های مرتبط
چرا قابلیت مشاهده در دیتاوپ ها؟
چرا قابلیت مشاهده در دیتاوپ ها؟
چرا قابلیت مشاهده در دیتاوپ ها؟