۳۰ شهریور ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

چرا قابلیت مشاهده در دیتاوپ ها؟

زیرا ایجاد خطوط لوله داده قابل اعتماد دشوار است و اولین قدم برای تبدیل شدن به یک سازمان مبتنی بر داده اعتماد به داده های شماست.

زیرا ایجاد خطوط لوله داده قابل اعتماد دشوار است و اولین قدم برای تبدیل شدن به یک سازمان مبتنی بر داده اعتماد به داده های شماست.

ساعت ۸ صبح است و یک رهبر کسب و کار به داشبورد عملکرد مالی نگاه می کند و از صحت نتایج سؤال می کند. چند ساعت بعد، یک مشتری به پورتال شرکت شما وارد می شود و متعجب می شود که چرا سفارشات آنها آخرین اطلاعات قیمت را نشان نمی دهد. در بعدازظهر، رئیس بازاریابی دیجیتال ناامید است زیرا فیدهای داده از ابزارهای SaaS آنها هرگز به پلتفرم داده مشتریان آنها راه پیدا نکردند. دانشمندان داده همچنین ناراحت هستند زیرا نمی‌توانند مدل‌های یادگیری ماشینی خود را بدون بارگیری آخرین مجموعه داده‌ها دوباره آموزش دهند.

اینها مشکلات dataops هستند و مهم هستند. کسب‌وکارها باید به درستی انتظار داشته باشند که داده‌های دقیق و به موقع به تجسم داده‌ها، پلتفرم‌های تجزیه و تحلیل، پورتال‌های مشتری، کاتالوگ داده‌ها، مدل‌های ML، و هر جایی که داده مصرف می‌شود، تحویل داده شود.

تیم‌های مدیریت داده و داده‌ها تلاش زیادی برای ساخت و پشتیبانی دریاچه‌های داده و انبارهای داده صرف می‌کنند. در حالت ایده‌آل، آنها توسط جریان‌های داده بی‌درنگ، ادغام داده‌ها یا ادغام‌های API تغذیه می‌شوند، اما بسیاری از سازمان‌ها هنوز اسکریپت‌های پردازش داده و گردش‌های کاری دستی دارند که باید در فهرست بدهی داده. متأسفانه، استحکام خطوط لوله داده گاهی اوقات یک فکر بعدی است و تیم های dataops اغلب در رسیدگی به مسائل منبع، خط لوله و کیفیت در ادغام داده های خود واکنش نشان می دهند.

در کتاب خود پیشگام دیجیتال من درباره روزهایی که ابزارهای ادغام داده کمتری وجود داشت و رفع مشکلات کیفیت داده به صورت دستی معمول بود. «هر برنامه پردازش داده یک گزارش دارد و هر فرآیند، صرف نظر از اینکه چند اسکریپت زنجیره‌دار شده‌اند، یک گزارش نیز دارد. من با ابزارهای یونیکس مانند sed، awk، grep و find تبدیل به یک جادوگر شدم تا در هنگام جستجوی دلیل اصلی یک فرآیند ناموفق، این گزارش‌ها را تجزیه کنم.”

امروزه ابزارهای بسیار قوی‌تری نسبت به دستورات یونیکس برای پیاده‌سازی قابلیت مشاهده در خطوط لوله داده وجود دارد. تیم های Dataops مسئول فراتر رفتن از اتصال و تبدیل منابع داده هستند. آنها همچنین باید اطمینان حاصل کنند که یکپارچه سازی داده ها به طور قابل اعتماد انجام می شود و مشکلات کیفیت داده را به طور موثر حل می کند.

حل بهینه سازی پرس و جو در Presto

مشاهده پذیری Dataops به بررسی قابلیت اطمینان داده ها کمک می کند

مشاهده‌پذیری رویه‌ای است که توسط تیم‌های devops استفاده می‌شود برای فعال کردن ردیابی از طریق سفرهای مشتری، برنامه‌ها، میکروسرویس‌ها و عملکردهای پایگاه داده. اقدامات شامل متمرکز کردن فایل های گزارش برنامه، نظارت بر عملکرد برنامه، و استفاده از AIops پلتفرم هایی برای ارتباط هشدارها با حوادث قابل مدیریت. هدف ایجاد دید، حل سریع‌تر حوادث، انجام تجزیه و تحلیل ریشه‌ای، شناسایی روندهای عملکرد، فعال کردن پزشکی قانونی امنیتی و رفع نقص‌های تولید است.

قابلیت مشاهده داده‌ها اهداف مشابهی را هدف قرار می‌دهد، فقط این ابزارها خطوط لوله داده را تجزیه و تحلیل می‌کنند، از تحویل داده‌های قابل اعتماد اطمینان می‌دهند و به حل مشکلات کیفیت داده کمک می‌کنند.

لیور گاویش، یکی از بنیانگذاران و مدیر ارشد فناوری در مونته کارلو، می‌گوید، «مشاهده‌پذیری داده به توانایی سازمان اشاره دارد. سلامت داده‌های خود را در هر مرحله از چرخه حیات دیتاوپ‌ها، از مصرف در انبار یا دریاچه گرفته تا لایه هوش تجاری، که در آن بیشتر مسائل مربوط به کیفیت داده‌ها برای ذینفعان ظاهر می‌شود، درک کنند.»

شان کنپ، مدیر عامل و بنیانگذار Ascend.io، بیانیه مشکل dataops را توضیح می دهد: “قابلیت مشاهده باید به شناسایی عوامل حیاتی مانند وضعیت عملیاتی بلادرنگ خطوط لوله و روندها در شکل داده کمک می کند. تأخیرها و خطاها باید زودتر شناسایی شوند تا از تحویل یکپارچه داده ها در سطوح خدمات توافق شده اطمینان حاصل شود. کسب‌وکارها باید از شکست‌های کد خط لوله و مشکلات کیفیت داده آگاه باشند تا بتوان به سرعت به آن‌ها رسیدگی کرد و به مصرف‌کنندگان پایین‌دستی منتشر نشوند.»

Knapp تاجران را به عنوان مشتریان کلیدی خطوط لوله داده‌اپس برجسته می‌کند. بسیاری از شرکت ها در تلاش هستند تا سازمان های داده محور< /a>، بنابراین وقتی خطوط لوله داده غیرقابل اعتماد یا غیرقابل اعتماد هستند، رهبران، کارمندان و مشتریان تحت تأثیر قرار می گیرند. ابزارهای مشاهده‌پذیری دیتاوپ‌ها می‌توانند برای این سازمان‌ها حیاتی باشند، به‌ویژه زمانی که داده‌های شهروندان دانشمندان از ابزارهای تجسم داده و آماده سازی داده به عنوان بخشی از کارهای روزانه خود استفاده می کنند.

کریس کونی، مدافع توسعه‌دهنده در Coralogix، می‌گوید، “مشاهده‌پذیری بیش از چند نمودار ارائه شده در داشبورد است. . این یک تمرین مهندسی است که کل پشته را در بر می گیرد و تیم ها را قادر می سازد تا تصمیمات بهتری بگیرند.”

قابلیت مشاهده در dataops در مقابل devops

برای تیم‌های devops استفاده از چندین ابزار نظارتی برای پوشش زیرساخت‌ها، شبکه‌ها، برنامه‌ها، سرویس‌ها و پایگاه‌های داده معمول است. این شبیه به دیتاوپ ها است – انگیزه های یکسان، ابزارهای مختلف. ادواردو سیلوا، بنیانگذار و مدیر عامل Calyptia، می‌گوید: «شما باید سیستم‌هایی داشته باشید که به درک این داده‌ها کمک کنند. ، و هیچ ابزار واحدی کافی نخواهد بود. در نتیجه، باید اطمینان حاصل کنید که خطوط لوله شما می‌توانند داده‌ها را به مقصدهای مختلفی هدایت کنند.»

ترمینال بلومبرگ برای Mastodon

سیلوا راه حل های منبع باز و خنثی از فروشنده را توصیه می کند. این رویکرد ارزش توجه دارد، به ویژه از آنجایی که بیشتر سازمان ها از چندین دریاچه داده، پایگاه داده و پلت فرم های یکپارچه سازی داده ها استفاده می کنند. یک قابلیت مشاهده‌پذیری dataops تعبیه‌شده در یکی از این پلت‌فرم‌های داده ممکن است پیکربندی و استقرار آن آسان باشد، اما ممکن است قابلیت‌های مشاهده‌پذیری داده‌ای جامع را که در همه پلتفرم‌ها کار می‌کند، ارائه نکند.

چه قابلیت هایی لازم است؟ Ashwin Rajeev، یکی از بنیانگذاران و CTO Acceldata.io، می‌گوید: «مشاهده‌پذیری داده‌های سازمانی باید به غلبه بر تنگناهای مرتبط با ساخت و راه اندازی خطوط لوله داده قابل اعتماد.”

راجیف توضیح می‌دهد: «داده‌ها باید هر بار با استفاده از ابزار دقیق مناسب با APIها و SDKها به‌موقع تحویل داده شوند. ابزارها باید ناوبری و تمرین مناسبی داشته باشند که امکان مقایسه را فراهم کند. این باید به تیم‌های دیتاوپ کمک کند تا به سرعت تنگناها و روندها را برای عیب‌یابی سریع‌تر و تنظیم عملکرد برای پیش‌بینی و پیشگیری از حوادث شناسایی کنند.»

ابزارهای Dataops با قابلیت‌های کد و کم‌کد

یکی از جنبه‌های مشاهده‌پذیری dataops عملیات است: قابلیت اطمینان و تحویل به موقع از منبع به پلت فرم مدیریت داده تا مصرف. نگرانی دوم کیفیت داده است. آرمون پطروسیان، یکی از بنیانگذاران و مدیر عامل Coalesce، می‌گوید، «مشاهده‌پذیری داده‌ها در dataops شامل اطمینان از دسترسی تیم‌های تجاری و مهندسی به داده ها به درستی پاکسازی، مدیریت و تبدیل شده اند تا سازمان ها بتوانند واقعاً تصمیمات تجاری و فنی مبتنی بر داده را اتخاذ کنند. با تکامل فعلی در برنامه‌های کاربردی داده، برای آماده‌سازی بهینه خطوط انتقال داده، سازمان‌ها باید بر ابزارهایی تمرکز کنند که انعطاف‌پذیری یک رویکرد کد اول را ارائه می‌دهند، اما مبتنی بر رابط کاربری گرافیکی هستند تا مقیاس سازمانی را فعال کنند، زیرا در نهایت، همه مهندس نرم‌افزار نیستند. “

حل مسائل پیچیده با پایگاه داده برداری

بنابراین دیتاوپ‌ها و بنابراین مشاهده‌پذیری داده‌ها باید دارای قابلیت‌هایی باشند که برای کدنویس‌هایی که API مصرف می‌کنند و خطوط لوله داده قوی و بی‌درنگ توسعه می‌دهند، جذاب باشد. اما غیر کدنویس‌ها همچنین به ابزارهای کیفیت داده و عیب‌یابی نیاز دارند تا با تلاش‌های آماده‌سازی و تجسم داده‌های خود کار کنند.

گاویش می‌افزاید: «همان‌طور که توسعه‌دهندگان به طور گسترده‌ای به ابزارهای اولیه اتوماسیون با کد پایین متکی هستند، دیتاوپ‌ها نیز به همین شکل است. “به عنوان یک جزء حیاتی از چرخه حیات dataops، راه حل های مشاهده پذیری داده ها باید به راحتی قابل پیاده سازی و استقرار در چندین محیط داده باشد.”

نظارت بر خطوط لوله داده توزیع شده

برای بسیاری از شرکت‌های بزرگ، پیاده‌سازی خطوط داده و برنامه‌های کاربردی قابل اعتماد آسان نیست. راماناتان سریکومار، مدیر ارشد راه حل در تأکید. “یک مسئله کلیدی این است که داده ها بینش کافی در مورد تراکنش هایی که از طریق ابرهای متعدد و محیط های قدیمی جریان دارند، ارائه نمی دهند.”

هیلاری اشتون، مدیر ارشد محصول در Teradata، موافق است. “اکوسیستم های داده های مدرن به طور ذاتی توزیع شده اند، که وظیفه دشوار مدیریت سلامت داده ها را در کل چرخه زندگی ایجاد می کند.”

و سپس او نتیجه نهایی را به اشتراک می‌گذارد: “اگر نمی‌توانید به داده‌های خود اعتماد کنید، هرگز داده محور نخواهید شد.”

اشتون توصیه می کند، “برای یک خط لوله داده بسیار قابل اعتماد، شرکت ها نیاز به یک نمای ۳۶۰ درجه دارند که با مشاهده داده های تله متری، ابرداده های عملیاتی، فنی و تجاری را یکپارچه کند. این نما امکان شناسایی و تصحیح مسائلی مانند تازه بودن داده ها، سوابق از دست رفته، تغییرات در طرحواره ها و خطاهای ناشناخته را فراهم می کند. جاسازی یادگیری ماشینی در این فرآیند همچنین می‌تواند به خودکارسازی این وظایف کمک کند.”

ما راه درازی را تا استفاده از دستورات یونیکس برای تجزیه فایل‌های گزارش برای مشکلات یکپارچه‌سازی داده‌ها پیموده‌ایم. ابزارهای مشاهده‌پذیری داده‌های امروزی بسیار پیچیده‌تر هستند، اما ارائه خطوط لوله داده قابل اعتماد و پردازش داده با کیفیت بالا برای بسیاری از سازمان‌ها همچنان یک چالش است. چالش را بپذیرید و با رهبران کسب‌وکار در یک پیاده‌سازی چابک و تدریجی شریک شوید زیرا تجسم داده‌ها و مدل‌های ML ساخته شده بر روی داده‌های غیرقابل اعتماد می‌تواند منجر به تصمیم‌های اشتباه و بالقوه مضر شود.