بدهی داده می تواند به همان اندازه بدهی های فناوری بد باشد و اگر در طول خط لوله داده به آن رسیدگی نشود، باعث ایجاد مشکلات امنیتی و اعتماد می شود.
تیمهای Devops زیرساختهای خود را بهعنوان کد ایجاد میکنند، پیادهسازیها را با یکپارچهسازی/تحویل پیوسته (CI/CD) خودکار میکنند، و آزمایش مداوم را به عنوان برخی از مراحل برای جلوگیری از بدهی فنی ایجاد میکنند. بیش از حد بدهی فنی بوی پنیر پوسیده می دهد و سرعتش کاهش می یابد تیم های توسعه چابک به دنبال ارائه ویژگی ها و بهبود قابلیت اطمینان برنامه هستند.
مارکو آناستاسوف، یکی از بنیانگذاران CI/CD سمافور.
تیم های مهندسی داده که به دنبال بهبود dataops و حاکمیت داده هستند باید بدهی فنی در کد و اتوماسیون خود را کاهش دهند، در حالی که دانشمندان داده باید مدل های یادگیری ماشین و سایر کدهای تحلیلی خود را ارزیابی کنند. .
کاهش بدهی فنی سطح کد برای تیم های داده و تجزیه و تحلیل کافی نیست. آنها همچنین باید به بدهی داده توسط:
رسیدگی کنند
- کاهش داده های تکراری
- بهبود کیفیت داده
- شناسایی دادههای تاریک منابع
- متمرکز کردن داده های اصلی
- حل مشکلات امنیت داده
مثل بدهی فنی، شناسایی بدهی دادهها پس از ایجاد آسانتر است. بدهی داده ها اغلب به تیم ها نیاز دارد که قبل از ایجاد بهبود خط لوله داده یا قابلیت های تجزیه و تحلیل جدید، مشکلات را اصلاح یا اصلاح کنند. پیادهسازی بهترین شیوهها که بدهی دادههای جدید را به حداقل میرساند سختتر است، بهویژه زمانی که تیمها نتوانند تمام موارد استفاده از تجزیه و تحلیل، داشبورد و یادگیری ماشین را در آینده پیشبینی کنند.
میشل تریکو، بنیانگذار و مدیر عامل Airbyte، میگوید: «بدهی بد نیست. با این حال، بدهی باید بازپرداخت شود، که باید در کانون توجه قرار گیرد، زیرا تصمیمات مهمی با داده ها گرفته می شود.”
در اینجا شش مرحله وجود دارد که تیمهای داده میتوانند روی آنها تمرکز کنند که به جلوگیری یا کاهش خطرات بدهی داده کمک میکند.
۱. حاکمیت را در قابلیت های تحلیلی بگنجانید
تیمهای Devops میدانند که رسیدگی به کیفیت کد، نقصها و مشکلات امنیتی پس از توسعه کد بسیار سختتر میشود، بنابراین به دنبال تغییر امنیت و تضمین کیفیت به چپ هستند. الف> تمرینات به طور مشابه، مهندسان dataops و دانشمندان داده باید شیوههای حاکمیت داده را به سمت چپ تغییر دهند و آنها را در حین ساخت یا بهروزرسانی خطوط لوله داده، تحلیلها و مدلهای ML القا کنند.
Joseph Rutakangwa، یکی از بنیانگذاران و مدیر عامل روازی، میگوید وجود فناوریهای حاکمیت داده میتواند کمک کند. او میگوید: «کاتالوگهای داده، ابزارهای خط داده، و سیستمهای مدیریت فراداده میتوانند به سازمانها در مدیریت و ردیابی منابع داده، مدلهای داده و اصل و نسب دادهها کمک کنند، که میتواند خطر بدهی دادهها را کاهش دهد». “ابزارهای کیفیت داده، مانند پروفایل داده ها و ابزارهای پاکسازی داده، می توانند به شناسایی و رسیدگی به مشکلات کیفیت داده کمک کنند، که می تواند به جلوگیری از معرفی داده های بی کیفیت به مدل داده و کاهش خطر بدهی داده ها کمک کند.” /p>
وجود فناوریها کمک میکند، اما تیمهای داده نیز باید بهترین شیوهها را القا کنند. مایکل دروگالیس، فنشناس اصلی در Confluent، “انتخاب آگاهانه الگوهای دسترسی، حفظ حاکمیت، ایجاد نسخهسازی، و تمایز” را توصیه میکند. دادههای منبع حقیقت در مقابل دادههای مشتقشده.»
ساشا گروجیچیچ، رئیس NowVertical، راه حل هایی مانند “استانداردسازی تجسم داده ها، حذف گزارش های استفاده نشده، تعریف” اضافه می کند. تعاریف داده، پیادهسازی کاتالوگهای دادهای که به تیمها در صورت نیاز به مستندات هشدار میدهند، و ایجاد رویههای کیفیت دادهها.”
۲. مدیریت را به تیم های داده و تجزیه و تحلیل اختصاص دهید
ارائه تیمهای داده چابک با فناوریهای مدیریت داده و دانستن بهترین شیوه ها گامی در مسیر درست است. اعضای تیم باید نقش ها و مسئولیت های خود را در مورد بدهی های فناوری و داده ها درک کنند تا روند بهبود مستمر را مدیریت کنند.
Rutakangwa توصیه میکند، «نقشهای سرپرست داده، مانند معماران داده، تحلیلگران داده، و مهندسان داده را تعیین کنید». او میگوید: «تخصیص نقشها به حفظ مدلهای داده، اطمینان از دقیق بودن دادهها و رفع مشکلات برای به حداقل رساندن بدهی دادهها کمک میکند.»
Grujicic اضافه می کند، “سازمان ها می توانند با اتخاذ یک استراتژی از بالا به پایین و ساختن یک سیستم مقیاس پذیر برای پشتیبانی از ورودی های فعلی و آینده، ساختار حاکمیت داده مناسب را شناسایی و ترسیم کنند. برای اکثر شرکتها، کاهش بدهی دادهها، ریسک را کاهش میدهد، هزینهها را کاهش میدهد، بهرهوری را افزایش میدهد و پایهای برای رشد در سالهای آینده ایجاد میکند.”
۳. معیارهای اعتماد را برای پیشبرد جبران بدهی ها ایجاد کنید
تیمهای دادهای که بر روی پرداخت بدهی دادهها متمرکز شدهاند، باید هدفشان بهبود اعتماد باشد، بنابراین وقتی کارمندان دادهها را بررسی میکنند، به صحت و کیفیت آن اعتماد کنند. Tricot میگوید: «سطح اعتمادی را که به دادهها دارید با استفاده از ابزار فهرستنویسی تعیین کنید و ببینید چه تعداد از کاوشهای داده و گزارشهای تولید به قطعات خاصی از دادهها متکی هستند.»
سطوح استفاده بالاتر می تواند نشان دهنده اعتماد باشد، اما تمام ماجرا نیست. دیتاوپ ها و تیم های حاکمیتی باید کیفیت داده ها را با استفاده از معیارهای دقت، کامل بودن، سازگاری، به موقع بودن، منحصر به فرد بودن و اعتبار اندازه گیری کنند. رهبران داده همچنین باید نظرسنجی از رهبران و کاربران و ایجاد امتیاز رضایت از داده ها را در مورد میزان اعتماد آنها به داده ها، گزارش ها و پیش بینی ها در نظر بگیرند.
۴. خط و نسب داده و قابلیت مشاهده
را پیاده سازی کنید
میزان استفاده کم، کیفیت پایین داده، یا معیارهای رضایت ناچیز از داده به شدت نشان میدهد که بدهی دادهها ممکن است نحوه استفاده رهبران از دادهها را برای تصمیمگیری تضعیف کند. وقتی اعتماد کم است، تیمهای dataops باید برای درک نسب دادهها و نحوه تغییر دادهها از منبع به مقصد، به عقب کار کنند. یکی از راههای انتقال دادهها به چپ، پیادهسازی قابلیت مشاهده دادهها در هر مرحله از فرآیند داده است.
گرانت فریچی، مدافع توسعه در نرم افزار Redgate. هنگامی که یک فرآیند dataops را راهاندازی میکنید تا بدانید که آیا مشکلی پیش آمده است یا خیر و چه چیزی برای رفع آن نیاز است، این نوع مشاهدهپذیری را ایجاد کنید. Grant همچنین می گوید که مشاهده پذیری داده ها به برقراری ارتباط جریان داده ها با کاربران تجاری کمک می کند و یک مسیر حسابرسی برای پشتیبانی از اشکال زدایی و ممیزی های انطباق ایجاد می کند.
جف فاستر، مدیر فناوری و نوآوری در نرمافزار Redgate، میافزاید: «مشاهدهپذیری دادهها با قرار دادن نردههای محافظ به مهندسان کمک میکند، بنابراین دادهها در نهایت به روشی سازگار و اخلاقی استفاده میشوند. همانطور که ما خطوط لوله AI/ML پیچیدهتری میسازیم، دیتاوپها از اهمیت فزایندهای برخوردار خواهند شد زیرا ما به دنبال درک منابع داده مورد استفاده برای ساخت مدلهای یادگیری ماشینی در مقیاس بزرگ هستیم.
۵. مراقب داده های قفل شده در سیستم های بسته باشید
بخشی از بدهی داده، بدهی سیستم های داده است که زمانی ایجاد می شود که پلتفرم های مدیریت داده زیربنایی نیازهای کسب و کار را برآورده نمی کنند. Erik Bledsoe، مدیر بازاریابی محتوا در Calyptia، میگوید: «دادهها تا زمانی که اینطور نباشند بیاهمیت هستند، و سپس بسیار مهم هستند. . به همین دلیل است که شما باید بتوانید دادههای خود را پردازش کنید، آنچه را که در حال حاضر مرتبط است در قسمتهای پشتی مناسب ذخیره کنید، و سپس بقیه را به راهحلهای ذخیرهسازی کمهزینه هدایت کنید، جایی که بتوان آنها را برای تجزیه و تحلیل آینده بازیابی کرد.”
Bledsoe توصیه میکند به دنبال ابزارهای خنثی از فروشنده با استانداردهای باز باشید. او هشدار میدهد، «دادههایی که فقط توسط برنامهای قابل دسترسی است که سه سال پیش استفاده از آن را متوقف کردهاید، به همان اندازه بد است که دادههای اولیه را ندارید، و ممکن است بدتر از آنها باشد زیرا دادههای شما اساساً گروگان هستند. >
یکی از راههای جلوگیری از قفل کردن، خودکار کردن استخراج دادهها از SaaS و سایر برنامهها و استفاده از پلتفرمهای داده متمرکز مانند دریاچههای داده یا انبارهای داده برای گزارشدهی و موارد استفاده تجزیه و تحلیل است. پلتفرمهای داده متمرکز نیز میتوانند منبع هر گونه مهاجرت پلتفرم باشند. بایگانی کردن دادههای قدیمیتر به برآورده کردن الزامات انطباق بدون ابزارهای تجسم و تجزیه و تحلیل دادهها با دادههای بیشتر از نیاز کمک میکند.
۶. پلتفرم های مدیریتی بهینه را برای انواع داده انتخاب کنید
یک نکته نهایی در مورد بدهی سیستم های داده، نیاز معماران به بحث در مورد پایگاه داده بهینه و پلت فرم های مدیریت داده است. پایگاههای داده رابطهای تنها گزینههای قابل دوام دههها پیش بودند، اما امروزه، معماران میتوانند از میان گراف، کلید-مقدار، ستونی، سند و سایر فناوریهای پایگاه داده انتخاب کنند.
یک پلتفرم مدیریت داده کمتر بهینه را انتخاب کنید، و راهحلهای مورد نیاز برای تجزیه و تحلیل دادهها میتواند پیچیدگیهای بدهی دادهها را ایجاد کند.
یک رویکرد این است که ذخیرههای داده انعطافپذیر مانند دریاچههای داده و مدلهای داده نیمهساختار یافته را در پایگاههای داده گراف مشاهده کنید. ویکتور لی، معاون تجربه توسعه دهندگان در TigerGraph، میگوید: «فناوری گراف با فعال کردن مشاغل به کاهش بدهی دادهها کمک میکند. برای اتصال سریع داده های خود به روشی آزاد و سپس کمک به یکپارچه سازی داده ها به صورت هوشمندتر.”
از آنجایی که سازمانها به دنبال دادههای بیشتری در تصمیمگیری هستند و مدلهای یادگیری ماشینی را برای مزیتهای رقابتی توسعه میدهند، تیمهای داده باید بدهی دادهها را فعالانه رسیدگی کنند.
پست های مرتبط
۶ راه برای جلوگیری و کاهش بدهی داده ها
۶ راه برای جلوگیری و کاهش بدهی داده ها
۶ راه برای جلوگیری و کاهش بدهی داده ها