۳۰ شهریور ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

۶ راه برای جلوگیری و کاهش بدهی داده ها

بدهی داده می تواند به همان اندازه بدهی های فناوری بد باشد و اگر در طول خط لوله داده به آن رسیدگی نشود، باعث ایجاد مشکلات امنیتی و اعتماد می شود.

بدهی داده می تواند به همان اندازه بدهی های فناوری بد باشد و اگر در طول خط لوله داده به آن رسیدگی نشود، باعث ایجاد مشکلات امنیتی و اعتماد می شود.

تیم‌های Devops زیرساخت‌های خود را به‌عنوان کد ایجاد می‌کنند، پیاده‌سازی‌ها را با یکپارچه‌سازی/تحویل پیوسته (CI/CD) خودکار می‌کنند، و آزمایش مداوم را به عنوان برخی از مراحل برای جلوگیری از بدهی فنی ایجاد می‌کنند. بیش از حد بدهی فنی بوی پنیر پوسیده می دهد و سرعتش کاهش می یابد تیم های توسعه چابک به دنبال ارائه ویژگی ها و بهبود قابلیت اطمینان برنامه هستند.

مارکو آناستاسوف، یکی از بنیانگذاران CI/CD سمافور.

تیم های مهندسی داده که به دنبال بهبود dataops و حاکمیت داده هستند باید بدهی فنی در کد و اتوماسیون خود را کاهش دهند، در حالی که دانشمندان داده باید مدل های یادگیری ماشین و سایر کدهای تحلیلی خود را ارزیابی کنند. .

کاهش بدهی فنی سطح کد برای تیم های داده و تجزیه و تحلیل کافی نیست. آنها همچنین باید به بدهی داده توسط:

رسیدگی کنند

مثل بدهی فنی، شناسایی بدهی داده‌ها پس از ایجاد آسان‌تر است. بدهی داده ها اغلب به تیم ها نیاز دارد که قبل از ایجاد بهبود خط لوله داده یا قابلیت های تجزیه و تحلیل جدید، مشکلات را اصلاح یا اصلاح کنند. پیاده‌سازی بهترین شیوه‌ها که بدهی داده‌های جدید را به حداقل می‌رساند سخت‌تر است، به‌ویژه زمانی که تیم‌ها نتوانند تمام موارد استفاده از تجزیه و تحلیل، داشبورد و یادگیری ماشین را در آینده پیش‌بینی کنند.

میشل تریکو، بنیانگذار و مدیر عامل Airbyte، می‌گوید: «بدهی بد نیست. با این حال، بدهی باید بازپرداخت شود، که باید در کانون توجه قرار گیرد، زیرا تصمیمات مهمی با داده ها گرفته می شود.”

در اینجا شش مرحله وجود دارد که تیم‌های داده می‌توانند روی آنها تمرکز کنند که به جلوگیری یا کاهش خطرات بدهی داده کمک می‌کند.

۱. حاکمیت را در قابلیت های تحلیلی بگنجانید

تیم‌های Devops می‌دانند که رسیدگی به کیفیت کد، نقص‌ها و مشکلات امنیتی پس از توسعه کد بسیار سخت‌تر می‌شود، بنابراین به دنبال تغییر امنیت و تضمین کیفیت به چپ هستند. الف> تمرینات به طور مشابه، مهندسان dataops و دانشمندان داده باید شیوه‌های حاکمیت داده را به سمت چپ تغییر دهند و آنها را در حین ساخت یا به‌روزرسانی خطوط لوله داده، تحلیل‌ها و مدل‌های ML القا کنند.

Joseph Rutakangwa، یکی از بنیانگذاران و مدیر عامل روازی، می‌گوید وجود فناوری‌های حاکمیت داده می‌تواند کمک کند. او می‌گوید: «کاتالوگ‌های داده، ابزارهای خط داده، و سیستم‌های مدیریت فراداده می‌توانند به سازمان‌ها در مدیریت و ردیابی منابع داده، مدل‌های داده و اصل و نسب داده‌ها کمک کنند، که می‌تواند خطر بدهی داده‌ها را کاهش دهد». “ابزارهای کیفیت داده، مانند پروفایل داده ها و ابزارهای پاکسازی داده، می توانند به شناسایی و رسیدگی به مشکلات کیفیت داده کمک کنند، که می تواند به جلوگیری از معرفی داده های بی کیفیت به مدل داده و کاهش خطر بدهی داده ها کمک کند.” /p>

وجود فناوری‌ها کمک می‌کند، اما تیم‌های داده نیز باید بهترین شیوه‌ها را القا کنند. مایکل دروگالیس، فن‌شناس اصلی در Confluent، “انتخاب آگاهانه الگوهای دسترسی، حفظ حاکمیت، ایجاد نسخه‌سازی، و تمایز” را توصیه می‌کند. داده‌های منبع حقیقت در مقابل داده‌های مشتق‌شده.»

ساشا گروجیچیچ، رئیس NowVertical، راه حل هایی مانند “استانداردسازی تجسم داده ها، حذف گزارش های استفاده نشده، تعریف” اضافه می کند. تعاریف داده، پیاده‌سازی کاتالوگ‌های داده‌ای که به تیم‌ها در صورت نیاز به مستندات هشدار می‌دهند، و ایجاد رویه‌های کیفیت داده‌ها.”

۲. مدیریت را به تیم های داده و تجزیه و تحلیل اختصاص دهید

ارائه تیم‌های داده چابک با فناوری‌های مدیریت داده و دانستن بهترین شیوه ها گامی در مسیر درست است. اعضای تیم باید نقش ها و مسئولیت های خود را در مورد بدهی های فناوری و داده ها درک کنند تا روند بهبود مستمر را مدیریت کنند.

Rutakangwa توصیه می‌کند، «نقش‌های سرپرست داده، مانند معماران داده، تحلیلگران داده، و مهندسان داده را تعیین کنید». او می‌گوید: «تخصیص نقش‌ها به حفظ مدل‌های داده، اطمینان از دقیق بودن داده‌ها و رفع مشکلات برای به حداقل رساندن بدهی داده‌ها کمک می‌کند.»

Grujicic اضافه می کند، “سازمان ها می توانند با اتخاذ یک استراتژی از بالا به پایین و ساختن یک سیستم مقیاس پذیر برای پشتیبانی از ورودی های فعلی و آینده، ساختار حاکمیت داده مناسب را شناسایی و ترسیم کنند. برای اکثر شرکت‌ها، کاهش بدهی داده‌ها، ریسک را کاهش می‌دهد، هزینه‌ها را کاهش می‌دهد، بهره‌وری را افزایش می‌دهد و پایه‌ای برای رشد در سال‌های آینده ایجاد می‌کند.”

۳. معیارهای اعتماد را برای پیشبرد جبران بدهی ها ایجاد کنید

تیم‌های داده‌ای که بر روی پرداخت بدهی داده‌ها متمرکز شده‌اند، باید هدفشان بهبود اعتماد باشد، بنابراین وقتی کارمندان داده‌ها را بررسی می‌کنند، به صحت و کیفیت آن اعتماد کنند. Tricot می‌گوید: «سطح اعتمادی را که به داده‌ها دارید با استفاده از ابزار فهرست‌نویسی تعیین کنید و ببینید چه تعداد از کاوش‌های داده و گزارش‌های تولید به قطعات خاصی از داده‌ها متکی هستند.»

سطوح استفاده بالاتر می تواند نشان دهنده اعتماد باشد، اما تمام ماجرا نیست. دیتاوپ ها و تیم های حاکمیتی باید کیفیت داده ها را با استفاده از معیارهای دقت، کامل بودن، سازگاری، به موقع بودن، منحصر به فرد بودن و اعتبار اندازه گیری کنند. رهبران داده همچنین باید نظرسنجی از رهبران و کاربران و ایجاد امتیاز رضایت از داده ها را در مورد میزان اعتماد آنها به داده ها، گزارش ها و پیش بینی ها در نظر بگیرند.

۴. خط و نسب داده و قابلیت مشاهده

را پیاده سازی کنید

میزان استفاده کم، کیفیت پایین داده، یا معیارهای رضایت ناچیز از داده به شدت نشان می‌دهد که بدهی داده‌ها ممکن است نحوه استفاده رهبران از داده‌ها را برای تصمیم‌گیری تضعیف کند. وقتی اعتماد کم است، تیم‌های dataops باید برای درک نسب داده‌ها و نحوه تغییر داده‌ها از منبع به مقصد، به عقب کار کنند. یکی از راه‌های انتقال داده‌ها به چپ، پیاده‌سازی قابلیت مشاهده داده‌ها در هر مرحله از فرآیند داده است.

گرانت فریچی، مدافع توسعه در نرم افزار Redgate. هنگامی که یک فرآیند dataops را راه‌اندازی می‌کنید تا بدانید که آیا مشکلی پیش آمده است یا خیر و چه چیزی برای رفع آن نیاز است، این نوع مشاهده‌پذیری را ایجاد کنید. Grant همچنین می گوید که مشاهده پذیری داده ها به برقراری ارتباط جریان داده ها با کاربران تجاری کمک می کند و یک مسیر حسابرسی برای پشتیبانی از اشکال زدایی و ممیزی های انطباق ایجاد می کند.

جف فاستر، مدیر فناوری و نوآوری در نرم‌افزار Redgate، می‌افزاید: «مشاهده‌پذیری داده‌ها با قرار دادن نرده‌های محافظ به مهندسان کمک می‌کند، بنابراین داده‌ها در نهایت به روشی سازگار و اخلاقی استفاده می‌شوند. همانطور که ما خطوط لوله AI/ML پیچیده‌تری می‌سازیم، دیتاوپ‌ها از اهمیت فزاینده‌ای برخوردار خواهند شد زیرا ما به دنبال درک منابع داده مورد استفاده برای ساخت مدل‌های یادگیری ماشینی در مقیاس بزرگ هستیم.

۵. مراقب داده های قفل شده در سیستم های بسته باشید

بخشی از بدهی داده، بدهی سیستم های داده است که زمانی ایجاد می شود که پلتفرم های مدیریت داده زیربنایی نیازهای کسب و کار را برآورده نمی کنند. Erik Bledsoe، مدیر بازاریابی محتوا در Calyptia، می‌گوید: «داده‌ها تا زمانی که اینطور نباشند بی‌اهمیت هستند، و سپس بسیار مهم هستند. . به همین دلیل است که شما باید بتوانید داده‌های خود را پردازش کنید، آنچه را که در حال حاضر مرتبط است در قسمت‌های پشتی مناسب ذخیره کنید، و سپس بقیه را به راه‌حل‌های ذخیره‌سازی کم‌هزینه هدایت کنید، جایی که بتوان آن‌ها را برای تجزیه و تحلیل آینده بازیابی کرد.”

Bledsoe توصیه می‌کند به دنبال ابزارهای خنثی از فروشنده با استانداردهای باز باشید. او هشدار می‌دهد، «داده‌هایی که فقط توسط برنامه‌ای قابل دسترسی است که سه سال پیش استفاده از آن را متوقف کرده‌اید، به همان اندازه بد است که داده‌های اولیه را ندارید، و ممکن است بدتر از آن‌ها باشد زیرا داده‌های شما اساساً گروگان هستند. >

یکی از راه‌های جلوگیری از قفل کردن، خودکار کردن استخراج داده‌ها از SaaS و سایر برنامه‌ها و استفاده از پلتفرم‌های داده متمرکز مانند دریاچه‌های داده یا انبارهای داده برای گزارش‌دهی و موارد استفاده تجزیه و تحلیل است. پلتفرم‌های داده متمرکز نیز می‌توانند منبع هر گونه مهاجرت پلتفرم باشند. بایگانی کردن داده‌های قدیمی‌تر به برآورده کردن الزامات انطباق بدون ابزارهای تجسم و تجزیه و تحلیل داده‌ها با داده‌های بیشتر از نیاز کمک می‌کند.

۶. پلتفرم های مدیریتی بهینه را برای انواع داده انتخاب کنید

یک نکته نهایی در مورد بدهی سیستم های داده، نیاز معماران به بحث در مورد پایگاه داده بهینه و پلت فرم های مدیریت داده است. پایگاه‌های داده رابطه‌ای تنها گزینه‌های قابل دوام دهه‌ها پیش بودند، اما امروزه، معماران می‌توانند از میان گراف، کلید-مقدار، ستونی، سند و سایر فناوری‌های پایگاه داده انتخاب کنند.

یک پلتفرم مدیریت داده کمتر بهینه را انتخاب کنید، و راه‌حل‌های مورد نیاز برای تجزیه و تحلیل داده‌ها می‌تواند پیچیدگی‌های بدهی داده‌ها را ایجاد کند.

یک رویکرد این است که ذخیره‌های داده انعطاف‌پذیر مانند دریاچه‌های داده و مدل‌های داده نیمه‌ساختار یافته را در پایگاه‌های داده گراف مشاهده کنید. ویکتور لی، معاون تجربه توسعه دهندگان در TigerGraph، می‌گوید: «فناوری گراف با فعال کردن مشاغل به کاهش بدهی داده‌ها کمک می‌کند. برای اتصال سریع داده های خود به روشی آزاد و سپس کمک به یکپارچه سازی داده ها به صورت هوشمندتر.”

از آنجایی که سازمان‌ها به دنبال داده‌های بیشتری در تصمیم‌گیری هستند و مدل‌های یادگیری ماشینی را برای مزیت‌های رقابتی توسعه می‌دهند، تیم‌های داده باید بدهی داده‌ها را فعالانه رسیدگی کنند.