کیفیت دادهها مهمتر از همیشه است و بسیاری از تیمهای dataops تلاش میکنند تا به این روند ادامه دهند. در اینجا پنج راه برای خودکارسازی عملیات داده با هوش مصنوعی و ML وجود دارد.
- استفاده از هوش مصنوعی و ML برای تبدیل داده
- ۱. کاهش آماده سازی داده برای مجموعه داده های جدید
- ۲. مقیاس مشاهده پذیری داده ها و نظارت مستمر
- ۳. بهبود تجزیه و تحلیل داده ها و طبقه بندی
- ۴. دسترسی سریعتری به دادههای پاکشده فراهم کنید
- ۵. کاهش هزینه و افزایش مزایای پاکسازی داده
- نتیجهگیری
مشاهده دادهها، دادهها، آمادهسازی دادهها، یکپارچهسازی دادهها – هر چه سازمان شما آن را بنامد، مدیریت عملیات برای یکپارچهسازی و پاکسازی دادهها کار فشردهای است. بسیاری از کسبوکارها برای ادغام کارآمد مجموعههای داده جدید، بهبود کیفیت دادهها، متمرکز کردن سوابق اصلی دادهها و ایجاد نمایههای تمیز دادههای مشتری تلاش میکنند.
Dataops چالش جدیدی نیست، اما خطرات بیشتر است زیرا شرکتهای بیشتری میخواهند سازمان های داده محور و تجزیه و تحلیل را به عنوان یک مزیت رقابتی به کار بگیرید. پیشگامان دیجیتال همچنین در حال گسترش دادهها به منابع داده بدون ساختار هستند برای ایجاد قابلیت های جستجوی هوش مصنوعی و آماده سازی داده ها برای استفاده در مدل های زبان بزرگ.
استفاده از هوش مصنوعی و ML برای تبدیل داده
دادهها باید کارآمدتر شوند، نتایج با کیفیت بهتری ارائه دهند، برای مدیریت حجم و سرعت دادههای بزرگ مقیاس شوند، با منابع داده متفاوتتر کار کنند، و قابلیت اطمینان خطوط لوله داده را بهبود بخشند.
رئیس هوش مصنوعی Newgen Software، Rajan Nagina. “Dataops شامل یکپارچه سازی افراد، فناوری و گردش کار برای اطمینان از مدیریت کارآمد داده ها با تمرکز بر بهبود کیفیت، دسترسی و قابلیت اطمینان داده ها است.”
ابزارهای خودکارسازی خطوط لوله داده در حال بهبود هستند و بسیاری از قابلیتهای یادگیری ماشین و هوش مصنوعی را تحت تأثیر قرار میدهند. تکنیکهای دیتاوپهای یادگیری ماشینی و هوش مصنوعی، عملیات داده را از رویکردهای دستی و مبتنی بر قوانین به سمت اتوماسیون هوشمند تغییر میدهند.
سونیل سنان، معاون ارشد و رئیس جهانی داده، تجزیه و تحلیل و هوش مصنوعی در Infosys، چندین مورد را اضافه می کند مزایای رقابتی زمانی که شرکت ها از یادگیری ماشینی و هوش مصنوعی در دیتاوپ ها استفاده می کنند. شرکتها میتوانند هوش مصنوعی را برای کشف سریع دادهها، فهرستنویسی و نمایهسازی سریع دادهها به کار گیرند، در حالی که ML میتواند ناهنجاریها را شناسایی کند، ناسازگاریها را شناسایی کند و دادهها را غنی کند. هوش مصنوعی، ML، و اتوماسیون با هم می توانند به تولید کیفیت داده بهبودیافته، هماهنگ سازی داده های اصلی و ایجاد بافتی برای ساخت محصولات داده و تیم های داده موثر کمک کنند.”
تیمهای dataops کجا میتوانند اتوماسیون را گسترش دهند و از یادگیری ماشین و هوش مصنوعی به عنوان قابلیتهای تغییر بازی استفاده کنند؟ در اینجا پنج مثال وجود دارد.
۱. کاهش آماده سازی داده برای مجموعه داده های جدید
Crux‘s CEP ویل فرایبرگ. «با استفاده از راهحلهای خودکار، تیمهای dataops میتوانند نسبت را از ۷۰ درصد زمانی که صرف آمادهسازی دادهها میکنند به ۷۰ درصد از زمانی که برای تجزیه و تحلیل با ارزش صرف میکنند، تغییر دهند.»
در اینجا دو سؤال کلیدی برای تیمهای dataops وجود دارد که باید در مورد تأثیر تلاشهای دستی در نظر بگیرند:
- زمان چرخه اندازهگیری شده از کشف اولیه مجموعه دادههای جدید تا بارگیری، تمیز کردن، و پیوستن آن به دریاچه دادههای سازمان و فهرستشده در کاتالوگ داده چقدر است؟
- هنگامی که خط لوله داده وجود دارد، آیا از نظارت و اتوماسیون برای شناسایی و تنظیم تغییرات در قالب داده استفاده میکنید؟
وقتی برای بارگیری و پشتیبانی از خطوط لوله داده به مراحل پردازش دستی داده نیاز است، تیمهای dataops میتوانند از این فرصت استفاده کنند تا زمان چرخه منابع داده جدید را بهبود بخشند و در این بین مشکلات مربوط به خط لوله داده را بازیابی کنند.
فریبرگ ادامه میدهد، «زمانی که تیمهای داده استانداردهایی را برای کیفیت دادهها تعریف کرده و آنها را در هوش مصنوعی برنامهریزی میکنند، این فناوری میتواند تغییرات طرحواره و ناهنجاریهای نمایه دادهها را هنگام نصب مجموعه دادههای خارجی شناسایی و مدیریت کند – از شکسته شدن خطوط لوله داده و نیاز به مداخله دستی جلوگیری میکند.»
۲. مقیاس پذیری داده ها و نظارت مستمر
خطوط لوله داده شکسته زمانی اتفاق میافتد که مهندسان دیتاوپ از نظارت، هشدار و اتوماسیون برای شناسایی مشکلات و اجرای سریع اصلاحات استفاده نمیکنند. اصلاحات پیشگیرانه شامل ابزارها و شیوههای قابلیت مشاهده دادهها برای ثبت رویدادهای یکپارچهسازی دادهها و نظارت بر خطوط لوله داده است.
امیلی واشنگتن، معاون ارشد مدیریت محصول در دقیقا. “یک رویکرد موثر برای اطمینان از کیفیت داده ها، اعتبارسنجی داده ها هنگام ورود به اکوسیستم سازمان و اطمینان از نظارت مستمر با اتخاذ قابلیت مشاهده داده ها به عنوان بخشی از یک استراتژی کلی یکپارچگی داده است.”
مشاهدهپذیری دادهها با هدف ارائه خطوط لوله دادههای ثابت و قابل اعتماد برای تصمیمگیری در زمان واقعی، بهروزرسانی داشبوردها و استفاده در مدلهای یادگیری ماشینی است. این یکی از راههای تیمهای dataops برای مدیریت اهداف سطح سرویس است، این اصل در مهندسی قابلیت اطمینان سایت معرفی شده است که به طور یکسان در خطوط لوله داده اعمال میشود.
واشنگتن میگوید: «مشاهدهپذیری دادهها به سازمانها کمک میکند تا به طور فعال کیفیت دادهها را در مقیاس شناسایی و مدیریت کنند، که منجر به خطوط لوله دادههای سالمتر، تیمهای سازندهتر و مشتریان شادتر میشود.
با نگاه به آینده، وقتی قابلیتهای dataops در هوش مصنوعی مولد به جریان اصلی تبدیل شوند، این پتانسیل را دارند که قابلیت مشاهده دادهها را در مقیاس با
فعال کنند.
- تشخیص الگوهای مشکل داده و توصیه به اصلاح یا راه اندازی پاکسازی خودکار
- توصیه اصلاحات و پیشنهادات کد به خطوط لوله داده
- مستند کردن خطوط لوله داده و بهبود اطلاعات جمعآوریشده برای مشاهده دادهها
۳. بهبود تجزیه و تحلیل داده ها و طبقه بندی
تیمهای Dataops همچنین میتوانند از هوش مصنوعی و یادگیری ماشینی برای تجزیه و تحلیل و طبقهبندی دادهها هنگام عبور از خطوط لوله داده استفاده کنند.
هیلاری اشتون، مدیر ارشد محصول در Teradata. مدلهای ML را میتوان برای یافتن الگوهای پنهان در دادهها، پاکسازی و هماهنگی برای انطباق با استانداردها، و طبقهبندی دادههای حساس برای اطمینان از حاکمیت مناسب، مورد استفاده قرار داد.
طبقهبندیهای اساسی شامل شناسایی اطلاعات شناسایی شخصی (PII) و سایر دادههای حساس در مجموعه دادههایی است که برای حاوی این نوع اطلاعات علامتگذاری نشدهاند. پس از شناسایی، تیم های حاکمیت داده می توانند قوانین اتوماسیون را برای طبقه بندی مجدد منبع و راه اندازی سایر قوانین تجاری تعریف کنند.
اشتون معتقد است هوش مصنوعی مولد ابزارهای مدیریتی و کیفیت داده قدرتمندتر را هدایت می کند و می گوید، “تیم های Dataops به استفاده از دانش و داده های حوزه تجاری از پلتفرم های همکاری برای ارائه زمینه و الگوهای غنی تر به داده ها نگاه خواهند کرد. “
یک مورد دیگر استفاده از انطباق با داده ها در امنیت است. من با تایلر جانسون، یکی از بنیانگذاران و مدیر ارشد فناوری PrivOps صحبت کردم، در مورد اینکه چگونه مدیریت هویت و دسترسی اغلب نادیده گرفته می شود. دیتاوپ ها می توانند با اتوماسیون و هوش مصنوعی ارزش ارائه دهند. او میگوید: «اتوماسیون میتواند خطر استفاده بازیگران بد از مجوزهای قدیمی برای نفوذ به سازمان را به حداقل برساند، اما هیچ کاری برای مقابله با تهدیدات کاربران مجاز نمیکند.» «با گسترش جریانهای کاری خط لوله داده برای جمعآوری و ادغام دادههای ثبت دسترسی کاربر با هوش مصنوعی، دیتاوپهای شریک با infosec میتوانند تهدیدات خارج و داخل سازمان را به حداقل برسانند. هوش مصنوعی الگوهای دسترسی مشکوک را شناسایی می کند و در صورت شناسایی به مرکز عملیات امنیتی (SOC) هشدار می دهد.”
۴. دسترسی سریعتری به دادههای پاکشده فراهم کنید
شناسایی اطلاعات حساس در جریان داده و سایر ناهنجاریها یک مورد اساسی استفاده از حاکمیت داده است، اما آنچه تیمهای تجاری واقعاً میخواهند دسترسی سریعتر به دادههای پاکشده است. مورد استفاده اولیه برای تیمهای بازاریابی، فروش و خدمات مشتری، بهروزرسانیهای بیدرنگ سوابق دادههای مشتری و پخش دادهها در پایگاه داده پروفایل داده های مشتری (CDP) یکی از روش های متمرکز کردن سوابق مشتری است.
«بهکارگیری ابزارهای مناسب برای شناسایی و رسیدگی به مشکلات کیفیت داده در سراسر خط لوله پردازش داده بسیار مهم است، با برنامهریزی تجزیه و تحلیل خودکار دادههای اکتشافی، پاکسازی دادهها، و ابزارهای تطبیق شناسه کاربری قطعی و احتمالی برای اجرا در حین دریافت دادهها شروع میشود.» کارل ویرث، مدیر ارشد محصول و فناوری Treasure Data. دوخت شناسه کاربر بیدرنگ را میتوان با تقسیمبندی خودکار (با استفاده از خوشهبندی و دیگر مدلهای یادگیری ماشین) ترکیب کرد تا بینش و شخصیسازی را بهطور مداوم با جمعآوری دادهها بهروزرسانی کند. در نهایت، الگوریتمهای پیشبینی خودکار و تشخیص ناهنجاری، همراه با تشخیص انحراف دادهها، تصویر را با اطمینان از اینکه کیفیت در طول زمان دست نخورده باقی میماند، کامل میکند.
رویکرد دوم برای مدیریت دادههای مشتری مدیریت داده اصلی (MDM) است، که در آن dataops قوانینی را برای شناسایی سوابق و فیلدهای مشتری اولیه از منابع دادههای متعدد تعریف میکند.
Manish Sood، مدیر عامل، بنیانگذار و رئیس Reltio، می گوید یادگیری ماشین به ترکیب اطلاعات از چندین منبع کمک می کند. . او میگوید: «رویکردهای مدرن از اتوماسیون و تکنیکهای مبتنی بر ML برای یکسانسازی سریع دادهها از منابع متعدد استفاده میکنند، و از محدوده محدود سیستمهای MDM سنتی خارج میشوند.
یادگیری ماشین همچنین به کاهش تعداد و پیچیدگی قوانین تجاری در سیستمهای MDM کمک میکند. دیوید کاکس، مدیر محصول خروجی در Semarchy. «هوش مصنوعی و یادگیری ماشینی میتوانند به خودکارسازی کیفیت دادهها در مقیاس کمک کنند، زیرا ممکن است برای کنترل کیفیت دادههای بزرگ، با سرعت بالا و پیچیده، به تعداد نامتناهی قانون نیاز باشد.»
آنتونی دیتون، مدیر کل محصولات داده در Tamr، مثالی از جایی که یادگیری ماشینی میتواند جایگزین سختافزار شود را به اشتراک میگذارد. برای حفظ قوانین تجاری او میگوید: «هوش مصنوعی و یادگیری ماشین ابزارهای قدرتمندی هستند که میتوانند تفاوت واقعی در دیتاوپها ایجاد کنند. به عنوان مثال، سوابق مشتری تکراری را می توان در یک رکورد جامع ادغام کرد که منجر به دقت بیشتر داده ها و بینش بهتر می شود.”
انتظار قابلیتهای هوش مصنوعی مولد بیشتری در راهحلهای CDP و MDM داشته باشید، بهویژه در زمینه غنیسازی سوابق مشتریان با اطلاعات استخراجشده از اسناد و سایر منابع دادهای بدون ساختار.
۵. کاهش هزینه و افزایش مزایای پاکسازی داده
Dataopها این فرصت را دارند که از هوش مصنوعی و یادگیری ماشینی استفاده کنند تا مسئولیت های اصلی خود را از پاکسازی داده ها و تعمیر خط لوله به ارائه خدمات ارزش افزوده مانند غنی سازی داده ها تغییر دهند.
Satish Jayanthi، یکی از بنیانگذاران و CTO Coalesce. “این فناوریها میتوانند به طور موثر دادههای اشتباه را با استفاده از اتوماسیون شناسایی و اصلاح کنند و در نتیجه پیامدهای منفی را کاهش دهند.”
اشوین راجیوا، یکی از بنیانگذاران و مدیر ارشد فناوری Acceldata، نمونه هایی از نحوه فعال کردن کیفیت داده پیوسته توسط ML به اشتراک می گذارد. بهبود با یادگیری از طریق الگوها. “یادگیری ها را می توان برای تصحیح خطاها، پر کردن داده های از دست رفته، افزودن برچسب ها، انجام دسته بندی هوشمند و حذف داده ها به کار برد.”
نتیجه گیری
Eswar Nagireddy، مدیر ارشد محصول علم داده در Exasol، به اهمیت افزایش کارایی در دیتاوپ ها اشاره می کند. «امروزه، بیشتر تیمهای داده و تجزیه و تحلیل زمان و منابع لازم را ندارند تا با نیازهای سلامت دادهها و نظارت بر آنها هماهنگی داشته باشند، به خصوص که فشار برای کاهش هزینههای عملیاتی و تعداد کار افزایش مییابد. تیمهای دادهای که از یادگیری ماشین خودکار (AutoML)، بدون کد و کمکد بهره میبرند، میتوانند در عین اطمینان از سلامت دادههای خود، سریعتر به ارزش ML کاربردی برای کسبوکار پی ببرند.
تیمهای Dataops میتوانند با استفاده از هوش مصنوعی و تکنیکهای یادگیری ماشین و تکیه کمتر بر تلاشهای دستی یا قوانین سختکد شده تجاری، حجم کار را کاهش دهند، کیفیت دادهها را بهبود بخشند و قابلیت اطمینان خط لوله داده را افزایش دهند. پس از ایجاد این تغییرات، تیمها میتوانند از هوش مصنوعی و یادگیری ماشینی برای هدایت ارزشهای تجاری رقابتی با تسریع زمان ادغام مجموعههای داده جدید، و همچنین غنیسازی سوابق مشتریان و بهبود مدیریت داده استفاده کنند.
پست های مرتبط
۵ روش برای استفاده از هوش مصنوعی و یادگیری ماشین در دیتااپ ها
۵ روش برای استفاده از هوش مصنوعی و یادگیری ماشین در دیتااپ ها
۵ روش برای استفاده از هوش مصنوعی و یادگیری ماشین در دیتااپ ها