۳۰ شهریور ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

۵ روش برای استفاده از هوش مصنوعی و یادگیری ماشین در دیتااپ ها

کیفیت داده‌ها مهم‌تر از همیشه است و بسیاری از تیم‌های dataops تلاش می‌کنند تا به این روند ادامه دهند. در اینجا پنج راه برای خودکارسازی عملیات داده با هوش مصنوعی و ML وجود دارد.

کیفیت داده‌ها مهم‌تر از همیشه است و بسیاری از تیم‌های dataops تلاش می‌کنند تا به این روند ادامه دهند. در اینجا پنج راه برای خودکارسازی عملیات داده با هوش مصنوعی و ML وجود دارد.

مشاهده داده‌ها، داده‌ها، آماده‌سازی داده‌ها، یکپارچه‌سازی داده‌ها – هر چه سازمان شما آن را بنامد، مدیریت عملیات برای یکپارچه‌سازی و پاک‌سازی داده‌ها کار فشرده‌ای است. بسیاری از کسب‌وکارها برای ادغام کارآمد مجموعه‌های داده جدید، بهبود کیفیت داده‌ها، متمرکز کردن سوابق اصلی داده‌ها و ایجاد نمایه‌های تمیز داده‌های مشتری تلاش می‌کنند.

Dataops چالش جدیدی نیست، اما خطرات بیشتر است زیرا شرکت‌های بیشتری می‌خواهند سازمان های داده محور و تجزیه و تحلیل را به عنوان یک مزیت رقابتی به کار بگیرید. پیشگامان دیجیتال همچنین در حال گسترش داده‌ها به منابع داده بدون ساختار هستند برای ایجاد قابلیت های جستجوی هوش مصنوعی و آماده سازی داده ها برای استفاده در مدل های زبان بزرگ.

استفاده از هوش مصنوعی و ML برای تبدیل داده

داده‌ها باید کارآمدتر شوند، نتایج با کیفیت بهتری ارائه دهند، برای مدیریت حجم و سرعت داده‌های بزرگ مقیاس شوند، با منابع داده متفاوت‌تر کار کنند، و قابلیت اطمینان خطوط لوله داده را بهبود بخشند.

رئیس هوش مصنوعی Newgen Software، Rajan Nagina. “Dataops شامل یکپارچه سازی افراد، فناوری و گردش کار برای اطمینان از مدیریت کارآمد داده ها با تمرکز بر بهبود کیفیت، دسترسی و قابلیت اطمینان داده ها است.”

ابزارهای خودکارسازی خطوط لوله داده در حال بهبود هستند و بسیاری از قابلیت‌های یادگیری ماشین و هوش مصنوعی را تحت تأثیر قرار می‌دهند. تکنیک‌های دیتاوپ‌های یادگیری ماشینی و هوش مصنوعی، عملیات داده را از رویکردهای دستی و مبتنی بر قوانین به سمت اتوماسیون هوشمند تغییر می‌دهند.

سونیل سنان، معاون ارشد و رئیس جهانی داده، تجزیه و تحلیل و هوش مصنوعی در Infosys، چندین مورد را اضافه می کند مزایای رقابتی زمانی که شرکت ها از یادگیری ماشینی و هوش مصنوعی در دیتاوپ ها استفاده می کنند. شرکت‌ها می‌توانند هوش مصنوعی را برای کشف سریع داده‌ها، فهرست‌نویسی و نمایه‌سازی سریع داده‌ها به کار گیرند، در حالی که ML می‌تواند ناهنجاری‌ها را شناسایی کند، ناسازگاری‌ها را شناسایی کند و داده‌ها را غنی کند. هوش مصنوعی، ML، و اتوماسیون با هم می توانند به تولید کیفیت داده بهبودیافته، هماهنگ سازی داده های اصلی و ایجاد بافتی برای ساخت محصولات داده و تیم های داده موثر کمک کنند.”

تیم‌های dataops کجا می‌توانند اتوماسیون را گسترش دهند و از یادگیری ماشین و هوش مصنوعی به عنوان قابلیت‌های تغییر بازی استفاده کنند؟ در اینجا پنج مثال وجود دارد.

۱. کاهش آماده سازی داده برای مجموعه داده های جدید

Crux‘s CEP ویل فرایبرگ. «با استفاده از راه‌حل‌های خودکار، تیم‌های dataops می‌توانند نسبت را از ۷۰ درصد زمانی که صرف آماده‌سازی داده‌ها می‌کنند به ۷۰ درصد از زمانی که برای تجزیه و تحلیل با ارزش صرف می‌کنند، تغییر دهند.»

Bun 1.0 از فر خارج شده است

در اینجا دو سؤال کلیدی برای تیم‌های dataops وجود دارد که باید در مورد تأثیر تلاش‌های دستی در نظر بگیرند:

  • زمان چرخه اندازه‌گیری شده از کشف اولیه مجموعه داده‌های جدید تا بارگیری، تمیز کردن، و پیوستن آن به دریاچه داده‌های سازمان و فهرست‌شده در کاتالوگ داده چقدر است؟
  • هنگامی که خط لوله داده وجود دارد، آیا از نظارت و اتوماسیون برای شناسایی و تنظیم تغییرات در قالب داده استفاده می‌کنید؟

وقتی برای بارگیری و پشتیبانی از خطوط لوله داده به مراحل پردازش دستی داده نیاز است، تیم‌های dataops می‌توانند از این فرصت استفاده کنند تا زمان چرخه منابع داده جدید را بهبود بخشند و در این بین مشکلات مربوط به خط لوله داده را بازیابی کنند.

فریبرگ ادامه می‌دهد، «زمانی که تیم‌های داده استانداردهایی را برای کیفیت داده‌ها تعریف کرده و آنها را در هوش مصنوعی برنامه‌ریزی می‌کنند، این فناوری می‌تواند تغییرات طرح‌واره و ناهنجاری‌های نمایه داده‌ها را هنگام نصب مجموعه داده‌های خارجی شناسایی و مدیریت کند – از شکسته شدن خطوط لوله داده و نیاز به مداخله دستی جلوگیری می‌کند.»

۲. مقیاس پذیری داده ها و نظارت مستمر

خطوط لوله داده شکسته زمانی اتفاق می‌افتد که مهندسان دیتاوپ از نظارت، هشدار و اتوماسیون برای شناسایی مشکلات و اجرای سریع اصلاحات استفاده نمی‌کنند. اصلاحات پیشگیرانه شامل ابزارها و شیوه‌های قابلیت مشاهده داده‌ها برای ثبت رویدادهای یکپارچه‌سازی داده‌ها و نظارت بر خطوط لوله داده است.

امیلی واشنگتن، معاون ارشد مدیریت محصول در دقیقا. “یک رویکرد موثر برای اطمینان از کیفیت داده ها، اعتبارسنجی داده ها هنگام ورود به اکوسیستم سازمان و اطمینان از نظارت مستمر با اتخاذ قابلیت مشاهده داده ها به عنوان بخشی از یک استراتژی کلی یکپارچگی داده است.”

مشاهده‌پذیری داده‌ها با هدف ارائه خطوط لوله داده‌های ثابت و قابل اعتماد برای تصمیم‌گیری در زمان واقعی، به‌روزرسانی داشبوردها و استفاده در مدل‌های یادگیری ماشینی است. این یکی از راه‌های تیم‌های dataops برای مدیریت اهداف سطح سرویس است، این اصل در مهندسی قابلیت اطمینان سایت معرفی شده است که به طور یکسان در خطوط لوله داده اعمال می‌شود.

واشنگتن می‌گوید: «مشاهده‌پذیری داده‌ها به سازمان‌ها کمک می‌کند تا به طور فعال کیفیت داده‌ها را در مقیاس شناسایی و مدیریت کنند، که منجر به خطوط لوله داده‌های سالم‌تر، تیم‌های سازنده‌تر و مشتریان شادتر می‌شود.

با نگاه به آینده، وقتی قابلیت‌های dataops در هوش مصنوعی مولد به جریان اصلی تبدیل شوند، این پتانسیل را دارند که قابلیت مشاهده داده‌ها را در مقیاس با

فعال کنند.

  • تشخیص الگوهای مشکل داده و توصیه به اصلاح یا راه اندازی پاکسازی خودکار
  • توصیه اصلاحات و پیشنهادات کد به خطوط لوله داده
  • مستند کردن خطوط لوله داده و بهبود اطلاعات جمع‌آوری‌شده برای مشاهده داده‌ها

۳. بهبود تجزیه و تحلیل داده ها و طبقه بندی

تیم‌های Dataops همچنین می‌توانند از هوش مصنوعی و یادگیری ماشینی برای تجزیه و تحلیل و طبقه‌بندی داده‌ها هنگام عبور از خطوط لوله داده استفاده کنند.

هیلاری اشتون، مدیر ارشد محصول در Teradata. مدل‌های ML را می‌توان برای یافتن الگوهای پنهان در داده‌ها، پاکسازی و هماهنگی برای انطباق با استانداردها، و طبقه‌بندی داده‌های حساس برای اطمینان از حاکمیت مناسب، مورد استفاده قرار داد.

برنامه های تجاری GitHub Copilot رونمایی شد

طبقه‌بندی‌های اساسی شامل شناسایی اطلاعات شناسایی شخصی (PII) و سایر داده‌های حساس در مجموعه داده‌هایی است که برای حاوی این نوع اطلاعات علامت‌گذاری نشده‌اند. پس از شناسایی، تیم های حاکمیت داده می توانند قوانین اتوماسیون را برای طبقه بندی مجدد منبع و راه اندازی سایر قوانین تجاری تعریف کنند.

اشتون معتقد است هوش مصنوعی مولد ابزارهای مدیریتی و کیفیت داده قدرتمندتر را هدایت می کند و می گوید، “تیم های Dataops به استفاده از دانش و داده های حوزه تجاری از پلتفرم های همکاری برای ارائه زمینه و الگوهای غنی تر به داده ها نگاه خواهند کرد. “

یک مورد دیگر استفاده از انطباق با داده ها در امنیت است. من با تایلر جانسون، یکی از بنیانگذاران و مدیر ارشد فناوری PrivOps صحبت کردم، در مورد اینکه چگونه مدیریت هویت و دسترسی اغلب نادیده گرفته می شود. دیتاوپ ها می توانند با اتوماسیون و هوش مصنوعی ارزش ارائه دهند. او می‌گوید: «اتوماسیون می‌تواند خطر استفاده بازیگران بد از مجوزهای قدیمی برای نفوذ به سازمان را به حداقل برساند، اما هیچ کاری برای مقابله با تهدیدات کاربران مجاز نمی‌کند.» «با گسترش جریان‌های کاری خط لوله داده برای جمع‌آوری و ادغام داده‌های ثبت دسترسی کاربر با هوش مصنوعی، دیتاوپ‌های شریک با infosec می‌توانند تهدیدات خارج و داخل سازمان را به حداقل برسانند. هوش مصنوعی الگوهای دسترسی مشکوک را شناسایی می کند و در صورت شناسایی به مرکز عملیات امنیتی (SOC) هشدار می دهد.”

۴. دسترسی سریع‌تری به داده‌های پاک‌شده فراهم کنید

شناسایی اطلاعات حساس در جریان داده و سایر ناهنجاری‌ها یک مورد اساسی استفاده از حاکمیت داده است، اما آنچه تیم‌های تجاری واقعاً می‌خواهند دسترسی سریع‌تر به داده‌های پاک‌شده است. مورد استفاده اولیه برای تیم‌های بازاریابی، فروش و خدمات مشتری، به‌روزرسانی‌های بی‌درنگ سوابق داده‌های مشتری و پخش داده‌ها در پایگاه داده پروفایل داده های مشتری (CDP) یکی از روش های متمرکز کردن سوابق مشتری است.

«به‌کارگیری ابزارهای مناسب برای شناسایی و رسیدگی به مشکلات کیفیت داده در سراسر خط لوله پردازش داده بسیار مهم است، با برنامه‌ریزی تجزیه و تحلیل خودکار داده‌های اکتشافی، پاکسازی داده‌ها، و ابزارهای تطبیق شناسه کاربری قطعی و احتمالی برای اجرا در حین دریافت داده‌ها شروع می‌شود.» کارل ویرث، مدیر ارشد محصول و فناوری Treasure Data. دوخت شناسه کاربر بی‌درنگ را می‌توان با تقسیم‌بندی خودکار (با استفاده از خوشه‌بندی و دیگر مدل‌های یادگیری ماشین) ترکیب کرد تا بینش و شخصی‌سازی را به‌طور مداوم با جمع‌آوری داده‌ها به‌روزرسانی کند. در نهایت، الگوریتم‌های پیش‌بینی خودکار و تشخیص ناهنجاری، همراه با تشخیص انحراف داده‌ها، تصویر را با اطمینان از اینکه کیفیت در طول زمان دست نخورده باقی می‌ماند، کامل می‌کند.

رویکرد دوم برای مدیریت داده‌های مشتری مدیریت داده اصلی (MDM) است، که در آن dataops قوانینی را برای شناسایی سوابق و فیلدهای مشتری اولیه از منابع داده‌های متعدد تعریف می‌کند.

Manish Sood، مدیر عامل، بنیانگذار و رئیس Reltio، می گوید یادگیری ماشین به ترکیب اطلاعات از چندین منبع کمک می کند. . او می‌گوید: «رویکردهای مدرن از اتوماسیون و تکنیک‌های مبتنی بر ML برای یکسان‌سازی سریع داده‌ها از منابع متعدد استفاده می‌کنند، و از محدوده محدود سیستم‌های MDM سنتی خارج می‌شوند.

منبع باز ناامن نیست

یادگیری ماشین همچنین به کاهش تعداد و پیچیدگی قوانین تجاری در سیستم‌های MDM کمک می‌کند. دیوید کاکس، مدیر محصول خروجی در Semarchy. «هوش مصنوعی و یادگیری ماشینی می‌توانند به خودکارسازی کیفیت داده‌ها در مقیاس کمک کنند، زیرا ممکن است برای کنترل کیفیت داده‌های بزرگ، با سرعت بالا و پیچیده، به تعداد نامتناهی قانون نیاز باشد.»

آنتونی دیتون، مدیر کل محصولات داده در Tamr، مثالی از جایی که یادگیری ماشینی می‌تواند جایگزین سخت‌افزار شود را به اشتراک می‌گذارد. برای حفظ قوانین تجاری او می‌گوید: «هوش مصنوعی و یادگیری ماشین ابزارهای قدرتمندی هستند که می‌توانند تفاوت واقعی در دیتاوپ‌ها ایجاد کنند. به عنوان مثال، سوابق مشتری تکراری را می توان در یک رکورد جامع ادغام کرد که منجر به دقت بیشتر داده ها و بینش بهتر می شود.”

انتظار قابلیت‌های هوش مصنوعی مولد بیشتری در راه‌حل‌های CDP و MDM داشته باشید، به‌ویژه در زمینه غنی‌سازی سوابق مشتریان با اطلاعات استخراج‌شده از اسناد و سایر منابع داده‌ای بدون ساختار.

۵. کاهش هزینه و افزایش مزایای پاکسازی داده

Dataopها این فرصت را دارند که از هوش مصنوعی و یادگیری ماشینی استفاده کنند تا مسئولیت های اصلی خود را از پاکسازی داده ها و تعمیر خط لوله به ارائه خدمات ارزش افزوده مانند غنی سازی داده ها تغییر دهند.

Satish Jayanthi، یکی از بنیانگذاران و CTO Coalesce. “این فناوری‌ها می‌توانند به طور موثر داده‌های اشتباه را با استفاده از اتوماسیون شناسایی و اصلاح کنند و در نتیجه پیامدهای منفی را کاهش دهند.”

اشوین راجیوا، یکی از بنیانگذاران و مدیر ارشد فناوری Acceldata، نمونه هایی از نحوه فعال کردن کیفیت داده پیوسته توسط ML به اشتراک می گذارد. بهبود با یادگیری از طریق الگوها. “یادگیری ها را می توان برای تصحیح خطاها، پر کردن داده های از دست رفته، افزودن برچسب ها، انجام دسته بندی هوشمند و حذف داده ها به کار برد.”

نتیجه گیری

Eswar Nagireddy، مدیر ارشد محصول علم داده در Exasol، به اهمیت افزایش کارایی در دیتاوپ ها اشاره می کند. «امروزه، بیشتر تیم‌های داده و تجزیه و تحلیل زمان و منابع لازم را ندارند تا با نیازهای سلامت داده‌ها و نظارت بر آن‌ها هماهنگی داشته باشند، به خصوص که فشار برای کاهش هزینه‌های عملیاتی و تعداد کار افزایش می‌یابد. تیم‌های داده‌ای که از یادگیری ماشین خودکار (AutoML)، بدون کد و کم‌کد بهره می‌برند، می‌توانند در عین اطمینان از سلامت داده‌های خود، سریع‌تر به ارزش ML کاربردی برای کسب‌وکار پی ببرند.

تیم‌های Dataops می‌توانند با استفاده از هوش مصنوعی و تکنیک‌های یادگیری ماشین و تکیه کمتر بر تلاش‌های دستی یا قوانین سخت‌کد شده تجاری، حجم کار را کاهش دهند، کیفیت داده‌ها را بهبود بخشند و قابلیت اطمینان خط لوله داده را افزایش دهند. پس از ایجاد این تغییرات، تیم‌ها می‌توانند از هوش مصنوعی و یادگیری ماشینی برای هدایت ارزش‌های تجاری رقابتی با تسریع زمان ادغام مجموعه‌های داده جدید، و همچنین غنی‌سازی سوابق مشتریان و بهبود مدیریت داده استفاده کنند.