راهحلهای جدید مدیریت داده و یکپارچهسازی با هوش مصنوعی و سیگنال یادگیری ماشینی که کمک میکند در راه مقابله با چالش دادههای سازمانی بالونی باشد.
هوش مصنوعی و یادگیری ماشینی در حال حاضر ارزش عملی زیادی را برای شرکتها به ارمغان میآورند، از کشف تقلب گرفته تا رباتهای گفتگو و تجزیه و تحلیل پیشبینیکننده. اما مهارت های نوشتاری خلاقانه جسورانه ChatGPT انتظارات برای هوش مصنوعی/ML را به اوج جدیدی رسانده است. رهبران فناوری اطلاعات نمی توانند از خود بپرسند: آیا AI/ML در نهایت می تواند آماده فراتر رفتن از راه حل های نقطه ای و رسیدگی به مشکلات اصلی سازمان باشد؟
بزرگترین، قدیمیترین، گیجکنندهترین مشکل فناوری اطلاعات را در نظر بگیرید: مدیریت و یکپارچهسازی دادهها در سراسر سازمان. امروزه، این تلاش از فناوریهای AI/ML کمک میگیرد، زیرا حجم، تنوع، تغییرپذیری و توزیع دادهها در پلتفرمهای on-prem و cloud به یک منحنی نمایی بیپایان صعود میکند. همانطور که استوارت باند، معاون یکپارچهسازی دادهها و نرمافزار اطلاعاتی IDC میگوید: «شما به ماشینهایی نیاز دارید که بتوانند به شما در مدیریت آن کمک کنند.
آیا AI/ML واقعاً می تواند به تحمیل نظم در هرج و مرج داده کمک کند؟ پاسخ کاملاً بله است، اما اجماع صنعت این است که ما فقط سطح چیزی را که ممکن است روزی قابل دستیابی باشد، خراش می دهیم. متصدیان نرمافزارهای یکپارچه مانند Informatica، IBM و SnapLogic قابلیتهای AI/ML را برای خودکارسازی وظایف مختلف اضافه کردهاند و گروهی از شرکتهای جدیدتر مانند Tamr، Cinchy و Monte Carlo هوش مصنوعی/ML را در هسته پیشنهادات خود قرار دادهاند. هیچکدام به ارائه راهحلهای AI/ML نزدیک نمیشوند که مدیریت داده و فرآیندهای یکپارچهسازی را خودکار میکنند.
این به سادگی امکان پذیر نیست. هیچ محصول یا خدماتی نمیتواند بدون دخالت انسان، هر ناهنجاری دادهای را با هم تطبیق دهد، چه رسد به اینکه معماری دادههای سازمانی را اصلاح کند. کاری که این راهحلهای جدید مبتنی بر هوش مصنوعی/ML امروز میتوانند انجام دهند این است که کار دستی را به طور قابلتوجهی در انواع تلاشها و تلاشهای یکپارچهسازی دادهها، از فهرستنویسی داده تا ساخت خطوط لوله داده تا بهبود کیفیت داده، کاهش میدهد.
اینها می توانند برنده های قابل توجهی باشند. اما برای داشتن تأثیر واقعی و پایدار، یک CDO (افسر ارشد داده)< رویکرد /a> مورد نیاز است، برخلاف انگیزه گرفتن ابزارهای یکپارچه سازی برای پروژه های یکبار. قبل از اینکه شرکتها بتوانند اولویتبندی کنند که کدام راهحلهای AI/ML را در کجا اعمال کنند، به یک نمای منسجم و از بالا به پایین از کل دادههای خود (دادههای مشتری، دادههای محصول، دادههای تراکنش، دادههای رویداد و غیره) و درک کامل ابردادهها نیاز دارند. تعریف آن انواع داده.
محدوده مشکل داده های سازمانی
اکثر شرکتها امروزه گستره وسیعی از فروشگاههای داده را نگهداری میکنند که هر کدام با برنامههای کاربردی و موارد استفاده خاص خود مرتبط هستند – گسترشی که رایانش ابری تشدید کرده است، زیرا واحدهای تجاری به سرعت برنامههای ابری را با خود میچرخانند. سیلوهای داده خود برخی از این فروشگاههای داده ممکن است برای تراکنشها یا سایر فعالیتهای عملیاتی مورد استفاده قرار گیرند، در حالی که برخی دیگر (عمدتاً انبارهای داده) به افرادی که در تجزیه و تحلیل یا هوش تجاری مشغول هستند خدمات میدهند.
نوئل یوهانا، معاون و تحلیلگر اصلی در تحقیقات فورستر، میگوید: برای پیچیدهتر کردن مسائل، «هر سازمانی در این سیاره بیش از دوجین ابزار مدیریت داده دارد». “هیچ یک از آن ابزارها با یکدیگر صحبت نمی کنند.” این ابزارها همه چیز را از فهرستنویسی دادهها تا MDM (مدیریت اصلی داده) تا حاکمیت داده تا قابلیت مشاهده دادهها و موارد دیگر را مدیریت میکنند. . برخی از فروشندگان کالاهای خود را با قابلیتهای AI/ML تلفیق کردهاند، در حالی که برخی دیگر هنوز این کار را نکردهاند.
در سطح پایه، هدف اصلی از یکپارچه سازی داده ها ترسیم طرح واره منابع داده های مختلف است تا سیستم های مختلف بتوانند داده ها را به اشتراک بگذارند، همگام سازی کنند و/یا غنی کنند. برای مثال، مورد دوم برای ایجاد دید ۳۶۰ درجه از مشتریان ضروری است. اما کارهای به ظاهر ساده مانند تعیین اینکه آیا مشتریان یا شرکت هایی با نام یکسان هستند یا خیر – و اینکه کدام جزئیات از کدام سوابق صحیح است – نیاز به مداخله انسانی دارد. معمولاً از متخصصان دامنه دعوت می شود تا به ایجاد قوانینی برای رسیدگی به استثنائات مختلف کمک کنند.
این قوانین معمولاً در یک موتور قوانین تعبیه شده در نرم افزار یکپارچه سازی ذخیره می شوند. مایکل استون برکر، یکی از مخترعان پایگاه داده رابطه ای، بنیانگذار Tamr است که توسعه داده است. یک سیستم MDM مبتنی بر ML. Stonebraker یک مثال واقعی برای نشان دادن محدودیتهای سیستمهای مبتنی بر قوانین ارائه میکند: یک شرکت رسانهای بزرگ که یک سیستم MDM “homebrew” ایجاد کرد که به مدت ۱۲ سال قوانین را جمع آوری کرده است.
Stonebraker می گوید: «آنها ۳۰۰۰۰۰ قانون نوشته اند. “اگر از کسی بپرسید که چند قانون می توانید ایجاد کنید، یک عدد معمولی ۵۰۰ است. من را محکم فشار دهید تا به شما ۱۰۰۰ بدهم. بازویم را بچرخان تا ۲۰۰۰ به تو بدهم. اما ۵۰۰۰۰ یا ۱۰۰۰۰۰ قانون کاملاً غیر قابل کنترل است. و دلیل اینکه قوانین بسیار زیاد وجود دارد این است که موارد خاص بسیار زیاد است.”
آنتونی دیتون، مدیر ارشد محصول Tamr، ادعا می کند که راه حل MDM او بر شکنندگی سیستم های مبتنی بر قوانین غلبه می کند. او میگوید: «آنچه در مورد رویکرد مبتنی بر یادگیری ماشینی خوب است این است که وقتی منابع جدیدی اضافه میکنید، یا مهمتر از آن، زمانی که شکل دادهها تغییر میکند، سیستم میتواند به خوبی با این تغییرات سازگار شود». با این حال، مانند بسیاری از سیستمهای ML، آموزش مداوم با استفاده از مقادیر زیادی از دادهها مورد نیاز است، و قضاوت انسانی هنوز برای رفع اختلافات مورد نیاز است.
AI/ML یک گلوله جادویی نیست. اما می تواند اتوماسیون بسیار ارزشمندی را نه تنها برای MDM، بلکه در بسیاری از زمینه های یکپارچه سازی داده ها فراهم کند. اما برای استفاده کامل، شرکت ها باید خانه خود را مرتب کنند.
بافندگی AI/ML در بافت داده
“Data Fabric” عبارت عملیاتی است که برای توصیف لحاف دیوانه کننده از داده های مفید در سراسر سازمان استفاده می شود. تعیین محدوده آن پارچه با دانستن اینکه داده ها کجا هستند – و فهرست نویسی آن ها آغاز می شود. این کار میتواند تا حدی با استفاده از قابلیتهای AI/ML راهحلهایی مانند موتور CLAIRE با هوش مصنوعی/ML Informatica یا کاتالوگ دانش Watson IBM، خودکار شود. سایر فروشندگان نرم افزار فهرست نویسی عبارتند از Alation، BigID، Denodo، و OneTrust.
پیام رابرت تاناراج، مدیر تحقیقات گارتنر به CDOها این است که «شما باید پارچه خود را معماری کنید. شما اجزای فناوری لازم را میخرید، میسازید، و مطابق با نتایج دلخواهتان هماهنگ میکنید.» او میگوید که این پارچه باید «متحور فراداده» باشد، که از مجموعهای از تمام اطلاعات برجستهای که خود دادههای سازمانی را احاطه میکند، بافته شده باشد.
توصیه او به شرکتها این است که «در کشف ابرداده سرمایهگذاری کنند». این شامل «الگوهای افرادی است که با افراد در سازمان شما کار می کنند، الگوهای افرادی که با داده ها کار می کنند، و ترکیبی از داده هایی که استفاده می کنند. چه ترکیبی از داده ها را رد می کنند؟ و چه الگوهایی از جایی که دادهها ذخیره میشوند، الگوهایی از کجا دادهها منتقل میشوند؟»
Jittesh Ghai، مدیر ارشد محصول Informatica، میگوید موتور CLAIRE Informatica میتواند به شرکتها کمک کند تا بینشهای ابرداده را استخراج کرده و بر اساس آنها عمل کنند. ما از قابلیتهای AI/ML برای ارائه دادههای پیشبینیکننده استفاده میکنیم… با پیوند دادن همه ابعاد فراداده با هم برای ارائه زمینه.» در میان چیزهای دیگر، این اطلاعات پیشبینیکننده میتواند به ایجاد خودکار خطوط لوله داده کمک کند. “ما به طور خودکار نگاشت عناصر مشترک را از آیتمهای منبع مختلف ایجاد میکنیم و آن را به طرح سیستم هدف میپیوندیم.”
استوارت باند IDC خاطرنشان می کند که پلت فرم یکپارچه سازی SnapLogic عملکرد خط لوله مشابهی دارد. “از آنجایی که آنها مبتنی بر ابر هستند، آنها به … همه مشتریان دیگر خود که خطوط لوله ایجاد کرده اند نگاه می کنند، و می توانند بفهمند بهترین Snap بعدی چیست: بهترین اقدام بعدی که باید در این خط لوله انجام دهید، بر اساس آنچه انجام دهید چیست؟ صدها یا هزاران مشتری دیگر این کار را انجام داده اند.”
باند مشاهده می کند، با این حال، در هر دو مورد توصیه هایی توسط سیستم ارائه می شود نه اینکه سیستم به طور مستقل عمل کند. انسان باید آن توصیه ها را بپذیرد یا رد کند. «هنوز اتوماسیون زیادی در آنجا اتفاق نمی افتد. من میتوانم بگویم که حتی در نقشهبرداری، هنوز فرصتهای زیادی برای اتوماسیون بیشتر، هوش مصنوعی بیشتر وجود دارد.”
بهبود کیفیت داده
طبق گفته Bond، جایی که AI/ML بیشترین تأثیر را دارد کیفیت داده بهتر است. Yuhanna از Forrester موافق است: “AI/ML واقعا کیفیت داده را بهبود می بخشد.” به این دلیل که ML می تواند الگوهایی را در حجم زیادی از داده ها کشف کند و از آنها بیاموزد و قوانین یا تنظیمات جدیدی را توصیه کند که انسان پهنای باندی برای تعیین آنها ندارد.
دادههای با کیفیت بالا برای تراکنشها و سایر سیستمهای عملیاتی که دادههای حیاتی مشتری، کارمند، فروشنده و محصول را مدیریت میکنند، ضروری است. اما همچنین می تواند زندگی را برای دانشمندان داده که در تجزیه و تحلیل غوطه ور هستند بسیار آسان تر کند.
اغلب گفته می شود که دانشمندان داده ۸۰ درصد از زمان خود را صرف تمیز کردن و آماده سازی داده ها می کنند. مایکل استون بریکر با این تخمین مخالفت می کند: او به گفتگوی خود با یک دانشمند داده اشاره می کند که گفته بود ۹۰ درصد وقت خود را صرف شناسایی منابع داده ای می کند که می خواهد تجزیه و تحلیل کند، نتایج را یکپارچه می کند و داده ها را تمیز می کند. سپس ۹۰ درصد از ۱۰ درصد زمان باقی مانده را صرف رفع خطاهای تمیز کردن می کند. هر راهحل فهرستنویسی دادههای AI/ML یا پاکسازی دادهها که بتواند بخشی از آن زمان را به او بازگرداند، یک تغییر بازی است.
کیفیت داده ها هرگز یک تمرین یکباره نیست. ماهیت دائمی در حال تغییر داده ها و سیستم های زیادی که از آنها عبور می کند، دسته جدیدی از راه حل ها را به وجود آورده است: نرم افزار مشاهده پذیری داده ها. کاری که این دسته انجام میدهند مشاهده دادهها در جریان عبور از خطوط لوله داده است. باند میگوید و مسائل مربوط به کیفیت دادهها را شناسایی میکند. او استارتآپهای Anomolo و Monte Carlo را به عنوان دو بازیکنی که ادعا میکنند «از AI/ML برای نظارت بر شش بعد کیفیت دادهها استفاده میکنند» میخواند: دقت، کامل بودن، ثبات، منحصربهفرد بودن، به موقع بودن و اعتبار.
اگر این کمی شبیه آزمایش مداوم ضروری به نظر می رسد، این تصادفی نیست. باند میگوید: شرکتهای بیشتر و بیشتری از dataops استقبال میکنند، جایی که باند میگوید: «شما در حال آزمایش مداوم داشبوردها، کارهای ETL، چیزهایی هستید که این خطوط لوله را اجرا میکنند و دادههای موجود در آن خطوط لوله را تجزیه و تحلیل میکنید. . “اما شما کنترل آماری را نیز به آن اضافه می کنید.”
مشکل این است که مشاهده یک مشکل با داده ها بعد از واقعیت است. شما نمی توانید بدون متوقف کردن خطوط لوله، از رسیدن داده های بد به کاربران جلوگیری کنید. اما همانطور که باند میگوید، وقتی عضو تیم dataops اصلاحی را اعمال میکند و آن را ضبط میکند، «سپس یک ماشین میتواند دفعه بعد که آن استثنا رخ میدهد، آن اصلاح را انجام دهد».
هوش بیشتر در راه است
فروشندگان نرمافزار مدیریت و یکپارچهسازی دادهها به افزودن قابلیتهای مفید هوش مصنوعی/ML در یک کلیپ سریع ادامه میدهند—تا کشف دادهها، نقشهبرداری، تبدیل، خط لوله، حاکمیت و غیره را خودکار کنند. باند خاطرنشان می کند، اما، ما یک مشکل جعبه سیاه داریم: «هر فروشنده داده می گوید فناوری آنها هوشمند است. بخشی از آن هنوز دود و آینه است. اما چیزهای واقعی AI/ML وجود دارد که در اعماق هسته این محصولات اتفاق می افتد.»
نیاز به آن هوشمندی واضح است. Ghai از Informatica میگوید: «اگر میخواهیم دادهها را تهیه کنیم و آن را در مقیاس پتابایتی در این محیط ناهمگن، چند ابری و تکه تکه انجام دهیم، باید هوش مصنوعی را در مدیریت دادهها اعمال کنیم.» Ghai حتی به خانواده مدلهای زبان بزرگ GPT-3 OpenAI توجه دارد. او میگوید: «برای من، هیجانانگیزترین چیز توانایی درک آموزش متن انسانی است.
با این حال، هیچ محصولی از هوش منطقی کردن هرج و مرج داده یا پاکسازی داده ها بدون کمک برخوردار نیست. Thanaraj از Gartner می گوید: «یک پارچه کاملاً خودکار امکان پذیر نیست. “باید تعادلی بین آنچه که میتوان خودکار کرد، آنچه را که میتوان افزایش داد و آنچه میتواند توسط انسانها در حلقه جبران شود وجود داشته باشد.”
Stonebraker محدودیت دیگری را ذکر می کند: کمبود شدید استعدادهای AI/ML. چیزی به نام راه حل AI/ML کلید در دست برای مدیریت و یکپارچه سازی داده ها وجود ندارد، بنابراین تخصص AI/ML برای اجرای صحیح ضروری است. او میگوید: «افراد سازمانی که به حال خودشان رها میشوند، بارها و بارها اشتباهات مشابهی را مرتکب میشوند. “من فکر می کنم بزرگترین توصیه من این است که اگر در این موارد راحت نیستید، شریکی را انتخاب کنید که می داند چه کار می کند.”
طرف دیگر این بیانیه این است که اگر معماری دادههای شما اساساً سالم است و استعداد در دسترس دارید تا اطمینان حاصل کنید که میتوانید راهحلهای AI/ML را به درستی اجرا کنید، مقدار قابلتوجهی برای مباشران داده، تحلیلگران و دانشمندان میتوانند حذف شود. همانطور که این راه حل ها هوشمندتر می شوند، این دستاوردها فقط افزایش می یابد.
پست های مرتبط
آیا هوش مصنوعی می تواند مشکل داده ابدی فناوری اطلاعات را حل کند؟
آیا هوش مصنوعی می تواند مشکل داده ابدی فناوری اطلاعات را حل کند؟
آیا هوش مصنوعی می تواند مشکل داده ابدی فناوری اطلاعات را حل کند؟