۲۹ شهریور ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

آیا هوش مصنوعی می تواند مشکل داده ابدی فناوری اطلاعات را حل کند؟

راه‌حل‌های جدید مدیریت داده و یکپارچه‌سازی با هوش مصنوعی و سیگنال یادگیری ماشینی که کمک می‌کند در راه مقابله با چالش داده‌های سازمانی بالونی باشد.

راه‌حل‌های جدید مدیریت داده و یکپارچه‌سازی با هوش مصنوعی و سیگنال یادگیری ماشینی که کمک می‌کند در راه مقابله با چالش داده‌های سازمانی بالونی باشد.

هوش مصنوعی و یادگیری ماشینی در حال حاضر ارزش عملی زیادی را برای شرکت‌ها به ارمغان می‌آورند، از کشف تقلب گرفته تا ربات‌های گفتگو و تجزیه و تحلیل پیش‌بینی‌کننده. اما مهارت های نوشتاری خلاقانه جسورانه ChatGPT انتظارات برای هوش مصنوعی/ML را به اوج جدیدی رسانده است. رهبران فناوری اطلاعات نمی توانند از خود بپرسند: آیا AI/ML در نهایت می تواند آماده فراتر رفتن از راه حل های نقطه ای و رسیدگی به مشکلات اصلی سازمان باشد؟

بزرگ‌ترین، قدیمی‌ترین، گیج‌کننده‌ترین مشکل فناوری اطلاعات را در نظر بگیرید: مدیریت و یکپارچه‌سازی داده‌ها در سراسر سازمان. امروزه، این تلاش از فناوری‌های AI/ML کمک می‌گیرد، زیرا حجم، تنوع، تغییرپذیری و توزیع داده‌ها در پلت‌فرم‌های on-prem و cloud به یک منحنی نمایی بی‌پایان صعود می‌کند. همانطور که استوارت باند، معاون یکپارچه‌سازی داده‌ها و نرم‌افزار اطلاعاتی IDC می‌گوید: «شما به ماشین‌هایی نیاز دارید که بتوانند به شما در مدیریت آن کمک کنند.

آیا AI/ML واقعاً می تواند به تحمیل نظم در هرج و مرج داده کمک کند؟ پاسخ کاملاً بله است، اما اجماع صنعت این است که ما فقط سطح چیزی را که ممکن است روزی قابل دستیابی باشد، خراش می دهیم. متصدیان نرم‌افزارهای یکپارچه مانند Informatica، IBM و SnapLogic قابلیت‌های AI/ML را برای خودکارسازی وظایف مختلف اضافه کرده‌اند و گروهی از شرکت‌های جدیدتر مانند Tamr، Cinchy و Monte Carlo هوش مصنوعی/ML را در هسته پیشنهادات خود قرار داده‌اند. هیچ‌کدام به ارائه راه‌حل‌های AI/ML نزدیک نمی‌شوند که مدیریت داده و فرآیندهای یکپارچه‌سازی را خودکار می‌کنند.

این به سادگی امکان پذیر نیست. هیچ محصول یا خدماتی نمی‌تواند بدون دخالت انسان، هر ناهنجاری داده‌ای را با هم تطبیق دهد، چه رسد به اینکه معماری داده‌های سازمانی را اصلاح کند. کاری که این راه‌حل‌های جدید مبتنی بر هوش مصنوعی/ML امروز می‌توانند انجام دهند این است که کار دستی را به طور قابل‌توجهی در انواع تلاش‌ها و تلاش‌های یکپارچه‌سازی داده‌ها، از فهرست‌نویسی داده تا ساخت خطوط لوله داده تا بهبود کیفیت داده، کاهش می‌دهد.

اینها می توانند برنده های قابل توجهی باشند. اما برای داشتن تأثیر واقعی و پایدار، یک CDO (افسر ارشد داده)< رویکرد /a> مورد نیاز است، برخلاف انگیزه گرفتن ابزارهای یکپارچه سازی برای پروژه های یکبار. قبل از اینکه شرکت‌ها بتوانند اولویت‌بندی کنند که کدام راه‌حل‌های AI/ML را در کجا اعمال کنند، به یک نمای منسجم و از بالا به پایین از کل داده‌های خود (داده‌های مشتری، داده‌های محصول، داده‌های تراکنش، داده‌های رویداد و غیره) و درک کامل ابرداده‌ها نیاز دارند. تعریف آن انواع داده.

محدوده مشکل داده های سازمانی

اکثر شرکت‌ها امروزه گستره وسیعی از فروشگاه‌های داده را نگهداری می‌کنند که هر کدام با برنامه‌های کاربردی و موارد استفاده خاص خود مرتبط هستند – گسترشی که رایانش ابری تشدید کرده است، زیرا واحدهای تجاری به سرعت برنامه‌های ابری را با خود می‌چرخانند. سیلوهای داده خود برخی از این فروشگاه‌های داده ممکن است برای تراکنش‌ها یا سایر فعالیت‌های عملیاتی مورد استفاده قرار گیرند، در حالی که برخی دیگر (عمدتاً انبارهای داده) به افرادی که در تجزیه و تحلیل یا هوش تجاری مشغول هستند خدمات می‌دهند.

نوئل یوهانا، معاون و تحلیلگر اصلی در تحقیقات فورستر، می‌گوید: برای پیچیده‌تر کردن مسائل، «هر سازمانی در این سیاره بیش از دوجین ابزار مدیریت داده دارد». “هیچ یک از آن ابزارها با یکدیگر صحبت نمی کنند.” این ابزارها همه چیز را از فهرست‌نویسی داده‌ها تا MDM (مدیریت اصلی داده) تا حاکمیت داده تا قابلیت مشاهده داده‌ها و موارد دیگر را مدیریت می‌کنند. . برخی از فروشندگان کالاهای خود را با قابلیت‌های AI/ML تلفیق کرده‌اند، در حالی که برخی دیگر هنوز این کار را نکرده‌اند.

یادگیری ماشینی فراتر از هیاهو حرکت می کند

در سطح پایه، هدف اصلی از یکپارچه سازی داده ها ترسیم طرح واره منابع داده های مختلف است تا سیستم های مختلف بتوانند داده ها را به اشتراک بگذارند، همگام سازی کنند و/یا غنی کنند. برای مثال، مورد دوم برای ایجاد دید ۳۶۰ درجه از مشتریان ضروری است. اما کارهای به ظاهر ساده مانند تعیین اینکه آیا مشتریان یا شرکت هایی با نام یکسان هستند یا خیر – و اینکه کدام جزئیات از کدام سوابق صحیح است – نیاز به مداخله انسانی دارد. معمولاً از متخصصان دامنه دعوت می شود تا به ایجاد قوانینی برای رسیدگی به استثنائات مختلف کمک کنند.

این قوانین معمولاً در یک موتور قوانین تعبیه شده در نرم افزار یکپارچه سازی ذخیره می شوند. مایکل استون برکر، یکی از مخترعان پایگاه داده رابطه ای، بنیانگذار Tamr است که توسعه داده است. یک سیستم MDM مبتنی بر ML. Stonebraker یک مثال واقعی برای نشان دادن محدودیت‌های سیستم‌های مبتنی بر قوانین ارائه می‌کند: یک شرکت رسانه‌ای بزرگ که یک سیستم MDM “homebrew” ایجاد کرد که به مدت ۱۲ سال قوانین را جمع آوری کرده است.

Stonebraker می گوید: «آنها ۳۰۰۰۰۰ قانون نوشته اند. “اگر از کسی بپرسید که چند قانون می توانید ایجاد کنید، یک عدد معمولی ۵۰۰ است. من را محکم فشار دهید تا به شما ۱۰۰۰ بدهم. بازویم را بچرخان تا ۲۰۰۰ به تو بدهم. اما ۵۰۰۰۰ یا ۱۰۰۰۰۰ قانون کاملاً غیر قابل کنترل است. و دلیل اینکه قوانین بسیار زیاد وجود دارد این است که موارد خاص بسیار زیاد است.”

آنتونی دیتون، مدیر ارشد محصول Tamr، ادعا می کند که راه حل MDM او بر شکنندگی سیستم های مبتنی بر قوانین غلبه می کند. او می‌گوید: «آنچه در مورد رویکرد مبتنی بر یادگیری ماشینی خوب است این است که وقتی منابع جدیدی اضافه می‌کنید، یا مهم‌تر از آن، زمانی که شکل داده‌ها تغییر می‌کند، سیستم می‌تواند به خوبی با این تغییرات سازگار شود». با این حال، مانند بسیاری از سیستم‌های ML، آموزش مداوم با استفاده از مقادیر زیادی از داده‌ها مورد نیاز است، و قضاوت انسانی هنوز برای رفع اختلافات مورد نیاز است.

AI/ML یک گلوله جادویی نیست. اما می تواند اتوماسیون بسیار ارزشمندی را نه تنها برای MDM، بلکه در بسیاری از زمینه های یکپارچه سازی داده ها فراهم کند. اما برای استفاده کامل، شرکت ها باید خانه خود را مرتب کنند.

بافندگی AI/ML در بافت داده

“Data Fabric” عبارت عملیاتی است که برای توصیف لحاف دیوانه کننده از داده های مفید در سراسر سازمان استفاده می شود. تعیین محدوده آن پارچه با دانستن اینکه داده ها کجا هستند – و فهرست نویسی آن ها آغاز می شود. این کار می‌تواند تا حدی با استفاده از قابلیت‌های AI/ML راه‌حل‌هایی مانند موتور CLAIRE با هوش مصنوعی/ML Informatica یا کاتالوگ دانش Watson IBM، خودکار شود. سایر فروشندگان نرم افزار فهرست نویسی عبارتند از Alation، BigID، Denodo، و OneTrust.

پیام رابرت تاناراج، مدیر تحقیقات گارتنر به CDOها این است که «شما باید پارچه خود را معماری کنید. شما اجزای فناوری لازم را می‌خرید، می‌سازید، و مطابق با نتایج دلخواهتان هماهنگ می‌کنید.» او می‌گوید که این پارچه باید «متحور فراداده» باشد، که از مجموعه‌ای از تمام اطلاعات برجسته‌ای که خود داده‌های سازمانی را احاطه می‌کند، بافته شده باشد.

تحلیلگران می گویند پایگاه داده جدید بدون سرور Pinecone ممکن است صاحبان کمی را ببیند

توصیه او به شرکت‌ها این است که «در کشف ابرداده سرمایه‌گذاری کنند». این شامل «الگوهای افرادی است که با افراد در سازمان شما کار می کنند، الگوهای افرادی که با داده ها کار می کنند، و ترکیبی از داده هایی که استفاده می کنند. چه ترکیبی از داده ها را رد می کنند؟ و چه الگوهایی از جایی که داده‌ها ذخیره می‌شوند، الگوهایی از کجا داده‌ها منتقل می‌شوند؟»

Jittesh Ghai، مدیر ارشد محصول Informatica، می‌گوید موتور CLAIRE Informatica می‌تواند به شرکت‌ها کمک کند تا بینش‌های ابرداده را استخراج کرده و بر اساس آنها عمل کنند. ما از قابلیت‌های AI/ML برای ارائه داده‌های پیش‌بینی‌کننده استفاده می‌کنیم… با پیوند دادن همه ابعاد فراداده با هم برای ارائه زمینه.» در میان چیزهای دیگر، این اطلاعات پیش‌بینی‌کننده می‌تواند به ایجاد خودکار خطوط لوله داده کمک کند. “ما به طور خودکار نگاشت عناصر مشترک را از آیتم‌های منبع مختلف ایجاد می‌کنیم و آن را به طرح سیستم هدف می‌پیوندیم.”

استوارت باند IDC خاطرنشان می کند که پلت فرم یکپارچه سازی SnapLogic عملکرد خط لوله مشابهی دارد. “از آنجایی که آنها مبتنی بر ابر هستند، آنها به … همه مشتریان دیگر خود که خطوط لوله ایجاد کرده اند نگاه می کنند، و می توانند بفهمند بهترین Snap بعدی چیست: بهترین اقدام بعدی که باید در این خط لوله انجام دهید، بر اساس آنچه انجام دهید چیست؟ صدها یا هزاران مشتری دیگر این کار را انجام داده اند.”

باند مشاهده می کند، با این حال، در هر دو مورد توصیه هایی توسط سیستم ارائه می شود نه اینکه سیستم به طور مستقل عمل کند. انسان باید آن توصیه ها را بپذیرد یا رد کند. «هنوز اتوماسیون زیادی در آنجا اتفاق نمی افتد. من می‌توانم بگویم که حتی در نقشه‌برداری، هنوز فرصت‌های زیادی برای اتوماسیون بیشتر، هوش مصنوعی بیشتر وجود دارد.”

بهبود کیفیت داده

طبق گفته Bond، جایی که AI/ML بیشترین تأثیر را دارد کیفیت داده بهتر است. Yuhanna از Forrester موافق است: “AI/ML واقعا کیفیت داده را بهبود می بخشد.” به این دلیل که ML می تواند الگوهایی را در حجم زیادی از داده ها کشف کند و از آنها بیاموزد و قوانین یا تنظیمات جدیدی را توصیه کند که انسان پهنای باندی برای تعیین آنها ندارد.

داده‌های با کیفیت بالا برای تراکنش‌ها و سایر سیستم‌های عملیاتی که داده‌های حیاتی مشتری، کارمند، فروشنده و محصول را مدیریت می‌کنند، ضروری است. اما همچنین می تواند زندگی را برای دانشمندان داده که در تجزیه و تحلیل غوطه ور هستند بسیار آسان تر کند.

اغلب گفته می شود که دانشمندان داده ۸۰ درصد از زمان خود را صرف تمیز کردن و آماده سازی داده ها می کنند. مایکل استون بریکر با این تخمین مخالفت می کند: او به گفتگوی خود با یک دانشمند داده اشاره می کند که گفته بود ۹۰ درصد وقت خود را صرف شناسایی منابع داده ای می کند که می خواهد تجزیه و تحلیل کند، نتایج را یکپارچه می کند و داده ها را تمیز می کند. سپس ۹۰ درصد از ۱۰ درصد زمان باقی مانده را صرف رفع خطاهای تمیز کردن می کند. هر راه‌حل فهرست‌نویسی داده‌های AI/ML یا پاک‌سازی داده‌ها که بتواند بخشی از آن زمان را به او بازگرداند، یک تغییر بازی است.

کیفیت داده ها هرگز یک تمرین یکباره نیست. ماهیت دائمی در حال تغییر داده ها و سیستم های زیادی که از آنها عبور می کند، دسته جدیدی از راه حل ها را به وجود آورده است: نرم افزار مشاهده پذیری داده ها. کاری که این دسته انجام می‌دهند مشاهده داده‌ها در جریان عبور از خطوط لوله داده است. باند می‌گوید و مسائل مربوط به کیفیت داده‌ها را شناسایی می‌کند. او استارت‌آپ‌های Anomolo و Monte Carlo را به عنوان دو بازیکنی که ادعا می‌کنند «از AI/ML برای نظارت بر شش بعد کیفیت داده‌ها استفاده می‌کنند» می‌خواند: دقت، کامل بودن، ثبات، منحصربه‌فرد بودن، به موقع بودن و اعتبار.

جستجوی معماری عصبی چیست؟ AutoML برای یادگیری عمیق

اگر این کمی شبیه آزمایش مداوم ضروری به نظر می رسد، این تصادفی نیست. باند می‌گوید: شرکت‌های بیشتر و بیشتری از dataops استقبال می‌کنند، جایی که باند می‌گوید: «شما در حال آزمایش مداوم داشبوردها، کارهای ETL، چیزهایی هستید که این خطوط لوله را اجرا می‌کنند و داده‌های موجود در آن خطوط لوله را تجزیه و تحلیل می‌کنید. . “اما شما کنترل آماری را نیز به آن اضافه می کنید.”

مشکل این است که مشاهده یک مشکل با داده ها بعد از واقعیت است. شما نمی توانید بدون متوقف کردن خطوط لوله، از رسیدن داده های بد به کاربران جلوگیری کنید. اما همانطور که باند می‌گوید، وقتی عضو تیم dataops اصلاحی را اعمال می‌کند و آن را ضبط می‌کند، «سپس یک ماشین می‌تواند دفعه بعد که آن استثنا رخ می‌دهد، آن اصلاح را انجام دهد».

هوش بیشتر در راه است

فروشندگان نرم‌افزار مدیریت و یکپارچه‌سازی داده‌ها به افزودن قابلیت‌های مفید هوش مصنوعی/ML در یک کلیپ سریع ادامه می‌دهند—تا کشف داده‌ها، نقشه‌برداری، تبدیل، خط لوله، حاکمیت و غیره را خودکار کنند. باند خاطرنشان می کند، اما، ما یک مشکل جعبه سیاه داریم: «هر فروشنده داده می گوید فناوری آنها هوشمند است. بخشی از آن هنوز دود و آینه است. اما چیزهای واقعی AI/ML وجود دارد که در اعماق هسته این محصولات اتفاق می افتد.»

نیاز به آن هوشمندی واضح است. Ghai از Informatica می‌گوید: «اگر می‌خواهیم داده‌ها را تهیه کنیم و آن را در مقیاس پتابایتی در این محیط ناهمگن، چند ابری و تکه تکه انجام دهیم، باید هوش مصنوعی را در مدیریت داده‌ها اعمال کنیم.» Ghai حتی به خانواده مدل‌های زبان بزرگ GPT-3 OpenAI توجه دارد. او می‌گوید: «برای من، هیجان‌انگیزترین چیز توانایی درک آموزش متن انسانی است.

با این حال، هیچ محصولی از هوش منطقی کردن هرج و مرج داده یا پاکسازی داده ها بدون کمک برخوردار نیست. Thanaraj از Gartner می گوید: «یک پارچه کاملاً خودکار امکان پذیر نیست. “باید تعادلی بین آنچه که می‌توان خودکار کرد، آنچه را که می‌توان افزایش داد و آنچه می‌تواند توسط انسان‌ها در حلقه جبران شود وجود داشته باشد.”

Stonebraker محدودیت دیگری را ذکر می کند: کمبود شدید استعدادهای AI/ML. چیزی به نام راه حل AI/ML کلید در دست برای مدیریت و یکپارچه سازی داده ها وجود ندارد، بنابراین تخصص AI/ML برای اجرای صحیح ضروری است. او می‌گوید: «افراد سازمانی که به حال خودشان رها می‌شوند، بارها و بارها اشتباهات مشابهی را مرتکب می‌شوند. “من فکر می کنم بزرگترین توصیه من این است که اگر در این موارد راحت نیستید، شریکی را انتخاب کنید که می داند چه کار می کند.”

طرف دیگر این بیانیه این است که اگر معماری داده‌های شما اساساً سالم است و استعداد در دسترس دارید تا اطمینان حاصل کنید که می‌توانید راه‌حل‌های AI/ML را به درستی اجرا کنید، مقدار قابل‌توجهی برای مباشران داده، تحلیل‌گران و دانشمندان می‌توانند حذف شود. همانطور که این راه حل ها هوشمندتر می شوند، این دستاوردها فقط افزایش می یابد.