شرکت ها به ابزارهای بهتری برای یادگیری و همکاری پیرامون منابع داده نیاز دارند. کاتالوگ های داده با قابلیت های یادگیری ماشینی پیشگام می توانند به شما کمک کنند تا از داده های ارزشمند خود استفاده کنید
پایگاههای اطلاعاتی رابطهای، دریاچههای داده، و فروشگاههای داده NoSQL در درج، بهروزرسانی، جستجو، جستجو و پردازش دادهها قدرتمند هستند. اما جنبه طعنه آمیز کار با پلتفرم های مدیریت داده این است که معمولا ابزارها یا رابط های کاربری قوی برای به اشتراک گذاشتن آنچه در داخل آنها است ارائه نمی دهند. آنها بیشتر شبیه خزانه های داده هستند. میدانید که دادههای ارزشمندی در داخل وجود دارد، اما هیچ راه آسانی برای ارزیابی آنها از بیرون ندارید.
چالش کسبوکار، سر و کار داشتن با انبوهی از خزانههای داده است: پایگاههای داده سازمانی متعدد، فروشگاههای داده کوچکتر، مراکز داده، ابرها، برنامههای کاربردی، ابزارهای BI، APIها، صفحات گسترده، و منابع داده باز.
مطمئناً، میتوانید فراداده یک پایگاه داده رابطهای را برای فهرستی از جداول، رویههای ذخیرهشده، نمایهها و دیگر اشیاء پایگاه داده برای دریافت یک فهرست جستجو کنید. اما این یک رویکرد زمانبر است که به تخصص فنی نیاز دارد و فقط یک فهرست اولیه را از یک منبع داده تولید میکند.
میتوانید از ابزارهایی استفاده کنید که مدلهای دادهها را معکوس میکنند یا راههایی برای پیمایش ابردادهها ارائه میدهند. اما این ابزارها اغلب برای فناوران طراحی می شوند و عمدتاً برای ممیزی، مستندسازی یا تجزیه و تحلیل پایگاه های داده استفاده می شوند.
به عبارت دیگر، این رویکردها برای جستجو در محتوای پایگاههای داده و ابزارهای استخراج ابردادههای آنها برای نیازهای کسبوکار مبتنی بر داده امروزی به چند دلیل ناکافی هستند:
- این فناوریها به تخصص فنی بیش از حد نیاز دارند و بعید به نظر میرسد که توسط کاربران نهایی کمتر فنی مورد استفاده قرار گیرند.
- روشها برای شرکتهایی با پایگاههای دادههای بزرگ متعدد، فناوریهای پایگاه داده متفاوت، و عملکرد ابرهای ترکیبی بسیار دستی هستند.
- رویکردها به ویژه برای دانشمندان داده یا دانشمندان داده شهروند که می خواهند به صورت مشترک کار کنند یا آزمایش های یادگیری ماشینی را با مجموعه داده های اولیه و مشتق شده اجرا کنند.
- استراتژی ممیزی ابرداده پایگاه داده، ایجاد حاکمیت داده پیشگیرانه.
منبع واحدی از حقیقت دارایی های داده سازمان
کاتالوگ های داده مدتی است که وجود داشته اند و امروزه استراتژیک تر شده اند زیرا سازمان ها پلتفرم های کلان داده را مقیاس می کنند، در ابرهای ترکیبی کار می کنند، در علم داده و برنامه های یادگیری ماشین سرمایه گذاری می کنند و از رفتارهای سازمانی مبتنی بر داده حمایت می کنند.
اولین مفهومی که در مورد کاتالوگ های داده باید فهمید این است که آنها ابزاری برای کل سازمان برای یادگیری و همکاری پیرامون منابع داده هستند. آنها برای سازمانهایی که سعی میکنند بیشتر دادهمحور باشند، سازمانهایی که دانشمندان داده با یادگیری ماشینی آزمایش میکنند، و سایرین که تجزیهوتحلیلها را در برنامههای رو به رو مشتری تعبیه میکنند، مهم هستند.
مهندسین پایگاه داده، توسعه دهندگان نرم افزار و سایر فناوران مسئولیت یکپارچه سازی کاتالوگ های داده با منابع داده اولیه سازمانی را بر عهده می گیرند. آنها همچنین از فهرست داده ها استفاده می کنند و به آن کمک می کنند، به خصوص زمانی که پایگاه داده ایجاد یا به روز می شود.
از این نظر، کاتالوگهای دادهای که با اکثر داراییهای دادهای یک شرکت ارتباط دارند، منبعی واحد از حقیقت هستند. آنها به پاسخ دادن به داده های موجود، نحوه یافتن بهترین منابع داده، نحوه محافظت از داده ها و اینکه چه کسی تخصص دارد کمک می کند. کاتالوگ داده شامل ابزارهایی برای کشف منابع داده، گرفتن فراداده در مورد آن منابع، جستجو در آنها و ارائه برخی از قابلیت های مدیریت ابرداده است.
بسیاری از کاتالوگ های داده فراتر از مفهوم دایرکتوری ساخت یافته هستند. کاتالوگ های داده اغلب شامل روابط بین منابع داده، موجودیت ها و اشیا هستند. اکثر کاتالوگ ها کلاس های مختلف ابرداده را دنبال می کنند، به ویژه در مورد محرمانه بودن، حریم خصوصی و امنیت. آنها اطلاعاتی را درباره نحوه استفاده افراد، بخش ها و برنامه های مختلف از منابع داده جمع آوری کرده و به اشتراک می گذارند. بیشتر کاتالوگ های داده شامل ابزارهایی برای تعریف دیکشنری های داده می شوند. برخی ابزارها را برای نمایه کردن داده ها، پاکسازی داده ها و انجام سایر عملکردهای نظارت بر داده ها، بسته بندی می کنند. کاتالوگهای دادههای تخصصی همچنین قابلیتهای مدیریت داده اصلی و نسل داده را فعال میکنند یا با آنها ارتباط برقرار میکنند.
محصولات و خدمات فهرست داده
بازار مملو از ابزارها و پلتفرم های فهرست داده است. برخی از محصولات از زیرساخت های دیگر و قابلیت های مدیریت داده های سازمانی رشد کردند. برخی دیگر نشان دهنده نسل جدیدی از قابلیت ها هستند و بر سهولت استفاده، همکاری و تفاوت های یادگیری ماشین تمرکز دارند. به طور طبیعی، انتخاب به مقیاس، تجربه کاربر، استراتژی علم داده، معماری داده و سایر الزامات سازمان بستگی دارد.
در اینجا نمونه ای از محصولات کاتالوگ داده است:
- کاتالوگ دادههای Azure و AWS Glue سرویسهای فهرستنویسی دادهها هستند که در پلتفرمهای ابر عمومی ساخته شدهاند.
- بسیاری از پلتفرمهای یکپارچهسازی دادهها دارای قابلیت فهرستنویسی دادهها هستند، از جمله کاتالوگ داده های سازمانی Informatica، کاتالوگ داده های Talend، SAP Data Hub و کاتالوگ حاکمیت اطلاعات Infosphere IBM.
- برخی از کاتالوگ های داده برای پلتفرم های کلان داده و ابرهای ترکیبی طراحی شده اند، مانند Cloudera پایگاه داده و InfoWorks DataFoundry، که از عملیات داده و هماهنگسازی پشتیبانی میکند.
- پلتفرمهای مستقلی با قابلیتهای یادگیری ماشینی وجود دارد، از جمله کاتالوگ دادههای Unifi، < a href="https://www.alation.com/product/" rel="nofollow">کاتالوگ داده های Alation، کاتالوگ Collibra، دادههای خط آبی، و < a href="https://www.ibm.com/cloud/watson-knowledge-catalog" rel="nofollow">کاتالوگ دانش IBM Watson.
- ابزارهای مدیریت داده اصلی مانند Stibo Systems و Reltio و پلتفرم های داده مشتری مانند Arm Treasure Data همچنین می تواند به عنوان کاتالوگ داده عمل کند.
قابلیت های یادگیری ماشین باعث بینش و آزمایش می شود
کاتالوگهای دادهای که کشف دادهها را خودکار میکنند، جستجو در مخزن را امکانپذیر میکنند و ابزارهای همکاری را ارائه میکنند، اصول اولیه هستند. کاتالوگهای دادههای پیشرفتهتر شامل قابلیتهایی در یادگیری ماشینی، پردازش زبان طبیعی، و پیادهسازی با کد پایین هستند.
قابلیتهای یادگیری ماشین بسته به پلتفرم، اشکال مختلفی دارند. برای مثال، Unifi دارای یک موتور توصیه داخلی است که نحوه استفاده، ملحق شدن، و برچسب گذاری مجموعه داده های اولیه و مشتق شده توسط افراد را بررسی می کند. معیارهای استفاده را ثبت می کند و از یادگیری ماشینی برای ارائه توصیه هایی استفاده می کند که سایر کاربران نهایی مجموعه داده ها و الگوهای مشابه را جستجو کنند. Unifi همچنین از الگوریتمهای یادگیری ماشینی برای نمایه کردن دادهها، شناسایی اطلاعات حساس قابل شناسایی شخصی و برچسبگذاری منابع داده استفاده میکند.
Collibra از یادگیری ماشینی برای کمک به مباشران داده در طبقهبندی دادهها استفاده میکند. طبقهبندی خودکار دادهها مجموعههای داده جدید و مطابقتها را تجزیه و تحلیل میکند به ۴۰ طبقه بندی خارج از جعبه، مانند آدرس، اطلاعات مالی، و شناسه محصول.
Waterline Data فناوری انگشت نگاری را به ثبت رسانده است که کشف، طبقه بندی و مدیریت داده های سازمانی را خودکار می کند. یکی از حوزه های تمرکز آنها شناسایی و برچسب گذاری داده های حساس است. آنها ادعا می کنند که زمان مورد نیاز برای برچسب گذاری را تا ۸۰ درصد کاهش می دهند.
پلتفرمهای مختلف استراتژیها و قابلیتهای فنی متفاوتی در مورد پردازش دادهها دارند. برخی فقط در کاتالوگ داده و سطح فراداده کار می کنند، در حالی که برخی دیگر دارای قابلیت های عملیاتی گسترده ای برای آماده سازی، ادغام، پاکسازی و سایر قابلیت های داده هستند.
InfoWorks DataFoundry یک سیستم عملیات داده سازمانی و هماهنگسازی است که مستقیماً با یادگیری ماشین ادغام میشود. الگوریتم ها دارای یک رابط برنامه نویسی بصری با کد پایین است که به کاربران نهایی امکان می دهد داده ها را با الگوریتم های یادگیری ماشینی مانند خوشه بندی k-means و طبقه بندی تصادفی جنگل متصل کنند.
ما در مراحل اولیه پلتفرمهای فعال مانند کاتالوگهای دادهای هستیم که راهبری، قابلیتهای عملیاتی و ابزارهای کشف را برای شرکتهایی با داراییهای داده در حال رشد ارائه میکنند. همانطور که سازمان ها ارزش تجاری بیشتری را از داده ها و تجزیه و تحلیل ها درک می کنند، نیاز بیشتری به مقیاس و مدیریت شیوه های داده وجود خواهد داشت. قابلیتهای یادگیری ماشین احتمالاً یکی از حوزههایی است که پلتفرمهای مختلف فهرست دادهها در آن رقابت میکنند.
پست های مرتبط
چرا مشاغل مبتنی بر داده به یک کاتالوگ داده نیاز دارند؟
چرا مشاغل مبتنی بر داده به یک کاتالوگ داده نیاز دارند؟
چرا مشاغل مبتنی بر داده به یک کاتالوگ داده نیاز دارند؟