۳۰ آذر ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

چرا مشاغل مبتنی بر داده به یک کاتالوگ داده نیاز دارند؟

شرکت ها به ابزارهای بهتری برای یادگیری و همکاری پیرامون منابع داده نیاز دارند. کاتالوگ های داده با قابلیت های یادگیری ماشینی پیشگام می توانند به شما کمک کنند تا از داده های ارزشمند خود استفاده کنید

شرکت ها به ابزارهای بهتری برای یادگیری و همکاری پیرامون منابع داده نیاز دارند. کاتالوگ های داده با قابلیت های یادگیری ماشینی پیشگام می توانند به شما کمک کنند تا از داده های ارزشمند خود استفاده کنید

پایگاه‌های اطلاعاتی رابطه‌ای، دریاچه‌های داده، و فروشگاه‌های داده NoSQL در درج، به‌روزرسانی، جستجو، جستجو و پردازش داده‌ها قدرتمند هستند. اما جنبه طعنه آمیز کار با پلتفرم های مدیریت داده این است که معمولا ابزارها یا رابط های کاربری قوی برای به اشتراک گذاشتن آنچه در داخل آنها است ارائه نمی دهند. آنها بیشتر شبیه خزانه های داده هستند. می‌دانید که داده‌های ارزشمندی در داخل وجود دارد، اما هیچ راه آسانی برای ارزیابی آن‌ها از بیرون ندارید.

چالش کسب‌وکار، سر و کار داشتن با انبوهی از خزانه‌های داده است: پایگاه‌های داده سازمانی متعدد، فروشگاه‌های داده کوچکتر، مراکز داده، ابرها، برنامه‌های کاربردی، ابزارهای BI، APIها، صفحات گسترده، و منابع داده باز.

مطمئناً، می‌توانید فراداده یک پایگاه داده رابطه‌ای را برای فهرستی از جداول، رویه‌های ذخیره‌شده، نمایه‌ها و دیگر اشیاء پایگاه داده برای دریافت یک فهرست جستجو کنید. اما این یک رویکرد زمان‌بر است که به تخصص فنی نیاز دارد و فقط یک فهرست اولیه را از یک منبع داده تولید می‌کند.

می‌توانید از ابزارهایی استفاده کنید که مدل‌های داده‌ها را معکوس می‌کنند یا راه‌هایی برای پیمایش ابرداده‌ها ارائه می‌دهند. اما این ابزارها اغلب برای فناوران طراحی می شوند و عمدتاً برای ممیزی، مستندسازی یا تجزیه و تحلیل پایگاه های داده استفاده می شوند.

به عبارت دیگر، این رویکردها برای جستجو در محتوای پایگاه‌های داده و ابزارهای استخراج ابرداده‌های آن‌ها برای نیازهای کسب‌وکار مبتنی بر داده امروزی به چند دلیل ناکافی هستند:

  • این فناوری‌ها به تخصص فنی بیش از حد نیاز دارند و بعید به نظر می‌رسد که توسط کاربران نهایی کمتر فنی مورد استفاده قرار گیرند.
  • روش‌ها برای شرکت‌هایی با پایگاه‌های داده‌های بزرگ متعدد، فناوری‌های پایگاه داده متفاوت، و عملکرد ابرهای ترکیبی بسیار دستی هستند.
  • رویکردها به ویژه برای دانشمندان داده یا دانشمندان داده شهروند که می خواهند به صورت مشترک کار کنند یا آزمایش های یادگیری ماشینی را با مجموعه داده های اولیه و مشتق شده اجرا کنند.
  • استراتژی ممیزی ابرداده پایگاه داده، ایجاد حاکمیت داده پیشگیرانه.
جدول زمانی Mastodon برای تیم ها

منبع واحدی از حقیقت دارایی های داده سازمان

کاتالوگ های داده مدتی است که وجود داشته اند و امروزه استراتژیک تر شده اند زیرا سازمان ها پلتفرم های کلان داده را مقیاس می کنند، در ابرهای ترکیبی کار می کنند، در علم داده و برنامه های یادگیری ماشین سرمایه گذاری می کنند و از رفتارهای سازمانی مبتنی بر داده حمایت می کنند.

اولین مفهومی که در مورد کاتالوگ های داده باید فهمید این است که آنها ابزاری برای کل سازمان برای یادگیری و همکاری پیرامون منابع داده هستند. آن‌ها برای سازمان‌هایی که سعی می‌کنند بیشتر داده‌محور باشند، سازمان‌هایی که دانشمندان داده با یادگیری ماشینی آزمایش می‌کنند، و سایرین که تجزیه‌وتحلیل‌ها را در برنامه‌های رو به رو مشتری تعبیه می‌کنند، مهم هستند.

مهندسین پایگاه داده، توسعه دهندگان نرم افزار و سایر فناوران مسئولیت یکپارچه سازی کاتالوگ های داده با منابع داده اولیه سازمانی را بر عهده می گیرند. آنها همچنین از فهرست داده ها استفاده می کنند و به آن کمک می کنند، به خصوص زمانی که پایگاه داده ایجاد یا به روز می شود.

از این نظر، کاتالوگ‌های داده‌ای که با اکثر دارایی‌های داده‌ای یک شرکت ارتباط دارند، منبعی واحد از حقیقت هستند. آنها به پاسخ دادن به داده های موجود، نحوه یافتن بهترین منابع داده، نحوه محافظت از داده ها و اینکه چه کسی تخصص دارد کمک می کند. کاتالوگ داده شامل ابزارهایی برای کشف منابع داده، گرفتن فراداده در مورد آن منابع، جستجو در آنها و ارائه برخی از قابلیت های مدیریت ابرداده است.

بسیاری از کاتالوگ های داده فراتر از مفهوم دایرکتوری ساخت یافته هستند. کاتالوگ های داده اغلب شامل روابط بین منابع داده، موجودیت ها و اشیا هستند. اکثر کاتالوگ ها کلاس های مختلف ابرداده را دنبال می کنند، به ویژه در مورد محرمانه بودن، حریم خصوصی و امنیت. آنها اطلاعاتی را درباره نحوه استفاده افراد، بخش ها و برنامه های مختلف از منابع داده جمع آوری کرده و به اشتراک می گذارند. بیشتر کاتالوگ های داده شامل ابزارهایی برای تعریف دیکشنری های داده می شوند. برخی ابزارها را برای نمایه کردن داده ها، پاکسازی داده ها و انجام سایر عملکردهای نظارت بر داده ها، بسته بندی می کنند. کاتالوگ‌های داده‌های تخصصی همچنین قابلیت‌های مدیریت داده اصلی و نسل داده را فعال می‌کنند یا با آنها ارتباط برقرار می‌کنند.

با توابع Pulsar یک خط لوله هوش مصنوعی در زمان واقعی بسازید

محصولات و خدمات فهرست داده

بازار مملو از ابزارها و پلتفرم های فهرست داده است. برخی از محصولات از زیرساخت های دیگر و قابلیت های مدیریت داده های سازمانی رشد کردند. برخی دیگر نشان دهنده نسل جدیدی از قابلیت ها هستند و بر سهولت استفاده، همکاری و تفاوت های یادگیری ماشین تمرکز دارند. به طور طبیعی، انتخاب به مقیاس، تجربه کاربر، استراتژی علم داده، معماری داده و سایر الزامات سازمان بستگی دارد.

در اینجا نمونه ای از محصولات کاتالوگ داده است:

قابلیت های یادگیری ماشین باعث بینش و آزمایش می شود

کاتالوگ‌های داده‌ای که کشف داده‌ها را خودکار می‌کنند، جستجو در مخزن را امکان‌پذیر می‌کنند و ابزارهای همکاری را ارائه می‌کنند، اصول اولیه هستند. کاتالوگ‌های داده‌های پیشرفته‌تر شامل قابلیت‌هایی در یادگیری ماشینی، پردازش زبان طبیعی، و پیاده‌سازی با کد پایین هستند.

قابلیت‌های یادگیری ماشین بسته به پلتفرم، اشکال مختلفی دارند. برای مثال، Unifi دارای یک موتور توصیه داخلی است که نحوه استفاده، ملحق شدن، و برچسب گذاری مجموعه داده های اولیه و مشتق شده توسط افراد را بررسی می کند. معیارهای استفاده را ثبت می کند و از یادگیری ماشینی برای ارائه توصیه هایی استفاده می کند که سایر کاربران نهایی مجموعه داده ها و الگوهای مشابه را جستجو کنند. Unifi همچنین از الگوریتم‌های یادگیری ماشینی برای نمایه کردن داده‌ها، شناسایی اطلاعات حساس قابل شناسایی شخصی و برچسب‌گذاری منابع داده استفاده می‌کند.

ggplot ساده تر با ggcharts در R

Collibra از یادگیری ماشینی برای کمک به مباشران داده در طبقه‌بندی داده‌ها استفاده می‌کند. طبقه‌بندی خودکار داده‌ها مجموعه‌های داده جدید و مطابقت‌ها را تجزیه و تحلیل می‌کند به ۴۰ طبقه بندی خارج از جعبه، مانند آدرس، اطلاعات مالی، و شناسه محصول.

Waterline Data فناوری انگشت نگاری را به ثبت رسانده است که کشف، طبقه بندی و مدیریت داده های سازمانی را خودکار می کند. یکی از حوزه های تمرکز آنها شناسایی و برچسب گذاری داده های حساس است. آنها ادعا می کنند که زمان مورد نیاز برای برچسب گذاری را تا ۸۰ درصد کاهش می دهند.

پلتفرم‌های مختلف استراتژی‌ها و قابلیت‌های فنی متفاوتی در مورد پردازش داده‌ها دارند. برخی فقط در کاتالوگ داده و سطح فراداده کار می کنند، در حالی که برخی دیگر دارای قابلیت های عملیاتی گسترده ای برای آماده سازی، ادغام، پاکسازی و سایر قابلیت های داده هستند.

InfoWorks DataFoundry یک سیستم عملیات داده سازمانی و هماهنگ‌سازی است که مستقیماً با یادگیری ماشین ادغام می‌شود. الگوریتم ها دارای یک رابط برنامه نویسی بصری با کد پایین است که به کاربران نهایی امکان می دهد داده ها را با الگوریتم های یادگیری ماشینی مانند خوشه بندی k-means و طبقه بندی تصادفی جنگل متصل کنند.

ما در مراحل اولیه پلتفرم‌های فعال مانند کاتالوگ‌های داده‌ای هستیم که راهبری، قابلیت‌های عملیاتی و ابزارهای کشف را برای شرکت‌هایی با دارایی‌های داده در حال رشد ارائه می‌کنند. همانطور که سازمان ها ارزش تجاری بیشتری را از داده ها و تجزیه و تحلیل ها درک می کنند، نیاز بیشتری به مقیاس و مدیریت شیوه های داده وجود خواهد داشت. قابلیت‌های یادگیری ماشین احتمالاً یکی از حوزه‌هایی است که پلتفرم‌های مختلف فهرست داده‌ها در آن رقابت می‌کنند.