Google Cloud Dataplex یک سیستم شگفتانگیز کامل برای تبدیل دادههای خام از سیلوها به محصولات داده یکپارچه آماده برای تجزیه و تحلیل است. و یادگیری کمی سخت است.
در ابتدا، یک پایگاه داده وجود داشت. در روز دوم، پایگاههای اطلاعاتی بسیاری وجود داشت، همه سیلوهای ایزوله… و سپس انبارهای داده، دریاچههای داده، مارتهای داده، همه چیز متفاوت و ابزارهایی برای استخراج، تبدیل و بارگیری همه دادههایی که میخواستیم نگاه دقیقتری به آنها داشته باشیم. در نهایت، فراداده، طبقه بندی داده ها، کیفیت داده ها، امنیت داده ها، اصل و نسب داده ها، کاتالوگ داده ها و مش داده ها نیز وجود داشت. و در روز هفتم، همانطور که بود، گوگل همه اینها را به عنوان Google Cloud Dataplex روی یک بازبین ناخواسته انداخت.
باشه، این یک شوخی بود. این بازبین به نوعی میدانست که وارد چه چیزی میشود، اگرچه هنوز دریافت اطلاعات جدید (در مورد مدیریت دادهها) برایش سخت است.
به طور جدی، مشکل داده های توزیع شده واقعی است. و همچنین امنیت داده ها، ایمنی اطلاعات شخصی قابل شناسایی (PII) و مشکلات حاکمیتی. Dataplex کشف خودکار داده ها و برداشت ابرداده را انجام می دهد که به شما امکان می دهد داده های خود را بدون جابجایی منطقی یکسان کنید.
Google Cloud Dataplex مدیریت و مدیریت داده را با استفاده از یادگیری ماشینی برای طبقهبندی دادهها، سازماندهی دادهها در دامنهها، ایجاد کیفیت دادهها، تعیین خط و نسب دادهها و مدیریت و کنترل چرخه عمر دادهها انجام میدهد. همانطور که در زیر با جزئیات بیشتر بحث خواهیم کرد، Dataplex معمولاً با دادههای خام در دریاچه داده شروع میشود، برداشت خودکار طرحواره را انجام میدهد، بررسیهای اعتبارسنجی دادهها را اعمال میکند، ابردادهها را یکسان میکند، و دادهها را با ابزارهای بومی و منبع باز Google قابل استعلام میکند. p>
رقبای Google Cloud Dataplex عبارتند از AWS Glue و Amazon EMR، Microsoft Azure HDInsight و Microsoft Purview Protection اطلاعات، Oracle Coherence، SAP Data Intelligence، و Talend Data Fabric.
نمودار نمای کلی Google Cloud Dataplex. این نمودار پنج مؤلفه تجزیه و تحلیل Google، چهار عملکرد Dataplex مناسب، و هفت نوع داده قابل دسترسی از طریق BigLake را فهرست می کند که سه مورد از آنها برای آینده برنامه ریزی شده است.
ویژگی های Google Cloud Dataplex
به طور کلی، Google Cloud Dataplex برای یکپارچهسازی، کشف و طبقهبندی دادههای شما از همه منابع دادهتان بدون نیاز به انتقال یا تکثیر دادههایتان طراحی شده است. کلید این کار استخراج ابرداده هایی است که داده های شما را توصیف می کند و آن ها را در یک مکان مرکزی ذخیره کنید. ویژگی های کلیدی Dataplex:
کشف داده
میتوانید از Google Cloud Dataplex برای خودکارسازی دادهها، طبقهبندی و غنیسازی ابرداده دادههای ساختاریافته، نیمه ساختاریافته و بدون ساختار استفاده کنید. می توانید ابرداده های فنی، عملیاتی و تجاری را در یک کاتالوگ داده یکپارچه مدیریت کنید. میتوانید دادههای خود را با استفاده از یک رابط جستجوی داخلی، همان فناوری جستجوی Gmail، جستجو کنید.
سازماندهی داده و مدیریت چرخه حیات
میتوانید دادههایی را که چندین سرویس ذخیرهسازی را در بر میگیرد، با استفاده از دریاچههای Dataplex و مناطق داده، در حوزههای تجاری خاص سازماندهی کنید. میتوانید دادههای خود را به راحتی مدیریت، سرپرستی، ردیفبندی و بایگانی کنید.
امنیت و حاکمیت متمرکز
می توانید از Dataplex برای فعال کردن مدیریت خط مشی مرکزی، نظارت و ممیزی برای مجوز و طبقه بندی داده ها در سیلوهای داده استفاده کنید. میتوانید مالکیت دادههای توزیعشده را بر اساس دامنههای تجاری با نظارت و حاکمیت جهانی تسهیل کنید.
کیفیت دادههای داخلی و اصل و نسب
میتوانید کیفیت دادهها را در میان دادههای توزیعشده خودکار کنید و دسترسی به دادههایی را که میتوانید به آنها اعتماد کنید فعال کنید. برای درک بهتر دادههای خود، ردیابی وابستگیها و عیبیابی مشکلات دادهها، میتوانید از دودمان دادههای خودکار گرفته شده استفاده کنید.
کاوش داده بدون سرور
میتوانید با استفاده از میز کار کاوش دادههای بدون سرور با دسترسی به اسکریپتهای Spark SQL و نوتبوکهای Jupyter، به صورت تعاملی دادههای کاملاً کنترلشده و باکیفیت را جستجو کنید. میتوانید با ویژگیهای داخلی انتشار، اشتراکگذاری و جستجو در بین تیمها همکاری کنید و کار خود را با زمانبندی از روی میز کار عملیاتی کنید.
نحوه عملکرد Google Cloud Dataplex
همانطور که منابع داده جدید را شناسایی میکنید، Dataplex ابردادهها را برای دادههای ساختاریافته و بدون ساختار جمعآوری میکند، با استفاده از بررسیهای کیفی داده داخلی برای افزایش یکپارچگی. Dataplex به طور خودکار تمام ابرداده ها را در یک متاستور یکپارچه ثبت می کند. همچنین میتوانید از طریق انواع سرویسهای Google Cloud، مانند BigQuery، Dataproc Metastore، Data Catalog و ابزارهای منبع باز، مانند Apache Spark و Presto، به دادهها و ابردادهها دسترسی داشته باشید.
دو مورد از رایج ترین موارد استفاده برای Dataplex عبارتند از یک شبکه داده محور دامنه و طبقه بندی داده بر اساس آمادگی. من از طریق یک سری آزمایشگاه رفتم که هر دو را نشان می دهد.
در این نمودار، دامنهها توسط دریاچههای Dataplex نشان داده میشوند و متعلق به تولیدکنندگان داده جداگانه هستند. تولیدکنندگان داده مالکیت ایجاد، مدیریت و کنترل دسترسی در حوزه های خود را دارند. سپس مصرف کنندگان داده می توانند برای تجزیه و تحلیل خود درخواست دسترسی به دریاچه ها (دامنه ها) یا مناطق (زیر دامنه ها) کنند.
سطح بندی داده به این معنی است که داده های دریافت شده شما در ابتدا فقط برای مهندسان داده قابل دسترسی است و بعداً پالایش شده و در اختیار دانشمندان و تحلیلگران داده قرار می گیرد. در این مورد، میتوانید دریاچهای را راهاندازی کنید تا یک منطقه خام برای دادههایی که مهندسان به آنها دسترسی دارند، و یک منطقه انتخابشده برای دادههایی که در دسترس دانشمندان و تحلیلگران داده است، داشته باشد.
آماده سازی داده های خود برای تجزیه و تحلیل
Google Cloud Dataplex درباره مهندسی داده و شرطیسازی است که با دادههای خام در دریاچههای داده شروع میشود. از ابزارهای مختلفی برای کشف دادهها و ابردادهها، سازماندهی دادهها در دامنهها، غنیسازی دادهها با زمینه کسبوکار، ردیابی سلسله دادهها، آزمایش کیفیت دادهها، نظارت بر دادهها، ایمن کردن دادهها و حفاظت از اطلاعات خصوصی، نظارت بر تغییرات و ممیزی تغییرات استفاده میکند.
جریان فرآیند Dataplex در فضای ذخیرهسازی ابری با دادههای خام دریافت شده، اغلب در جداول CSV با ردیفهای سرصفحه شروع میشود. فرآیند اکتشاف طرحواره را استخراج میکند و تا حدودی مدیریت میکند، جداول فراداده و همچنین فایلهای قابل پرسوجو را در فضای ذخیرهسازی ابری با استفاده از Dataflow flex و Spark jobs بدون سرور تولید میکند. داده های انتخاب شده می توانند در قالب پارکت، Avro یا Orc باشند. مرحله بعدی از Spark SQL بدون سرور برای تبدیل داده ها، اعمال امنیت داده ها، ذخیره آن در BigQuery و ایجاد نماهایی با سطوح مختلف مجوز و دسترسی استفاده می کند. مرحله چهارم محصولات داده مصرفی را در BigQuery ایجاد می کند که تحلیلگران کسب و کار و دانشمندان داده می توانند پرس و جو و تجزیه و تحلیل کنند.
جریان فرآیند Google Cloud Dataplex. دادهها بهعنوان فایلهای خام CSV و/یا JSON در سطلهای ذخیرهسازی ابری شروع میشوند، سپس با استفاده از Dataflow flex و Spark به فایلهای Parquet، Avro و/یا ORC قابل پرسوجو تبدیل میشوند. جستجوهای Spark SQL داده ها را به جداول BigQuery تصفیه شده و نماهای ایمن و مجاز تبدیل می کند. پروفایل داده و کارهای Spark داده های نهایی را به شکلی می آورند که قابل تجزیه و تحلیل باشد.
در مثال بانکی که من روی آن کار کردم، معماری مش داده Dataplex دارای چهار دریاچه داده برای حوزه های مختلف بانکی است. هر دامنه دارای داده های خام، داده های مدیریت شده و محصولات داده است. کاتالوگ داده و چارچوب کیفیت داده متمرکز هستند.
معماری مش داده Google Cloud Dataplex. در این مثال بانکی، چهار حوزه در دریاچه های داده وجود دارد، برای بانکداری مصرف کننده مشتری، بانکداری مصرف کننده تجاری، بانکداری مصرف کننده وام دهی، و بانکداری مصرف کننده کارت اعتباری. هر دریاچه داده شامل مناطق داده خام، مدیریت شده و محصول است. دامنه عملیات مرکزی برای هر چهار دامنه داده اعمال می شود.
فهرستنویسی خودکار با برداشت طرحواره و بررسی اعتبار دادهها شروع میشود و ابردادههای یکپارچه ایجاد میکند که دادهها را قابل پرسوجو میکند. Dataplex Attribute Store یک زیرساخت قابل توسعه است که به شما امکان می دهد رفتارهای مرتبط با خط مشی را در منابع مرتبط مشخص کنید. این به شما امکان می دهد طبقه بندی ایجاد کنید، ویژگی ها را ایجاد کنید و آنها را در یک سلسله مراتب سازماندهی کنید، یک یا چند ویژگی را به جداول مرتبط کنید، و یک یا چند ویژگی را به ستون ها مرتبط کنید.
میتوانید طبقهبندی دادههای خود را بهطور مرکزی دنبال کنید و قوانین طبقهبندی را در دامنهها اعمال کنید تا نشت دادههای حساس مانند شمارههای تأمین اجتماعی را کنترل کنید. Google این را DLP (پیشگیری از دست دادن داده) می نامد.
محصول داده های جمعیت شناختی مشتری. در این سطح، اطلاعاتی که PII (اطلاعات شناسایی شخصی) یا حساس هستند، میتوانند پرچمگذاری شوند و اقداماتی برای کاهش خطر انجام شود، مانند پوشاندن ستونهای حساس از بینندگان غیرمجاز.
پروفایل دادههای خودکار، که در حال حاضر در پیشنمایش عمومی است، به شما امکان میدهد ویژگیهای آماری مشترک ستونهای جداول BigQuery خود را در دریاچههای داده Dataplex شناسایی کنید. پروفایل داده خودکار اسکن هایی را انجام می دهد تا به شما امکان می دهد توزیع مقادیر را برای ستون های جداگانه مشاهده کنید.
نسب دادههای سرتاسری به شما کمک میکند تا منشا دادههای خود و تغییراتی را که روی آن اعمال شدهاند، درک کنید. در میان مزایای دیگر، اصل و نسب داده به شما این امکان را می دهد که تأثیر پایین دستی مسائل داده را ردیابی کنید و علل بالادستی را شناسایی کنید.
نسب داده کاوشگر Google Cloud Dataplex. در اینجا ما پرس و جوی SQL را بررسی می کنیم که زیربنای یک مرحله در فرآیند تبدیل داده است. این درخواست خاص به عنوان یک Airflow DAG از Google Cloud Composer اجرا شد.
اسکنهای کیفیت دادههای Dataplex قوانین توصیهشده خودکار را بر اساس نمایه دادههای شما اعمال میکنند. قوانین مسائل رایجی مانند مقادیر تهی، مقادیر (مانند شناسهها) را که باید منحصربهفرد باشند اما منحصربهفرد نیستند، و مقادیری که خارج از محدوده هستند، مانند تاریخهای تولدی که در آینده یا گذشتههای دور هستند، بررسی میکنند. p>
من در ابتدای این بررسی در مورد اینکه Google Cloud Dataplex تا حدی طاقتفرسا بود، نیمه شوخی کردم. درست است، بسیار طاقت فرسا است. در عین حال، به نظر می رسد Dataplex به طور بالقوه کامل ترین سیستمی است که من برای تبدیل داده های خام از سیلوها به محصولات داده یکپارچه کنترل شده و کنترل شده آماده برای تجزیه و تحلیل دیده ام.
Google Cloud Dataplex در وضعیت GA در دسترس است، اما برخی از مؤلفههای آن (یعنی کیفیت داده، نمایه دادهها، و اصل و نسب داده) هنوز در پیشنمایش هستند و برخی دیگر هنوز وجود ندارند. از جمله موارد گم شده، اتصال به ذخیره سازی اولیه، داده های جریانی و داده های چند ابری است. با این حال، حتی در شکل اولیه، Dataplex برای مهندسی داده بسیار مفید است.
فروشنده: Google، https://cloud.google.com/dataplex a>
هزینه: بر اساس مصرف پرداختی ۰.۰۶۰ دلار استاندارد/ساعت DCU، ۰.۰۸۹ دلار/DCU-ساعت حق بیمه، ۰.۰۴۰ دلار/DCU-ساعت ذخیره سازی درهم.
پلتفرم: Google Cloud Platform.
پست های مرتبط
پیش نمایش: Google Cloud Dataplex شگفت انگیز است
پیش نمایش: Google Cloud Dataplex شگفت انگیز است
پیش نمایش: Google Cloud Dataplex شگفت انگیز است