پیش نمایش: Google Cloud Dataplex شگفت انگیز است

Google Cloud Dataplex یک سیستم شگفت‌انگیز کامل برای تبدیل داده‌های خام از سیلوها به محصولات داده یکپارچه آماده برای تجزیه و تحلیل است. و یادگیری کمی سخت است.

در ابتدا، یک پایگاه داده وجود داشت. در روز دوم، پایگاه‌های اطلاعاتی بسیاری وجود داشت، همه سیلوهای ایزوله… و سپس انبارهای داده، دریاچه‌های داده، مارت‌های داده، همه چیز متفاوت و ابزارهایی برای استخراج، تبدیل و بارگیری همه داده‌هایی که می‌خواستیم نگاه دقیق‌تری به آن‌ها داشته باشیم. در نهایت، فراداده، طبقه بندی داده ها، کیفیت داده ها، امنیت داده ها، اصل و نسب داده ها، کاتالوگ داده ها و مش داده ها نیز وجود داشت. و در روز هفتم، همانطور که بود، گوگل همه اینها را به عنوان Google Cloud Dataplex روی یک بازبین ناخواسته انداخت.

باشه، این یک شوخی بود. این بازبین به نوعی می‌دانست که وارد چه چیزی می‌شود، اگرچه هنوز دریافت اطلاعات جدید (در مورد مدیریت داده‌ها) برایش سخت است.

به طور جدی، مشکل داده های توزیع شده واقعی است. و همچنین امنیت داده ها، ایمنی اطلاعات شخصی قابل شناسایی (PII) و مشکلات حاکمیتی. Dataplex کشف خودکار داده ها و برداشت ابرداده را انجام می دهد که به شما امکان می دهد داده های خود را بدون جابجایی منطقی یکسان کنید.

Google Cloud Dataplex مدیریت و مدیریت داده را با استفاده از یادگیری ماشینی برای طبقه‌بندی داده‌ها، سازماندهی داده‌ها در دامنه‌ها، ایجاد کیفیت داده‌ها، تعیین خط و نسب داده‌ها و مدیریت و کنترل چرخه عمر داده‌ها انجام می‌دهد. همانطور که در زیر با جزئیات بیشتر بحث خواهیم کرد، Dataplex معمولاً با داده‌های خام در دریاچه داده شروع می‌شود، برداشت خودکار طرحواره را انجام می‌دهد، بررسی‌های اعتبارسنجی داده‌ها را اعمال می‌کند، ابرداده‌ها را یکسان می‌کند، و داده‌ها را با ابزارهای بومی و منبع باز Google قابل استعلام می‌کند.

رقبای Google Cloud Dataplex عبارتند از AWS Glue و Amazon EMR، Microsoft Azure HDInsight و Microsoft Purview Protection اطلاعات، Oracle Coherence، SAP Data Intelligence، و Talend Data Fabric.

نمودار نمای کلی Google Cloud Dataplex. این نمودار پنج مؤلفه تجزیه و تحلیل Google، چهار عملکرد Dataplex مناسب، و هفت نوع داده قابل دسترسی از طریق BigLake را فهرست می کند که سه مورد از آنها برای آینده برنامه ریزی شده است.

ویژگی های Google Cloud Dataplex

به طور کلی، Google Cloud Dataplex برای یکپارچه‌سازی، کشف و طبقه‌بندی داده‌های شما از همه منابع داده‌تان بدون نیاز به انتقال یا تکثیر داده‌هایتان طراحی شده است. کلید این کار استخراج ابرداده هایی است که داده های شما را توصیف می کند و آن ها را در یک مکان مرکزی ذخیره کنید. ویژگی های کلیدی Dataplex:

کشف داده

می‌توانید از Google Cloud Dataplex برای خودکارسازی داده‌ها، طبقه‌بندی و غنی‌سازی ابرداده داده‌های ساختاریافته، نیمه ساختاریافته و بدون ساختار استفاده کنید. می توانید ابرداده های فنی، عملیاتی و تجاری را در یک کاتالوگ داده یکپارچه مدیریت کنید. می‌توانید داده‌های خود را با استفاده از یک رابط جستجوی داخلی، همان فناوری جستجوی Gmail، جستجو کنید.

معایب استفاده از سیستم های مقیاس خودکار ابری

سازماندهی داده و مدیریت چرخه حیات

می‌توانید داده‌هایی را که چندین سرویس ذخیره‌سازی را در بر می‌گیرد، با استفاده از دریاچه‌های Dataplex و مناطق داده، در حوزه‌های تجاری خاص سازماندهی کنید. می‌توانید داده‌های خود را به راحتی مدیریت، سرپرستی، ردیف‌بندی و بایگانی کنید.

امنیت و حاکمیت متمرکز

می توانید از Dataplex برای فعال کردن مدیریت خط مشی مرکزی، نظارت و ممیزی برای مجوز و طبقه بندی داده ها در سیلوهای داده استفاده کنید. می‌توانید مالکیت داده‌های توزیع‌شده را بر اساس دامنه‌های تجاری با نظارت و حاکمیت جهانی تسهیل کنید.

کیفیت داده‌های داخلی و اصل و نسب

می‌توانید کیفیت داده‌ها را در میان داده‌های توزیع‌شده خودکار کنید و دسترسی به داده‌هایی را که می‌توانید به آنها اعتماد کنید فعال کنید. برای درک بهتر داده‌های خود، ردیابی وابستگی‌ها و عیب‌یابی مشکلات داده‌ها، می‌توانید از دودمان داده‌های خودکار گرفته شده استفاده کنید.

کاوش داده بدون سرور

می‌توانید با استفاده از میز کار کاوش داده‌های بدون سرور با دسترسی به اسکریپت‌های Spark SQL و نوت‌بوک‌های Jupyter، به صورت تعاملی داده‌های کاملاً کنترل‌شده و باکیفیت را جستجو کنید. می‌توانید با ویژگی‌های داخلی انتشار، اشتراک‌گذاری و جستجو در بین تیم‌ها همکاری کنید و کار خود را با زمان‌بندی از روی میز کار عملیاتی کنید.

نحوه عملکرد Google Cloud Dataplex

همانطور که منابع داده جدید را شناسایی می‌کنید، Dataplex ابرداده‌ها را برای داده‌های ساختاریافته و بدون ساختار جمع‌آوری می‌کند، با استفاده از بررسی‌های کیفی داده داخلی برای افزایش یکپارچگی. Dataplex به طور خودکار تمام ابرداده ها را در یک متاستور یکپارچه ثبت می کند. همچنین می‌توانید از طریق انواع سرویس‌های Google Cloud، مانند BigQuery، Dataproc Metastore، Data Catalog و ابزارهای منبع باز، مانند Apache Spark و Presto، به داده‌ها و ابرداده‌ها دسترسی داشته باشید.

دو مورد از رایج ترین موارد استفاده برای Dataplex عبارتند از یک شبکه داده محور دامنه و طبقه بندی داده بر اساس آمادگی. من از طریق یک سری آزمایشگاه رفتم که هر دو را نشان می دهد.

در این نمودار، دامنه‌ها توسط دریاچه‌های Dataplex نشان داده می‌شوند و متعلق به تولیدکنندگان داده جداگانه هستند. تولیدکنندگان داده مالکیت ایجاد، مدیریت و کنترل دسترسی در حوزه های خود را دارند. سپس مصرف کنندگان داده می توانند برای تجزیه و تحلیل خود درخواست دسترسی به دریاچه ها (دامنه ها) یا مناطق (زیر دامنه ها) کنند.

سطح بندی داده به این معنی است که داده های دریافت شده شما در ابتدا فقط برای مهندسان داده قابل دسترسی است و بعداً پالایش شده و در اختیار دانشمندان و تحلیلگران داده قرار می گیرد. در این مورد، می‌توانید دریاچه‌ای را راه‌اندازی کنید تا یک منطقه خام برای داده‌هایی که مهندسان به آنها دسترسی دارند، و یک منطقه انتخاب‌شده برای داده‌هایی که در دسترس دانشمندان و تحلیلگران داده است، داشته باشد.

زیر سوال بردن تاثیر محیطی ابر

آماده سازی داده های خود برای تجزیه و تحلیل

Google Cloud Dataplex درباره مهندسی داده و شرطی‌سازی است که با داده‌های خام در دریاچه‌های داده شروع می‌شود. از ابزارهای مختلفی برای کشف داده‌ها و ابرداده‌ها، سازمان‌دهی داده‌ها در دامنه‌ها، غنی‌سازی داده‌ها با زمینه کسب‌وکار، ردیابی سلسله داده‌ها، آزمایش کیفیت داده‌ها، نظارت بر داده‌ها، ایمن کردن داده‌ها و حفاظت از اطلاعات خصوصی، نظارت بر تغییرات و ممیزی تغییرات استفاده می‌کند.

جریان فرآیند Dataplex در فضای ذخیره‌سازی ابری با داده‌های خام دریافت شده، اغلب در جداول CSV با ردیف‌های سرصفحه شروع می‌شود. فرآیند اکتشاف طرحواره را استخراج می‌کند و تا حدودی مدیریت می‌کند، جداول فراداده و همچنین فایل‌های قابل پرس‌وجو را در فضای ذخیره‌سازی ابری با استفاده از Dataflow flex و Spark jobs بدون سرور تولید می‌کند. داده های انتخاب شده می توانند در قالب پارکت، Avro یا Orc باشند. مرحله بعدی از Spark SQL بدون سرور برای تبدیل داده ها، اعمال امنیت داده ها، ذخیره آن در BigQuery و ایجاد نماهایی با سطوح مختلف مجوز و دسترسی استفاده می کند. مرحله چهارم محصولات داده مصرفی را در BigQuery ایجاد می کند که تحلیلگران کسب و کار و دانشمندان داده می توانند پرس و جو و تجزیه و تحلیل کنند.

جریان فرآیند Google Cloud Dataplex. داده‌ها به‌عنوان فایل‌های خام CSV و/یا JSON در سطل‌های ذخیره‌سازی ابری شروع می‌شوند، سپس با استفاده از Dataflow flex و Spark به فایل‌های Parquet، Avro و/یا ORC قابل پرس‌وجو تبدیل می‌شوند. جستجوهای Spark SQL داده ها را به جداول BigQuery تصفیه شده و نماهای ایمن و مجاز تبدیل می کند. پروفایل داده و کارهای Spark داده های نهایی را به شکلی می آورند که قابل تجزیه و تحلیل باشد.

در مثال بانکی که من روی آن کار کردم، معماری مش داده Dataplex دارای چهار دریاچه داده برای حوزه های مختلف بانکی است. هر دامنه دارای داده های خام، داده های مدیریت شده و محصولات داده است. کاتالوگ داده و چارچوب کیفیت داده متمرکز هستند.

معماری مش داده Google Cloud Dataplex. در این مثال بانکی، چهار حوزه در دریاچه های داده وجود دارد، برای بانکداری مصرف کننده مشتری، بانکداری مصرف کننده تجاری، بانکداری مصرف کننده وام دهی، و بانکداری مصرف کننده کارت اعتباری. هر دریاچه داده شامل مناطق داده خام، مدیریت شده و محصول است. دامنه عملیات مرکزی برای هر چهار دامنه داده اعمال می شود.

فهرست‌نویسی خودکار با برداشت طرح‌واره و بررسی اعتبار داده‌ها شروع می‌شود و ابرداده‌های یکپارچه ایجاد می‌کند که داده‌ها را قابل پرس‌وجو می‌کند. Dataplex Attribute Store یک زیرساخت قابل توسعه است که به شما امکان می دهد رفتارهای مرتبط با خط مشی را در منابع مرتبط مشخص کنید. این به شما امکان می دهد طبقه بندی ایجاد کنید، ویژگی ها را ایجاد کنید و آنها را در یک سلسله مراتب سازماندهی کنید، یک یا چند ویژگی را به جداول مرتبط کنید، و یک یا چند ویژگی را به ستون ها مرتبط کنید.

گوگل خط لوله حریم خصوصی متفاوتی را برای پایتون منتشر کرد

می‌توانید طبقه‌بندی داده‌های خود را به‌طور مرکزی دنبال کنید و قوانین طبقه‌بندی را در دامنه‌ها اعمال کنید تا نشت داده‌های حساس مانند شماره‌های تأمین اجتماعی را کنترل کنید. Google این را DLP (پیشگیری از دست دادن داده) می نامد.

محصول داده های جمعیت شناختی مشتری. در این سطح، اطلاعاتی که PII (اطلاعات شناسایی شخصی) یا حساس هستند، می‌توانند پرچم‌گذاری شوند و اقداماتی برای کاهش خطر انجام شود، مانند پوشاندن ستون‌های حساس از بینندگان غیرمجاز.

پروفایل داده‌های خودکار، که در حال حاضر در پیش‌نمایش عمومی است، به شما امکان می‌دهد ویژگی‌های آماری مشترک ستون‌های جداول BigQuery خود را در دریاچه‌های داده Dataplex شناسایی کنید. پروفایل داده خودکار اسکن هایی را انجام می دهد تا به شما امکان می دهد توزیع مقادیر را برای ستون های جداگانه مشاهده کنید.

نسب داده‌های سرتاسری به شما کمک می‌کند تا منشا داده‌های خود و تغییراتی را که روی آن اعمال شده‌اند، درک کنید. در میان مزایای دیگر، اصل و نسب داده به شما این امکان را می دهد که تأثیر پایین دستی مسائل داده را ردیابی کنید و علل بالادستی را شناسایی کنید.

نسب داده کاوشگر Google Cloud Dataplex. در اینجا ما پرس و جوی SQL را بررسی می کنیم که زیربنای یک مرحله در فرآیند تبدیل داده است. این درخواست خاص به عنوان یک Airflow DAG از Google Cloud Composer اجرا شد.

اسکن‌های کیفیت داده‌های Dataplex قوانین توصیه‌شده خودکار را بر اساس نمایه داده‌های شما اعمال می‌کنند. قوانین مسائل رایجی مانند مقادیر تهی، مقادیر (مانند شناسه‌ها) را که باید منحصربه‌فرد باشند اما منحصربه‌فرد نیستند، و مقادیری که خارج از محدوده هستند، مانند تاریخ‌های تولدی که در آینده یا گذشته‌های دور هستند، بررسی می‌کنند.

من در ابتدای این بررسی در مورد اینکه Google Cloud Dataplex تا حدی طاقت‌فرسا بود، نیمه شوخی کردم. درست است، بسیار طاقت فرسا است. در عین حال، به نظر می رسد Dataplex به طور بالقوه کامل ترین سیستمی است که من برای تبدیل داده های خام از سیلوها به محصولات داده یکپارچه کنترل شده و کنترل شده آماده برای تجزیه و تحلیل دیده ام.

Google Cloud Dataplex در وضعیت GA در دسترس است، اما برخی از مؤلفه‌های آن (یعنی کیفیت داده، نمایه داده‌ها، و اصل و نسب داده) هنوز در پیش‌نمایش هستند و برخی دیگر هنوز وجود ندارند. از جمله موارد گم شده، اتصال به ذخیره سازی اولیه، داده های جریانی و داده های چند ابری است. با این حال، حتی در شکل اولیه، Dataplex برای مهندسی داده بسیار مفید است.

فروشنده: Google، https://cloud.google.com/dataplex

هزینه: بر اساس مصرف پرداختی ۰.۰۶۰ دلار استاندارد/ساعت DCU، ۰.۰۸۹ دلار/DCU-ساعت حق بیمه، ۰.۰۴۰ دلار/DCU-ساعت ذخیره سازی درهم.

پلتفرم: Google Cloud Platform.

ویژگی های Google Cloud Dataplex

کشف داده

سازماندهی داده و مدیریت چرخه حیات

امنیت و حاکمیت متمرکز

کیفیت داده‌های داخلی و اصل و نسب

کاوش داده بدون سرور

نحوه عملکرد Google Cloud Dataplex

آماده سازی داده های خود برای تجزیه و تحلیل

پست های مرتبط

پیش نمایش: Google Cloud Dataplex شگفت انگیز است

پیش نمایش: Google Cloud Dataplex شگفت انگیز است

پیش نمایش: Google Cloud Dataplex شگفت انگیز است

شاید به این مطالب علاقمند باشید

پیش نمایش: Google Cloud Dataplex شگفت انگیز است

پیش نمایش: Google Cloud Dataplex شگفت انگیز است

پیش نمایش: Google Cloud Dataplex شگفت انگیز است

پیش نمایش: Google Cloud Dataplex شگفت انگیز است