گوگل BigLake را به عنوان یک پلت فرم داده یک مرحله ای توصیف می کند که امکان تجزیه و تحلیل داده ها و مهندسی داده ها را بر روی داده های ساختار یافته و بدون ساختار می دهد.
به دنبال روند ارائهدهندگان راهحل ابری برای ارائه یک پلتفرم یک مرحلهای برای همه دادهها، Google Cloud ابزارهای جدیدی را منتشر کرده است که شرکتها را قادر میسازد نه تنها اطلاعات بینش تجاری ایجاد کنند، بلکه عملیات مهندسی داده را نیز انجام دهند.
طبق گفته این شرکت، یکی از چالشهای متعددی که امروزه شرکتها با آن مواجه هستند، مدیریت دادهها در دریاچهها و انبارهای متفاوت است، که سیلو ایجاد میکند و ریسک و هزینه را افزایش میدهد، بهویژه زمانی که دادهها باید جابجا شوند.
برای مقابله با این چالش، این شرکت ابزار جدیدی به نام BigLake منتشر کرده است.
گریت کازمایر گفت: «BigLake به شرکتها اجازه میدهد تا انبارهای داده و دریاچههای خود را برای تجزیه و تحلیل دادهها بدون نگرانی در مورد قالب یا سیستم ذخیرهسازی زیربنایی یکپارچه کنند، که نیاز به کپی کردن یا انتقال دادهها از یک منبع را از بین میبرد و هزینه و ناکارآمدی را کاهش میدهد». معاون پایگاه داده، تجزیه و تحلیل داده ها، و Looker at Google Cloud.
کازمایر افزود: «با BigLake، مشتریان کنترلهای دسترسی را به دست میآورند، با یک رابط API که شامل Google Cloud میشود و قالبهای فایل باز مانند Parquet، همراه با موتورهای پردازش منبع باز مانند Apache Spark.
براساس Doug Henschen از Constellation Research، گوگل به گرایش به سمت پلتفرم های داده ترکیبی دریاچه و انبار (یا “Lakehouse”) پاسخ می دهد که قول پشتیبانی از تجزیه و تحلیل های مرتبط با پرس و جو مبتنی بر SQL در برابر انبارها و همچنین علوم داده و علوم داده را می دهد. مهندسی داده مرتبط با اطلاعات نیمه ساختاریافته و بدون ساختار موجود در دریاچه های داده است.
پیش از این، Google Cloud Big Query، یک سرویس انبار داده، و DataProc، یک سرویس دریاچه داده مبتنی بر Hadoop/Spark را به طور جداگانه ارائه میکرد.
«Cloudera، Databricks، Microsoft، Oracle، Snowflake، و SAP همگی دارای ترکیبی از پیشنهادات دریاچه/ انبار هستند. Henschen گفت و Amazon Redshift Spectrum مدتهاست که با قابلیت Lake Formation AWS برای ساخت دریاچهها بر اساس ذخیرهسازی اشیاء S3 هماهنگ شده است.
Henschen اضافه کرد که شرکتها باید بدانند که هر یک از این پیشنهادات واقعاً تا چه حد نیازهای تجزیه و تحلیل و علم داده یا مهندسی داده آنها را برآورده میکند. Henschen گفت: “به طور کلی، پیشنهادات ریشه دار انبار بیشتر نیازهای تجزیه و تحلیل را برآورده می کند و پیشنهادات ریشه دریاچه از نظر علم داده و مهندسی داده عمق و عملکرد بهتری دارند.”
Google گفت
BigLake که در پیشنمایش است، اکنون برای شرکتها در دسترس است تا آن را امتحان کنند.
GCP Change Data Capture را معرفی می کند
با هدف در دسترس قرار دادن جدیدترین دادهها و مجموعه دادهها برای تیمها در سراسر یک شرکت، Google Cloud یک ویژگی جدید Change Data Capture (CDC) را به نمایش گذاشته است.
Sudhir Hasbe، مدیر مدیریت محصول در Google Cloud، گفت: ابزار جدید که Spanner Change Streams نامیده میشود، به یک شرکت اجازه میدهد تا CDC را در زمان واقعی (بهروزرسانی، درج یا حذف دادهها) برای پایگاه داده Google Cloud Spanner خود انجام دهد.< /p>
طبق گفته Henschen، Spanner Change Streams این امکان را برای شرکتها فراهم میکند تا جریانهای تغییرات را از Google Cloud Spanner به مقصدهای دیگر برای برآورده کردن الزامات تأخیر کم برسانند، برخلاف اینکه صرفاً از آوردن دادههای تغییر از پایگاههای داده دیگر به Spanner پشتیبانی میکند. p>
تسهیل عملیات یادگیری ماشین
Google با راهاندازی پلتفرم Vertex AI در ماه مه ۲۰۲۱ و به دنبال آن محیط توسعه مشارکتی Vertex AI Workbench برای تسهیل عملیات یادگیری ماشین (ML) کار کرده است. a> در ماه اکتبر.
“Vertex AI Workbench، که اکنون به طور کلی در دسترس است، داده ها و سیستم های ML را در یک رابط واحد قرار می دهد تا تیم ها یک مجموعه ابزار مشترک در تجزیه و تحلیل داده، علم داده و یادگیری ماشین داشته باشند. جون یانگ، معاون Cloud AI و راهکارهای صنعتی در Google Cloud، گفت: این قابلیت به تیمها امکان میدهد تا یک مدل ML را پنج برابر سریعتر از نوتبوکهای سنتی بسازند، آموزش دهند و به کار ببرند.
طبق گفته این شرکت، محیط توسعه یکپارچه، که به عنوان یک Google اجرا میشود نتبوک مدیریتشده، میتواند به دادهها در چندین سرویس مانند Dataproc، BigQuery، Dataplex و Looker دسترسی داشته باشد.
علاوه بر این، این شرکت یک ویژگی جدید به نام Vertex AI Model Registry منتشر کرد که در حال حاضر در پیش نمایش انتخابی است. یانگ گفت که رجیستری مدل با هدف تسهیل مدیریت سربار تعمیر و نگهداری مدل ML برای شرکت ها انجام می شود و افزود که این ویژگی یک مخزن مرکزی برای کشف، استفاده و کنترل مدل های یادگیری ماشین از جمله مدل های BigQuery ML فراهم می کند.
به گفته Henschen، ویژگی جدید یک مشکل حیاتی را برای شرکت ها حل می کند. «رجیسترها به مدیریت چرخه عمر مدل کمک میکنند، چالشی که با افزایش تعداد همکاران و تعداد مدلها سختتر میشود. این به دانشمندان داده، در درجه اول، کمک می کند، اما همچنین به مهندسان داده، توسعه دهندگانی که مدل ها را وارد تولید می کنند و با کاهش عملکرد مدل، آنها را نظارت و بازبینی می کنند.
تحلیلگر گفت:
SageMaker آمازون و سرویس یادگیری ماشینی Azure در حال حاضر این قابلیت را دارند.
Looker دو ویژگی جدید
دریافت میکند
هنشن میگوید
ویژگیهای جدید Looker، صفحات متصل برای Looker و امکان دسترسی به مدلهای دادههای Looker در Data Studio، ارائههای تحلیلی Google Cloud را تقویت و سادهسازی میکنند.
«مشتریان اکنون میتوانند با دادهها تعامل داشته باشند، چه از طریق Looker Explore، یا از Google Sheets، یا با استفاده از واسط کشیدن و رها کردن Data Studio. کازمایر گفت: این کار دسترسی و باز کردن اطلاعات بینش از داده ها را برای هدایت نوآوری و تصمیم گیری مبتنی بر داده با این پلت فرم جدید هوش تجاری Google Cloud آسان تر می کند.
Data Cloud Alliance و سایر شراکت ها
Google با مشارکت Accenture، Confluent، Databricks، Dataiku، Deloitte، Elastic، Fivetran، MongoDB، Neo4j، Redis، و Starburst یک Data Cloud Alliance تشکیل داده است تا دادهها را قابل حملتر و در دسترستر در سیستمهای تجاری، پلتفرمها و سیستمهای مختلف کسب و کار کند. محیط ها.
این شرکت گفت که اعضای Data Cloud Alliance زیرساختها، APIها و پشتیبانی یکپارچهسازی را برای اطمینان از قابلیت حمل و دسترسی دادهها بین پلتفرمها و محصولات مختلف در محیطهای مختلف ارائه خواهند داد و افزود که هر عضو همچنین در مدلهای دادههای صنعتی جدید و رایج همکاری خواهد کرد. فرآیندها، و ادغام پلت فرم برای افزایش قابلیت حمل داده ها و کاهش پیچیدگی مرتبط با حاکمیت داده و انطباق جهانی.
برای کمک به شرکتها در انتقال پایگاههای دادهشان، Google Cloud با یکپارچهکنندههای سیستم و شرکتهای مشاوره مانند TCS، Atos، Deloitte، HCL، Kyndryl، Infosys، Wipro، Capgemini، و Cognizant شریک شده است.
سایر طرحها شامل راهاندازی Google Cloud Ready – BigQuery، یک برنامه اعتبارسنجی جدید است که راهحلهای شریکی مانند راهحلهای Fivetran، Informatica، و Tableau را که مجموعهای از الزامات عملکردی و قابلیت همکاری را برآورده میکنند، شناسایی میکند.
کازمایر گفت: “امروز، ما در حال حاضر بیش از ۲۵ شریک را در این برنامه جدید Google Cloud Ready – BigQuery می شناسیم که هزینه های مشتریان مرتبط با ارزیابی ابزارهای جدید را کاهش می دهد و در عین حال پشتیبانی برای موارد استفاده جدید از مشتری اضافه می کند.”
پست های مرتبط
Google Cloud BigLake را برای یکسان سازی پلتفرم های داده منتشر می کند
Google Cloud BigLake را برای یکسان سازی پلتفرم های داده منتشر می کند
Google Cloud BigLake را برای یکسان سازی پلتفرم های داده منتشر می کند