آشنایی با OneLake و lakehouses در مایکروسافت فابریک

پلتفرم داده جدید و یکپارچه مایکروسافت آزور قصد دارد فروشگاه یکپارچه شما برای تجزیه و تحلیل و یادگیری ماشین در مقیاس باشد.

پیگیری انبوه اعلامیه‌های سالانه در Microsoft Build راه خوبی برای درک آنچه این شرکت فکر می‌کند برای مشتریان توسعه‌دهنده‌اش مهم است، است. بیلد ۲۰۲۳ هوش مصنوعی و یادگیری ماشینی را در صدر فهرست قرار داد و مایکروسافت از یک رویکرد تمام پشته برای ساخت برنامه‌های هوش مصنوعی پرده‌برداری کرد که از داده‌های شما شروع می‌شود و پیشرفت می‌کند.

در میان بزرگترین اخبار برای پشته هوش مصنوعی، راه اندازی مایکروسافت فابریک بود، مجموعه ای از ابزارهای نرم افزاری به عنوان سرویس برای کار با داده های بزرگ، با بر علم داده و مهندسی داده تمرکز کنید. از این گذشته، ساخت اپلیکیشن های سفارشی هوش مصنوعی با شناسایی و ارائه داده های مورد نیاز برای طراحی و آموزش مدل های یادگیری ماشین آغاز می شود. اما Fabric همچنین نگران اجرای آن برنامه‌ها است و زمان واقعی را ارائه می‌کند. تجزیه و تحلیل مورد نیاز برای راه اندازی یک کسب و کار مدرن.

مایکروسافت فابریک: فروشگاه داده یک مرحله ای

مخاطبان مورد نظر مایکروسافت فابریک هم کاربران تجاری و هم توسعه دهندگان را پوشش می دهند، بنابراین چیزهای زیادی برای کشف وجود دارد. بسیاری از آنچه در Fabric وجود دارد در Microsoft Azure و Power Platform وجود دارد. تغییرات کلیدی تمرکز بر قالب‌های داده باز و ارائه یک پورتال واحد برای کار با داده‌ها است که می‌تواند موارد استفاده مختلف را پشتیبانی کند.

کاری که مایکروسافت با Fabric انجام می‌دهد این است که بسیاری از عناصر کلیدی پشته تجزیه و تحلیل داده‌های خود را گرد هم می‌آورد، شکاف‌ها را پر می‌کند، و همه آن‌ها را در یک داشبورد نرم‌افزار به‌عنوان یک سرویس قرار می‌دهد. در اینجا عناصری از پلتفرم داده Azure را در کنار ابزارهایی از Power Platform پیدا خواهید کرد که همگی در کنار هم قرار گرفته اند تا یک منبع واحد از حقیقت را برای داده های سازمانی خود، صرف نظر از منبع آن، به شما ارائه دهند.

این آخرین نکته شاید مهم ترین باشد. با داده‌هایی که توسط برنامه‌های مختلف تولید و استفاده می‌شوند، ما به یک مکان مشترک برای دسترسی و استفاده از آن داده‌ها، صرف نظر از اینکه چگونه ذخیره می‌شوند، نیاز داریم. Fabric به ما امکان می دهد داده های ساختاریافته و نیمه ساختار یافته را با هم ترکیب کنیم و از فروشگاه های رابطه ای و NoSQL برای به دست آوردن بینش های مورد نیاز خود استفاده کنیم. این یک پلت فرم داده سازمانی سرتاسری است که می‌تواند داده‌ها را از لبه شبکه‌های ما وارد کند و اطلاعات مورد نیاز افراد را به داشبوردهای سازمانی برساند. در همان زمان، Fabric می‌تواند داده‌های آموزشی را برای مدل‌های یادگیری ماشین ما ارائه دهد.

چرا باید از Presto برای تجزیه و تحلیل موقت استفاده کنید

نتیجه یک پلت فرم داده واحد است که تجربیات مختلف کاربر را برای اهداف مختلف ارائه می دهد. اگر از Fabric برای تجزیه و تحلیل استفاده می‌کنید، می‌توانید داده‌ها را با استفاده از Power Query در Power BI کاوش کنید. اگر به دنبال اطلاعاتی در مورد داده‌های عملیاتی هستید، می‌توانید از نوت‌بوک‌های Apache Spark و Python استفاده کنید، در حالی که توسعه‌دهندگان یادگیری ماشین می‌توانند با استفاده از محیط MLflow منبع باز با داده‌ها کار کنند.

OneLake: OneDrive برای داده

Microsoft Fabric بر روی یک پلت فرم داده واحد، OneLake ساخته شده است. توصیف شده به عنوان “OneDrive برای داده”، OneLake یک سازمان است- مقیاس داده‌ها برای همه داده‌های تحلیلی شما. این یک تفاوت مهم با سایر محصولات دریاچه داده است، زیرا شما را از رویکردهای سلد قبلی دور می کند، جایی که بخش های جداگانه دریاچه های داده خود را مدیریت می کنند. همه داده‌های شما به OneLake می‌رود و به شما امکان می‌دهد انبار داده‌ها و lakehouses جداگانه را در محیط‌های کاری که می‌توانند خط‌مشی‌های مدیریت مرکزی و ابزارهای امنیتی داشته باشند برای اطمینان از عدم استفاده نامناسب از داده‌ها ارائه کنید. .

OneLake بر اساس ابزار نسل دوم دریاچه داده Azure است. تنها یک OneLake برای هر مستأجر وجود دارد که داده‌های آن در چندین کانتینر ذخیره می‌شود. هر OneLake را می توان به فضاهای کاری مختلف با خط مشی های دسترسی خاص خود تقسیم کرد و موارد داده خود را مدیریت کرد. OneLake برای میزبانی هر نوع فایلی با ابزارهای مبتنی بر وب و دسکتاپ طراحی شده است تا به شما در کاوش و استفاده از داده های خود کمک کند.

شما محدود به داده های Azure نیستید. کتابخانه موجود اتصال دهنده های مایکروسافت به برنامه ها و خدمات خط کسب و کار تضمین می کند که می توانید از ابزارهای کارخانه داده Fabric برای مدیریت داده ها از چندین منبع استفاده کنید. یکی از ویژگی‌های کلیدی در اینجا پشتیبانی از فرمت داده‌های Apache Parquet است. پارکت یک قالب ذخیره‌سازی داده ستون‌گرا است که برای انبارهای داده بزرگ طراحی شده است. که به راحتی فشرده می شود و حافظه کارآمد است، با پشتیبانی از درخواست های ستونی با عملکرد بالا. از آنجا که داده‌ها را می‌توان در قالب پارکت از اکثر سرویس‌های ذخیره‌سازی ابری با استفاده از اتصالات کارخانه داده Fabric صادر کرد، Parquet راهی برای بهینه‌سازی صادرات داده برای استفاده در دریاچه داده Fabric ارائه می‌دهد.

مایکروسافت الگوی برنامه وب قابل اعتماد را برای برنامه های ابری دات نت معرفی می کند

فرمت ذخیره سازی بومی OneLake از قالب Delta برای جداول استفاده می کند، یک نسخه توسعه یافته از Apache Parquet، با پشتیبانی از تراکنش ها و با ابرداده مقیاس پذیر این یک فرمت باز است که می تواند انواع مختلفی از منابع داده را پشتیبانی کند. جداول قالب دلتا طراحی شده اند برای دریاچه های داده بزرگ، بسیار شبیه به Fabric، و طیف وسیعی از API های مختلف را ارائه می دهد که ادغام با تجزیه و تحلیل سنتی و یادگیری ماشین را آسان تر می کند. استفاده از OneLake به این معنی است که شما فقط یک بار باید داده ها را ذخیره کنید و می توانید با انتخاب ابزار پرس و جو از آن استفاده کنید.

OneLake و خانه های دریاچه داده

یک مفهوم کلیدی برای همه موارد استفاده مختلف برای Fabric حیاتی است: خانه دریاچه. Lakehouse به شما کمک می‌کند داده‌های مورد نیاز خود را به یک مکان بیاورید، جایی که در کل دریاچه داده‌های میزبان Azure سازمان شما قابل دسترسی باشد. Lakehouse راهی به شما می دهد تا از مقادیر زیادی داده استفاده کنید، در حالی که یک نمای واحد را ارائه می دهد که حاوی ابزارهایی برای ذخیره، مدیریت و تجزیه و تحلیل داده های شما است.

اجرای Lakehouse Fabric برای کار با جداول Delta طراحی شده است، بنابراین باید اطمینان حاصل کنید که هر داده در lakehouse در قالب مناسب است. پس از وارد کردن داده‌ها، می‌توانید از نوت‌بوک‌ها برای کاوش داده‌های خود، با استفاده از کد برای استخراج اطلاعاتی که می‌تواند در جاهای دیگر سازمانتان استفاده شود، استفاده کنید. از طرف دیگر، گزینه استفاده از نقطه پایانی SQL برای دسترسی به داده های lakehouse از برنامه های دیگر وجود دارد. OneLake از کار با ابزارهایی مانند Azure Databricks و Azure HDInsight پشتیبانی می کند. a>، با استفاده از Gen 2 Azure Data Lake Storage APIهای موجود.

ایجاد خانه دریاچه به اندازه کافی آسان است. می توانید از داشبورد یا داخل یک فضای کاری Fabric موجود شروع کنید. پس از ایجاد، آماده بارگیری داده‌ها، با چندین مورد مختلف است. مکانیسم های موجود بسته به منبع داده شما. در حالی که ساده ترین گزینه آپلود مستقیم داده ها از رایانه شخصی است، کار با ابزار کپی داخلی، که داده ها را به جداول دلتا و آماده برای استفاده تبدیل می کند، عملی تر است. حتی می‌توانید از ابزار آشنای جریان داده Power BI برای وارد کردن داده‌ها از رابط‌ها به پلتفرم‌های دیگر و مدیریت تبدیل‌های مناسب استفاده کنید. همچنین، می‌توانید از کد Apache Spark برای بارگیری داده‌ها در خانه‌های دریاچه‌تان استفاده کنید.

آنچه برای محاسبات ابری در سال 2023 می آید

تحلیل‌های بیدرنگ در Fabric از داده‌های مبتنی بر زمان در قالب‌های نیمه ساختاریافته پشتیبانی می‌کنند. به جای داشتن ابزار جداگانه برای تجزیه و تحلیل بلند مدت و تحلیل عملیاتی، اکنون می توانید با داده های مشابه به روش های مختلف کار کنید. با رسیدن داده ها، تجزیه و تحلیل عملیاتی می تواند به مشخص کردن مسائلی که نیاز به پاسخ فوری دارند کمک کند. پس از ذخیره‌سازی، همان داده‌ها مبنای داده‌های آموزشی برای یادگیری ماشین و همچنین داده‌های منبع برای تجزیه و تحلیل داده‌های مبتنی بر گزارش، همراه با داده‌های سایر سیستم‌ها می‌شوند.

خروج در OneLake

معمولاً، لازم نیست همه داده‌های منبع شما در OneLake ذخیره شوند. می‌توانید از میان‌برها برای پیوند دادن به مکان‌های ذخیره‌سازی دیگر استفاده کنید. میانبرها معادل دریاچه داده یک پیوند نمادین هستند که به شما امکان می دهند بدون میزبانی از داده ها در Azure با داده ها کار کنید. این امر خطرات مرتبط با کپی کردن داده ها را کاهش می دهد و به شما امکان می دهد دسترسی به سیستم های خط تولید را از داخل داشبورد Fabric کنترل کنید. پس از ایجاد، میانبرها به عنوان پوشه نمایش داده می شوند – یک پوشه جدول از داده های ساخت یافته، و یک پوشه فایل از داده های بدون ساختار. اگر میانبر حاوی داده‌های قالب دلتا یا پارکت باشد، به‌طور خودکار به‌عنوان جدول استفاده می‌شود و Fabric ابرداده‌های اتصال را بارگیری می‌کند و از آن برای مدیریت جدول حاصل استفاده می‌کند.

شرکت‌های بیشتری از یک مخزن مشترک برای همه داده‌های خود استفاده می‌کنند و مایکروسافت برای پاسخگویی به تقاضا با Fabric عجله دارد. مایکروسافت با ایجاد استانداردهای باز مانند دلتا و پارکت راهی برای کمک به کسب‌وکارها در ساخت و مدیریت دریاچه‌های داده با استفاده از مهارت‌های پلتفرم داده موجود پیدا کرده است – آماده پشتیبانی از تجزیه و تحلیل انبار داده و یادگیری ماشین. داشتن یک دوره آزمایشی رایگان در حالی که سرویس در پیش‌نمایش عمومی است ارزیابی آن را قبل از تصمیم گیری درازمدت ممکن می سازد.

مایکروسافت فابریک: فروشگاه داده یک مرحله ای

OneLake: OneDrive برای داده

OneLake و خانه های دریاچه داده

خروج در OneLake

پست های مرتبط

آشنایی با OneLake و lakehouses در مایکروسافت فابریک

آشنایی با OneLake و lakehouses در مایکروسافت فابریک

آشنایی با OneLake و lakehouses در مایکروسافت فابریک

شاید به این مطالب علاقمند باشید

آشنایی با OneLake و lakehouses در مایکروسافت فابریک

آشنایی با OneLake و lakehouses در مایکروسافت فابریک

آشنایی با OneLake و lakehouses در مایکروسافت فابریک

آشنایی با OneLake و lakehouses در مایکروسافت فابریک