مایکروسافت فابریک مجموعه ای از ابزارهای مبتنی بر ابر برای تجزیه و تحلیل داده ها است که شامل حرکت داده ها، ذخیره سازی داده ها، مهندسی داده ها، یکپارچه سازی داده ها، علم داده، تجزیه و تحلیل بلادرنگ و هوش تجاری است.
- OneLake
- Power BI
- کارخانه داده
- فعالکننده داده
- مهندسی داده
- علوم داده
- انبار داده
- تجزیه و تحلیل بلادرنگ
- تحلیل گسترده و عمیق
Microsoft Fabric یک پلت فرم سرتاسر، نرمافزار بهعنوان سرویس (SaaS) برای تجزیه و تحلیل دادهها است. این در اطراف یک دریاچه داده به نام OneLake ساخته شده است و اجزای جدید و موجود از Microsoft Power BI، Azure Synapse و Azure Data Factory را در یک محیط یکپارچه واحد گرد هم می آورد.
Microsoft Fabric شامل جابجایی داده ها، ذخیره سازی داده ها، مهندسی داده، یکپارچه سازی داده ها، علم داده، تجزیه و تحلیل بلادرنگ، و هوش تجاری، همراه با امنیت داده، حاکمیت و انطباق است. از بسیاری جهات، Fabric پاسخ مایکروسافت به Google Cloud Dataplex است. از زمان نوشتن این مقاله، Fabric در پیش نمایش است.
Microsoft Fabric همه را هدف قرار داده است: مدیران، توسعه دهندگان، مهندسان داده، دانشمندان داده، تحلیلگران داده، تحلیلگران تجاری و مدیران. در حال حاضر، مایکروسافت فابریک به طور پیشفرض برای همه مستاجران Power BI فعال است.
Microsoft Fabric Data Engineering Apache Spark را با Data Factory ترکیب میکند و به نوتبوکها و کارهای Spark اجازه میدهد برنامهریزی و هماهنگ شوند. Fabric Data Factory Power Query را با مقیاس و قدرت Azure Data Factory ترکیب می کند و از بیش از ۲۰۰ اتصال دهنده داده پشتیبانی می کند. Fabric Data Science با Azure Machine Learning ادغام می شود، که امکان ردیابی آزمایش و ثبت مدل را فراهم می کند. Fabric Real-Time Analytics شامل یک جریان رویداد، یک KQL (Kusto Query Language) پایگاه داده و یک مجموعه پرسش KQL برای اجرای پرس و جوها، مشاهده نتایج پرس و جو و سفارشی کردن نتایج پرس و جو بر روی داده ها. اگر KQL برای شما جدید است، به باشگاه خوش آمدید.
صفحه اصلی مایکروسافت فابریک. به پیوندهای Power BI، Data Factory، Data Activator، Synapse Data Engineering، Synapse Data Science، Synapse Data Warehouse و Synapse Real-Time Analytics توجه کنید.
OneLake
OneLake یک دریاچه داده منطقی و یکپارچه برای کل سازمان شما است. هر مستاجر یک و تنها یک دریاچه داده دارد. OneLake به گونهای طراحی شده است که مکان واحدی برای همه دادههای تحلیلی شما باشد، دقیقاً همانطور که مایکروسافت میخواهد از OneDrive برای همه فایلهای خود استفاده کنید. برای ساده کردن استفاده از OneLake از دسکتاپ خود، میتوانید اکسپلورر فایل OneLake را برای ویندوز نصب کنید.
OneLake بر روی Azure Data Lake Storage (ADLS) Gen2 ساخته شده است و می تواند هر نوع فایلی را پشتیبانی کند. با این حال، تمام اجزای داده Fabric، مانند انبارهای داده و دادهها، دادههای خود را بهطور خودکار در OneLake در قالب دلتا ذخیره میکنند (بر اساس Apache پارکت)، که همچنین قالب ذخیرهسازی مورد استفاده Azure Databricks است. فرقی نمیکند که دادهها توسط Spark یا SQL تولید شده باشند، اما همچنان به یک دریاچه داده در قالب دلتا میرود.
ایجاد یک Lakehouse داده OneLake نسبتاً ساده است: به نمای مهندسی داده بروید، یک lakehouse جدید ایجاد کنید و نامگذاری کنید، و برخی از فایلهای CSV را در بخش فایل دریاچه داده آپلود کنید.
در نمای مهندسی داده مایکروسافت فابریک، میتوانید فایلها و جداول خود را ببینید. میزها در قالب دلتا پارکت هستند. هنگامی که یک فایل را انتخاب می کنید، یک منوی سه نقطه ای برای انجام عملیات روی آن فایل، به عنوان مثال بارگیری آن در یک جدول، دریافت می کنید.
رسیدن از آنجا به داشتن میز در خانه دریاچه (در حال حاضر) می تواند بیش از آنچه انتظار دارید کار کند. ممکن است فکر کنید که آیتم منوی پاپ آپ Load to Tables این کار را انجام می دهد، اما برای آزمایش های اولیه من ناموفق بود. من در نهایت با کمک پشتیبانی مایکروسافت متوجه شدم که تابع Load to Tables (تا لحظه نگارش این مقاله) نمی داند چگونه عناوین ستون ها را با فاصله های تعبیه شده مدیریت کند. آخ. همه خانههای دریاچهای رقیب بدون هیچ مشکلی این کار را انجام میدهند، اما Fabric هنوز در پیشنمایش است. من مطمئن هستم که این قابلیت در محصول منتشر شده اضافه خواهد شد.
من این تبدیل را برای کار با فایلهای CSV پاکشده دریافت کردم. من همچنین توانستم یک جستجوی Spark SQL را در یک نوت بوک در مقابل یک جدول جدید اجرا کنم.
نوتبوکهای فابریک از Python و SQL پشتیبانی میکنند. در اینجا ما از Spark SQL برای نمایش محتویات جدول OneLake lakehouse استفاده می کنیم.
Spark تنها راه برای اجرای پرسوجوهای SQL در برابر جداول lakehouse نیست. شما می توانید از طریق یک نقطه پایانی SQL، که در هنگام استقرار lakehouse به طور خودکار ایجاد می شود، به هر جدول با قالب دلتا در OneLake دسترسی داشته باشید. نقطه پایانی SQL به همان کپی فیزیکی جدول Delta در OneLake اشاره می کند و یک تجربه T-SQL را ارائه می دهد. این اساساً از Azure SQL به جای Spark SQL استفاده می کند.
همانطور که بعداً خواهید دید، OneLake میتواند میزبان انبارهای داده Synapse و همچنین lakehouseها باشد. انبارهای داده برای کاربران با مهارت های T-SQL بهترین هستند، اگرچه کاربران Spark نیز می توانند داده ها را در انبارها بخوانند. میتوانید میانبرهایی در OneLake ایجاد کنید تا دریاچهها و انبارهای داده بتوانند به جداول بدون دادههای تکراری دسترسی داشته باشند.
Power BI
Power BI گسترش یافته است تا بتواند با جداول OneLake lakehouse (Delta) کار کند. مانند همیشه، Power BI میتواند تجزیه و تحلیل دادههای هوش تجاری پایه و تولید گزارش را انجام دهد و با Microsoft 365 یکپارچه شود.
گزارش Power BI در Microsoft Fabric. تقریباً تمام ویژگی های مهم Power BI به Fabric منتقل شده است.
کارخانه داده
Data Factory در مایکروسافت فابریک ترکیبی از قابلیت های یکپارچه سازی داده های شهروندان و یکپارچه سازی داده های حرفه ای است. به حدود ۱۰۰ پایگاه داده رابطه ای و غیر رابطه ای، lakehouse ها، انبارهای داده و رابط های عمومی متصل می شود. میتوانید دادهها را با جریانهای داده وارد کنید، که امکان تبدیل داده در مقیاس بزرگ را با حدود ۳۰۰ تبدیل فراهم میکند، از ویرایشگر Power Query استفاده کنید، و Power Query’s Data Extraction By Example را اعمال کنید.
من جریان داده ای را امتحان کردم که دو جدول را از مجموعه داده Northwind وارد و تبدیل کرد. من تحت تاثیر قابلیت ها بودم تا اینکه مرحله نهایی انتشار شکست خورد. بسیار خوب، در پیش نمایش است.
همچنین میتوانید از خطوط لوله داده برای ایجاد گردشهای کاری هماهنگسازی دادهها استفاده کنید که وظایفی مانند استخراج داده، بارگیری در فروشگاههای داده ترجیحی، اجرای نوتبوک و اجرای اسکریپت SQL را گرد هم میآورد. من با موفقیت دو مجموعه داده نمونه، تعطیلات عمومی و تاکسی های نیویورک را وارد کردم و آنها را در دریاچه های داده ذخیره کردم. من قابلیت بهروزرسانی دورهای خط لوله را آزمایش نکردم.
اگر نیاز به بارگیری دادههای داخلی در OneLake دارید، در نهایت میتوانید یک دروازه داده داخلی ایجاد کنید و آن را به یک جریان داده متصل کنید. به عنوان یک راهحل موقت، میتوانید دادههای اولیه خود را در فضای ابری کپی کنید و از آنجا بارگیری کنید.
فعالکننده داده
طبق گفته مایکروسافت، Data Activator یک تجربه بدون کد در مایکروسافت فابریک برای انجام خودکار اقدامات در هنگام شناسایی الگوها یا شرایط در تغییر داده است. دادههای گزارشهای Power BI و موارد Eventstreams را برای زمانی که دادهها به آستانههای خاصی میرسند یا با الگوهای دیگر مطابقت دارند، نظارت میکند. سپس به طور خودکار اقدامات مناسبی مانند هشدار دادن به کاربران یا راه اندازی جریان های کاری Power Automate انجام می دهد.
موارد استفاده معمولی برای Data Activator شامل اجرای تبلیغات در هنگام کاهش فروش در همان فروشگاه، هشدار به مدیران فروشگاه برای جابجایی مواد غذایی از فریزرهای فروشگاه مواد غذایی قبل از خراب شدن، و هشدار به تیمهای حساب در زمانی که مشتریان معوقه میشوند، با محدودیتهای زمانی یا ارزشی سفارشیشده به ازای هر مشتری.
مهندسی داده
بیشتر مواردی که در بخش OneLake در بالا مورد بحث قرار گرفتم در واقع در حوزه مهندسی داده قرار می گیرد. مهندسی داده در مایکروسافت فابریک شامل lakehouse، تعاریف شغلی Apache Spark، نوتبوکها (در Python، R، Scala و SQL) و خطوط لوله داده (در بخش Data Factory در بالا بحث شده است).
علوم داده
علوم داده در مایکروسافت فابریک شامل مدلهای یادگیری ماشینی، آزمایشها و نوتبوکها میشود. حدود نیم دوجین نمونه دفترچه دارد. من انتخاب کردم که نمونه مدل پیشبینی سری زمانی را اجرا کنم که از Python استفاده میکند، کتابخانه پیامبر (از Facebook) ، MLflow و ویژگی Fabric Autologging. نمونه پیشبینی سریهای زمانی از دادههای دادههای فروش ملک NYC استفاده میکند که دانلود میکنید و سپس در یک خانه داده آپلود کنید.
Prophet از یک مدل فصلی سنتی برای پیشبینی سریهای زمانی استفاده میکند، یک انحراف تازه از روند به سمت یادگیری ماشینی پیچیدهتر و مدلهای یادگیری عمیق. مجموع زمان اجرا برای اتصالات و پیشبینیها ۱۴۷ ثانیه بود، نه کاملاً سه دقیقه.
پیشبینی فروش ملک پس از تطبیق دادههای فروش ملک نیویورک با مدل فصلی پیامبر.
انبار داده
هدف
Data Warehouse در مایکروسافت Fabric این است که دنیای دریاچه های داده و انبار داده را به هم نزدیک کند. این همان نقطه پایانی SQL lakehouse نیست: نقطه پایانی SQL یک انبار فقط خواندنی است که بهطور خودکار پس از ایجاد از یک lakehouse در مایکروسافت فابریک، در حالی که Data Warehouse یک انبار داده “سنتی” است، به این معنی که از T-تراکنشی کامل پشتیبانی می کند. قابلیت های SQL مانند هر انبار داده سازمانی.
برخلاف نقطه پایانی SQL، جایی که جداول و دادهها به طور خودکار ایجاد میشوند، Data Warehouse به شما اجازه میدهد کنترل کاملی بر ایجاد جداول و بارگیری، تبدیل، و جستجوی داده های شما در انبار داده با استفاده از پورتال فابریک مایکروسافت یا دستورات T-SQL.
من یک انبار جدید ایجاد کردم و آن را با داده های نمونه ارائه شده توسط مایکروسافت بارگیری کردم. معلوم میشود که این یکی دیگر از مجموعه دادههای سفر تاکسی (از سالی دیگر) است، اما این بار در جدولهای انبار لحاظ شده است. مایکروسافت همچنین چند نمونه اسکریپت SQL را ارائه می دهد.
پیش نمایش داده های Fabric Data Warehouse برای یک جدول. به پیامهای مربوط به مجموعه داده Power BI ایجاد شده در بالا توجه کنید.
نمای مدل Fabric Data Warehouse.
نمایش جستجوی انبار داده پارچه. مایکروسافت اسکریپت SQL را به عنوان بخشی از نمونه ارائه کرد.
تجزیه و تحلیل بلادرنگ
Real-Time Analytics در Microsoft Fabric ارتباط نزدیکی با Azure Data Explorer دارد، به طوری که پیوندهای مستندات Real-Time Analytics در حال حاضر به اسناد Azure Data Explorer میروند. به من اطمینان داده شده است که اسناد Fabric واقعی در حال بهروزرسانی است.
Real-Time Analytics و Azure Data Explorer از پایگاه داده Kusto Query Language (KQL) استفاده می کنند و پرس و جو جستجوی داده در Kusto بسیار سریعتر از RDBMSهای تراکنش، مانند SQL Server است، به خصوص زمانی که اندازه داده به میلیاردها ردیف افزایش می یابد. کوستو به افتخار ژاک کوستو، کاشف زیردریایی فرانسوی نامگذاری شده است.
من از نمونه مایکروسافت، تجزیه و تحلیل آب و هوا، برای بررسی KQL و تجزیه و تحلیل بلادرنگ استفاده کردم. آن نمونه شامل یک اسکریپت با چندین عبارت KQL است.
گالری نمونه Fabric Real-Time Analytics در حال حاضر نیم دوجین نمونه را ارائه می دهد، با اندازه داده از ۶۰ مگابایت برای تجزیه و تحلیل آب و هوا تا تقریباً ۱ گیگابایت برای تاکسی سواری در نیویورک.
جستجوی KQL برای تصویر زیر جالب است زیرا از توابع جغرافیایی استفاده می کند و نمودار پراکندگی را ارائه می دهد.
//We can perform Geospatial analytics with powerful inbuilt functions in KQL //Plot storm events that happened along the south coast let southCoast = dynamic({"type":"LineString","coordinates":[[-97.18505859374999,25.997549919572112],[-97.58056640625,26.96124577052697],[-97.119140625,27.955591004642553],[-94.04296874999999,29.726222319395504],[-92.98828125,29.82158272057499],[-89.18701171875,29.11377539511439],[-89.384765625,30.315987718557867],[-87.5830078125,30.221101852485987],[-86.484375,30.4297295750316],[-85.1220703125,29.6880527498568],[-84.00146484374999,30.14512718337613],[-82.6611328125,28.806173508854776],[-82.81494140625,28.033197847676377],[-82.177734375,26.52956523826758],[-80.9912109375,25.20494115356912]]}); StormEvents | project BeginLon, BeginLat, EventType | where geo_distance_point_to_line(BeginLon, BeginLat, southCoast) < 5000 | render scatterchart with (kind=map) //Observation: Because these areas are near the coast, most of the events are Marine Thunderstorm Winds
با وجود داشتن ۶۰ مگابایت داده، این پرس و جو KQL مکانی در یک سوم ثانیه اجرا شد.
گستره وسیع و تجزیه و تحلیل عمیق
در حالی که هنگام بررسی پیشنمایش مایکروسافت فابریک، باگهای متعددی را کشف کردم، همچنین ایده خوبی از دامنه وسیع و قابلیتهای تحلیلی عمیق آن پیدا کردم. هنگامی که به طور کامل تکان داده می شود و شکل می گیرد، ممکن است به خوبی با Google Cloud Dataplex رقابت کند.
آیا مایکروسافت فابریک واقعا برای همه مناسب است؟ هیچ نظری ندارم. اما می توانم بگویم که Fabric کار خوبی انجام می دهد و به شما امکان می دهد فقط منطقه مورد علاقه فعلی خود را با تغییر دهنده view در گوشه سمت چپ پایین رابط مشاهده کنید، که من را به یاد روشی که Adobe Photoshop به آن خدمات می دهد می پردازد. مخاطبان مختلف (عکاس، روتوش، هنرمندان و غیره). متأسفانه فتوشاپ این شهرت را دارد که نه تنها قدرت زیادی دارد، بلکه خرس یادگیری است. باید دید که آیا Fabric شهرت مشابهی خواهد داشت یا خیر.
پست های مرتبط
فابریک مایکروسافت چیست؟ یک پشته فناوری بزرگ برای داده های بزرگ
فابریک مایکروسافت چیست؟ یک پشته فناوری بزرگ برای داده های بزرگ
فابریک مایکروسافت چیست؟ یک پشته فناوری بزرگ برای داده های بزرگ