۳۰ آذر ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

فابریک مایکروسافت چیست؟ یک پشته فناوری بزرگ برای داده های بزرگ

مایکروسافت فابریک مجموعه ای از ابزارهای مبتنی بر ابر برای تجزیه و تحلیل داده ها است که شامل حرکت داده ها، ذخیره سازی داده ها، مهندسی داده ها، یکپارچه سازی داده ها، علم داده، تجزیه و تحلیل بلادرنگ و هوش تجاری است.

مایکروسافت فابریک مجموعه ای از ابزارهای مبتنی بر ابر برای تجزیه و تحلیل داده ها است که شامل حرکت داده ها، ذخیره سازی داده ها، مهندسی داده ها، یکپارچه سازی داده ها، علم داده، تجزیه و تحلیل بلادرنگ و هوش تجاری است.

Microsoft Fabric یک پلت فرم سرتاسر، نرم‌افزار به‌عنوان سرویس (SaaS) برای تجزیه و تحلیل داده‌ها است. این در اطراف یک دریاچه داده به نام OneLake ساخته شده است و اجزای جدید و موجود از Microsoft Power BI، Azure Synapse و Azure Data Factory را در یک محیط یکپارچه واحد گرد هم می آورد.

Microsoft Fabric شامل جابجایی داده ها، ذخیره سازی داده ها، مهندسی داده، یکپارچه سازی داده ها، علم داده، تجزیه و تحلیل بلادرنگ، و هوش تجاری، همراه با امنیت داده، حاکمیت و انطباق است. از بسیاری جهات، Fabric پاسخ مایکروسافت به Google Cloud Dataplex است. از زمان نوشتن این مقاله، Fabric در پیش نمایش است.

Microsoft Fabric همه را هدف قرار داده است: مدیران، توسعه دهندگان، مهندسان داده، دانشمندان داده، تحلیلگران داده، تحلیلگران تجاری و مدیران. در حال حاضر، مایکروسافت فابریک به طور پیش‌فرض برای همه مستاجران Power BI فعال است.

Microsoft Fabric Data Engineering Apache Spark را با Data Factory ترکیب می‌کند و به نوت‌بوک‌ها و کارهای Spark اجازه می‌دهد برنامه‌ریزی و هماهنگ شوند. Fabric Data Factory Power Query را با مقیاس و قدرت Azure Data Factory ترکیب می کند و از بیش از ۲۰۰ اتصال دهنده داده پشتیبانی می کند. Fabric Data Science با Azure Machine Learning ادغام می شود، که امکان ردیابی آزمایش و ثبت مدل را فراهم می کند. Fabric Real-Time Analytics شامل یک جریان رویداد، یک KQL (Kusto Query Language) پایگاه داده و یک مجموعه پرسش KQL برای اجرای پرس و جوها، مشاهده نتایج پرس و جو و سفارشی کردن نتایج پرس و جو بر روی داده ها. اگر KQL ​​برای شما جدید است، به باشگاه خوش آمدید.

microsoft fabric 01

صفحه اصلی مایکروسافت فابریک. به پیوندهای Power BI، Data Factory، Data Activator، Synapse Data Engineering، Synapse Data Science، Synapse Data Warehouse و Synapse Real-Time Analytics توجه کنید.

OneLake

OneLake یک دریاچه داده منطقی و یکپارچه برای کل سازمان شما است. هر مستاجر یک و تنها یک دریاچه داده دارد. OneLake به گونه‌ای طراحی شده است که مکان واحدی برای همه داده‌های تحلیلی شما باشد، دقیقاً همانطور که مایکروسافت می‌خواهد از OneDrive برای همه فایل‌های خود استفاده کنید. برای ساده کردن استفاده از OneLake از دسکتاپ خود، می‌توانید اکسپلورر فایل OneLake را برای ویندوز نصب کنید.

OneLake بر روی Azure Data Lake Storage (ADLS) Gen2 ساخته شده است و می تواند هر نوع فایلی را پشتیبانی کند. با این حال، تمام اجزای داده Fabric، مانند انبارهای داده و داده‌ها، داده‌های خود را به‌طور خودکار در OneLake در قالب دلتا ذخیره می‌کنند (بر اساس Apache پارکت)، که همچنین قالب ذخیره‌سازی مورد استفاده Azure Databricks است. فرقی نمی‌کند که داده‌ها توسط Spark یا SQL تولید شده باشند، اما همچنان به یک دریاچه داده در قالب دلتا می‌رود.

ایجاد یک Lakehouse داده OneLake نسبتاً ساده است: به نمای مهندسی داده بروید، یک lakehouse جدید ایجاد کنید و نامگذاری کنید، و برخی از فایل‌های CSV را در بخش فایل دریاچه داده آپلود کنید.

Stack Overflow API را برای Gemini گوگل باز می کند

microsoft fabric 02

در نمای مهندسی داده مایکروسافت فابریک، می‌توانید فایل‌ها و جداول خود را ببینید. میزها در قالب دلتا پارکت هستند. هنگامی که یک فایل را انتخاب می کنید، یک منوی سه نقطه ای برای انجام عملیات روی آن فایل، به عنوان مثال بارگیری آن در یک جدول، دریافت می کنید.

رسیدن از آنجا به داشتن میز در خانه دریاچه (در حال حاضر) می تواند بیش از آنچه انتظار دارید کار کند. ممکن است فکر کنید که آیتم منوی پاپ آپ Load to Tables این کار را انجام می دهد، اما برای آزمایش های اولیه من ناموفق بود. من در نهایت با کمک پشتیبانی مایکروسافت متوجه شدم که تابع Load to Tables (تا لحظه نگارش این مقاله) نمی داند چگونه عناوین ستون ها را با فاصله های تعبیه شده مدیریت کند. آخ. همه خانه‌های دریاچه‌ای رقیب بدون هیچ مشکلی این کار را انجام می‌دهند، اما Fabric هنوز در پیش‌نمایش است. من مطمئن هستم که این قابلیت در محصول منتشر شده اضافه خواهد شد.

من این تبدیل را برای کار با فایل‌های CSV پاک‌شده دریافت کردم. من همچنین توانستم یک جستجوی Spark SQL را در یک نوت بوک در مقابل یک جدول جدید اجرا کنم.

microsoft fabric 03

نوت‌بوک‌های فابریک از Python و SQL پشتیبانی می‌کنند. در اینجا ما از Spark SQL برای نمایش محتویات جدول OneLake lakehouse استفاده می کنیم.

Spark تنها راه برای اجرای پرس‌و‌جوهای SQL در برابر جداول lakehouse نیست. شما می توانید از طریق یک نقطه پایانی SQL، که در هنگام استقرار lakehouse به طور خودکار ایجاد می شود، به هر جدول با قالب دلتا در OneLake دسترسی داشته باشید. نقطه پایانی SQL به همان کپی فیزیکی جدول Delta در OneLake اشاره می کند و یک تجربه T-SQL را ارائه می دهد. این اساساً از Azure SQL به جای Spark SQL استفاده می کند.

همانطور که بعداً خواهید دید، OneLake می‌تواند میزبان انبارهای داده Synapse و همچنین lakehouse‌ها باشد. انبارهای داده برای کاربران با مهارت های T-SQL بهترین هستند، اگرچه کاربران Spark نیز می توانند داده ها را در انبارها بخوانند. می‌توانید میانبرهایی در OneLake ایجاد کنید تا دریاچه‌ها و انبارهای داده بتوانند به جداول بدون داده‌های تکراری دسترسی داشته باشند.

Power BI

Power BI گسترش یافته است تا بتواند با جداول OneLake lakehouse (Delta) کار کند. مانند همیشه، Power BI می‌تواند تجزیه و تحلیل داده‌های هوش تجاری پایه و تولید گزارش را انجام دهد و با Microsoft 365 یکپارچه شود.

microsoft fabric 05

گزارش Power BI در Microsoft Fabric. تقریباً تمام ویژگی های مهم Power BI به Fabric منتقل شده است.

کارخانه داده

Data Factory در مایکروسافت فابریک ترکیبی از قابلیت های یکپارچه سازی داده های شهروندان و یکپارچه سازی داده های حرفه ای است. به حدود ۱۰۰ پایگاه داده رابطه ای و غیر رابطه ای، lakehouse ها، انبارهای داده و رابط های عمومی متصل می شود. می‌توانید داده‌ها را با جریان‌های داده وارد کنید، که امکان تبدیل داده در مقیاس بزرگ را با حدود ۳۰۰ تبدیل فراهم می‌کند، از ویرایشگر Power Query استفاده کنید، و Power Query’s Data Extraction By Example را اعمال کنید.

من جریان داده ای را امتحان کردم که دو جدول را از مجموعه داده Northwind وارد و تبدیل کرد. من تحت تاثیر قابلیت ها بودم تا اینکه مرحله نهایی انتشار شکست خورد. بسیار خوب، در پیش نمایش است.

Red Hat Celonis EMS را در فضای ابری AWS به نمایش می گذارد

همچنین می‌توانید از خطوط لوله داده برای ایجاد گردش‌های کاری هماهنگ‌سازی داده‌ها استفاده کنید که وظایفی مانند استخراج داده، بارگیری در فروشگاه‌های داده ترجیحی، اجرای نوت‌بوک و اجرای اسکریپت SQL را گرد هم می‌آورد. من با موفقیت دو مجموعه داده نمونه، تعطیلات عمومی و تاکسی های نیویورک را وارد کردم و آنها را در دریاچه های داده ذخیره کردم. من قابلیت به‌روزرسانی دوره‌ای خط لوله را آزمایش نکردم.

اگر نیاز به بارگیری داده‌های داخلی در OneLake دارید، در نهایت می‌توانید یک دروازه داده داخلی ایجاد کنید و آن را به یک جریان داده متصل کنید. به عنوان یک راه‌حل موقت، می‌توانید داده‌های اولیه خود را در فضای ابری کپی کنید و از آنجا بارگیری کنید.

فعال‌کننده داده

طبق گفته مایکروسافت، Data Activator یک تجربه بدون کد در مایکروسافت فابریک برای انجام خودکار اقدامات در هنگام شناسایی الگوها یا شرایط در تغییر داده است. داده‌های گزارش‌های Power BI و موارد Eventstreams را برای زمانی که داده‌ها به آستانه‌های خاصی می‌رسند یا با الگوهای دیگر مطابقت دارند، نظارت می‌کند. سپس به طور خودکار اقدامات مناسبی مانند هشدار دادن به کاربران یا راه اندازی جریان های کاری Power Automate انجام می دهد.

موارد استفاده معمولی برای Data Activator شامل اجرای تبلیغات در هنگام کاهش فروش در همان فروشگاه، هشدار به مدیران فروشگاه برای جابجایی مواد غذایی از فریزرهای فروشگاه مواد غذایی قبل از خراب شدن، و هشدار به تیم‌های حساب در زمانی که مشتریان معوقه می‌شوند، با محدودیت‌های زمانی یا ارزشی سفارشی‌شده به ازای هر مشتری.

مهندسی داده

بیشتر مواردی که در بخش OneLake در بالا مورد بحث قرار گرفتم در واقع در حوزه مهندسی داده قرار می گیرد. مهندسی داده در مایکروسافت فابریک شامل lakehouse، تعاریف شغلی Apache Spark، نوت‌بوک‌ها (در Python، R، Scala و SQL) و خطوط لوله داده (در بخش Data Factory در بالا بحث شده است).

علوم داده

علوم داده در مایکروسافت فابریک شامل مدل‌های یادگیری ماشینی، آزمایش‌ها و نوت‌بوک‌ها می‌شود. حدود نیم دوجین نمونه دفترچه دارد. من انتخاب کردم که نمونه مدل پیش‌بینی سری زمانی را اجرا کنم که از Python استفاده می‌کند، کتابخانه پیامبر (از Facebook) ، MLflow و ویژگی Fabric Autologging. نمونه پیش‌بینی سری‌های زمانی از داده‌های داده‌های فروش ملک NYC استفاده می‌کند که دانلود می‌کنید و سپس در یک خانه داده آپلود کنید.

Prophet از یک مدل فصلی سنتی برای پیش‌بینی سری‌های زمانی استفاده می‌کند، یک انحراف تازه از روند به سمت یادگیری ماشینی پیچیده‌تر و مدل‌های یادگیری عمیق. مجموع زمان اجرا برای اتصالات و پیش‌بینی‌ها ۱۴۷ ثانیه بود، نه کاملاً سه دقیقه.

microsoft fabric 06

پیش‌بینی فروش ملک پس از تطبیق داده‌های فروش ملک نیویورک با مدل فصلی پیامبر.

انبار داده

هدف

Data Warehouse در مایکروسافت Fabric این است که دنیای دریاچه های داده و انبار داده را به هم نزدیک کند. این همان نقطه پایانی SQL lakehouse نیست: نقطه پایانی SQL یک انبار فقط خواندنی است که به‌طور خودکار پس از ایجاد از یک lakehouse در مایکروسافت فابریک، در حالی که Data Warehouse یک انبار داده “سنتی” است، به این معنی که از T-تراکنشی کامل پشتیبانی می کند. قابلیت های SQL مانند هر انبار داده سازمانی.

برخلاف نقطه پایانی SQL، جایی که جداول و داده‌ها به طور خودکار ایجاد می‌شوند، Data Warehouse به شما اجازه می‌دهد کنترل کاملی بر ایجاد جداول و بارگیری، تبدیل، و جستجوی داده های شما در انبار داده با استفاده از پورتال فابریک مایکروسافت یا دستورات T-SQL.

حل بهینه سازی پرس و جو در Presto

من یک انبار جدید ایجاد کردم و آن را با داده های نمونه ارائه شده توسط مایکروسافت بارگیری کردم. معلوم می‌شود که این یکی دیگر از مجموعه داده‌های سفر تاکسی (از سالی دیگر) است، اما این بار در جدول‌های انبار لحاظ شده است. مایکروسافت همچنین چند نمونه اسکریپت SQL را ارائه می دهد.

microsoft fabric 07

پیش نمایش داده های Fabric Data Warehouse برای یک جدول. به پیام‌های مربوط به مجموعه داده Power BI ایجاد شده در بالا توجه کنید.

microsoft fabric 08

نمای مدل Fabric Data Warehouse.

microsoft fabric 09

نمایش جستجوی انبار داده پارچه. مایکروسافت اسکریپت SQL را به عنوان بخشی از نمونه ارائه کرد.

تجزیه و تحلیل بلادرنگ

Real-Time Analytics در Microsoft Fabric ارتباط نزدیکی با Azure Data Explorer دارد، به طوری که پیوندهای مستندات Real-Time Analytics در حال حاضر به اسناد Azure Data Explorer می‌روند. به من اطمینان داده شده است که اسناد Fabric واقعی در حال به‌روزرسانی است.

Real-Time Analytics و Azure Data Explorer از پایگاه داده Kusto Query Language (KQL) استفاده می کنند و پرس و جو جستجوی داده در Kusto بسیار سریعتر از RDBMSهای تراکنش، مانند SQL Server است، به خصوص زمانی که اندازه داده به میلیاردها ردیف افزایش می یابد. کوستو به افتخار ژاک کوستو، کاشف زیردریایی فرانسوی نامگذاری شده است.

من از نمونه مایکروسافت، تجزیه و تحلیل آب و هوا، برای بررسی KQL و تجزیه و تحلیل بلادرنگ استفاده کردم. آن نمونه شامل یک اسکریپت با چندین عبارت KQL است.

microsoft fabric 10

گالری نمونه Fabric Real-Time Analytics در حال حاضر نیم دوجین نمونه را ارائه می دهد، با اندازه داده از ۶۰ مگابایت برای تجزیه و تحلیل آب و هوا تا تقریباً ۱ گیگابایت برای تاکسی سواری در نیویورک.

جستجوی KQL برای تصویر زیر جالب است زیرا از توابع جغرافیایی استفاده می کند و نمودار پراکندگی را ارائه می دهد.

//We can perform Geospatial analytics with powerful inbuilt functions in KQL
//Plot storm events that happened along the south coast
let southCoast = dynamic({"type":"LineString","coordinates":[[-97.18505859374999,25.997549919572112],[-97.58056640625,26.96124577052697],[-97.119140625,27.955591004642553],[-94.04296874999999,29.726222319395504],[-92.98828125,29.82158272057499],[-89.18701171875,29.11377539511439],[-89.384765625,30.315987718557867],[-87.5830078125,30.221101852485987],[-86.484375,30.4297295750316],[-85.1220703125,29.6880527498568],[-84.00146484374999,30.14512718337613],[-82.6611328125,28.806173508854776],[-82.81494140625,28.033197847676377],[-82.177734375,26.52956523826758],[-80.9912109375,25.20494115356912]]});
StormEvents
| project BeginLon, BeginLat, EventType
| where geo_distance_point_to_line(BeginLon, BeginLat, southCoast) < 5000
| render scatterchart with (kind=map)
//Observation: Because these areas are near the coast, most of the events are Marine Thunderstorm Winds

microsoft fabric 11

با وجود داشتن ۶۰ مگابایت داده، این پرس و جو KQL مکانی در یک سوم ثانیه اجرا شد.

گستره وسیع و تجزیه و تحلیل عمیق

در حالی که هنگام بررسی پیش‌نمایش مایکروسافت فابریک، باگ‌های متعددی را کشف کردم، همچنین ایده خوبی از دامنه وسیع و قابلیت‌های تحلیلی عمیق آن پیدا کردم. هنگامی که به طور کامل تکان داده می شود و شکل می گیرد، ممکن است به خوبی با Google Cloud Dataplex رقابت کند.

آیا مایکروسافت فابریک واقعا برای همه مناسب است؟ هیچ نظری ندارم. اما می توانم بگویم که Fabric کار خوبی انجام می دهد و به شما امکان می دهد فقط منطقه مورد علاقه فعلی خود را با تغییر دهنده view در گوشه سمت چپ پایین رابط مشاهده کنید، که من را به یاد روشی که Adobe Photoshop به آن خدمات می دهد می پردازد. مخاطبان مختلف (عکاس، روتوش، هنرمندان و غیره). متأسفانه فتوشاپ این شهرت را دارد که نه تنها قدرت زیادی دارد، بلکه خرس یادگیری است. باید دید که آیا Fabric شهرت مشابهی خواهد داشت یا خیر.