پلت فرم داده دریاچه و خانه دریاچه میزبان ابر مایکروسافت ابزارهای علوم داده جدیدی را به دست می آورد و مجموعه داده های Power BI را برای Python، R و SparkSQL باز می کند.
شرکت مدرن با دادهها، اطلاعات را از سراسر سازمان گرد هم میآورد و از ابزارهای تحلیل کسبوکار برای ارائه پاسخ به هر سؤال مرتبط استفاده میکند. این ابزارها به اطلاعات بیدرنگ دسترسی دارند و همچنین از دادههای تاریخی برای ارائه پیشبینیهایی از روندهای آینده بر اساس وضعیت فعلی کسبوکار استفاده میکنند.
آنچه برای ارائه این ابزار ضروری است، داشتن یک لایه داده مشترک در سراسر شرکت، آوردن منابع مختلف و ارائه یک مکان برای جستجوی آن داده است. یک لایه داده مشترک، یا «بافت داده»، به سازمان یک خط مبنا از حقیقت میدهد که میتواند برای اطلاعرسانی تصمیمگیری کوتاهمدت و بلندمدت مورد استفاده قرار گیرد، و هم نماهای داشبورد آنی و هم مدلهای یادگیری ماشینی< /a> که به شناسایی روندها و مشکلات کمک می کند.
ساخته شدن از دریاچه داده
تعجبی نداشت که ببینیم مایکروسافت بسیاری از ابزارهای تجزیه و تحلیل داده خود را تحت نام تجاری مایکروسافت فابریک گرد هم آورده است، با ترکیبی از داده های رابطه ای و غیر رابطه ای ذخیره شده در میزبان ابری دریاچه های داده و مدیریت شده با خانه های دریاچه. Fabric بر اساس قالب جدول دلتا منبع باز و موتور Apache Spark، مفاهیم کلان داده را می گیرد و آنها را برای هر دو زبان برنامه نویسی رایج و ابزارهای تجزیه و تحلیل تخصصی تر، مانند اکتشافات داده های بصری و پرس و جو پیچیده، قابل دسترسی می کند. موتور ارائه شده توسط Power BI.
نسخههای پیشنمایش اولیه مایکروسافت فابریک بر روی ساخت خانههای داده و دریاچههای دادهای متمرکز بود که برای ساخت برنامههای کاربردی مبتنی بر داده در مقیاس ضروری هستند. برای اینکه دادههای شما به شکل لازم برای این مقیاس پروژه برسد، به کارهای سنگین زیادی نیاز است. قبل از شروع به ساختن برنامههای پیچیدهتر روی دادههایتان، تکمیل مهندسی دادهها ضروری است.
افزودن علم داده به مهندسی داده
در حالی که سرویس Fabric در پیش نمایش باقی می ماند، مایکروسافت به افزودن ویژگی ها و ابزارهای جدید ادامه داده است. آخرین بهروزرسانیها به سمت توسعهدهنده داستان میپردازد، افزودن ادغام با ابزارها و خدمات برنامهنویس آشنا، ویژگیهایی که فراتر از اصول اولیه مجموعهای از REST API است. این ابزارهای جدید Fabric را به دانشمندان داده میآورد و مجموعه دادههای Power BI را به پلتفرم علمی داده موجود Azure مرتبط میکند.
Power Query در Power BI یکی از مهمترین ابزارها در پلت فرم تجزیه و تحلیل داده های مایکروسافت است. شاید بهترین حالتی که تصور شود به عنوان توسعه ابزارهای جدول محوری در اکسل، Power Query راهی است برای برش دادن و برش دادن مقادیر زیادی از داده ها در چندین منبع و استخراج سریع و آسان داده های مرتبط. کلید قابلیتهای آن DAX، عبارتهای تجزیه و تحلیل داده، زبان پرس و جو برای تجزیه و تحلیل داده که ابزارهای مورد نیاز برای فیلتر و پالایش داده ها را فراهم می کند.
سپس ویژگی پیوند معنایی جدید مایکروسافت فابریک، که پلی بین این دنیای داده محور و ابزارهای علم داده ارائه شده توسط زبان هایی مانند ایجاد می کند. پایتون، با استفاده از Pandas و Apache Spark APIهای آشنا. با افزودن این کتابخانههای جدید به کد پایتون خود، میتوانید از پیوند معنایی درون نوتبوکها برای ساخت مدلهای یادگیری ماشین در ابزارهای هوش مصنوعی مانند PyTorch استفاده کنید. سپس میتوانید از دادههای Power BI خود با هر یک از ابزارهای تحلیل عددی متعدد Python استفاده کنید، که به شما امکان میدهد تجزیه و تحلیل پیچیده را در مجموعههای داده اعمال کنید.
این یک پیشرفت مهم است که علم داده را از هر دو طرف به ابزارها و چارچوبهای توسعه آشنا میآورد. می توانید از پیوند معنایی استفاده کنید تا به هر دو تیم اجازه دهید به طور مؤثرتری با هم همکاری کنند. تیم BI میتواند از ابزارهایی مانند DAX برای ساخت مجموعه دادههای گزارش خود استفاده کند، که سپس به نوتبوکها و مدلهای مورد استفاده توسط تیم علم داده پیوند داده میشود و اطمینان حاصل میکند که هر دو تیم همیشه با دادههای یکسان و مدلهای مشابه کار میکنند.
استفاده از پیوند معنایی در فضاهای کاری Fabric
پیوند معنایی Python API از روشهای آشنای پانداها استفاده میکند. از این روش ها می توانید مجموعه داده ها و جداول ایجاد شده توسط Power BI را کشف و فهرست کنید و محتویات جداول را بخوانید. اگر معیارهای مرتبطی وجود دارد، میتوانید برای ارزیابی آنها کد بنویسید و سپس DAX را از کد پایتون خود اجرا کنید.
میتوانید از ابزارهای استاندارد پایتون برای نصب کتابخانه پیوند معنایی استفاده کنید، زیرا از Pip در دسترس است. مخزن ماژول پس از بارگیری کتابخانه در فضای کاری پایتون شما a>، تنها کاری که باید انجام دهید این است که sempy.fabric برای دسترسی به داده های میزبانی شده توسط Fabric خود، سپس از آن برای استخراج داده ها برای استفاده در کد پایتون خود استفاده کنید. همانطور که در حال کار در زمینه محیط Fabric خود هستید، نیازی به احراز هویت اضافی فراتر از ورود به سیستم Azure شما نیست. هنگامی که در فضای کاری خود هستید، می توانید نوت بوک ایجاد کنید و داده ها را بارگیری کنید.
بسته پیوند معنایی یک بسته متا است که حاوی چندین بسته مختلف است که در صورت تمایل میتوان آنها را به صورت جداگانه نصب کرد. یکی از بخش های مفید این بسته مجموعه ای از توابع است که به شما امکان می دهد از داده های Fabric به عنوان داده جغرافیایی استفاده کنید< /a>، به شما امکان می دهد به سرعت اطلاعات جغرافیایی را به فریم های Fabric خود اضافه کنید و از ابزارهای جغرافیایی Power BI در گزارش ها استفاده کنید.
یک ویژگی مفید برای هر کسی که با پیوندهای معنایی در یک نوت بوک تعاملی کار می کند، امکان اجرای مستقیم کد DAX، با استفاده از نحو تعاملی iPython است. . درست مانند نوشتن کد پایتون، قبل از بارگیری sempy به عنوان یک ماژول خارجی، باید کتابخانه را در محیط خود نصب کنید. سپس می توانید از دستور %%dax
برای اجرای دستورات DAX و مشاهده خروجی استفاده کنید. این رویکرد برای آزمایش دادههای میزبانی شده توسط Fabric، جایی که تحلیلگران داده و دانشمندان با هم در یک نوت بوک کار میکنند، به خوبی کار میکند.
پرس و جوهای DAX را می توان مستقیماً از پایتون با تابع evaluate_dax
sempy اجرا کرد. برای استفاده از آن، تابع را با نام مجموعه داده و یک رشته حاوی پرس و جوی شما فراخوانی کنید. سپس می توانید شی داده به دست آمده را تجزیه کنید و از آن در بقیه برنامه های خود استفاده کنید.
ابزارهای دیگر در راهنمای بسته پیوند معنایی دانشمندان داده ها داده ها را تأیید می کنند. برای مثال، میتوانید از چند خط کد برای تجسم سریع روابط در یک مجموعه داده استفاده کنید. باز هم، این یک ابزار مفید برای کار مشترک است، زیرا میتوان از این خروجی برای اصلاح انتخابهای انجامشده در Power BI استفاده کرد و به اطمینان از استفاده از پرسوجوهای مناسب برای ساخت مجموعه دادهای که میخواهیم استفاده کنیم، کمک میکند. گزینههای دیگر عبارتند از توانایی تجسم وابستگیها بین موجودیتهای موجود در دادههای شما، به شما کمک میکند نتایج جستجوهای خود را اصلاح کنید و ساختار مجموعه دادههای خود را درک کنید.
پایه ای برای علم داده در مقیاس
در نهایت، شما محدود به نوتبوکهای پایتون نیستید. اگر میخواهید از ابزار کلان داده استفاده کنید، میتوانید با دادههای Power BI و Spark در یک پرسوجو کار کنید، زیرا مجموعه دادههای Power BI به عنوان جداول Spark توسط Fabric در نظر گرفته میشوند. این بدان معناست که شما می توانید از PySpark برای پرس و جو در میان داده های Power BI و جداول Spark که در Fabric میزبانی شده اند استفاده کنید. حتی میتوانید از ابزارهای R و SQL اسپارک استفاده کنید ترجیح می دهند.
اتفاقات زیادی در فابریک مایکروسافت رخ می دهد و ویژگی های جدیدی به پیش نمایش سرویس در یک آهنگ ماهانه اضافه می شود. واضح است که کتابخانه پیوند معنایی تنها شروعی برای پر کردن شکاف بین تجزیه و تحلیل داده و علم داده است و ساخت برنامهها و سرویسهای مبتنی بر داده را برای کاربران آسانتر میکند. جالب خواهد بود که ببینیم مایکروسافت در آینده چه می کند.
پست های مرتبط
BI با علم داده در مایکروسافت فابریک ملاقات می کند
BI با علم داده در مایکروسافت فابریک ملاقات می کند
BI با علم داده در مایکروسافت فابریک ملاقات می کند