۲۹ شهریور ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

BI با علم داده در مایکروسافت فابریک ملاقات می کند

پلت فرم داده دریاچه و خانه دریاچه میزبان ابر مایکروسافت ابزارهای علوم داده جدیدی را به دست می آورد و مجموعه داده های Power BI را برای Python، R و SparkSQL باز می کند.

پلت فرم داده دریاچه و خانه دریاچه میزبان ابر مایکروسافت ابزارهای علوم داده جدیدی را به دست می آورد و مجموعه داده های Power BI را برای Python، R و SparkSQL باز می کند.

شرکت مدرن با داده‌ها، اطلاعات را از سراسر سازمان گرد هم می‌آورد و از ابزارهای تحلیل کسب‌وکار برای ارائه پاسخ به هر سؤال مرتبط استفاده می‌کند. این ابزارها به اطلاعات بی‌درنگ دسترسی دارند و همچنین از داده‌های تاریخی برای ارائه پیش‌بینی‌هایی از روندهای آینده بر اساس وضعیت فعلی کسب‌وکار استفاده می‌کنند.

آنچه برای ارائه این ابزار ضروری است، داشتن یک لایه داده مشترک در سراسر شرکت، آوردن منابع مختلف و ارائه یک مکان برای جستجوی آن داده است. یک لایه داده مشترک، یا «بافت داده»، به سازمان یک خط مبنا از حقیقت می‌دهد که می‌تواند برای اطلاع‌رسانی تصمیم‌گیری کوتاه‌مدت و بلندمدت مورد استفاده قرار گیرد، و هم نماهای داشبورد آنی و هم مدل‌های یادگیری ماشینی< /a> که به شناسایی روندها و مشکلات کمک می کند.

ساخته شدن از دریاچه داده

تعجبی نداشت که ببینیم مایکروسافت بسیاری از ابزارهای تجزیه و تحلیل داده خود را تحت نام تجاری مایکروسافت فابریک گرد هم آورده است، با ترکیبی از داده های رابطه ای و غیر رابطه ای ذخیره شده در میزبان ابری دریاچه های داده و مدیریت شده با خانه های دریاچه. Fabric بر اساس قالب جدول دلتا منبع باز و موتور Apache Spark، مفاهیم کلان داده را می گیرد و آنها را برای هر دو زبان برنامه نویسی رایج و ابزارهای تجزیه و تحلیل تخصصی تر، مانند اکتشافات داده های بصری و پرس و جو پیچیده، قابل دسترسی می کند. موتور ارائه شده توسط Power BI.

نسخه‌های پیش‌نمایش اولیه مایکروسافت فابریک بر روی ساخت خانه‌های داده و دریاچه‌های داده‌ای متمرکز بود که برای ساخت برنامه‌های کاربردی مبتنی بر داده در مقیاس ضروری هستند. برای اینکه داده‌های شما به شکل لازم برای این مقیاس پروژه برسد، به کارهای سنگین زیادی نیاز است. قبل از شروع به ساختن برنامه‌های پیچیده‌تر روی داده‌هایتان، تکمیل مهندسی داده‌ها ضروری است.

افزودن علم داده به مهندسی داده

در حالی که سرویس Fabric در پیش نمایش باقی می ماند، مایکروسافت به افزودن ویژگی ها و ابزارهای جدید ادامه داده است. آخرین به‌روزرسانی‌ها به سمت توسعه‌دهنده داستان می‌پردازد، افزودن ادغام با ابزارها و خدمات برنامه‌نویس آشنا، ویژگی‌هایی که فراتر از اصول اولیه مجموعه‌ای از REST API است. این ابزارهای جدید Fabric را به دانشمندان داده می‌آورد و مجموعه داده‌های Power BI را به پلتفرم علمی داده موجود Azure مرتبط می‌کند.

جستجوی برداری چیست؟ جستجوی بهتر از طریق هوش مصنوعی

Power Query در Power BI یکی از مهمترین ابزارها در پلت فرم تجزیه و تحلیل داده های مایکروسافت است. شاید بهترین حالتی که تصور شود به عنوان توسعه ابزارهای جدول محوری در اکسل، Power Query راهی است برای برش دادن و برش دادن مقادیر زیادی از داده ها در چندین منبع و استخراج سریع و آسان داده های مرتبط. کلید قابلیت‌های آن DAX، عبارت‌های تجزیه و تحلیل داده، زبان پرس و جو برای تجزیه و تحلیل داده که ابزارهای مورد نیاز برای فیلتر و پالایش داده ها را فراهم می کند.

سپس ویژگی پیوند معنایی جدید مایکروسافت فابریک، که پلی بین این دنیای داده محور و ابزارهای علم داده ارائه شده توسط زبان هایی مانند ایجاد می کند. پایتون، با استفاده از Pandas و Apache Spark APIهای آشنا. با افزودن این کتابخانه‌های جدید به کد پایتون خود، می‌توانید از پیوند معنایی درون نوت‌بوک‌ها برای ساخت مدل‌های یادگیری ماشین در ابزارهای هوش مصنوعی مانند PyTorch استفاده کنید. سپس می‌توانید از داده‌های Power BI خود با هر یک از ابزارهای تحلیل عددی متعدد Python استفاده کنید، که به شما امکان می‌دهد تجزیه و تحلیل پیچیده را در مجموعه‌های داده اعمال کنید.

این یک پیشرفت مهم است که علم داده را از هر دو طرف به ابزارها و چارچوب‌های توسعه آشنا می‌آورد. می توانید از پیوند معنایی استفاده کنید تا به هر دو تیم اجازه دهید به طور مؤثرتری با هم همکاری کنند. تیم BI می‌تواند از ابزارهایی مانند DAX برای ساخت مجموعه داده‌های گزارش خود استفاده کند، که سپس به نوت‌بوک‌ها و مدل‌های مورد استفاده توسط تیم علم داده پیوند داده می‌شود و اطمینان حاصل می‌کند که هر دو تیم همیشه با داده‌های یکسان و مدل‌های مشابه کار می‌کنند.

Azure Cosmos DB به زنجیره ابزار هوش مصنوعی پیوست

استفاده از پیوند معنایی در فضاهای کاری Fabric

پیوند معنایی Python API از روش‌های آشنای پانداها استفاده می‌کند. از این روش ها می توانید مجموعه داده ها و جداول ایجاد شده توسط Power BI را کشف و فهرست کنید و محتویات جداول را بخوانید. اگر معیارهای مرتبطی وجود دارد، می‌توانید برای ارزیابی آنها کد بنویسید و سپس DAX را از کد پایتون خود اجرا کنید.

می‌توانید از ابزارهای استاندارد پایتون برای نصب کتابخانه پیوند معنایی استفاده کنید، زیرا از Pip در دسترس است. مخزن ماژول پس از بارگیری کتابخانه در فضای کاری پایتون شما، تنها کاری که باید انجام دهید این است که sempy.fabric برای دسترسی به داده های میزبانی شده توسط Fabric خود، سپس از آن برای استخراج داده ها برای استفاده در کد پایتون خود استفاده کنید. همانطور که در حال کار در زمینه محیط Fabric خود هستید، نیازی به احراز هویت اضافی فراتر از ورود به سیستم Azure شما نیست. هنگامی که در فضای کاری خود هستید، می توانید نوت بوک ایجاد کنید و داده ها را بارگیری کنید.

بسته پیوند معنایی یک بسته متا است که حاوی چندین بسته مختلف است که در صورت تمایل می‌توان آنها را به صورت جداگانه نصب کرد. یکی از بخش های مفید این بسته مجموعه ای از توابع است که به شما امکان می دهد از داده های Fabric به عنوان داده جغرافیایی استفاده کنید< /a>، به شما امکان می دهد به سرعت اطلاعات جغرافیایی را به فریم های Fabric خود اضافه کنید و از ابزارهای جغرافیایی Power BI در گزارش ها استفاده کنید.

یک ویژگی مفید برای هر کسی که با پیوندهای معنایی در یک نوت بوک تعاملی کار می کند، امکان اجرای مستقیم کد DAX، با استفاده از نحو تعاملی iPython است. . درست مانند نوشتن کد پایتون، قبل از بارگیری sempy به عنوان یک ماژول خارجی، باید کتابخانه را در محیط خود نصب کنید. سپس می توانید از دستور %%dax برای اجرای دستورات DAX و مشاهده خروجی استفاده کنید. این رویکرد برای آزمایش داده‌های میزبانی شده توسط Fabric، جایی که تحلیلگران داده و دانشمندان با هم در یک نوت بوک کار می‌کنند، به خوبی کار می‌کند.

افزونه Mastodon اکنون در Steampipe Hub در دسترس است

پرس و جوهای DAX را می توان مستقیماً از پایتون با تابع evaluate_dax sempy اجرا کرد. برای استفاده از آن، تابع را با نام مجموعه داده و یک رشته حاوی پرس و جوی شما فراخوانی کنید. سپس می توانید شی داده به دست آمده را تجزیه کنید و از آن در بقیه برنامه های خود استفاده کنید.

ابزارهای دیگر در راهنمای بسته پیوند معنایی دانشمندان داده ها داده ها را تأیید می کنند. برای مثال، می‌توانید از چند خط کد برای تجسم سریع روابط در یک مجموعه داده استفاده کنید. باز هم، این یک ابزار مفید برای کار مشترک است، زیرا می‌توان از این خروجی برای اصلاح انتخاب‌های انجام‌شده در Power BI استفاده کرد و به اطمینان از استفاده از پرس‌و‌جوهای مناسب برای ساخت مجموعه داده‌ای که می‌خواهیم استفاده کنیم، کمک می‌کند. گزینه‌های دیگر عبارتند از توانایی تجسم وابستگی‌ها بین موجودیت‌های موجود در داده‌های شما، به شما کمک می‌کند نتایج جستجوهای خود را اصلاح کنید و ساختار مجموعه داده‌های خود را درک کنید.

پایه ای برای علم داده در مقیاس

در نهایت، شما محدود به نوت‌بوک‌های پایتون نیستید. اگر می‌خواهید از ابزار کلان داده استفاده کنید، می‌توانید با داده‌های Power BI و Spark در یک پرس‌وجو کار کنید، زیرا مجموعه داده‌های Power BI به عنوان جداول Spark توسط Fabric در نظر گرفته می‌شوند. این بدان معناست که شما می توانید از PySpark برای پرس و جو در میان داده های Power BI و جداول Spark که در Fabric میزبانی شده اند استفاده کنید. حتی می‌توانید از ابزارهای R و SQL اسپارک استفاده کنید ترجیح می دهند.

اتفاقات زیادی در فابریک مایکروسافت رخ می دهد و ویژگی های جدیدی به پیش نمایش سرویس در یک آهنگ ماهانه اضافه می شود. واضح است که کتابخانه پیوند معنایی تنها شروعی برای پر کردن شکاف بین تجزیه و تحلیل داده و علم داده است و ساخت برنامه‌ها و سرویس‌های مبتنی بر داده را برای کاربران آسان‌تر می‌کند. جالب خواهد بود که ببینیم مایکروسافت در آینده چه می کند.