پلتفرم داده جدید و یکپارچه مایکروسافت آزور قصد دارد فروشگاه یکپارچه شما برای تجزیه و تحلیل و یادگیری ماشین در مقیاس باشد.
پیگیری انبوه اعلامیههای سالانه در Microsoft Build راه خوبی برای درک آنچه این شرکت فکر میکند برای مشتریان توسعهدهندهاش مهم است، است. بیلد ۲۰۲۳ هوش مصنوعی و یادگیری ماشینی را در صدر فهرست قرار داد و مایکروسافت از یک رویکرد تمام پشته برای ساخت برنامههای هوش مصنوعی پردهبرداری کرد که از دادههای شما شروع میشود و پیشرفت میکند.
در میان بزرگترین اخبار برای پشته هوش مصنوعی، راه اندازی مایکروسافت فابریک بود، مجموعه ای از ابزارهای نرم افزاری به عنوان سرویس برای کار با داده های بزرگ، با بر علم داده و مهندسی داده تمرکز کنید. از این گذشته، ساخت اپلیکیشن های سفارشی هوش مصنوعی با شناسایی و ارائه داده های مورد نیاز برای طراحی و آموزش مدل های یادگیری ماشین آغاز می شود. اما Fabric همچنین نگران اجرای آن برنامهها است و زمان واقعی را ارائه میکند. تجزیه و تحلیل مورد نیاز برای راه اندازی یک کسب و کار مدرن.
مایکروسافت فابریک: فروشگاه داده یک مرحله ای
مخاطبان مورد نظر مایکروسافت فابریک هم کاربران تجاری و هم توسعه دهندگان را پوشش می دهند، بنابراین چیزهای زیادی برای کشف وجود دارد. بسیاری از آنچه در Fabric وجود دارد در Microsoft Azure و Power Platform وجود دارد. تغییرات کلیدی تمرکز بر قالبهای داده باز و ارائه یک پورتال واحد برای کار با دادهها است که میتواند موارد استفاده مختلف را پشتیبانی کند.
کاری که مایکروسافت با Fabric انجام میدهد این است که بسیاری از عناصر کلیدی پشته تجزیه و تحلیل دادههای خود را گرد هم میآورد، شکافها را پر میکند، و همه آنها را در یک داشبورد نرمافزار بهعنوان یک سرویس قرار میدهد. در اینجا عناصری از پلتفرم داده Azure را در کنار ابزارهایی از Power Platform پیدا خواهید کرد که همگی در کنار هم قرار گرفته اند تا یک منبع واحد از حقیقت را برای داده های سازمانی خود، صرف نظر از منبع آن، به شما ارائه دهند.
این آخرین نکته شاید مهم ترین باشد. با دادههایی که توسط برنامههای مختلف تولید و استفاده میشوند، ما به یک مکان مشترک برای دسترسی و استفاده از آن دادهها، صرف نظر از اینکه چگونه ذخیره میشوند، نیاز داریم. Fabric به ما امکان می دهد داده های ساختاریافته و نیمه ساختار یافته را با هم ترکیب کنیم و از فروشگاه های رابطه ای و NoSQL برای به دست آوردن بینش های مورد نیاز خود استفاده کنیم. این یک پلت فرم داده سازمانی سرتاسری است که میتواند دادهها را از لبه شبکههای ما وارد کند و اطلاعات مورد نیاز افراد را به داشبوردهای سازمانی برساند. در همان زمان، Fabric میتواند دادههای آموزشی را برای مدلهای یادگیری ماشین ما ارائه دهد.
نتیجه یک پلت فرم داده واحد است که تجربیات مختلف کاربر را برای اهداف مختلف ارائه می دهد. اگر از Fabric برای تجزیه و تحلیل استفاده میکنید، میتوانید دادهها را با استفاده از Power Query در Power BI کاوش کنید. اگر به دنبال اطلاعاتی در مورد دادههای عملیاتی هستید، میتوانید از نوتبوکهای Apache Spark و Python استفاده کنید، در حالی که توسعهدهندگان یادگیری ماشین میتوانند با استفاده از محیط MLflow منبع باز با دادهها کار کنند.
OneLake: OneDrive برای داده
Microsoft Fabric بر روی یک پلت فرم داده واحد، OneLake ساخته شده است. توصیف شده به عنوان “OneDrive برای داده”، OneLake یک سازمان است- مقیاس دادهها برای همه دادههای تحلیلی شما. این یک تفاوت مهم با سایر محصولات دریاچه داده است، زیرا شما را از رویکردهای سلد قبلی دور می کند، جایی که بخش های جداگانه دریاچه های داده خود را مدیریت می کنند. همه دادههای شما به OneLake میرود و به شما امکان میدهد انبار دادهها و lakehouses جداگانه را در محیطهای کاری که میتوانند خطمشیهای مدیریت مرکزی و ابزارهای امنیتی داشته باشند برای اطمینان از عدم استفاده نامناسب از دادهها ارائه کنید. .
OneLake بر اساس ابزار نسل دوم دریاچه داده Azure است. تنها یک OneLake برای هر مستأجر وجود دارد که دادههای آن در چندین کانتینر ذخیره میشود. هر OneLake را می توان به فضاهای کاری مختلف با خط مشی های دسترسی خاص خود تقسیم کرد و موارد داده خود را مدیریت کرد. OneLake برای میزبانی هر نوع فایلی با ابزارهای مبتنی بر وب و دسکتاپ طراحی شده است تا به شما در کاوش و استفاده از داده های خود کمک کند.
شما محدود به داده های Azure نیستید. کتابخانه موجود اتصال دهنده های مایکروسافت به برنامه ها و خدمات خط کسب و کار تضمین می کند که می توانید از ابزارهای کارخانه داده Fabric برای مدیریت داده ها از چندین منبع استفاده کنید. یکی از ویژگیهای کلیدی در اینجا پشتیبانی از فرمت دادههای Apache Parquet است. پارکت یک قالب ذخیرهسازی داده ستونگرا است که برای انبارهای داده بزرگ طراحی شده است. که به راحتی فشرده می شود و حافظه کارآمد است، با پشتیبانی از درخواست های ستونی با عملکرد بالا. از آنجا که دادهها را میتوان در قالب پارکت از اکثر سرویسهای ذخیرهسازی ابری با استفاده از اتصالات کارخانه داده Fabric صادر کرد، Parquet راهی برای بهینهسازی صادرات داده برای استفاده در دریاچه داده Fabric ارائه میدهد.
فرمت ذخیره سازی بومی OneLake از قالب Delta برای جداول استفاده می کند، یک نسخه توسعه یافته از Apache Parquet، با پشتیبانی از تراکنش ها و با ابرداده مقیاس پذیر این یک فرمت باز است که می تواند انواع مختلفی از منابع داده را پشتیبانی کند. جداول قالب دلتا طراحی شده اند برای دریاچه های داده بزرگ، بسیار شبیه به Fabric، و طیف وسیعی از API های مختلف را ارائه می دهد که ادغام با تجزیه و تحلیل سنتی و یادگیری ماشین را آسان تر می کند. استفاده از OneLake به این معنی است که شما فقط یک بار باید داده ها را ذخیره کنید و می توانید با انتخاب ابزار پرس و جو از آن استفاده کنید.
OneLake و خانه های دریاچه داده
یک مفهوم کلیدی برای همه موارد استفاده مختلف برای Fabric حیاتی است: خانه دریاچه. Lakehouse به شما کمک میکند دادههای مورد نیاز خود را به یک مکان بیاورید، جایی که در کل دریاچه دادههای میزبان Azure سازمان شما قابل دسترسی باشد. Lakehouse راهی به شما می دهد تا از مقادیر زیادی داده استفاده کنید، در حالی که یک نمای واحد را ارائه می دهد که حاوی ابزارهایی برای ذخیره، مدیریت و تجزیه و تحلیل داده های شما است.
اجرای Lakehouse Fabric برای کار با جداول Delta طراحی شده است، بنابراین باید اطمینان حاصل کنید که هر داده در lakehouse در قالب مناسب است. پس از وارد کردن دادهها، میتوانید از نوتبوکها برای کاوش دادههای خود، با استفاده از کد برای استخراج اطلاعاتی که میتواند در جاهای دیگر سازمانتان استفاده شود، استفاده کنید. از طرف دیگر، گزینه استفاده از نقطه پایانی SQL برای دسترسی به داده های lakehouse از برنامه های دیگر وجود دارد. OneLake از کار با ابزارهایی مانند Azure Databricks و Azure HDInsight پشتیبانی می کند. a>، با استفاده از Gen 2 Azure Data Lake Storage APIهای موجود.
ایجاد خانه دریاچه به اندازه کافی آسان است. می توانید از داشبورد یا داخل یک فضای کاری Fabric موجود شروع کنید. پس از ایجاد، آماده بارگیری دادهها، با چندین مورد مختلف است. مکانیسم های موجود بسته به منبع داده شما. در حالی که ساده ترین گزینه آپلود مستقیم داده ها از رایانه شخصی است، کار با ابزار کپی داخلی، که داده ها را به جداول دلتا و آماده برای استفاده تبدیل می کند، عملی تر است. حتی میتوانید از ابزار آشنای جریان داده Power BI برای وارد کردن دادهها از رابطها به پلتفرمهای دیگر و مدیریت تبدیلهای مناسب استفاده کنید. همچنین، میتوانید از کد Apache Spark برای بارگیری دادهها در خانههای دریاچهتان استفاده کنید.
تحلیلهای بیدرنگ در Fabric از دادههای مبتنی بر زمان در قالبهای نیمه ساختاریافته پشتیبانی میکنند. به جای داشتن ابزار جداگانه برای تجزیه و تحلیل بلند مدت و تحلیل عملیاتی، اکنون می توانید با داده های مشابه به روش های مختلف کار کنید. با رسیدن داده ها، تجزیه و تحلیل عملیاتی می تواند به مشخص کردن مسائلی که نیاز به پاسخ فوری دارند کمک کند. پس از ذخیرهسازی، همان دادهها مبنای دادههای آموزشی برای یادگیری ماشین و همچنین دادههای منبع برای تجزیه و تحلیل دادههای مبتنی بر گزارش، همراه با دادههای سایر سیستمها میشوند.
خروج در OneLake
معمولاً، لازم نیست همه دادههای منبع شما در OneLake ذخیره شوند. میتوانید از میانبرها برای پیوند دادن به مکانهای ذخیرهسازی دیگر استفاده کنید. میانبرها معادل دریاچه داده یک پیوند نمادین هستند که به شما امکان می دهند بدون میزبانی از داده ها در Azure با داده ها کار کنید. این امر خطرات مرتبط با کپی کردن داده ها را کاهش می دهد و به شما امکان می دهد دسترسی به سیستم های خط تولید را از داخل داشبورد Fabric کنترل کنید. پس از ایجاد، میانبرها به عنوان پوشه نمایش داده می شوند – یک پوشه جدول از داده های ساخت یافته، و یک پوشه فایل از داده های بدون ساختار. اگر میانبر حاوی دادههای قالب دلتا یا پارکت باشد، بهطور خودکار بهعنوان جدول استفاده میشود و Fabric ابردادههای اتصال را بارگیری میکند و از آن برای مدیریت جدول حاصل استفاده میکند.
شرکتهای بیشتری از یک مخزن مشترک برای همه دادههای خود استفاده میکنند و مایکروسافت برای پاسخگویی به تقاضا با Fabric عجله دارد. مایکروسافت با ایجاد استانداردهای باز مانند دلتا و پارکت راهی برای کمک به کسبوکارها در ساخت و مدیریت دریاچههای داده با استفاده از مهارتهای پلتفرم داده موجود پیدا کرده است – آماده پشتیبانی از تجزیه و تحلیل انبار داده و یادگیری ماشین. داشتن یک دوره آزمایشی رایگان در حالی که سرویس در پیشنمایش عمومی است ارزیابی آن را قبل از تصمیم گیری درازمدت ممکن می سازد.
پست های مرتبط
آشنایی با OneLake و lakehouses در مایکروسافت فابریک
آشنایی با OneLake و lakehouses در مایکروسافت فابریک
آشنایی با OneLake و lakehouses در مایکروسافت فابریک