چه کسی نیاز به بازنویسی دارد؟ این معماری با ابرداده با استفاده از AI و ETL بسیار هموار ، خطوط لوله را به موتورهای خود در حال تحول بینش تبدیل می کند.
در چشم انداز سریع در حال تحول در مدیریت داده های سازمانی ، ادغام هوش مصنوعی (AI) در خطوط لوله داده به یک تغییر دهنده بازی تبدیل شده است. در “ طراحی یک چشم انداز شرکت های امروز برای پردازش مجموعه داده های گسترده ، ارائه تجزیه و تحلیل در زمان واقعی و سازگاری با تغییر نیازهای تجاری ، همه در عین حال که مقیاس پذیری و حاکمیت را حفظ می کنند ، با فشار زیاد روبرو می شوند. روندهای صنعت ، مانند ظهور داده های بزرگ ، گسترش فن آوری های ابر بومی و اتخاذ رو به رشد تصمیم گیری های محور AI ، بر نیاز به خطوط لوله که فراتر از ETL سنتی است ، تأکید می کند. در اینجا ، من یک نسخه تکامل یافته از آن چارچوب را معرفی می کنم ، و با ادغام پایگاه داده های لاجورد برای قابلیت های هوش مصنوعی ، یک رویکرد ابرداده محور به MLOP ها و یک حلقه بازخورد برای تجزیه و تحلیل مداوم. این پیشرفت ها معماری را به یک سیستم قوی تبدیل می کند که قادر به برآورده کردن خواسته های مدرن است. من هر مؤلفه را با جزئیات قدم می زنم. قلب چارچوب اصلی طرح ابرداده آن بود که در پایگاه داده Azure SQL ذخیره شده بود ، که امکان پیکربندی پویا از مشاغل ETL را فراهم می آورد. برای ترکیب هوش مصنوعی ، من این طرح را به کارهای یادگیری ماشین ارکسترات در کنار ادغام داده ها گسترش دادم و یک خط لوله یکپارچه ایجاد کردم که هر دو را کنترل می کند. این نیاز به اضافه کردن چندین جدول جدید به مخزن ابرداده: این مثال فوق داده را برای یک کار با ترکیب ETL و ML در نظر بگیرید: این طرحواره ADF را قادر می سازد تا خط لوله ای را که داده های معامله را استخراج می کند ، مدیریت کند ، یک مدل پیش بینی Churn را در پایگاه داده ها اجرا می کند و نتایج را ذخیره می کند ، همه توسط ابرداده هدایت می شود. این مزایا دو برابر است: این امر نیاز به کدگذاری موقت را برای هر مورد استفاده هوش مصنوعی از بین می برد و به سیستم اجازه می دهد تا با به روز کردن ابرداده با مدل ها یا مجموعه داده های جدید سازگار شود. این انعطاف پذیری برای شرکت هایی که با هدف مقیاس ابتکارات هوش مصنوعی بدون تحمل بدهی فنی قابل توجهی بسیار مهم هستند ، بسیار مهم است. MLOP ها ، یا عملیات یادگیری ماشین ، شکاف بین توسعه مدل و استقرار تولید ، آموزش شامل آموزش ، استنباط ، نظارت و تکرار را نشان می دهد. در سازمان های بزرگ ، MLOP ها اغلب شامل تیم های مختلفی هستند: مهندسان داده در حال ساخت خطوط لوله ، دانشمندان داده در حال ساخت مدل ها و اطمینان از ثبات عملیاتی هستند. برای ساده تر کردن این موضوع ، من MLOP ها را با استفاده از ابرداده در چارچوب تعبیه کردم و باعث می شود چرخه حیات ML قابل کنترل و کارآمدتر باشد. در اینجا چگونه ابرداده هر مرحله را هدایت می کند: این رویکرد مزایای قابل توجهی را ارائه می دهد: با استاندارد سازی MLOP ها از طریق ابرداده ، این چارچوب یک فرآیند پراکنده به طور سنتی را به یک سیستم منسجم و مقیاس پذیر تبدیل می کند و شرکت ها را قادر می سازد تا به طور مؤثر AI را عملیاتی کنند. ویژگی برجسته این معماری حلقه بازخورد آن است که از خروجی های استنتاج برای ایجاد تجزیه و تحلیل بیشتر استفاده می کند. بر خلاف خطوط لوله سنتی ، جایی که داده ها به صورت خطی از منبع به سینک می روند ، این سیستم خروجی های ML را درمان می کند: پیش بینی ها ، نمرات یا طبقه بندی ها به عنوان ورودی برای کارهای اضافی ETL یا تحلیلی. این یک چرخه بهبود مستمر و تولید بینش را ایجاد می کند. در اینجا یک سناریوی عملی وجود دارد: اجرای این مورد نیاز برای تقویت جدول pipeline_dependencies با محرک های مشروط. به عنوان مثال ، یک قانون ممکن است بیان کند: “اگر Anemaly_score> ۰.۹ ، Job_ID 102 را راه اندازی کنید.” این اتوماسیون تضمین می کند که خط لوله به صورت پویا به خروجی های هوش مصنوعی پاسخ می دهد و تأثیر تجاری آنها را به حداکثر می رساند. با گذشت زمان ، این حلقه بازخورد پیش بینی ها را تصحیح می کند و بینش های عمیق تری را کشف می کند و باعث می شود سیستم به جای واکنشی فعال شود. اجرای فنی: ادغام ADF و Databricks هم افزایی بین ADF و Databricks این معماری را قدرت می دهد. ADF گردش کار را در محیط های ترکیبی ارکستر می کند ، در حالی که Databricks وظایف ML محاسباتی را انجام می دهد. در اینجا نحوه ادغام آنها آورده شده است: برای تنظیمات ترکیبی ، ADF خود میزبان خود میزبان داده های مربوط به محل را کنترل می کند ، در حالی که ابرداده زمان اجرای مناسب را انتخاب می کند. این ادغام نقاط قوت جریان کنترل ADF را با قدرت تحلیلی Databricks تعادل می بخشد و یک سیستم منسجم ایجاد می کند. چرا اهمیت دارد این معماری به چالش های کلیدی شرکت می پردازد: داده ها به عنوان یک دارایی استراتژیک با گسترش چارچوب اصلی ETL با هوش مصنوعی ، MLOP ها و یک حلقه بازخورد ، این معماری به شرکتها این امکان را می دهد تا داده ها را به عنوان یک دارایی استراتژیک به کار گیرند. این گواهی بر قدرت طراحی ابرداده محور در پل زدن مهندسی داده ها و هوش مصنوعی است. کاوش در راهنمای databricks mlflow برای اطلاعات بیشتر. این مقاله به عنوان بخشی از شبکه مشارکت کننده متخصص ریخته گری منتشر شده است. ادغام AI: گسترش طرح ابرداده
{
"job_id": 101,
"stages": [
{
"id": 1,
"type": "ETL",
"source": "SQL Server",
"destination": "ADLS Gen2",
"object": "customer_transactions"
},
{
"id": 2,
"type": "Inference",
"source": "ADLS Gen2",
"script": "predict_churn.py",
"output": "Delta Table"
},
{
"id": 3,
"type": "Storage",
"source": "Delta Table",
"destination": "Azure SQL",
"table": "churn_predictions"
}
]
}
mLOP های ابرداده محور: ساده سازی چرخه حیات ML
حلقه بازخورد: فعال کردن تحلیلی مداوم
پست های مرتبط
خطوط لوله داده محور ارکستر با Azure ADF و Databricks: یک تکامل معماری
خطوط لوله داده محور ارکستر با Azure ADF و Databricks: یک تکامل معماری
خطوط لوله داده محور ارکستر با Azure ADF و Databricks: یک تکامل معماری