۲۸ تیر ۱۴۰۴

Techboy

اخبار و اطلاعات روز تکنولوژی

خطوط لوله داده محور ارکستر با Azure ADF و Databricks: یک تکامل معماری

چه کسی نیاز به بازنویسی دارد؟ این معماری با ابرداده با استفاده از AI و ETL بسیار هموار ، خطوط لوله را به موتورهای خود در حال تحول بینش تبدیل می کند.

چه کسی نیاز به بازنویسی دارد؟ این معماری با ابرداده با استفاده از AI و ETL بسیار هموار ، خطوط لوله را به موتورهای خود در حال تحول بینش تبدیل می کند.

در چشم انداز سریع در حال تحول در مدیریت داده های سازمانی ، ادغام هوش مصنوعی (AI) در خطوط لوله داده به یک تغییر دهنده بازی تبدیل شده است. در “ طراحی یک چشم انداز

شرکت های امروز برای پردازش مجموعه داده های گسترده ، ارائه تجزیه و تحلیل در زمان واقعی و سازگاری با تغییر نیازهای تجاری ، همه در عین حال که مقیاس پذیری و حاکمیت را حفظ می کنند ، با فشار زیاد روبرو می شوند. روندهای صنعت ، مانند ظهور داده های بزرگ ، گسترش فن آوری های ابر بومی و اتخاذ رو به رشد تصمیم گیری های محور AI ، بر نیاز به خطوط لوله که فراتر از ETL سنتی است ، تأکید می کند. 

در اینجا ، من یک نسخه تکامل یافته از آن چارچوب را معرفی می کنم ، و با ادغام پایگاه داده های لاجورد برای قابلیت های هوش مصنوعی ، یک رویکرد ابرداده محور به MLOP ها و یک حلقه بازخورد برای تجزیه و تحلیل مداوم. این پیشرفت ها معماری را به یک سیستم قوی تبدیل می کند که قادر به برآورده کردن خواسته های مدرن است. من هر مؤلفه را با جزئیات قدم می زنم. 

ادغام AI: گسترش طرح ابرداده

قلب چارچوب اصلی طرح ابرداده آن بود که در پایگاه داده Azure SQL ذخیره شده بود ، که امکان پیکربندی پویا از مشاغل ETL را فراهم می آورد. برای ترکیب هوش مصنوعی ، من این طرح را به کارهای یادگیری ماشین ارکسترات در کنار ادغام داده ها گسترش دادم و یک خط لوله یکپارچه ایجاد کردم که هر دو را کنترل می کند. این نیاز به اضافه کردن چندین جدول جدید به مخزن ابرداده:

  • ml_models : این جدول جزئیات مربوط به هر مدل ML را ضبط می کند ، از جمله نوع آن (به عنوان مثال ، رگرسیون ، خوشه بندی) ، مجموعه داده های آموزشی و نقاط پایانی استنباط. به عنوان مثال ، یک مدل پیش بینی ممکن است یک نوت بوک Databricks خاص و یک جدول دلتا حاوی داده های فروش تاریخی را ارجاع دهد.
  • feature_engineering : مراحل پیش پردازش مانند مقیاس بندی ویژگی های عددی یا رمزگذاری یک داغ متغیرهای طبقه بندی شده را تعریف می کند. با رمزگذاری این تحولات در ابرداده ، چارچوب آماده سازی داده ها را برای مدل های متنوع ML خودکار می کند. 
  • Pipeline_Dependencies : وظایف را در دنباله صحیح انجام می دهد ، یعنی. ETL قبل از استنباط ، ذخیره سازی پس از استنباط ، حفظ یکپارچگی گردش کار در مراحل. 
  • output_storage : مقصد برای نتایج استنباط ، مانند جداول دلتا برای تجزیه و تحلیل یا Azure SQL را برای گزارش مشخص می کند ، اطمینان از خروجی ها به راحتی قابل دسترسی است. 

این مثال فوق داده را برای یک کار با ترکیب ETL و ML در نظر بگیرید:

{
  "job_id": 101,
  "stages": [
    {
      "id": 1,
      "type": "ETL",
      "source": "SQL Server",
      "destination": "ADLS Gen2",
      "object": "customer_transactions"
    },
    {
      "id": 2,
      "type": "Inference",
      "source": "ADLS Gen2",
      "script": "predict_churn.py",
      "output": "Delta Table"
    },
    {
      "id": 3,
      "type": "Storage",
      "source": "Delta Table",
      "destination": "Azure SQL",
      "table": "churn_predictions"
    }
  ]
} 

این طرحواره ADF را قادر می سازد تا خط لوله ای را که داده های معامله را استخراج می کند ، مدیریت کند ، یک مدل پیش بینی Churn را در پایگاه داده ها اجرا می کند و نتایج را ذخیره می کند ، همه توسط ابرداده هدایت می شود. این مزایا دو برابر است: این امر نیاز به کدگذاری موقت را برای هر مورد استفاده هوش مصنوعی از بین می برد و به سیستم اجازه می دهد تا با به روز کردن ابرداده با مدل ها یا مجموعه داده های جدید سازگار شود. این انعطاف پذیری برای شرکت هایی که با هدف مقیاس ابتکارات هوش مصنوعی بدون تحمل بدهی فنی قابل توجهی بسیار مهم هستند ، بسیار مهم است. 

mLOP های ابرداده محور: ساده سازی چرخه حیات ML

MLOP ها ، یا عملیات یادگیری ماشین ، شکاف بین توسعه مدل و استقرار تولید ، آموزش شامل آموزش ، استنباط ، نظارت و تکرار را نشان می دهد. در سازمان های بزرگ ، MLOP ها اغلب شامل تیم های مختلفی هستند: مهندسان داده در حال ساخت خطوط لوله ، دانشمندان داده در حال ساخت مدل ها و اطمینان از ثبات عملیاتی هستند. برای ساده تر کردن این موضوع ، من MLOP ها را با استفاده از ابرداده در چارچوب تعبیه کردم و باعث می شود چرخه حیات ML قابل کنترل و کارآمدتر باشد. 

در اینجا چگونه ابرداده هر مرحله را هدایت می کند:

  • آموزش مدل : جدول ml_models می تواند مشاغل آموزشی Databricks را بر اساس برنامه ها یا به روزرسانی داده ها تحریک کند. به عنوان مثال ، یک ورودی ابرداده ممکن است هر ماه یک مدل تشخیص کلاهبرداری را مشخص کند ، و این روند را به طور کامل انجام می دهد.
  • استنتاج : ابرداده مدل ، داده های ورودی و محل خروجی را تعریف می کند و امکان اجرای یکپارچه پیش بینی ها را فراهم می کند. دانشمندان داده می توانند با به روزرسانی ابرداده ، اجتناب از بازنویسی خط لوله ، مدل ها (به عنوان مثال ، از نسخه ۱.۰ تا ۲.۰) را مبادله کنند.
  • نظارت : یکپارچه با ابزارهای Azure Monitor یا Databricks ، این چارچوب معیارهایی مانند دقت مدل یا رانش داده را با آستانه های تعیین شده در ابرداده ردیابی می کند. هشدارها می توانند در صورت لزوم بازآموزی یا بررسی انسان را تحریک کنند. 

این رویکرد مزایای قابل توجهی را ارائه می دهد:

  • همکاری تیمی : ابرداده به عنوان یک رابط مشترک عمل می کند و مهندسان و دانشمندان را قادر می سازد تا به طور مستقل و در عین حال منسجم کار کنند.
  • کارآیی عملیاتی : مدل های جدید یا موارد استفاده را می توان به سرعت سوار کرد و باعث کاهش زمان های استقرار از هفته ها به روزها شد.
  • مدیریت : ابرداده متمرکز ، کنترل نسخه ، انطباق و حسابرسی را تضمین می کند ، برای صنایع تنظیم شده بسیار مهم است. 

با استاندارد سازی MLOP ها از طریق ابرداده ، این چارچوب یک فرآیند پراکنده به طور سنتی را به یک سیستم منسجم و مقیاس پذیر تبدیل می کند و شرکت ها را قادر می سازد تا به طور مؤثر AI را عملیاتی کنند. 

حلقه بازخورد: فعال کردن تحلیلی مداوم

ویژگی برجسته این معماری حلقه بازخورد آن است که از خروجی های استنتاج برای ایجاد تجزیه و تحلیل بیشتر استفاده می کند. بر خلاف خطوط لوله سنتی ، جایی که داده ها به صورت خطی از منبع به سینک می روند ، این سیستم خروجی های ML را درمان می کند: پیش بینی ها ، نمرات یا طبقه بندی ها به عنوان ورودی برای کارهای اضافی ETL یا تحلیلی. این یک چرخه بهبود مستمر و تولید بینش را ایجاد می کند. 

در اینجا یک سناریوی عملی وجود دارد:

  • یک مدل پیش بینی تقاضا کمبود عرضه برای یک محصول را پیش بینی می کند. پیش بینی ، که در یک جدول دلتا ذخیره شده است ، باعث ایجاد یک کار ETL برای استخراج داده های موجودی و تهیه کننده می شود و تیم های تهیه را قادر می سازد تا سریع عمل کنند.
  • یک مدل تشخیص ناهنجاری ترافیک شبکه غیرمعمول را مشخص می کند. این خروجی کار را برای کشیدن سیاههها و داده های فعالیت کاربر آغاز می کند و به تیم های امنیتی در بررسی نقض های احتمالی کمک می کند. 

اجرای این مورد نیاز برای تقویت جدول pipeline_dependencies با محرک های مشروط. به عنوان مثال ، یک قانون ممکن است بیان کند: “اگر Anemaly_score> ۰.۹ ، Job_ID 102 را راه اندازی کنید.” این اتوماسیون تضمین می کند که خط لوله به صورت پویا به خروجی های هوش مصنوعی پاسخ می دهد و تأثیر تجاری آنها را به حداکثر می رساند. با گذشت زمان ، این حلقه بازخورد پیش بینی ها را تصحیح می کند و بینش های عمیق تری را کشف می کند و باعث می شود سیستم به جای واکنشی فعال شود. 

اجرای فنی: ادغام ADF و Databricks

هم افزایی بین ADF و Databricks این معماری را قدرت می دهد. ADF گردش کار را در محیط های ترکیبی ارکستر می کند ، در حالی که Databricks وظایف ML محاسباتی را انجام می دهد. در اینجا نحوه ادغام آنها آورده شده است:

  • خط لوله والدین ADF : پارامتری شده توسط یک شناسه شغلی ، مخزن ابرداده را پرس و جو می کند و وظایف را به ترتیب ، ETL ، استنباط و ذخیره از طریق خطوط لوله کودک انجام می دهد.
  • ETL Stage : ADF از خدمات پیوندی برای اتصال به منابع (به عنوان مثال ، SQL Server) و سینک ها (به عنوان مثال ، ADLS Gen2) استفاده می کند ، و داده ها را همانطور که در ابرداده تعریف شده است ، تبدیل می کند.
  • مرحله استنتاج : ADF از نوت بوک های Databricks از طریق API REST فراخوانی می کند و پارامترهایی مانند مسیرهای اسکریپت و مکان های داده را منتقل می کند. خوشه های مقیاس خودکار Databricks عملکرد را برای مشاغل بزرگ بهینه می کنند.
  • مرحله ذخیره سازی : پس از استنتاج ، فروشگاه های ADF منجر به جداول دلتا یا Azure SQL می شوند و از دسترسی برای استفاده از پایین دست اطمینان می دهند. 

برای تنظیمات ترکیبی ، ADF خود میزبان خود میزبان داده های مربوط به محل را کنترل می کند ، در حالی که ابرداده زمان اجرای مناسب را انتخاب می کند. این ادغام نقاط قوت جریان کنترل ADF را با قدرت تحلیلی Databricks تعادل می بخشد و یک سیستم منسجم ایجاد می کند. 

چرا اهمیت دارد

این معماری به چالش های کلیدی شرکت می پردازد:

  • چابکی : طراحی ابرداده محور پذیرش AI را تسریع می کند و با الزامات جدید بدون تعمیرات اساسی سازگار است.
  • مقیاس پذیری : این کار را با زحمت داده و پیچیدگی مدل را کنترل می کند.
  • مقدار : حلقه بازخورد نسل بینش مداوم را تضمین می کند و تصمیم گیری را تقویت می کند. 

داده ها به عنوان یک دارایی استراتژیک

با گسترش چارچوب اصلی ETL با هوش مصنوعی ، MLOP ها و یک حلقه بازخورد ، این معماری به شرکتها این امکان را می دهد تا داده ها را به عنوان یک دارایی استراتژیک به کار گیرند. این گواهی بر قدرت طراحی ابرداده محور در پل زدن مهندسی داده ها و هوش مصنوعی است. کاوش در راهنمای databricks mlflow برای اطلاعات بیشتر. 

این مقاله به عنوان بخشی از شبکه مشارکت کننده متخصص ریخته گری منتشر شده است.