بر روی این بهترین شیوه های مهندسی برای ساخت مدل های با کیفیت بالا که می توانند به طور موثر اداره شوند، تمرکز کنید.
ساخت و استقرار مدلهای هوش مصنوعی قوی و قوی (AI) و یادگیری ماشین (ML) کاری پیچیده و چالش برانگیز است. اگر شما مانند بسیاری از رهبران علم داده و یادگیری ماشین هستید که اخیراً با آنها صحبت کرده ام، در حال گفتگو با تیم های دیگر در مورد حاکمیت سیستم های خود هستید.
انجام این کار و انجام کار خود برای تولید مدلها سخت است. بنابراین بیایید در مورد آنچه که می توانید به عنوان یک سازمان فنی انجام دهید تا مدیریت هوش مصنوعی را هم برای تیم و هم برای شرکای تجاری خود که سهامداران کلیدی در فرآیند حاکمیت هستند، آسان تر کنید، صحبت کنیم.
اصول کلیدی طراحی
در سطح بالایی، برای اطمینان از اینکه مدلهایی داریم که قابل کنترل هستند و میتوان مطمئن بود، میخواهیم مطمئن شویم که مصنوعات مدل سه اصل زیر را نشان میدهند:
- زمینه: پس از مراحل اکتشافی اولیه توسعه مدل، دلایل تجاری، دامنه، ریسکها، محدودیتها و رویکردهای مدلسازی دادهها به خوبی تعریف شده و قبل از تولید مدل کاملاً مستند شده است.
- تأیید پذیری: هر تصمیم تجاری و فنی و مرحله ای در فرآیند توسعه مدل باید قابل تایید و بازجویی باشد. خط لوله مدل ML هرگز نباید کاملاً “جعبه سیاه” باشد حتی اگر از الگوریتم جعبه سیاه استفاده شود. درک اینکه دادهها از کجا آمدهاند، چگونه پردازش شدهاند، و چه ملاحظات نظارتی وجود دارد، برای ساخت یک مدل قابل تأیید بسیار مهم است. کد مدل باید به گونه ای ساخته و مستند شود که برای کسی که قبلاً به کد نگاه نکرده است قابل درک باشد. این مدل باید به گونهای ساخته شود که انجام مجدد تراکنشهای فردی، با استفاده از معماریهای کانتینری، سریالسازی (از طریق ترشی یا معادل آن)، و تکنیکهای پیشپردازشی که قطعی هستند (بهعنوان مثال، رمزگذاری یکطرفه Scikit-learn با یک دانه تصادفی و سریالسازی شده) امکانپذیر باشد.
- عینیت: استاندارد طلایی حاکمیت زمانی است که هر برنامه ML می تواند به طور منطقی توسط یک فرد یا طرف عینی که در توسعه مدل دخالت ندارد ارزیابی و درک شود. اگر یک سیستم ML با دو اصل قبلی یعنی زمینه و قابلیت تأیید ساخته شده باشد، به احتمال زیاد شرکای تجاری شما می توانند به عنوان طرف هدف خط دوم و سوم به طور مؤثر عمل کنند تا آن را ارزیابی کنند و کار شما را برای شروع تولید روشن کنند. .
قابلیت های کلیدی برای گنجاندن در مدل ها
با توجه به چشم انداز دائمی در حال تحول کتابخانه های منبع باز، فروشندگان، و رویکردهای ساخت مدل های ML و همچنین کمبود مهندسان واجد شرایط ML، کمبود قابل توجهی در بهترین شیوه های صنعت برای ایجاد قابل استقرار، نگهداری و کنترل وجود دارد. مدل های ML.
هنگام توسعه مدلهای ML با در نظر گرفتن حاکمیت، مهمترین ملاحظات عبارتند از عملکرد مجدد، کنترل نسخه، تفسیرپذیری، و سهولت استقرار و نگهداری.
عملکرد مجدد
عملکرد مجدد توانایی انجام مجدد یا بازتولید یک تراکنش یا آموزش مدل و به دست آوردن نتایج یکسان است. در مورد “بحران تکرارپذیری” در علم بسیار گفته شده است، و جامعه AI/ML چنین نیست. مصون از این انتقاد.
ایجاد سیستمهای یادگیری ماشینی که قابل تکرار باشند قطعاً امکانپذیر است، و تلاش برای انجام این کار در نهایت منجر به استقرار قویتر و قابل اعتمادتر، سردرد کمتر برای توسعهدهندگان و سؤالات کمتری از سوی حسابرسان و سایر بازبینها میشود.
برخی از بهترین شیوههای کلیدی که باید به خاطر داشته باشید:
- اشیاء خط لوله باید برای کپسوله کردن توابع پیش پردازش استفاده شوند (به عنوان مثال، مقیاس بندی، رمزگذاری یکباره، و غیره)، مدل، و تکنیک های پس پردازش (در صورت وجود) در یک شی. این شیء خط لوله باید در یک سریال سازی رایج مانند pickle یا joblib ذخیره شود.
- منطق پیش پردازش و پس پردازش که در شیء خط لوله نیست باید در یک فایل .py قرار گیرد.
- از دانههای تصادفی برای آموزش مدل، برازش و پردازش برای اطمینان از نتایج ثابت و قابل تکرار استفاده کنید.
- از یک سیستم کنترل نسخه مانند Git برای ذخیره سازی همه کدها استفاده کنید.
- سند، سند، فرآیند خود را مستند کنید.
- نسب داده های خود را مستند کنید، یک فرهنگ لغت داده ارائه دهید و دقیقاً بدانید که داده های شما از کجا آمده اند و چه کار می کنند.
- نحوه عملکرد مدل خود و چرایی تصمیم گیری های خاص در مورد انتخاب ویژگی، مهندسی، و آموزش مدل را مستند کنید.
تفسیرپذیری
ایجاد یک سیستم ML قابل تفسیر یا قابل درک برای افراد غیر متخصص، یک جزء کلیدی برای ایجاد یک سیستم ML قابل کنترل است. برای ایجاد یک مدل قابل تفسیر، موارد زیر ملاحظات کلیدی و بهترین شیوه ها هستند:
- ساده تر اغلب بهتر است، و شما باید از استفاده از مدل های پیچیده تر خودداری کنید بدون اینکه ابتدا یک مدل ساده تر را امتحان کنید. به عبارت دیگر، اگر یک مدل رگرسیون لجستیک تقریباً به خوبی عمل می کند، از شبکه عصبی عمیق استفاده نکنید. در مواردی که مدل پیچیدهتری انتخاب میشود، باید مستندسازی و توجیه کنید که چرا چنین مدلی برای مورد استفاده تجاری مورد نیاز است.
- از یک تکنیک قابل توضیح رایج مانند لنگرها یا SHAP به مدل شما. اطمینان حاصل کنید که مدل از تفسیرپذیری محلی و همچنین جهانی تراکنشهای فردی پشتیبانی میکند.
- مطمئن شوید که مدل شما به طور مستقل از نظر دقت، زمینه تجاری و قابل درک بودن ارزیابی شده است، و زمانی که ورودیهای فردی ارائه میشوند، مطابق انتظار عمل میکند.
سررسید استقرار
بهعنوان یک سازمان فنی، بعد نهایی حکومتپذیری در بلوغ رویکرد شما نسبت به نحوه استقرار مدلها در تولید نهفته است. پیروی از مهندسی استاندارد و بهترین شیوههای توسعه API راه طولانی را به سمت هوش مصنوعی قابل کنترل خواهد برد. علاوه بر این، میخواهید روی استقرار یک مدل مقیاسپذیر تمرکز کنید که در هنگام مواجهه با ورودیهای مخالف و شوکهای حجم درخواست، قوی باشد. در اینجا چند روش خاص برای به کارگیری وجود دارد که ممکن است برای تیم شما مرتبط باشد:
- همه مدل ها را با استفاده از یک فرآیند استاندارد، مانند سیستم ارکستراسیون کانتینر، مستقر و تولید کنید. به طور خاص، شما باید یک فرآیند بازبینی کامل با همتایان داشته باشید تا اطمینان حاصل کنید که مهندسان نرم افزار فرصتی برای سخت کردن کد ایجاد شده توسط دانشمندان داده دارند، که ممکن است تجربه مشابهی در زمینه سخت کردن کد برای تولید نداشته باشند.
- کدهای پیش پردازش و پس پردازش را در اشیاء خط لوله یا فایل های منفرد برای بازتولید و قابلیت ممیزی محصور کنید. سرویسدهی مدل باید به یک فایل سرور که شی pipeline را بارگیری میکند (یا فایلهای pickle مدل و پردازش) و یک فایل Python که دارای پیشپردازش، پیشبینی مدل و منطق پس از پردازش است، جدا شود.
- تأیید کنید که همه ورودیهای مدل، نتایج، توضیحپذیری، و ابردادههای مربوطه با جزئیات کافی برای موارد پس از مرگ و قابلیت ردیابی تراکنشهای مدل ثبت شدهاند.
- به الگوی استاندارد استقرار REST API، به طور ایدهآل با یک راهحل کانتینری و محافظها در محل، پایبند باشید. شما باید از فرآیندهای پویا در منطق پیش پردازش و پس پردازش اجتناب کنید. اگر تماس قطعی باشد، مدل شما قابل تکرار نیست و بنابراین نمیتوان آن را به طور موثر اداره کرد.
- مطمئن شوید که معماری و امنیت برنامه شما در هنگام ساختن یک سیستم هوش مصنوعی پایدار و قابل اعتماد در مرکز قرار دارد. مدل، کد، مصنوعات و سیستمهای شما باید از اصل حداقل امتیاز و سایر روشهای امنیتی مرتبط برای سازمان شما پیروی کنند. همچنین باید کنترلهای دسترسی و امنیتی قوی (کنترلهای عمومی IT) برای محافظت از سیستم در برابر دستکاری داشته باشید.
- بررسی کنید که فرآیندهای نظارت برای شناسایی به موقع در صورت رفتار غیرمنتظره مدل کافی و مناسب هستند. رانش مفهومی مدل و رانش ویژگی مشکلات فراگیر در مدلهای یادگیری ماشین مستقر هستند. وجود نظارت در محل برای تشخیص زمانی که رانش شروع می شود برای استقرار موفقیت آمیز ML در طولانی مدت کاملا ضروری است.
- تأیید کنید که مدل به طور کامل و به طور معمول مورد آزمایش قرار گرفته است – به صورت دستی توسط یک شخص مستقل و غیر فنی با استفاده از کنترلهای استاندارد شده – برای اطمینان از اینکه مدل مطابق انتظار عمل میکند و در برابر ورودیهای متخاصم مقاوم است. آزمایشهای دورهای و یکباره دستی و اعتبارسنجی مدل برای اطمینان از اینکه مدل مطابق مورد نظر عمل میکند، بسیار مهم است.
کار و تمرکز زیادی در دهه گذشته برای جابجایی مرزهای الگوریتمهای پردازش داده و مدلسازی انجام شده است. در صنعت، بزرگترین شکاف اخیراً فقدان توانایی ساخت مدلهای یادگیری ماشین در پایتون نیست، بلکه نحوه مدیریت و استقرار صحیح چنین مدلهایی، بهویژه مدلهای با ریسک بالاتر در محیطهای بسیار تنظیمشده است.
تمرکز بر این بهترین شیوههای مهندسی، راه طولانی را به سوی ارائه مبانی فنی مورد نیاز برای ساخت مدلهای باکیفیت که میتوان به طور مؤثر اداره کرد، کمک خواهد کرد. مهمتر از همه، ارزیابهای عینی در داخل و خارج از سازمان، توانایی پیادهسازی خطوط دفاعی متعدد برای سازمان شما، هدایت مدل مدیریت ریسک و فعال کردن ممیزیهایی را خواهند داشت که بار کمتری را بر دوش تیمهای فنی قرار میدهد.
نتیجه نهایی ایجاد هوش مصنوعی قابل کنترل تر این است که تیم های فنی شما را آزاد کنید تا روی پیشرفت مدل های خود تمرکز کنند زیرا آنها اعتماد شرکای تجاری خود را به دست آورده اند.
اندرو کلارک موسس مدیر ارشد فناوری در Monitaur، یک شرکت تضمین مدیریت هوش مصنوعی و ML است. اندرو که یک متخصص حوزه مورد اعتماد بود، راهحلهای حسابرسی ML را در Capital One ساخت و به کار گرفت و بهعنوان اقتصاددان و مشاور مدلسازی برای چندین پروژه رمزنگاری بسیار برجسته در Block Science خدمت کرد. او در حال حاضر یکی از همکاران کلیدی در استانداردهای ISO AI، راهنمای حسابرسی ISACA ML، و چارچوب حسابرسی هوش مصنوعی ICO است. با اندرو در LinkedIn ارتباط برقرار کنید ، و درباره Monitaur در www.monitaur.ai بیشتر بیاموزید a>.
—
انجمن فناوری جدید مکانی را برای کاوش و بحث در مورد فناوری سازمانی نوظهور در عمق و وسعت بی سابقه ای فراهم می کند. انتخاب ذهنی است، بر اساس انتخاب ما از فناوری هایی که معتقدیم مهم هستند و برای خوانندگان InfoWorld بیشترین علاقه را دارند. InfoWorld وثیقه بازاریابی را برای انتشار نمی پذیرد و حق ویرایش تمام محتوای ارائه شده را برای خود محفوظ می دارد. همه سوالات را به newtechforum@infoworld.com ارسال کنید.
پست های مرتبط
بهترین شیوه ها برای توسعه هوش مصنوعی قابل کنترل
بهترین شیوه ها برای توسعه هوش مصنوعی قابل کنترل
بهترین شیوه ها برای توسعه هوش مصنوعی قابل کنترل