یادگیری ماشینی انسان در حلقه از بازخورد انسان برای حذف خطاها در داده های آموزشی و بهبود دقت مدل ها استفاده می کند.
مدلهای یادگیری ماشینی اغلب با کامل بودن فاصله زیادی دارند. هنگام استفاده از پیشبینیهای مدل برای اهدافی که بر زندگی افراد تأثیر میگذارد، مانند طبقهبندی تأیید وام، توصیه میشود که انسان حداقل برخی از پیشبینیها را مرور کند: آنهایی که اعتماد پایینی دارند، آنهایی که خارج از محدوده هستند، و یک نمونه تصادفی برای کیفیت. کنترل کنید.
علاوه بر این، فقدان دادههای برچسبگذاریشده خوب (حاشیهنویسی شده) اغلب باعث میشود که یادگیری تحت نظارت به سختی راهاندازی شود (مگر اینکه استادی با دانشجویان فارغالتحصیل بیکار باشید). یکی از راههای پیادهسازی یادگیری نیمهنظارتشده از دادههای بدون برچسب این است که انسانها برخی از دادهها را برای ایجاد یک مدل برچسبگذاری کنند، پیشبینیهای با اطمینان بالا یک مدل موقت (یا یک مدل یادگیری انتقالی) را برای برچسبگذاری اعمال کنند. دادههای بیشتر (برچسبگذاری خودکار)، و پیشبینیهای کماعتماد برای بررسی انسانی (یادگیری فعال) ارسال کنید. این فرآیند را می توان تکرار کرد، و در عمل تمایل دارد از مسیری به پاس دیگر بهبود یابد.
به طور خلاصه، یادگیری ماشینی انسان در حلقه به بازخورد انسان برای بهبود کیفیت دادههای مورد استفاده برای آموزش مدلهای یادگیری ماشینی متکی است. به طور کلی، فرآیند یادگیری ماشینی انسان در حلقه شامل نمونهبرداری از دادههای خوب برای برچسبگذاری (حاشیهنویسی)، استفاده از آن دادهها برای آموزش یک مدل، و استفاده از آن مدل برای نمونهگیری دادههای بیشتر برای حاشیهنویسی است. تعدادی از خدمات برای مدیریت این فرآیند در دسترس است.
Amazon SageMaker Ground Truth
Amazon SageMaker دو سرویس برچسبگذاری داده، Amazon SageMaker Ground Truth Plus و Amazon را ارائه میدهد. SageMaker Ground Truth. هر دو گزینه به شما امکان میدهند دادههای خام مانند تصاویر، فایلهای متنی و ویدیوها را شناسایی کنید و برچسبهای آموزنده را برای ایجاد مجموعه دادههای آموزشی با کیفیت بالا برای مدلهای یادگیری ماشین خود اضافه کنید. در Ground Truth Plus، کارشناسان آمازون گردشهای کاری برچسبگذاری دادههای شما را از طرف شما تنظیم میکنند و این فرآیند از پیشآموزش و اعتبارسنجی ماشینی برچسبگذاری انسانی استفاده میکند.
Amazon Augmented AI
در حالی که Amazon SageMaker Ground Truth برچسب گذاری داده های اولیه را انجام می دهد، Amazon Augmented AI (Amazon A2I) بررسی انسانی پیشبینیهای کماعتماد یا نمونههای پیشبینی تصادفی از مدلهای مستقر را ارائه میدهد. هوش مصنوعی افزوده هم ایجاد گردش کار بررسی و هم بازبین های انسانی را مدیریت می کند. علاوه بر مدلهای مستقر در نقطه پایانی Amazon SageMaker، با AWS AI و خدمات یادگیری ماشین ادغام میشود.
DataRobot human-in-the-loop
DataRobot یک ویژگی Humble AI دارد که به شما امکان می دهد تنظیم کنید قوانینی برای تشخیص پیشبینیهای نامشخص، ورودیهای دور و مناطق مشاهده کم. این قوانین می توانند سه عمل ممکن را ایجاد کنند: بدون عملیات (فقط نظارت). نادیده گرفتن پیش بینی (معمولا با یک مقدار “ایمن”)؛ یا خطا را برگردانید (پیش بینی را کنار بگذارید). DataRobot مقالاتی در مورد انسان در حلقه نوشته است، اما من جز قوانین فروتنی هیچ اجرایی در سایت آنها پیدا نمی کنم.
Google Cloud Human-in-the-Loop
Google Cloud پردازش Human-in-the-Loop (HITL) یکپارچه با خدمات هوش مصنوعی سند آن، اما انگار این نوشته، چیزی برای پردازش تصویر یا ویدیو نیست. در حال حاضر، Google از گردش کار بررسی HITL برای پردازنده های زیر پشتیبانی می کند:
- فاکتورها
- رسیدها
- ۱۰۰۳ تجزیه کننده
- تجزیه کننده ۱۰۴۰
- ۱۰۴۰ جدول C تجزیه کننده
- ۱۰۴۰ جدول E تجزیه کننده
- ۱۰۹۹-DIV تجزیه کننده
- ۱۰۹۹-G تجزیه کننده
- ۱۰۹۹-INT تجزیه کننده
- ۱۰۹۹-MISC تجزیه کننده
- تجزیه کننده صورتحساب بانکی
- تجزیه کننده بیانیه HOA
- تجزیه کننده صورت وضعیت وام مسکن
- تجزیه کننده فیش پرداخت
- تجزیه کننده صورت وضعیت بازنشستگی/سرمایه گذاری
- تجزیه کننده W2
- تجزیه کننده W9
نرم افزار Human-in-the-Loop
تنظیم حاشیهنویسی تصویر انسانی، مانند طبقهبندی تصویر، تشخیص اشیا، و تقسیمبندی معنایی، برای برچسبگذاری مجموعه دادهها دشوار است. خوشبختانه، بسیاری از ابزارهای منبع باز و تجاری خوب وجود دارد که تگرها می توانند از آنها استفاده کنند.
انسانها در حلقه، شرکتی که خود را بهعنوان یک شرکت اجتماعی توصیف میکند که انسانهای اخلاقی را در محیط ارائه میکند. حلقه راه حل های نیروی کار برای تقویت صنعت هوش مصنوعی، به طور دوره ای در مورد ابزارهای حاشیه نویسی مورد علاقه خود وبلاگ می نویسند. در جدیدترین این وبلاگ پست ها، آنها ۱۰ ابزار حاشیه نویسی منبع باز را برای بینایی کامپیوتر فهرست می کنند: Label Studio، Diffgram، LabelImg، CVAT، ImageTagger، LabelMe، VIA، Make Sense، COCO Annotator و DataTurks. این ابزارها بیشتر برای حاشیه نویسی مجموعه آموزشی اولیه استفاده می شوند و برخی می توانند تیم هایی از حاشیه نویس ها را مدیریت کنند.
برای انتخاب یکی از این ابزارهای حاشیه نویسی به عنوان مثال، ابزار حاشیه نویسی بینایی رایانه (CVAT) ” دارای ویژگی ها و قابلیت های بسیار قدرتمند و به روز است و در کروم اجرا می شود. این هنوز هم یکی از ابزارهای اصلی است که هم ما و هم مشتریانمان برای برچسب زدن از آن استفاده می کنیم، با توجه به اینکه بسیار سریعتر از بسیاری از ابزارهای موجود در بازار است.”
CVAT README در GitHub میگوید: «CVAT یک ابزار حاشیهنویسی عکس و ویدیو رایگان، آنلاین و تعاملی برای بینایی رایانه است. تیم ما از آن برای حاشیه نویسی میلیون ها شی با ویژگی های مختلف استفاده می کند. بسیاری از تصمیمات UI و UX بر اساس بازخورد تیم های حرفه ای حاشیه نویسی داده ها است. آن را به صورت آنلاین در cvat.org امتحان کنید.” توجه داشته باشید که برای اجرای دمو باید یک لاگین ایجاد کنید.
CVAT تحت مجوز MIT به منبع باز منتشر شد. اکثر کامیترهای فعال برای اینتل در نیژنی نووگورود روسیه کار می کنند. برای مشاهده مراحل تکمیلی فرآیند برچسبگذاری، ویدیوی معرفی CVAT را تماشا کنید.
همانطور که دیدیم، پردازش انسان در حلقه میتواند در دو مرحله به فرآیند یادگیری ماشین کمک کند: ایجاد اولیه مجموعه دادههای برچسبگذاری شده برای یادگیری تحت نظارت، و بررسی و تصحیح پیشبینیهای احتمالاً مشکلساز هنگام اجرای برنامه مدل. مورد اول به شما کمک می کند مدل را بوت استرپ کنید و دومی به شما کمک می کند مدل را تنظیم کنید.
پست های مرتبط
یادگیری ماشینی انسان در حلقه چیست؟ داده های بهتر، مدل های بهتر
یادگیری ماشینی انسان در حلقه چیست؟ داده های بهتر، مدل های بهتر
یادگیری ماشینی انسان در حلقه چیست؟ داده های بهتر، مدل های بهتر