۳۰ شهریور ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

یادگیری ماشینی انسان در حلقه چیست؟ داده های بهتر، مدل های بهتر

یادگیری ماشینی انسان در حلقه از بازخورد انسان برای حذف خطاها در داده های آموزشی و بهبود دقت مدل ها استفاده می کند.

یادگیری ماشینی انسان در حلقه از بازخورد انسان برای حذف خطاها در داده های آموزشی و بهبود دقت مدل ها استفاده می کند.

مدل‌های یادگیری ماشینی اغلب با کامل بودن فاصله زیادی دارند. هنگام استفاده از پیش‌بینی‌های مدل برای اهدافی که بر زندگی افراد تأثیر می‌گذارد، مانند طبقه‌بندی تأیید وام، توصیه می‌شود که انسان حداقل برخی از پیش‌بینی‌ها را مرور کند: آن‌هایی که اعتماد پایینی دارند، آن‌هایی که خارج از محدوده هستند، و یک نمونه تصادفی برای کیفیت. کنترل کنید.

علاوه بر این، فقدان داده‌های برچسب‌گذاری‌شده خوب (حاشیه‌نویسی شده) اغلب باعث می‌شود که یادگیری تحت نظارت به سختی راه‌اندازی شود (مگر اینکه استادی با دانشجویان فارغ‌التحصیل بیکار باشید). یکی از راه‌های پیاده‌سازی یادگیری نیمه‌نظارت‌شده از داده‌های بدون برچسب این است که انسان‌ها برخی از داده‌ها را برای ایجاد یک مدل برچسب‌گذاری کنند، پیش‌بینی‌های با اطمینان بالا یک مدل موقت (یا یک مدل یادگیری انتقالی) را برای برچسب‌گذاری اعمال کنند. داده‌های بیشتر (برچسب‌گذاری خودکار)، و پیش‌بینی‌های کم‌اعتماد برای بررسی انسانی (یادگیری فعال) ارسال کنید. این فرآیند را می توان تکرار کرد، و در عمل تمایل دارد از مسیری به پاس دیگر بهبود یابد.

به طور خلاصه، یادگیری ماشینی انسان در حلقه به بازخورد انسان برای بهبود کیفیت داده‌های مورد استفاده برای آموزش مدل‌های یادگیری ماشینی متکی است. به طور کلی، فرآیند یادگیری ماشینی انسان در حلقه شامل نمونه‌برداری از داده‌های خوب برای برچسب‌گذاری (حاشیه‌نویسی)، استفاده از آن داده‌ها برای آموزش یک مدل، و استفاده از آن مدل برای نمونه‌گیری داده‌های بیشتر برای حاشیه‌نویسی است. تعدادی از خدمات برای مدیریت این فرآیند در دسترس است.

Qdrant از جستجوی ترکیبی مبتنی بر برداری برای RAG پرده برداری کرد

Amazon SageMaker Ground Truth

Amazon SageMaker دو سرویس برچسب‌گذاری داده، Amazon SageMaker Ground Truth Plus و Amazon را ارائه می‌دهد. SageMaker Ground Truth. هر دو گزینه به شما امکان می‌دهند داده‌های خام مانند تصاویر، فایل‌های متنی و ویدیوها را شناسایی کنید و برچسب‌های آموزنده را برای ایجاد مجموعه داده‌های آموزشی با کیفیت بالا برای مدل‌های یادگیری ماشین خود اضافه کنید. در Ground Truth Plus، کارشناسان آمازون گردش‌های کاری برچسب‌گذاری داده‌های شما را از طرف شما تنظیم می‌کنند و این فرآیند از پیش‌آموزش و اعتبارسنجی ماشینی برچسب‌گذاری انسانی استفاده می‌کند.

Amazon Augmented AI

در حالی که Amazon SageMaker Ground Truth برچسب گذاری داده های اولیه را انجام می دهد، Amazon Augmented AI (Amazon A2I) بررسی انسانی پیش‌بینی‌های کم‌اعتماد یا نمونه‌های پیش‌بینی تصادفی از مدل‌های مستقر را ارائه می‌دهد. هوش مصنوعی افزوده هم ایجاد گردش کار بررسی و هم بازبین های انسانی را مدیریت می کند. علاوه بر مدل‌های مستقر در نقطه پایانی Amazon SageMaker، با AWS AI و خدمات یادگیری ماشین ادغام می‌شود.

DataRobot human-in-the-loop

DataRobot یک ویژگی Humble AI دارد که به شما امکان می دهد تنظیم کنید قوانینی برای تشخیص پیش‌بینی‌های نامشخص، ورودی‌های دور و مناطق مشاهده کم. این قوانین می توانند سه عمل ممکن را ایجاد کنند: بدون عملیات (فقط نظارت). نادیده گرفتن پیش بینی (معمولا با یک مقدار “ایمن”)؛ یا خطا را برگردانید (پیش بینی را کنار بگذارید). DataRobot مقالاتی در مورد انسان در حلقه نوشته است، اما من جز قوانین فروتنی هیچ اجرایی در سایت آنها پیدا نمی کنم.

PostgreSQL 15 مدیریت حجم کار را ساده می کند و عملکرد را بهبود می بخشد

Google Cloud Human-in-the-Loop

Google Cloud پردازش Human-in-the-Loop (HITL) یکپارچه با خدمات هوش مصنوعی سند آن، اما انگار این نوشته، چیزی برای پردازش تصویر یا ویدیو نیست. در حال حاضر، Google از گردش کار بررسی HITL برای پردازنده های زیر پشتیبانی می کند:

  • فاکتورها
  • رسیدها
  • ۱۰۰۳ تجزیه کننده
  • تجزیه کننده ۱۰۴۰
  • ۱۰۴۰ جدول C تجزیه کننده
  • ۱۰۴۰ جدول E تجزیه کننده
  • ۱۰۹۹-DIV تجزیه کننده
  • ۱۰۹۹-G تجزیه کننده
  • ۱۰۹۹-INT تجزیه کننده
  • ۱۰۹۹-MISC تجزیه کننده
  • تجزیه کننده صورتحساب بانکی
  • تجزیه کننده بیانیه HOA
  • تجزیه کننده صورت وضعیت وام مسکن
  • تجزیه کننده فیش پرداخت
  • تجزیه کننده صورت وضعیت بازنشستگی/سرمایه گذاری
  • تجزیه کننده W2
  • تجزیه کننده W9

نرم افزار Human-in-the-Loop

تنظیم حاشیه‌نویسی تصویر انسانی، مانند طبقه‌بندی تصویر، تشخیص اشیا، و تقسیم‌بندی معنایی، برای برچسب‌گذاری مجموعه داده‌ها دشوار است. خوشبختانه، بسیاری از ابزارهای منبع باز و تجاری خوب وجود دارد که تگرها می توانند از آنها استفاده کنند.

انسان‌ها در حلقه، شرکتی که خود را به‌عنوان یک شرکت اجتماعی توصیف می‌کند که انسان‌های اخلاقی را در محیط ارائه می‌کند. حلقه راه حل های نیروی کار برای تقویت صنعت هوش مصنوعی، به طور دوره ای در مورد ابزارهای حاشیه نویسی مورد علاقه خود وبلاگ می نویسند. در جدیدترین این وبلاگ پست ها، آنها ۱۰ ابزار حاشیه نویسی منبع باز را برای بینایی کامپیوتر فهرست می کنند: Label Studio، Diffgram، LabelImg، CVAT، ImageTagger، LabelMe، VIA، Make Sense، COCO Annotator و DataTurks. این ابزارها بیشتر برای حاشیه نویسی مجموعه آموزشی اولیه استفاده می شوند و برخی می توانند تیم هایی از حاشیه نویس ها را مدیریت کنند.

Bytecode Alliance می گوید WASIX مشخصات رابط سیستم WebAssembly را تضعیف می کند

برای انتخاب یکی از این ابزارهای حاشیه نویسی به عنوان مثال، ابزار حاشیه نویسی بینایی رایانه (CVAT) ” دارای ویژگی ها و قابلیت های بسیار قدرتمند و به روز است و در کروم اجرا می شود. این هنوز هم یکی از ابزارهای اصلی است که هم ما و هم مشتریانمان برای برچسب زدن از آن استفاده می کنیم، با توجه به اینکه بسیار سریعتر از بسیاری از ابزارهای موجود در بازار است.”

CVAT README در GitHub می‌گوید: «CVAT یک ابزار حاشیه‌نویسی عکس و ویدیو رایگان، آنلاین و تعاملی برای بینایی رایانه است. تیم ما از آن برای حاشیه نویسی میلیون ها شی با ویژگی های مختلف استفاده می کند. بسیاری از تصمیمات UI و UX بر اساس بازخورد تیم های حرفه ای حاشیه نویسی داده ها است. آن را به صورت آنلاین در cvat.org امتحان کنید.” توجه داشته باشید که برای اجرای دمو باید یک لاگین ایجاد کنید.

CVAT تحت مجوز MIT به منبع باز منتشر شد. اکثر کامیترهای فعال برای اینتل در نیژنی نووگورود روسیه کار می کنند. برای مشاهده مراحل تکمیلی فرآیند برچسب‌گذاری، ویدیوی معرفی CVAT را تماشا کنید.

انسان در حلقه ml cvat

همانطور که دیدیم، پردازش انسان در حلقه می‌تواند در دو مرحله به فرآیند یادگیری ماشین کمک کند: ایجاد اولیه مجموعه داده‌های برچسب‌گذاری شده برای یادگیری تحت نظارت، و بررسی و تصحیح پیش‌بینی‌های احتمالاً مشکل‌ساز هنگام اجرای برنامه مدل. مورد اول به شما کمک می کند مدل را بوت استرپ کنید و دومی به شما کمک می کند مدل را تنظیم کنید.