۲۹ شهریور ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

حل مشکل کیفیت داده در هوش مصنوعی مولد

دیگر مهم نیست که مدل شما چقدر خوب است، بلکه مهم است که داده های شما چقدر خوب است. چرا حفظ حریم خصوصی داده های مصنوعی کلیدی برای مقیاس بندی هوش مصنوعی است.

دیگر مهم نیست که مدل شما چقدر خوب است، بلکه مهم است که داده های شما چقدر خوب است. چرا حفظ حریم خصوصی داده های مصنوعی کلیدی برای مقیاس بندی هوش مصنوعی است.

پتانسیل هوش مصنوعی مولد هم کسب‌وکارها و هم مصرف‌کنندگان را مجذوب خود کرده است، اما نگرانی‌های فزاینده در مورد مسائلی مانند حریم خصوصی، دقت و تعصب باعث ایجاد یک سوال داغ شده است: ما به این مدل‌ها چه می‌دهیم؟

عرضه فعلی داده های عمومی برای تولید مدل های هدف عمومی با کیفیت بالا کافی بوده است، اما برای تامین مدل های تخصصی مورد نیاز شرکت ها کافی نیست. در همین حال، مقررات هوش مصنوعی در حال ظهور مدیریت و پردازش ایمن داده های حساس خام در دامنه خصوصی را دشوارتر می کند. توسعه‌دهندگان به منابع داده‌ای غنی‌تر و پایدارتر نیاز دارند – دلیلی که بسیاری از شرکت‌های پیشرو فناوری به داده‌های مصنوعی روی می‌آورند.

در اوایل سال جاری، شرکت‌های بزرگ هوش مصنوعی مانند Google و Anthropic شروع به استفاده از داده‌های مصنوعی برای آموزش مدل‌هایی مانند جما و کلود. حتی اخیراً، Llama 3 متا و مایکروسافت < a href="https://news.microsoft.com/source/features/ai/the-phi-3-small-language-models-with-big-potential/" rel="nofollow">Phi-3 منتشر شد، هر دو تا حدی بر روی داده های مصنوعی آموزش دیدند و هر دو دستاوردهای عملکرد قوی را به استفاده از داده های مصنوعی نسبت دادند.

پس از این دستاوردها، کاملاً مشخص شده است که داده های مصنوعی برای مقیاس بندی نوآوری هوش مصنوعی ضروری است. در عین حال، بدیهی است که در مورد کیفیت داده‌های مصنوعی، تردید و ترس زیادی وجود دارد. اما در واقعیت، داده‌های مصنوعی نویدهای زیادی برای رسیدگی به چالش‌های کیفی داده‌های گسترده‌تر که توسعه‌دهندگان با آن دست و پنجه نرم می‌کنند، دارد. در اینجا دلیل است.

کیفیت داده در عصر هوش مصنوعی

به‌طور سنتی، صنایعی که از «داده‌های بزرگ» لازم برای آموزش مدل‌های هوش مصنوعی قدرتمند استفاده می‌کنند، کیفیت داده‌ها را با «سه برابر» (حجم، سرعت، تنوع) تعریف می‌کنند. این چارچوب< /a> به برخی از رایج‌ترین چالش‌هایی که شرکت‌ها با «داده‌های کثیف» (داده‌های قدیمی، ناامن، ناقص، نادرست، و غیره) یا ناکافی بودن داده‌های آموزشی با آن مواجه هستند، می‌پردازد. اما در زمینه آموزش هوش مصنوعی مدرن، دو بعد اضافی وجود دارد که باید در نظر گرفته شود: صحت (دقت و کاربرد داده ها) و حریم خصوصی (اطمینان از اینکه داده های اصلی به خطر نمی افتد). در غیاب هر یک از این پنج عنصر، گلوگاه های کیفیت داده که عملکرد مدل و ارزش تجاری را مختل می کند، ناگزیر به وجود می آیند. حتی مشکل سازتر، شرکت ها در معرض خطر عدم رعایت، جریمه های سنگین و از دست دادن اعتماد مشتریان و شرکا هستند.

14 LLM که ChatGPT نیستند

مارک زاکربرگ و داریو آمودی همچنین به اهمیت بازآموزی مدل ها با داده های تازه و با کیفیت بالا برای ساخت و مقیاس اشاره کرده است. نسل بعدی سیستم های هوش مصنوعی با این حال، انجام این کار به موتورهای پیچیده تولید داده، فناوری‌های افزایش دهنده حریم خصوصی و مکانیسم‌های اعتبارسنجی نیاز دارد تا در چرخه عمر آموزش هوش مصنوعی قرار بگیرند. این رویکرد جامع برای استفاده ایمن از «داده‌های اولیه» در دنیای واقعی، که اغلب حاوی اطلاعات شخصی قابل شناسایی (PII) است، برای ایجاد بینش‌های واقعاً جدید ضروری است. این تضمین می کند که مدل های هوش مصنوعی به طور مداوم در حال یادگیری و تطبیق با رویدادهای پویا و دنیای واقعی هستند. با این حال، برای انجام این کار ایمن و در مقیاس، ابتدا باید مشکل حریم خصوصی حل شود. اینجاست که تولید داده های مصنوعی با حفظ حریم خصوصی وارد عمل می شود.

بسیاری از LLM های امروزی کاملاً با داده های عمومی آموزش می بینند، روشی که گلوگاهی مهم برای نوآوری با هوش مصنوعی ایجاد می کند. اغلب به دلایل حفظ حریم خصوصی و انطباق، نمی‌توان از داده‌های ارزشمندی که کسب‌وکارها مانند سوابق پزشکی بیمار، رونوشت‌های مرکز تماس و حتی یادداشت‌های پزشکان جمع‌آوری می‌کنند، برای آموزش مدل استفاده کرد. این را می توان با یک رویکرد حفظ حریم خصوصی به نام حریم خصوصی تفاضلی حل کرد، که امکان تولید داده های مصنوعی با تضمین حریم خصوصی ریاضی را فراهم می کند.

پیشرفت عمده بعدی در هوش مصنوعی بر روی داده هایی ساخته خواهد شد که امروزه عمومی نیستند. سازمان‌هایی که موفق به آموزش مدل‌های ایمن بر روی داده‌های حساس و کنترل‌شده توسط نظارت می‌شوند، به عنوان رهبران عصر هوش مصنوعی ظاهر خواهند شد.

چه چیزی به عنوان داده مصنوعی با کیفیت بالا واجد شرایط است؟

ابتدا، اجازه دهید داده های مصنوعی را تعریف کنیم. «داده‌های مصنوعی» مدت‌ها است که واژه‌ای بی‌سابقه است که به هر داده تولید شده توسط هوش مصنوعی اشاره دارد. اما این تعریف گسترده، تنوع در نحوه تولید داده‌ها و پایان چه را نادیده می‌گیرد. برای مثال، ایجاد داده‌های تست نرم‌افزار یک چیز است و آموزش یک مدل هوش مصنوعی مولد بر روی سوابق پزشکی مصنوعی ۱M بیمار.

از اولین ظهور آن پیشرفت قابل توجهی در تولید داده های مصنوعی صورت گرفته است. امروزه، استانداردهای داده های مصنوعی بسیار بالاتر است، به ویژه هنگامی که ما در مورد آموزش مدل های هوش مصنوعی تجاری صحبت می کنیم. برای آموزش هوش مصنوعی درجه سازمانی، فرآیندهای داده مصنوعی باید شامل موارد زیر باشد:

  • سیستم‌های تشخیص و تبدیل داده‌های حساس پیشرفته. این فرآیندها می‌توانند تا حدی خودکار باشند، اما باید شامل درجه‌ای از نظارت انسانی باشند.
  • تولید از طریق ترانسفورماتورهای از پیش آموزش دیده و معماری های مبتنی بر عامل. این شامل هماهنگ‌سازی چندین شبکه عصبی عمیق در یک سیستم مبتنی بر عامل است و کافی‌ترین مدل (یا ترکیبی از مدل‌ها) را برای رسیدگی به هر ورودی داده شده توانمند می‌سازد.
  • حریم خصوصی متفاوت در سطح آموزش مدل. وقتی توسعه‌دهندگان مدل‌های داده مصنوعی را روی مجموعه داده‌های واقعی خود آموزش می‌دهند، نویز در اطراف هر نقطه داده اضافه می‌شود تا اطمینان حاصل شود که هیچ نقطه داده واحدی قابل ردیابی یا آشکار نیست.
  • دقت و کاربرد قابل اندازه گیری و حفاظت از حریم خصوصی قابل اثبات. ارزیابی و آزمایش ضروری است و با وجود قدرت هوش مصنوعی، انسان ها بخش مهمی از معادله باقی می مانند. مجموعه داده‌های ترکیبی باید از نظر دقت در داده‌های اصلی، استنباط در مورد وظایف خاص پایین دستی، و تضمین حفظ حریم خصوصی قابل اثبات ارزیابی شوند.
  • تیم‌های ارزیابی، اعتبارسنجی و هم‌ترازی داده‌ها. نظارت انسانی باید در فرآیند داده های ترکیبی گنجانده شود تا اطمینان حاصل شود که خروجی های تولید شده اخلاقی و همسو با سیاست های عمومی هستند.
Mastodon، Steampipe و RSS

وقتی داده‌های مصنوعی معیارهای بالا را برآورده می‌کنند، به همان اندازه موثر یا بهتر از داده‌های دنیای واقعی هستند. در بهبود عملکرد هوش مصنوعی. این قدرت نه تنها حفاظت از اطلاعات خصوصی، بلکه برای متعادل کردن یا تقویت رکوردهای موجود، و شبیه سازی نمونه های جدید و متنوع برای پر کردن شکاف های مهم در داده های آموزشی را دارد. همچنین می‌تواند میزان آموزش مورد نیاز توسعه‌دهندگان داده را کاهش دهد و چرخه‌های آزمایش، ارزیابی و استقرار را به‌طور چشمگیری تسریع کند.

اما در مورد فروپاشی مدل چطور؟

یکی از بزرگترین تصورات غلط پیرامون داده های مصنوعی، فروپاشی مدل است. با این حال، فروپاشی مدل ناشی از تحقیقاتی است که واقعاً در مورد داده های مصنوعی نیست. این در مورد حلقه‌های بازخورد در هوش مصنوعی و سیستم‌های یادگیری ماشینی و نیاز به مدیریت بهتر داده است.

به عنوان مثال، مسئله اصلی مطرح شده در مقاله نفرین بازگشت: آموزش در مورد داده های تولید شده باعث می شود مدل ها فراموش شوند این است که نسل‌های آینده مدل‌های زبان بزرگ ممکن است به دلیل داده‌های آموزشی که حاوی داده‌های ایجاد شده توسط نسل‌های قدیمی LLM هستند معیوب باشند. مهم‌ترین نکته این تحقیق این است که مدل‌ها برای عملکرد و پایدار ماندن نیاز به یک جریان ثابت از داده‌های آموزشی با کیفیت بالا و کار خاص دارند. برای اکثر برنامه‌های کاربردی هوش مصنوعی با ارزش، این به معنای داده‌های تازه و زمان واقعی است که مبتنی بر واقعیتی است که این مدل‌ها باید در آن کار کنند. از آنجا که این اغلب شامل داده‌های حساس می‌شود، به زیرساخت‌هایی نیز برای ناشناس کردن، تولید نیاز دارد. ، و مقادیر زیادی از داده ها را ارزیابی کنید – با انسان هایی که در حلقه بازخورد دخیل هستند.

EDB از هوش مصنوعی EDB Postgres رونمایی کرد

بدون توانایی استفاده از داده‌های حساس به صورت ایمن، به‌موقع و مداوم، توسعه‌دهندگان هوش مصنوعی به مبارزه با توهمات مدل و فروپاشی مدل ادامه خواهند داد. به همین دلیل است که داده های مصنوعی با کیفیت بالا و حفظ حریم خصوصی یک راه حل برای فروپاشی مدل است، نه علت. این یک رابط خصوصی و قانع‌کننده برای داده‌های حساس بی‌درنگ فراهم می‌کند و به توسعه‌دهندگان اجازه می‌دهد تا با خیال راحت مدل‌های دقیق‌تر، به‌موقع و تخصصی‌تری بسازند.

بالاترین کیفیت داده مصنوعی است

از آنجایی که داده‌های با کیفیت بالا در حوزه عمومی به پایان رسیده است، توسعه‌دهندگان هوش مصنوعی تحت فشار شدیدی برای استفاده از منابع داده اختصاصی هستند. داده‌های مصنوعی قابل اعتمادترین و مؤثرترین ابزار برای تولید داده‌های با کیفیت بالا، بدون به خطر انداختن عملکرد یا حریم خصوصی هستند.

برای رقابتی ماندن در چشم‌انداز سریع هوش مصنوعی امروزی، داده‌های مصنوعی به ابزاری تبدیل شده‌اند که توسعه‌دهندگان نمی‌توانند از آن چشم پوشی کنند.

الکس واتسون یکی از بنیانگذاران و مدیر تولید در گرتل است.

Generative AI Insights مکانی را برای رهبران فناوری – از جمله فروشندگان و سایر مشارکت‌کنندگان خارجی – فراهم می‌کند تا چالش‌ها و فرصت‌های هوش مصنوعی مولد را بررسی و بحث کنند. این انتخاب گسترده است، از غواصی عمیق فناوری گرفته تا مطالعات موردی گرفته تا نظرات متخصص، اما همچنین ذهنی است، بر اساس قضاوت ما در مورد اینکه کدام موضوعات و درمان ها به بهترین وجه به مخاطبان فنی پیشرفته InfoWorld خدمت می کنند. InfoWorld وثیقه بازاریابی را برای انتشار نمی پذیرد و حق ویرایش تمام محتوای ارائه شده را برای خود محفوظ می دارد. تماس با doug_dineley@foundryco.com.