دیگر مهم نیست که مدل شما چقدر خوب است، بلکه مهم است که داده های شما چقدر خوب است. چرا حفظ حریم خصوصی داده های مصنوعی کلیدی برای مقیاس بندی هوش مصنوعی است.
پتانسیل هوش مصنوعی مولد هم کسبوکارها و هم مصرفکنندگان را مجذوب خود کرده است، اما نگرانیهای فزاینده در مورد مسائلی مانند حریم خصوصی، دقت و تعصب باعث ایجاد یک سوال داغ شده است: ما به این مدلها چه میدهیم؟ p>
عرضه فعلی داده های عمومی برای تولید مدل های هدف عمومی با کیفیت بالا کافی بوده است، اما برای تامین مدل های تخصصی مورد نیاز شرکت ها کافی نیست. در همین حال، مقررات هوش مصنوعی در حال ظهور مدیریت و پردازش ایمن داده های حساس خام در دامنه خصوصی را دشوارتر می کند. توسعهدهندگان به منابع دادهای غنیتر و پایدارتر نیاز دارند – دلیلی که بسیاری از شرکتهای پیشرو فناوری به دادههای مصنوعی روی میآورند.
در اوایل سال جاری، شرکتهای بزرگ هوش مصنوعی مانند Google و Anthropic شروع به استفاده از دادههای مصنوعی برای آموزش مدلهایی مانند جما و کلود. حتی اخیراً، Llama 3 متا و مایکروسافت < a href="https://news.microsoft.com/source/features/ai/the-phi-3-small-language-models-with-big-potential/" rel="nofollow">Phi-3 a> منتشر شد، هر دو تا حدی بر روی داده های مصنوعی آموزش دیدند و هر دو دستاوردهای عملکرد قوی را به استفاده از داده های مصنوعی نسبت دادند.
پس از این دستاوردها، کاملاً مشخص شده است که داده های مصنوعی برای مقیاس بندی نوآوری هوش مصنوعی ضروری است. در عین حال، بدیهی است که در مورد کیفیت دادههای مصنوعی، تردید و ترس زیادی وجود دارد. اما در واقعیت، دادههای مصنوعی نویدهای زیادی برای رسیدگی به چالشهای کیفی دادههای گستردهتر که توسعهدهندگان با آن دست و پنجه نرم میکنند، دارد. در اینجا دلیل است.
کیفیت داده در عصر هوش مصنوعی
بهطور سنتی، صنایعی که از «دادههای بزرگ» لازم برای آموزش مدلهای هوش مصنوعی قدرتمند استفاده میکنند، کیفیت دادهها را با «سه برابر» (حجم، سرعت، تنوع) تعریف میکنند. این چارچوب< /a> به برخی از رایجترین چالشهایی که شرکتها با «دادههای کثیف» (دادههای قدیمی، ناامن، ناقص، نادرست، و غیره) یا ناکافی بودن دادههای آموزشی با آن مواجه هستند، میپردازد. اما در زمینه آموزش هوش مصنوعی مدرن، دو بعد اضافی وجود دارد که باید در نظر گرفته شود: صحت (دقت و کاربرد داده ها) و حریم خصوصی (اطمینان از اینکه داده های اصلی به خطر نمی افتد). در غیاب هر یک از این پنج عنصر، گلوگاه های کیفیت داده که عملکرد مدل و ارزش تجاری را مختل می کند، ناگزیر به وجود می آیند. حتی مشکل سازتر، شرکت ها در معرض خطر عدم رعایت، جریمه های سنگین و از دست دادن اعتماد مشتریان و شرکا هستند.
مارک زاکربرگ و داریو آمودی همچنین به اهمیت بازآموزی مدل ها با داده های تازه و با کیفیت بالا برای ساخت و مقیاس اشاره کرده است. نسل بعدی سیستم های هوش مصنوعی با این حال، انجام این کار به موتورهای پیچیده تولید داده، فناوریهای افزایش دهنده حریم خصوصی و مکانیسمهای اعتبارسنجی نیاز دارد تا در چرخه عمر آموزش هوش مصنوعی قرار بگیرند. این رویکرد جامع برای استفاده ایمن از «دادههای اولیه» در دنیای واقعی، که اغلب حاوی اطلاعات شخصی قابل شناسایی (PII) است، برای ایجاد بینشهای واقعاً جدید ضروری است. این تضمین می کند که مدل های هوش مصنوعی به طور مداوم در حال یادگیری و تطبیق با رویدادهای پویا و دنیای واقعی هستند. با این حال، برای انجام این کار ایمن و در مقیاس، ابتدا باید مشکل حریم خصوصی حل شود. اینجاست که تولید داده های مصنوعی با حفظ حریم خصوصی وارد عمل می شود.
بسیاری از LLM های امروزی کاملاً با داده های عمومی آموزش می بینند، روشی که گلوگاهی مهم برای نوآوری با هوش مصنوعی ایجاد می کند. اغلب به دلایل حفظ حریم خصوصی و انطباق، نمیتوان از دادههای ارزشمندی که کسبوکارها مانند سوابق پزشکی بیمار، رونوشتهای مرکز تماس و حتی یادداشتهای پزشکان جمعآوری میکنند، برای آموزش مدل استفاده کرد. این را می توان با یک رویکرد حفظ حریم خصوصی به نام حریم خصوصی تفاضلی حل کرد، که امکان تولید داده های مصنوعی با تضمین حریم خصوصی ریاضی را فراهم می کند.
پیشرفت عمده بعدی در هوش مصنوعی بر روی داده هایی ساخته خواهد شد که امروزه عمومی نیستند. سازمانهایی که موفق به آموزش مدلهای ایمن بر روی دادههای حساس و کنترلشده توسط نظارت میشوند، به عنوان رهبران عصر هوش مصنوعی ظاهر خواهند شد.
چه چیزی به عنوان داده مصنوعی با کیفیت بالا واجد شرایط است؟
ابتدا، اجازه دهید داده های مصنوعی را تعریف کنیم. «دادههای مصنوعی» مدتها است که واژهای بیسابقه است که به هر داده تولید شده توسط هوش مصنوعی اشاره دارد. اما این تعریف گسترده، تنوع در نحوه تولید دادهها و پایان چه را نادیده میگیرد. برای مثال، ایجاد دادههای تست نرمافزار یک چیز است و آموزش یک مدل هوش مصنوعی مولد بر روی سوابق پزشکی مصنوعی ۱M بیمار.
از اولین ظهور آن پیشرفت قابل توجهی در تولید داده های مصنوعی صورت گرفته است. امروزه، استانداردهای داده های مصنوعی بسیار بالاتر است، به ویژه هنگامی که ما در مورد آموزش مدل های هوش مصنوعی تجاری صحبت می کنیم. برای آموزش هوش مصنوعی درجه سازمانی، فرآیندهای داده مصنوعی باید شامل موارد زیر باشد:
- سیستمهای تشخیص و تبدیل دادههای حساس پیشرفته. این فرآیندها میتوانند تا حدی خودکار باشند، اما باید شامل درجهای از نظارت انسانی باشند.
- تولید از طریق ترانسفورماتورهای از پیش آموزش دیده و معماری های مبتنی بر عامل. این شامل هماهنگسازی چندین شبکه عصبی عمیق در یک سیستم مبتنی بر عامل است و کافیترین مدل (یا ترکیبی از مدلها) را برای رسیدگی به هر ورودی داده شده توانمند میسازد.
- حریم خصوصی متفاوت در سطح آموزش مدل. وقتی توسعهدهندگان مدلهای داده مصنوعی را روی مجموعه دادههای واقعی خود آموزش میدهند، نویز در اطراف هر نقطه داده اضافه میشود تا اطمینان حاصل شود که هیچ نقطه داده واحدی قابل ردیابی یا آشکار نیست.
- دقت و کاربرد قابل اندازه گیری و حفاظت از حریم خصوصی قابل اثبات. ارزیابی و آزمایش ضروری است و با وجود قدرت هوش مصنوعی، انسان ها بخش مهمی از معادله باقی می مانند. مجموعه دادههای ترکیبی باید از نظر دقت در دادههای اصلی، استنباط در مورد وظایف خاص پایین دستی، و تضمین حفظ حریم خصوصی قابل اثبات ارزیابی شوند.
- تیمهای ارزیابی، اعتبارسنجی و همترازی دادهها. نظارت انسانی باید در فرآیند داده های ترکیبی گنجانده شود تا اطمینان حاصل شود که خروجی های تولید شده اخلاقی و همسو با سیاست های عمومی هستند.
وقتی دادههای مصنوعی معیارهای بالا را برآورده میکنند، به همان اندازه موثر یا بهتر از دادههای دنیای واقعی هستند. در بهبود عملکرد هوش مصنوعی. این قدرت نه تنها حفاظت از اطلاعات خصوصی، بلکه برای متعادل کردن یا تقویت رکوردهای موجود، و شبیه سازی نمونه های جدید و متنوع برای پر کردن شکاف های مهم در داده های آموزشی را دارد. همچنین میتواند میزان آموزش مورد نیاز توسعهدهندگان داده را کاهش دهد و چرخههای آزمایش، ارزیابی و استقرار را بهطور چشمگیری تسریع کند.
اما در مورد فروپاشی مدل چطور؟
یکی از بزرگترین تصورات غلط پیرامون داده های مصنوعی، فروپاشی مدل است. با این حال، فروپاشی مدل ناشی از تحقیقاتی است که واقعاً در مورد داده های مصنوعی نیست. این در مورد حلقههای بازخورد در هوش مصنوعی و سیستمهای یادگیری ماشینی و نیاز به مدیریت بهتر داده است.
به عنوان مثال، مسئله اصلی مطرح شده در مقاله نفرین بازگشت: آموزش در مورد داده های تولید شده باعث می شود مدل ها فراموش شوند این است که نسلهای آینده مدلهای زبان بزرگ ممکن است به دلیل دادههای آموزشی که حاوی دادههای ایجاد شده توسط نسلهای قدیمی LLM هستند معیوب باشند. مهمترین نکته این تحقیق این است که مدلها برای عملکرد و پایدار ماندن نیاز به یک جریان ثابت از دادههای آموزشی با کیفیت بالا و کار خاص دارند. برای اکثر برنامههای کاربردی هوش مصنوعی با ارزش، این به معنای دادههای تازه و زمان واقعی است که مبتنی بر واقعیتی است که این مدلها باید در آن کار کنند. از آنجا که این اغلب شامل دادههای حساس میشود، به زیرساختهایی نیز برای ناشناس کردن، تولید نیاز دارد. ، و مقادیر زیادی از داده ها را ارزیابی کنید – با انسان هایی که در حلقه بازخورد دخیل هستند.
بدون توانایی استفاده از دادههای حساس به صورت ایمن، بهموقع و مداوم، توسعهدهندگان هوش مصنوعی به مبارزه با توهمات مدل و فروپاشی مدل ادامه خواهند داد. به همین دلیل است که داده های مصنوعی با کیفیت بالا و حفظ حریم خصوصی یک راه حل برای فروپاشی مدل است، نه علت. این یک رابط خصوصی و قانعکننده برای دادههای حساس بیدرنگ فراهم میکند و به توسعهدهندگان اجازه میدهد تا با خیال راحت مدلهای دقیقتر، بهموقع و تخصصیتری بسازند.
بالاترین کیفیت داده مصنوعی است
از آنجایی که دادههای با کیفیت بالا در حوزه عمومی به پایان رسیده است، توسعهدهندگان هوش مصنوعی تحت فشار شدیدی برای استفاده از منابع داده اختصاصی هستند. دادههای مصنوعی قابل اعتمادترین و مؤثرترین ابزار برای تولید دادههای با کیفیت بالا، بدون به خطر انداختن عملکرد یا حریم خصوصی هستند.
برای رقابتی ماندن در چشمانداز سریع هوش مصنوعی امروزی، دادههای مصنوعی به ابزاری تبدیل شدهاند که توسعهدهندگان نمیتوانند از آن چشم پوشی کنند.
الکس واتسون یکی از بنیانگذاران و مدیر تولید در گرتل است.
—
Generative AI Insights مکانی را برای رهبران فناوری – از جمله فروشندگان و سایر مشارکتکنندگان خارجی – فراهم میکند تا چالشها و فرصتهای هوش مصنوعی مولد را بررسی و بحث کنند. این انتخاب گسترده است، از غواصی عمیق فناوری گرفته تا مطالعات موردی گرفته تا نظرات متخصص، اما همچنین ذهنی است، بر اساس قضاوت ما در مورد اینکه کدام موضوعات و درمان ها به بهترین وجه به مخاطبان فنی پیشرفته InfoWorld خدمت می کنند. InfoWorld وثیقه بازاریابی را برای انتشار نمی پذیرد و حق ویرایش تمام محتوای ارائه شده را برای خود محفوظ می دارد. تماس با doug_dineley@foundryco.com a>.
پست های مرتبط
حل مشکل کیفیت داده در هوش مصنوعی مولد
حل مشکل کیفیت داده در هوش مصنوعی مولد
حل مشکل کیفیت داده در هوش مصنوعی مولد