از داده های مصنوعی برای آزمایش مداوم و یادگیری ماشین استفاده کنید

در جایی که داده های واقعی غیراخلاقی است، در دسترس نیست یا وجود ندارد، مجموعه داده های مصنوعی می توانند کمیت و تنوع مورد نیاز را فراهم کنند.

هدف تیم‌های Devops افزایش فرکانس استقرار، کاهش تعداد نقص‌های موجود در تولید، و بهبود قابلیت اطمینان همه چیز از میکروسرویس‌ها و برنامه‌های کاربردی مشتری گرفته تا گردش کار کارکنان و اتوماسیون فرآیندهای تجاری است.

پیاده‌سازی خطوط لوله CI/CD (ادغام مداوم و تحویل مداوم) مسیری یکپارچه را برای ساخت و استقرار همه این برنامه‌ها و سرویس‌ها، و تست خودکار و برقراری آزمایش مستمر شیوه ها به تیم ها کمک می کند تا کیفیت، قابلیت اطمینان و عملکرد را حفظ کنند. با آزمایش مداوم، تیم‌های توسعه چابک می‌توانند تست خود را به چپ تغییر دهند، تعداد موارد آزمایش را افزایش دهند و سرعت آزمایش را افزایش دهند.

ساختن کیس‌های آزمایشی و خودکار کردن آنها یک چیز است، و داشتن حجم کافی و تنوع داده‌های آزمایشی برای اعتبارسنجی تعداد مناسبی از موارد استفاده و سناریوهای مرزی مسئله دیگری است. به عنوان مثال، آزمایش فرم ثبت وب‌سایت باید جایگشت الگوهای ورودی، از جمله داده‌های از دست رفته، ورودی‌های داده طولانی، نویسه‌های ویژه، ورودی‌های چند زبانه، و سناریوهای دیگر را تأیید کند.

چالش ایجاد داده‌های آزمایشی است. یک رویکرد، تولید داده مصنوعی است که از تکنیک های مختلف برای برون یابی مجموعه داده ها بر اساس مدل و مجموعه ای از الگوهای ورودی استفاده می کند. تولید داده های مصنوعی به حجم و تنوع داده های مورد نیاز می پردازد. همچنین می‌توانید از تولید داده‌های مصنوعی برای ایجاد مجموعه‌های داده در مواردی که استفاده از داده‌های واقعی ممکن است باعث ایجاد مشکلات قانونی یا سایر موارد انطباق شود، استفاده کنید.

رومن گلود، مدیر ارشد فناوری و یکی از بنیانگذاران Accelario. بهترین رویکرد ایجاد داده‌های ترکیبی بر اساس طرح‌واره‌های موجود برای مدیریت داده‌های آزمایشی یا ایجاد قوانینی است که تضمین می‌کند BI، AI و سایر تجزیه و تحلیل‌های شما نتایج قابل اجرا ارائه می‌دهند. برای هر دو، باید اطمینان حاصل کنید که اتوماسیون تولید داده مصنوعی را می‌توان با توجه به نیازهای تجاری در حال تغییر به‌خوبی تنظیم کرد.”

چگونه ابر و محاسبات بزرگ HPC را بازسازی می کنند

از موارد برای تولید داده مصنوعی استفاده کنید

در حالی که اساسی‌ترین نیاز برای تولید داده‌های مصنوعی از آزمایش برنامه‌ها، اتوماسیون‌ها و ادغام‌ها ناشی می‌شود، تقاضا در حال افزایش است زیرا آزمایش علم داده به داده‌های آزمایشی برای یادگیری ماشین و الگوریتم‌های هوش مصنوعی نیاز دارد. دانشمندان داده گاهی از داده های مصنوعی برای آموزش شبکه های عصبی استفاده می کنند. در مواقع دیگر از داده های تولید شده توسط ماشین برای تایید نتایج یک مدل استفاده می کنند.

سایر موارد استفاده از داده مصنوعی خاص تر هستند:

آزمایش مهاجرت‌های ابری با اطمینان از اجرای یک برنامه مشابه روی دو زیرساخت نتایج یکسانی ایجاد می‌کند
ایجاد داده برای تست امنیتی، کشف تقلب و دیگر سناریوهای دنیای واقعی که ممکن است داده واقعی وجود نداشته باشد
تولید داده‌ها برای آزمایش ارتقاء ERP (برنامه‌ریزی منابع سازمانی) و CRM (مدیریت ارتباط با مشتری) در جایی که آزمایش‌کنندگان می‌خواهند تنظیمات را قبل از انتقال داده‌های زنده تأیید کنند
تولید داده‌ها برای سیستم‌های پشتیبانی تصمیم برای آزمایش شرایط مرزی، اعتبارسنجی انتخاب ویژگی‌ها، ارائه نمونه گسترده‌تر بی‌طرفانه از داده‌های آزمایش، و اطمینان از نتایج هوش مصنوعی قابل توضیح هستند
آزمایش استرس سیستم‌های هوش مصنوعی و اینترنت اشیا، مانند وسایل نقلیه خودران، و اعتبارسنجی پاسخ‌های آنها به موقعیت‌های مختلف ایمنی

اگر در حال توسعه الگوریتم‌ها یا برنامه‌هایی با ورودی داده‌های با ابعاد بالا و کیفیت و عوامل ایمنی حیاتی هستید، تولید داده مصنوعی مکانیزمی را برای ایجاد مجموعه‌های داده بزرگ به صورت مقرون‌به‌صرفه فراهم می‌کند.

پروژه هوش مصنوعی مولد شما شکست خواهد خورد

ماریت ویدمن، دانشمند داده در KNIME.

چگونه پلتفرم ها داده های مصنوعی تولید می کنند

شاید تعجب کنید که پلتفرم‌ها چگونه داده‌های آزمایش مصنوعی تولید می‌کنند و چگونه الگوریتم‌ها و پیکربندی‌های بهینه را برای ایجاد داده‌های مورد نیاز انتخاب می‌کنند.

ویدمن توضیح می‌دهد، «دو استراتژی اصلی برای تولید داده‌های مصنوعی وجود دارد: بر اساس احتمالات آماری یا بر اساس الگوریتم‌های یادگیری ماشین. اخیراً، تکنیک‌های یادگیری عمیق مانند شبکه‌های عصبی مکرر – مانند شبکه‌های حافظه کوتاه‌مدت و شبکه‌های متخاصم مولد – به دلیل توانایی آنها برای تولید موسیقی، متن و تصاویر جدید از هیچ چیز، محبوبیت بیشتری پیدا کرده است.»

دانشمندان داده از استفاده می کنند RNN (شبکه های عصبی مکرر) زمانی که وابستگی هایی بین نقاط داده وجود دارد، مانند داده های سری زمانی و تجزیه و تحلیل متن. LSTM (حافظه کوتاه مدت بلندمدت) شکلی از حافظه بلند مدت را از طریق یک سری ماژول های تکرار شونده ایجاد می کند که هر کدام دارای دروازه هایی هستند که عملکردی شبیه به حافظه را ارائه می دهند. برای مثال، LSTM در تجزیه و تحلیل متن می تواند یاد بگیرد وابستگی بین کاراکترها و کلمات برای ایجاد توالی شخصیت های جدید. همچنین برای ایجاد موسیقی استفاده می شود ، تشخیص کلاهبرداری، و اصلاح گرامر پیکسل ۶ گوگل. p>

GAN ها (شبکه های متخاصم مولد) برای تولید اشکال بسیاری از تصاویر استفاده شده است. ، شک کردن رمزهای عبور در امنیت سایبری و حتی یک پیتزا تهیه کنید. GANها داده‌ها را ایجاد می‌کنند با استفاده از یک الگوریتم برای تولید الگوهای داده و الگوریتم دوم برای آزمایش آنها. سپس یک رقابت خصمانه بین این دو برای یافتن الگوهای بهینه تشکیل می دهند. نمونه‌های کد GAN برای تولید داده‌های مصنوعی عبارتند از اعداد دست‌نویس PyTorch، یک مدل TensorFlow برای توسعه توزیع های گاوسی یک بعدی و مدل R برای شبیه‌سازی تصاویر ماهواره‌ای.

Snowflake's Data Clean Room قول داده است که تجزیه و تحلیل داده های PII را آسان کند

انتخاب مدل‌های مبتنی بر آمار و یادگیری ماشینی هنر و علمی دارد. اندرو کلارک، یکی از بنیانگذاران و CTO Monitaur، نحوه آزمایش تولید داده مصنوعی را توضیح می دهد. او می‌گوید: «قاعده کلی در اینجا همیشه این است که ساده‌ترین مدل را برای کاری انتخاب کنیم که با سطح قابل قبولی از دقت انجام می‌شود. اگر خطوط پرداخت مشتری را مدل‌سازی می‌کنید، یک فرآیند تصادفی تک متغیره مبتنی بر توزیع پواسون نقطه شروع خوبی خواهد بود. از سوی دیگر، اگر مجموعه داده‌های پذیره‌نویسی وام بزرگی دارید و می‌خواهید داده‌های آزمایشی ایجاد کنید، یک مدل GAN ممکن است مناسب‌تر برای ثبت همبستگی‌ها و روابط پیچیده بین ویژگی‌های فردی باشد.»

اگر روی یک مورد استفاده از علم داده کار می‌کنید، ممکن است برای ایجاد یک مدل تولید داده مصنوعی انعطاف‌پذیری داشته باشید. گزینه های تجاری عبارتند از Chooch for computer vision، Datomize و داده‌های دید عمیق.

اگر هدف شما آزمایش برنامه است، پلتفرم هایی را برای مدیریت داده های آزمایشی یا تولید مصنوعی داده های آزمایشی در نظر بگیرید، مانند Accelario، Delphix، GenRocket، Informatica، K2View، تونیک، و چندین ابزارهای داده تست، مانند تست منبع باز تولید کننده داده. Visual Studio Premium همچنین دارای یک تولید کننده داده آزمایشی داخلی است و توسعه دهندگان جاوا باید این مثال را با استفاده از مولد داده Vaadin.

امروزه داشتن یک آزمایش قوی بسیار مهم است زیرا سازمان ها به قابلیت اطمینان برنامه و دقت مدل های یادگیری ماشین وابسته هستند. تولید داده های مصنوعی رویکرد دیگری برای بستن شکاف ها است. بنابراین نه تنها روش‌های آزمایش، آموزش یا تأیید اعتبار دارید، بلکه راهی برای تولید داده‌های کافی برای ساخت مدل‌ها و اعتبارسنجی برنامه‌ها نیز دارید.

از موارد برای تولید داده مصنوعی استفاده کنید

چگونه پلتفرم ها داده های مصنوعی تولید می کنند

پست های مرتبط

از داده های مصنوعی برای آزمایش مداوم و یادگیری ماشین استفاده کنید

از داده های مصنوعی برای آزمایش مداوم و یادگیری ماشین استفاده کنید

از داده های مصنوعی برای آزمایش مداوم و یادگیری ماشین استفاده کنید

شاید به این مطالب علاقمند باشید

از داده های مصنوعی برای آزمایش مداوم و یادگیری ماشین استفاده کنید

از داده های مصنوعی برای آزمایش مداوم و یادگیری ماشین استفاده کنید

از داده های مصنوعی برای آزمایش مداوم و یادگیری ماشین استفاده کنید

از داده های مصنوعی برای آزمایش مداوم و یادگیری ماشین استفاده کنید