در جایی که داده های واقعی غیراخلاقی است، در دسترس نیست یا وجود ندارد، مجموعه داده های مصنوعی می توانند کمیت و تنوع مورد نیاز را فراهم کنند.
هدف تیمهای Devops افزایش فرکانس استقرار، کاهش تعداد نقصهای موجود در تولید، و بهبود قابلیت اطمینان همه چیز از میکروسرویسها و برنامههای کاربردی مشتری گرفته تا گردش کار کارکنان و اتوماسیون فرآیندهای تجاری است.
پیادهسازی خطوط لوله CI/CD (ادغام مداوم و تحویل مداوم) مسیری یکپارچه را برای ساخت و استقرار همه این برنامهها و سرویسها، و تست خودکار و برقراری آزمایش مستمر شیوه ها به تیم ها کمک می کند تا کیفیت، قابلیت اطمینان و عملکرد را حفظ کنند. با آزمایش مداوم، تیمهای توسعه چابک میتوانند تست خود را به چپ تغییر دهند، تعداد موارد آزمایش را افزایش دهند و سرعت آزمایش را افزایش دهند.
ساختن کیسهای آزمایشی و خودکار کردن آنها یک چیز است، و داشتن حجم کافی و تنوع دادههای آزمایشی برای اعتبارسنجی تعداد مناسبی از موارد استفاده و سناریوهای مرزی مسئله دیگری است. به عنوان مثال، آزمایش فرم ثبت وبسایت باید جایگشت الگوهای ورودی، از جمله دادههای از دست رفته، ورودیهای داده طولانی، نویسههای ویژه، ورودیهای چند زبانه، و سناریوهای دیگر را تأیید کند.
چالش ایجاد دادههای آزمایشی است. یک رویکرد، تولید داده مصنوعی است که از تکنیک های مختلف برای برون یابی مجموعه داده ها بر اساس مدل و مجموعه ای از الگوهای ورودی استفاده می کند. تولید داده های مصنوعی به حجم و تنوع داده های مورد نیاز می پردازد. همچنین میتوانید از تولید دادههای مصنوعی برای ایجاد مجموعههای داده در مواردی که استفاده از دادههای واقعی ممکن است باعث ایجاد مشکلات قانونی یا سایر موارد انطباق شود، استفاده کنید.
رومن گلود، مدیر ارشد فناوری و یکی از بنیانگذاران Accelario. بهترین رویکرد ایجاد دادههای ترکیبی بر اساس طرحوارههای موجود برای مدیریت دادههای آزمایشی یا ایجاد قوانینی است که تضمین میکند BI، AI و سایر تجزیه و تحلیلهای شما نتایج قابل اجرا ارائه میدهند. برای هر دو، باید اطمینان حاصل کنید که اتوماسیون تولید داده مصنوعی را میتوان با توجه به نیازهای تجاری در حال تغییر بهخوبی تنظیم کرد.”
از موارد برای تولید داده مصنوعی استفاده کنید
در حالی که اساسیترین نیاز برای تولید دادههای مصنوعی از آزمایش برنامهها، اتوماسیونها و ادغامها ناشی میشود، تقاضا در حال افزایش است زیرا آزمایش علم داده به دادههای آزمایشی برای یادگیری ماشین و الگوریتمهای هوش مصنوعی نیاز دارد. دانشمندان داده گاهی از داده های مصنوعی برای آموزش شبکه های عصبی استفاده می کنند. در مواقع دیگر از داده های تولید شده توسط ماشین برای تایید نتایج یک مدل استفاده می کنند.
سایر موارد استفاده از داده مصنوعی خاص تر هستند:
- آزمایش مهاجرتهای ابری با اطمینان از اجرای یک برنامه مشابه روی دو زیرساخت نتایج یکسانی ایجاد میکند
- ایجاد داده برای تست امنیتی، کشف تقلب و دیگر سناریوهای دنیای واقعی که ممکن است داده واقعی وجود نداشته باشد
- تولید دادهها برای آزمایش ارتقاء ERP (برنامهریزی منابع سازمانی) و CRM (مدیریت ارتباط با مشتری) در جایی که آزمایشکنندگان میخواهند تنظیمات را قبل از انتقال دادههای زنده تأیید کنند
- تولید دادهها برای سیستمهای پشتیبانی تصمیم برای آزمایش شرایط مرزی، اعتبارسنجی انتخاب ویژگیها، ارائه نمونه گستردهتر بیطرفانه از دادههای آزمایش، و اطمینان از نتایج هوش مصنوعی قابل توضیح هستند
- آزمایش استرس سیستمهای هوش مصنوعی و اینترنت اشیا، مانند وسایل نقلیه خودران، و اعتبارسنجی پاسخهای آنها به موقعیتهای مختلف ایمنی
اگر در حال توسعه الگوریتمها یا برنامههایی با ورودی دادههای با ابعاد بالا و کیفیت و عوامل ایمنی حیاتی هستید، تولید داده مصنوعی مکانیزمی را برای ایجاد مجموعههای داده بزرگ به صورت مقرونبهصرفه فراهم میکند.
ماریت ویدمن، دانشمند داده در KNIME.
چگونه پلتفرم ها داده های مصنوعی تولید می کنند
شاید تعجب کنید که پلتفرمها چگونه دادههای آزمایش مصنوعی تولید میکنند و چگونه الگوریتمها و پیکربندیهای بهینه را برای ایجاد دادههای مورد نیاز انتخاب میکنند.
ویدمن توضیح میدهد، «دو استراتژی اصلی برای تولید دادههای مصنوعی وجود دارد: بر اساس احتمالات آماری یا بر اساس الگوریتمهای یادگیری ماشین. اخیراً، تکنیکهای یادگیری عمیق مانند شبکههای عصبی مکرر – مانند شبکههای حافظه کوتاهمدت و شبکههای متخاصم مولد – به دلیل توانایی آنها برای تولید موسیقی، متن و تصاویر جدید از هیچ چیز، محبوبیت بیشتری پیدا کرده است.»
دانشمندان داده از استفاده می کنند RNN (شبکه های عصبی مکرر) زمانی که وابستگی هایی بین نقاط داده وجود دارد، مانند داده های سری زمانی و تجزیه و تحلیل متن. LSTM (حافظه کوتاه مدت بلندمدت) شکلی از حافظه بلند مدت را از طریق یک سری ماژول های تکرار شونده ایجاد می کند که هر کدام دارای دروازه هایی هستند که عملکردی شبیه به حافظه را ارائه می دهند. برای مثال، LSTM در تجزیه و تحلیل متن می تواند یاد بگیرد وابستگی بین کاراکترها و کلمات برای ایجاد توالی شخصیت های جدید. همچنین برای ایجاد موسیقی استفاده می شود ، تشخیص کلاهبرداری، و اصلاح گرامر پیکسل ۶ گوگل. p>
GAN ها (شبکه های متخاصم مولد) برای تولید اشکال بسیاری از تصاویر استفاده شده است. ، شک کردن رمزهای عبور در امنیت سایبری و حتی یک پیتزا تهیه کنید الف>. GANها دادهها را ایجاد میکنند با استفاده از یک الگوریتم برای تولید الگوهای داده و الگوریتم دوم برای آزمایش آنها. سپس یک رقابت خصمانه بین این دو برای یافتن الگوهای بهینه تشکیل می دهند. نمونههای کد GAN برای تولید دادههای مصنوعی عبارتند از اعداد دستنویس PyTorch، یک مدل TensorFlow برای توسعه توزیع های گاوسی یک بعدی و مدل R برای شبیهسازی تصاویر ماهوارهای.
انتخاب مدلهای مبتنی بر آمار و یادگیری ماشینی هنر و علمی دارد. اندرو کلارک، یکی از بنیانگذاران و CTO Monitaur، نحوه آزمایش تولید داده مصنوعی را توضیح می دهد. او میگوید: «قاعده کلی در اینجا همیشه این است که سادهترین مدل را برای کاری انتخاب کنیم که با سطح قابل قبولی از دقت انجام میشود. اگر خطوط پرداخت مشتری را مدلسازی میکنید، یک فرآیند تصادفی تک متغیره مبتنی بر توزیع پواسون نقطه شروع خوبی خواهد بود. از سوی دیگر، اگر مجموعه دادههای پذیرهنویسی وام بزرگی دارید و میخواهید دادههای آزمایشی ایجاد کنید، یک مدل GAN ممکن است مناسبتر برای ثبت همبستگیها و روابط پیچیده بین ویژگیهای فردی باشد.»
اگر روی یک مورد استفاده از علم داده کار میکنید، ممکن است برای ایجاد یک مدل تولید داده مصنوعی انعطافپذیری داشته باشید. گزینه های تجاری عبارتند از Chooch for computer vision، Datomize و دادههای دید عمیق.
اگر هدف شما آزمایش برنامه است، پلتفرم هایی را برای مدیریت داده های آزمایشی یا تولید مصنوعی داده های آزمایشی در نظر بگیرید، مانند Accelario، Delphix، GenRocket، Informatica، K2View، تونیک، و چندین ابزارهای داده تست، مانند تست منبع باز تولید کننده داده. Visual Studio Premium همچنین دارای یک تولید کننده داده آزمایشی داخلی است و توسعه دهندگان جاوا باید این مثال را با استفاده از مولد داده Vaadin.
امروزه داشتن یک آزمایش قوی بسیار مهم است زیرا سازمان ها به قابلیت اطمینان برنامه و دقت مدل های یادگیری ماشین وابسته هستند. تولید داده های مصنوعی رویکرد دیگری برای بستن شکاف ها است. بنابراین نه تنها روشهای آزمایش، آموزش یا تأیید اعتبار دارید، بلکه راهی برای تولید دادههای کافی برای ساخت مدلها و اعتبارسنجی برنامهها نیز دارید.
پست های مرتبط
از داده های مصنوعی برای آزمایش مداوم و یادگیری ماشین استفاده کنید
از داده های مصنوعی برای آزمایش مداوم و یادگیری ماشین استفاده کنید
از داده های مصنوعی برای آزمایش مداوم و یادگیری ماشین استفاده کنید