Synthetic Data Metrics یک کتابخانه پایتون منبع باز برای ارزیابی داده های جدولی مدل-آگنوستیک با قرار دادن مجموعه داده های تولید شده توسط ماشین در برابر مجموعه داده های واقعی است.
آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) اسپینآف DataCebo ابزار جدیدی به نام دادههای مصنوعی (SD) Metrics ارائه میکند تا به شرکتها کمک کند کیفیت دادههای مصنوعی تولید شده توسط ماشین را مقایسه کنند. با قرار دادن آن در برابر مجموعه داده های واقعی.
به گفته Kalyan Veeramachaneni، دانشمند اصلی MIT،
این برنامه که یک کتابخانه منبع باز Python برای ارزیابی داده های مصنوعی جدولی مدل-آگنوستیک است، معیارهایی را برای آمار، کارایی و حریم خصوصی داده ها تعریف می کند. و یکی از بنیانگذاران DataCebo.
“برای داده های مصنوعی جدولی، لازم است معیارهایی ایجاد شود که میزان مقایسه داده های مصنوعی با داده های واقعی را کمیت کند. نها پاتکی، یکی از بنیانگذاران DataCebo، گفت: هر متریک جنبه خاصی از داده ها را اندازه گیری می کند – مانند پوشش یا همبستگی – به شما این امکان را می دهد که تشخیص دهید کدام عناصر خاص در طول فرآیند داده های مصنوعی حفظ یا فراموش شده اند.
پاتکی افزود: ویژگیهایی مانند CategoryCoverage و RangeCoverage میتوانند کمیت کنند که آیا دادههای مصنوعی یک شرکت همان محدوده مقادیر ممکن را با دادههای واقعی پوشش میدهد.
“برای مقایسه همبستگی ها، توسعه دهنده نرم افزار یا دانشمند داده در حال دانلود SDMetrics می تواند از معیار CorrelationSimilarity استفاده کند. در مجموع بیش از ۳۰ معیار وجود دارد و موارد بیشتری هنوز در حال توسعه هستند.
Synthetic Data Vault داده های مصنوعی تولید می کند
کتابخانه SDMetrics، طبق گفته Veeramachaneni، بخشی از پروژه Synthetic Data Vault (SDV) است که برای اولین بار در آزمایشگاه داده به هوش مصنوعی MIT در سال ۲۰۱۶ آغاز شد. از سال ۲۰۲۰، DataCebo مالک و توسعه دهنده همه جنبه های SDV است.< /p>
Vault، که میتواند به عنوان اکوسیستم تولید داده مصنوعی کتابخانهها تعریف شود، با این ایده شروع شد تا به شرکتها کمک کند تا مدلهای داده را برای توسعه نرمافزار و برنامههای کاربردی جدید در سازمان ایجاد کنند.
ویراماچاننی گفت: «در حالی که در زمینه دادههای مصنوعی، بهویژه در خودروهای رانندگی خودران یا تصاویر، کارهای زیادی در حال انجام است، برای کمک به شرکتها برای بهرهگیری از آن، کار کمی انجام میشود.
Veeramachaneni افزود: «SDV برای اطمینان از اینکه شرکتها میتوانند بستههای تولید دادههای مصنوعی را در مواردی که هیچ دادهای در دسترس نبود یا احتمال به خطر انداختن حریم خصوصی دادهها وجود دارد، دانلود کنند، ایجاد شد.
این شرکت مدعی است که از چندین تکنیک مدلسازی گرافیکی و یادگیری عمیق مانند Copulas، CTGAN و DeepEcho استفاده میکند.
به گفته Veeramachaneni، Copulas بیش از یک میلیون بار دانلود شده است و مدلهای با استفاده از تکنیک thr توسط بانکهای بزرگ، شرکتهای بیمه و شرکتهایی که بر روی آزمایشهای بالینی تمرکز دارند، استفاده میشوند.
CTGAN یا مدل مبتنی بر شبکه عصبی، بیش از ۵۰۰۰۰۰ بار دانلود شده است.
بنیانگذاران DataCebo گفتند، مجموعههای داده دیگری که دارای چندین جدول یا دادههای سری زمانی هستند نیز پشتیبانی میشوند.
پست های مرتبط
راه اندازی MIT DataCebo ابزاری برای ارزیابی داده های مصنوعی ارائه می دهد
راه اندازی MIT DataCebo ابزاری برای ارزیابی داده های مصنوعی ارائه می دهد
راه اندازی MIT DataCebo ابزاری برای ارزیابی داده های مصنوعی ارائه می دهد