راه اندازی MIT DataCebo ابزاری برای ارزیابی داده های مصنوعی ارائه می دهد

Synthetic Data Metrics یک کتابخانه پایتون منبع باز برای ارزیابی داده های جدولی مدل-آگنوستیک با قرار دادن مجموعه داده های تولید شده توسط ماشین در برابر مجموعه داده های واقعی است.

آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) اسپین‌آف DataCebo ابزار جدیدی به نام داده‌های مصنوعی (SD) Metrics ارائه می‌کند تا به شرکت‌ها کمک کند کیفیت داده‌های مصنوعی تولید شده توسط ماشین را مقایسه کنند. با قرار دادن آن در برابر مجموعه داده های واقعی.

به گفته Kalyan Veeramachaneni، دانشمند اصلی MIT،

این برنامه که یک کتابخانه منبع باز Python برای ارزیابی داده های مصنوعی جدولی مدل-آگنوستیک است، معیارهایی را برای آمار، کارایی و حریم خصوصی داده ها تعریف می کند. و یکی از بنیانگذاران DataCebo.

“برای داده های مصنوعی جدولی، لازم است معیارهایی ایجاد شود که میزان مقایسه داده های مصنوعی با داده های واقعی را کمیت کند. نها پاتکی، یکی از بنیانگذاران DataCebo، گفت: هر متریک جنبه خاصی از داده ها را اندازه گیری می کند – مانند پوشش یا همبستگی – به شما این امکان را می دهد که تشخیص دهید کدام عناصر خاص در طول فرآیند داده های مصنوعی حفظ یا فراموش شده اند.

آشنایی با OneLake و lakehouses در مایکروسافت فابریک

پاتکی افزود: ویژگی‌هایی مانند CategoryCoverage و RangeCoverage می‌توانند کمیت کنند که آیا داده‌های مصنوعی یک شرکت همان محدوده مقادیر ممکن را با داده‌های واقعی پوشش می‌دهد.

“برای مقایسه همبستگی ها، توسعه دهنده نرم افزار یا دانشمند داده در حال دانلود SDMetrics می تواند از معیار CorrelationSimilarity استفاده کند. در مجموع بیش از ۳۰ معیار وجود دارد و موارد بیشتری هنوز در حال توسعه هستند.

آی‌بی‌ام شرکت داده‌بندی Databand.ai را خریداری کرد

Synthetic Data Vault داده های مصنوعی تولید می کند

کتابخانه SDMetrics، طبق گفته Veeramachaneni، بخشی از پروژه Synthetic Data Vault (SDV) است که برای اولین بار در آزمایشگاه داده به هوش مصنوعی MIT در سال ۲۰۱۶ آغاز شد. از سال ۲۰۲۰، DataCebo مالک و توسعه دهنده همه جنبه های SDV است.< /p>

Vault، که می‌تواند به عنوان اکوسیستم تولید داده مصنوعی کتابخانه‌ها تعریف شود، با این ایده شروع شد تا به شرکت‌ها کمک کند تا مدل‌های داده را برای توسعه نرم‌افزار و برنامه‌های کاربردی جدید در سازمان ایجاد کنند.

ویراماچاننی گفت: «در حالی که در زمینه داده‌های مصنوعی، به‌ویژه در خودروهای رانندگی خودران یا تصاویر، کارهای زیادی در حال انجام است، برای کمک به شرکت‌ها برای بهره‌گیری از آن، کار کمی انجام می‌شود.

برای شما جالب است: Python Polars در میان دیتافریم ها شنا می کند

Veeramachaneni افزود: «SDV برای اطمینان از اینکه شرکت‌ها می‌توانند بسته‌های تولید داده‌های مصنوعی را در مواردی که هیچ داده‌ای در دسترس نبود یا احتمال به خطر انداختن حریم خصوصی داده‌ها وجود دارد، دانلود کنند، ایجاد شد.

این شرکت مدعی است که از چندین تکنیک مدل‌سازی گرافیکی و یادگیری عمیق مانند Copulas، CTGAN و DeepEcho استفاده می‌کند.

به گفته Veeramachaneni، Copulas بیش از یک میلیون بار دانلود شده است و مدل‌های با استفاده از تکنیک thr توسط بانک‌های بزرگ، شرکت‌های بیمه و شرکت‌هایی که بر روی آزمایش‌های بالینی تمرکز دارند، استفاده می‌شوند.

CTGAN یا مدل مبتنی بر شبکه عصبی، بیش از ۵۰۰۰۰۰ بار دانلود شده است.

بنیان‌گذاران DataCebo گفتند، مجموعه‌های داده دیگری که دارای چندین جدول یا داده‌های سری زمانی هستند نیز پشتیبانی می‌شوند.

Synthetic Data Vault داده های مصنوعی تولید می کند

پست های مرتبط

راه اندازی MIT DataCebo ابزاری برای ارزیابی داده های مصنوعی ارائه می دهد

راه اندازی MIT DataCebo ابزاری برای ارزیابی داده های مصنوعی ارائه می دهد

راه اندازی MIT DataCebo ابزاری برای ارزیابی داده های مصنوعی ارائه می دهد

شاید به این مطالب علاقمند باشید

راه اندازی MIT DataCebo ابزاری برای ارزیابی داده های مصنوعی ارائه می دهد

راه اندازی MIT DataCebo ابزاری برای ارزیابی داده های مصنوعی ارائه می دهد

راه اندازی MIT DataCebo ابزاری برای ارزیابی داده های مصنوعی ارائه می دهد

راه اندازی MIT DataCebo ابزاری برای ارزیابی داده های مصنوعی ارائه می دهد