مجموعه دادههای بزرگتر برای آموزش هوش مصنوعی چالشهای بزرگی برای مهندسان داده و خطرات بزرگی برای خود مدلها ایجاد میکند. زمان آن رسیده است که تمرکز خود را به مدیریت و مدیریت مجموعه داده های کوچکتر تغییر دهیم.
از چت ربات های اوایل دهه ۲۰۰۰ تا آخرین مدل GPT-4، هوش مصنوعی مولد همچنان در زندگی کارگران در صنعت فناوری و خارج از آن نفوذ می کند. با توجه به اینکه غولهایی مانند مایکروسافت، گوگل و آمازون میلیونها دلار در تحقیق و توسعه برای راهحلهای هوش مصنوعی خود سرمایهگذاری میکنند، پذیرش جهانی فناوریهای هوش مصنوعی تعجبآور نیست بیش از دوبرابر بین سال های ۲۰۱۷ و ۲۰۲۲.
بنابراین، در پنج سال گذشته توسعه هوش مصنوعی دقیقاً چه چیزی تغییر کرده است؟ از منظر مهندسی، پیشرفت های هوش مصنوعی به طور کلی در سه دسته بوده است:
- مدلها: واضحترین تغییری که دیدهایم در توسعه مدلهای ترانسفورماتور و متعاقباً تکامل مدلهای مقیاس بزرگ مانند GPT-3 و GPT-4 است. محدودیتهای مقیاسپذیری در آموزش مدلهای پردازش زبان طبیعی (NLP) با استفاده از موازیسازی و مکانیسم توجه مدلهای ترانسفورماتور، که زمینه را محاسبه میکند و بخشهای مختلف یک دنباله ورودی را اولویتبندی میکند، برطرف میشود.
- ابزار مدیریت: زمینه مهندسی داده بهمنظور مقیاسگذاری سریع مجموعه دادهها و الگوریتمهای پیشرفته یادگیری تقویتی تکامل یافته است. یعنی خطوط لوله داده پیچیده تری برای جمع آوری، تمیز کردن و استفاده از داده ها استفاده می شود. ما همچنین شاهد ظهور ابزارهای یادگیری ماشین خودکار (autoML) هستیم که چندین جنبه از توسعه مدل را خودکار میکند، از جمله انتخاب ویژگی، تنظیم فراپارامتر، و مفهوم عملیات یادگیری ماشینی ( MLOps). MLOps راه حل هایی را برای نظارت، مدیریت و نسخه سازی بهتر مدل معرفی می کند تا بهبود مستمر مدل های مستقر را تسهیل کند.
- محاسبات و ذخیرهسازی: همانطور که ممکن است انتظار داشته باشید، مدلها و ابزارهای پیشرفتهتر به سختافزار پیشرفتهتری برای تسریع پردازش دادهها از جمله GPU و TPU نیاز دارند. البته دادهها به جایی برای زندگی نیاز دارند، بنابراین راهحلهای ذخیرهسازی دادههای پیشرفته برای مدیریت و تجزیه و تحلیل حجم وسیعی از دادهها در حال ظهور هستند.
با دادههای آموزشی موجود بیشتر از همیشه، هوش مصنوعی و یادگیری ماشینی باید موثرتر از همیشه. پس چرا مهندسان داده و تصمیم گیرندگان هنوز با کیفیت داده و عملکرد مدل دست و پنجه نرم می کنند؟
از کمبود داده تا فراوانی
در ابتدا، چالش اصلی در توسعه هوش مصنوعی کمبود داده بود. داده های کافی، مرتبط و متنوع به سختی به دست می آمد و توسعه هوش مصنوعی اغلب با این محدودیت ها با تنگنا مواجه می شد.
در پنج سال گذشته، ابتکارات دادههای باز و جمعآوری خودکار دادهها به شدت افزایش یافته است. اینها، در میان چیزهای دیگر، هجوم دادههای موجود را برای هوش مصنوعی ایجاد کردند و بنابراین محدودیتهای قبلی را به یک پارادوکس فراوان تبدیل کردند. اطلاعات منبع باز و مجموعه داده های افزوده شده با هوش مصنوعی که برای رفع شکاف های داده به کار گرفته شده اند، مهندسان را با چالش های منحصر به فرد و غیرمنتظره ای مواجه کرده است. در حالی که در دسترس بودن داده های گسترده برای پیشرفت هوش مصنوعی مولد بسیار مهم است، به طور همزمان مجموعه ای از مشکلات و پیچیدگی های پیش بینی نشده را معرفی کرده است.
داده بیشتر، مشکلات بیشتر؟
حجم وسیعی از دادههای موجود دیگر صرفاً سودمند نیستند و در واقع ممکن است دیگر بهترین راه برای بهبود هوش مصنوعی. مجموعه دادههای بزرگ ذاتاً دارای حجم قابل توجهی از دادهها هستند که اغلب از ترابایت تا پتابایت یا بیشتر متغیر است. مدیریت، ذخیرهسازی و پردازش چنین حجم زیادی از دادهها به راهحلهای مهندسی پیچیده، مانند سیستمهای محاسباتی توزیعشده، راهحلهای ذخیرهسازی مقیاسپذیر، و چارچوبهای پردازش داده کارآمد نیاز دارد.
علاوه بر حجم، مهندسان همچنین با سرعت بالایی که در آن مجموعه دادهها اغلب تولید، پردازش و تجزیه و تحلیل میشوند، دست و پنجه نرم میکنند. این افزایش سرعت و پیچیدگی مجموعههای داده بزرگ (از جمله ساختارهای تودرتو، ابعاد بالا و روابط پیچیده) نیازمند مدلسازی، تبدیل و تحلیل دادههای پیچیده است.
چالش های مجموعه داده های بزرگ
این عمل متعادلسازی تقریباً غیرممکن بهطور شگفتانگیزی مشکلات بیشماری را برای مهندسان ایجاد میکند. مدیران فنی به طور گسترده چالشهای زیر را که با رشد مجموعه دادههایشان به وجود میآیند گزارش میکنند:
- بیش از حد اطلاعات: حجم بسیار زیاد داده ها می تواند بسیار زیاد باشد. با مجموعه داده های بزرگ، شناسایی اطلاعات مرتبط یا ارزشمند به سرعت چالش برانگیز می شود. این مشکل تا آخر خط لوله نفوذ می کند، جایی که داده های نامربوط یا مبهم باعث ایجاد مشکل در استخراج بینش های معنی دار می شود.
- افزایش پیچیدگی: دادههای بیشتر اغلب به معنای پرداختن به مجموعه دادههای پیچیده و با ابعاد بالا است که به توسعه و بهینهسازی پیچیده (و محاسباتی فشرده) نیاز دارند.
- کاهش کیفیت: وقتی مجموعه دادههای بزرگ ابهام یا پیچیدگی را ایجاد میکنند، مدلها تمایل دارند با برازش بیش از حد آن را جبران کنند. تطبیق بیش از حد زمانی اتفاق میافتد که یک مدل دادههای آموزشی را به خوبی یاد میگیرد، از جمله نویز و نقاط پرت آن، تا جایی که دیگر نتایج دقیقی برای دادههای دیده نشده ایجاد نمیکند. اساساً، مدل به جای یادگیری شروع به حفظ کردن میکند، بنابراین اطمینان از کیفیت و دقت دادهها را بسیار دشوار میکند.
- محدودیتهای منابع جدید: با وجود پیشرفتهای محاسباتی انجام شده در بخش هوش مصنوعی، شرکتها همچنان با محدودیتهای منابع هنگام آموزش مدلها مواجه هستند. زمانهای آموزشی طولانیتر نیاز به قدرت پردازش و ذخیرهسازی کافی دارد که چالشهای لجستیکی و مالی را برای توسعهدهندگان و محققان ایجاد میکند. شاید بدیهی نباشد که پیشرفتهای هوش مصنوعی چالشهای انسان محور را نیز به همراه دارد، از جمله شکاف مهارتی رو به رشد برای متخصصانی که میتوانند دادههای بزرگ و سیستمهای هوش مصنوعی را مدیریت کنند.
حجم، سرعت، تنوع و پیچیدگی مجموعه دادههای بزرگ نیازمند راهحلهای پیشرفته مهندسی داده است. هنگام مبارزه برای کیفیت در برابر محدودیت های منابع، مدیریت داده تنها راه برای اطمینان از یک مدل داده موثر، کارآمد و ایمن است.
بازاندیشی مجموعه داده ها برای آموزش هوش مصنوعی
اکنون بیش از هر زمان دیگری، مجموعه داده های آموزشی بزرگ به راه حل های مهندسی داده پیشرفته نیاز دارد. مدیریت صحیح داده ها می تواند با بسیاری از مشکلات کیفیت داده، از ناهماهنگی گرفته تا عملکرد مدل، مبارزه کند.
اما اگر بهترین راه برای مدیریت مجموعه داده های بزرگ کوچکتر کردن آنها باشد چه؟ در حال حاضر یک حرکت به مدلهای زبان بزرگ (LLM) از مجموعه دادههای کوچکتر استفاده کنید تا نمایش بهتر ویژگیها را ارتقاء داده و تعمیم مدل را تقویت کنید. مجموعه دادههای کوچکتر انتخابشده میتوانند ویژگیهای مرتبط را با وضوح بیشتری نشان دهند، نویز را کاهش دهند و در نتیجه دقت مدل را بهبود می بخشد. وقتی ویژگیهای معرف به این روش تأکید میشوند، مدلها نیز تمایل دارند بهتر تعمیم پیدا کنند.
مجموعه دادههای کوچکتر نیز نقش مهمی در منظمسازی بازی میکنند، تکنیکی که برای جلوگیری از برازش بیش از حد در مدلهای یادگیری ماشین استفاده میشود و به مدلها اجازه میدهد بهتر به دادههای دیده نشده تعمیم دهند. همانطور که گفته شد، مجموعه دادههای کوچکتر، بهویژه با مدلهای پیچیده، خطر بیشتری برای برازش دارند. از این رو، منظمسازی برای اطمینان از عدم تناسب مدل با دادههای آموزشی بسیار مهم است و میتواند به خوبی به دادههای جدید تعمیم یابد.
همانطور که ممکن است انتظار داشته باشید، دقت داده ها با مجموعه داده های کوچکتر بسیار مهم است. علاوه بر عادی سازی و متعادل کردن داده ها، مهندسان باید از اعتبارسنجی مدل کافی اطمینان حاصل کنند و اغلب تصمیم می گیرند که خود مدل را مجدداً مشاهده کنند. تکنیکهایی مانند هرس درختان تصمیم، با استفاده از ترک کردن در شبکه های عصبی، و اعتبارسنجی متقابل همگی می توانند برای تعمیم بهتر داده ها به کار روند. اما در پایان روز، کیفیت دادههای آموزشی همچنان نتایج شما را تغییر میدهد.
تغییر تمرکز به سرپرستی و مدیریت
مدیران مهندسی و رهبری باید اکنون تمرکز خود را به مدیریت و مدیریت مجموعه دادهها معطوف کنند تا تنوع و ارتباط دادهها را به حداکثر برسانند و نویز را به حداقل برسانند. نه تنها یک مجموعه داده به خوبی مدیریت شده به آموزش مدل بهتر کمک می کند، بلکه با اجازه دادن به محققان و توسعه دهندگان برای کشف مدل ها و تکنیک های جدید، نوآوری را تقویت می کند. شرکت هایی که می توانند داده ها را به طور موثر مدیریت کنند و از کیفیت آن اطمینان حاصل کنند، می توانند با توسعه مدل های هوش مصنوعی برتر، مزیت رقابتی کسب کنند. این مدلها نه تنها رضایت مشتری را افزایش میدهند، بلکه از فرآیندهای تصمیمگیری بهتر در سطح اجرایی نیز پشتیبانی میکنند.
پارادوکس فراوانی، خطرات و چالشهای ذاتی ناشی از اطلاعات موجود را نشان میدهد. هوش مصنوعی مولد تمرکز خود را به مدیریت و پردازش تغییر می دهد. به همین دلیل، ما به راه حل های جامع مشاهده پذیری و تحلیلی روی می آوریم. با ابزارهای مناسب، مهندسان داده و تصمیم گیرندگان می توانند بدون توجه به اندازه مجموعه داده هایی که با آنها کار می کنند، مدل های معنادارتری ایجاد کنند.
اشوین راجیوا یکی از بنیانگذاران و مدیر ارشد فناوری Acceldata است.
—
Generative AI Insights مکانی را برای رهبران فناوری – از جمله فروشندگان و سایر مشارکتکنندگان خارجی – فراهم میکند تا چالشها و فرصتهای هوش مصنوعی مولد را بررسی و بحث کنند. این انتخاب گسترده است، از غواصی عمیق فناوری گرفته تا مطالعات موردی گرفته تا نظرات متخصص، اما همچنین ذهنی است، بر اساس قضاوت ما در مورد اینکه کدام موضوعات و درمانها به بهترین وجه به مخاطبان فنی پیشرفته InfoWorld خدمت میکنند. InfoWorld وثیقه بازاریابی را برای انتشار نمی پذیرد و حق ویرایش تمام محتوای ارائه شده را برای خود محفوظ می دارد. تماس با doug_dineley@foundryco.com a>.
پست های مرتبط
معنی رو به رشد مجموعه داده های هوش مصنوعی برای مهندسی و مدیریت داده ها چیست؟
معنی رو به رشد مجموعه داده های هوش مصنوعی برای مهندسی و مدیریت داده ها چیست؟
معنی رو به رشد مجموعه داده های هوش مصنوعی برای مهندسی و مدیریت داده ها چیست؟