ChatGPT و دیگر مدلهای زبان بزرگ چه چیزی مدیون سازندگان انسانی هستند که اطلاعاتی را که بر اساس آنها آموزش میدهند ارائه میکنند؟ اگر سازندگان اطلاعات آماری خود را در دسترس عموم قرار ندهند، چه؟
در فناوری همه ما در نهایت انگل هستیم. همانطور که خالق دروپال Dries Buytaert سال ها پیش گفت، همه ما بیشتر “گیرنده” هستیم تا “ساز”. Buytaert به شیوه رایج در جوامع منبع باز اشاره می کرد: “کاربران به طور معنی داری به پروژه منبع باز که از آن برداشت می کنند کمک نمی کنند” و به پروژه هایی که به آنها وابسته هستند آسیب می رساند. حتی سرسختترین مشارکتکننده منبع باز هم بیشتر از مشارکت او میگیرد.
این روند انگلی مشابه برای گوگل، فیسبوک و توییتر رخ داده است – که هر کدام به محتوای دیگران وابسته است – و مسلماً امروزه در مورد هوش مصنوعی مولد (GenAI) بیشتر صادق است. استیو یگ، توسعهدهنده سورسگراف بهطور چشمگیری اعلام میکند، «LLMها فقط بزرگترین تغییر از زمان شبکه اجتماعی، تلفن همراه یا ابری – آنها بزرگترین چیز از زمان شبکه جهانی وب هستند، و او احتمالاً درست می گوید. اما آن مدلهای زبان بزرگ (LLMs) اساساً ماهیت انگلی دارند: آنها به حذف مخازن کد دیگران (GitHub)، پاسخهای فناوری (Stack Overflow)، ادبیات و موارد دیگر بستگی دارند.
همانطور که در متن باز اتفاق افتاده است، سازندگان محتوا و تجمیع کنندگان شروع به قطع دسترسی LLM به محتوای خود کرده اند. برای مثال، با توجه به کاهش ترافیک سایت، Stack Overflow با درخواست سازندگان LLM به Reddit پیوسته است. برای استفاده از داده های آنها برای آموزش LLMها، به عنوان جزئیات توسط Wired. این یک حرکت جسورانه است که یادآور جنگهای صدور مجوز است که در منبع باز و دیوارهای پرداختی که توسط ناشران برای دفع Google و فیسبوک تحمیل شدهاند، رخ داده است. اما آیا کار خواهد کرد؟
چرای بیش از حد عوام
مطمئنم که تاریخچه انگلهای فناوری مربوط به منبع باز است، اما از آن زمان بود که کار من شروع شد، بنابراین از آنجا شروع خواهم کرد. از اولین روزهای لینوکس یا MySQL، شرکتهایی وجود داشتند که از کمکهای دیگران سود ببرند. به عنوان مثال، اخیراً در لینوکس، راکی لینوکس و آلما لینوکس هر دو وعده «سازگاری باگ برای اشکال» را با Red Hat Enterprise Linux (RHEL) می دهند، در حالی که هیچ کمکی به موفقیت Red Hat ندارند. در واقع، نتیجه طبیعی موفقیت این دو کلون RHEL این است که میزبان خود را از بین ببرند، و به نابودی خودشان منجر شود، به همین دلیل است که یکی از افراد در فضای لینوکس آنها را “کیسه های خاک” منبع باز نامید.
شاید یک عبارت بسیار رنگارنگ باشد، اما شما متوجه منظور آنها هستید. این همان انتقادی است که زمانی در AWS مطرح شد (نقد «استریپ ماینینگ» که روز به روز ارتباط خود را از دست می دهد) و انگیزه تعدادی تغییر مجوز منبع بسته، انحرافات مدل کسب و کار و بحث به ظاهر بی پایان در مورد پایداری منبع باز.
منبع باز، البته، هرگز قوی تر از این نبوده است. با این حال، پروژه های منبع باز فردی درجات مختلفی از سلامت دارند. برخی از پروژهها (و نگهبانان پروژه) نحوه مدیریت «برندگان» را در جوامع خود کشف کردهاند. دیگران نداشته اند. با این حال، به عنوان یک روند، اهمیت و قدرت منبع باز همچنان در حال افزایش است.
تخلیه چاه
این ما را به LLM ها می رساند. شرکتهای بزرگی مانند JP Morgan Chase میلیاردها دلار خرج میکنند و بیش از ۱۰۰۰ نفر استخدام میکنند. دانشمندان داده، مهندسان یادگیری ماشین و دیگران برای تأثیر میلیارد دلاری در شخصیسازی، تجزیه و تحلیل، و غیره. اگرچه بسیاری از شرکتها از پذیرش عمومی چیزهایی مانند ChatGPT بدشان میآید، واقعیت این است که توسعهدهندگان آنها از قبل از LLM برای رانندگی استفاده میکنند. افزایش بهره وری.
هزینه این دستاوردها به تازگی مشخص شده است. یعنی هزینه شرکتهایی مانند Stack Overflow که در طول تاریخ منبع بهبود بهرهوری بودهاند.
برای مثال، طبق جزئیات Similarweb، از ژانویه ۲۰۲۲، ترافیک به ترافیک Stack Overflow به طور میانگین هر ماه ۶٪ کاهش یافته است و در مارس ۲۰۲۳ به میزان ۱۳.۹٪ کاهش یافته است. مقصر دانستن ChatGPT و دیگر ابزارهای مبتنی بر GenAI برای چنین کاهشی احتمالاً سادهسازی بیش از حد است، اما این نیز سادهلوحانه است که فکر کنیم آنها درگیر نیستند.
فقط از پیتر نیکسی بپرسید، بنیانگذار Intentional.io و یک کاربر برتر ۲٪ در Stack سرریز، با پاسخ هایی که به بیش از ۱.۷ میلیون توسعه دهنده رسیده است. نیکسی علیرغم شهرتش در Stack Overflow، میگوید: «بعید است که من هرگز دوباره چیزی در آنجا بنویسم.» چرا؟ زیرا LLMهایی مانند ChatGPT تهدیدی برای تخلیه دانش در Stack Overflow هستند.
“وقتی دانش خود را با یکدیگر ترکیب نمی کنیم و به جای آن مستقیماً در ماشین بریزیم چه اتفاقی می افتد؟” نیکسی می پرسد. منظور از «ماشین» ابزارهای GenAI مانند ChatGPT است. برای مثال، دریافت پاسخ از یک ابزار هوش مصنوعی مانند GitHub Copilot، که در مخازن GitHub، پرسش و پاسخ Stack Overflow و غیره آموزش داده شده است، فوق العاده است. اما این سؤالات، که به صورت خصوصی پرسیده می شوند، برخلاف Stack Overflow، هیچ مخزن عمومی اطلاعات را به همراه ندارند. بنابراین، در حالی که GPT-4 در مورد تمام سوالات پرسیده شده قبل از سال ۲۰۲۱ [در Stack Overflow] آموزش دیده بود، GPT-6 روی چه چیزی آموزش میدهد؟ او می پرسد.
بزرگراه های اطلاعاتی یک طرفه
مشکل را می بینید؟ این پیش پا افتاده نیست، و ممکن است جدی تر از آن چیزی باشد که در زمین منبع باز چانه زنی کرده ایم. او پیشنهاد میکند: «اگر این الگو در جای دیگری تکرار شود و جهت دانش جمعی ما از بیرون به انسان به درون ماشین تغییر کند، ما به روشی به آن وابسته هستیم که جایگزین همه وابستگیهای قبلی ما به ماشین شود.» به بیان ملایم، این یک مشکل است. او تاکید می کند: «همانند یک نوع کووید-۱۹ که به سرعت در حال رشد است، هوش مصنوعی صرفاً به واسطه رشد به منبع اصلی دانش تبدیل خواهد شد». “اگر مثال Stack Overflow را در نظر بگیریم، آن مجموعه از دانش بشری که قبلاً متعلق به ما بود، ممکن است به وزنی صرف در داخل ترانسفورماتور کاهش یابد.”
میزان زیادی در خطر است، و نه فقط مقادیر فراوان پول نقد که همچنان به هوش مصنوعی ما همچنین باید ارزش نسبی اطلاعات تولید شده توسط چیزهایی مانند ChatGPT را بررسی کنیم. برای مثال، سرریز پشته، پاسخهای مشتق شده از ChatGPT را ممنوع کرد در دسامبر ۲۰۲۲، زیرا آنها از نظر متن غنی و اطلاعات ضعیفی بودند: «از آنجایی که میانگین نرخ دریافت پاسخهای درست از ChatGPT بسیار پایین است، ارسال پاسخهای ایجاد شده توسط ChatGPT بهطور قابل ملاحظهای مضر است< /em> به سایت و کاربرانی که سوال میکنند و به دنبال پاسخهای صحیح هستند [با تاکید در اصل].” چیزهایی مانند ChatGPT برای ارائه اطلاعات صحیح طراحی نشده اند، بلکه اطلاعات احتمالی ساده طراحی شده اند که با الگوهای موجود در داده ها مطابقت دارد. به عبارت دیگر، منبع باز ممکن است با “کیسه های خاکی” پر شود، اما بدون یک جریان ثابت از داده های آموزشی خوب، LLM ها ممکن است به سادگی خود را با اطلاعات زباله پر کنند و کمتر مفید شوند.
من به طور کلی وعده های LLM و GenAI را تحقیر نمی کنم. همانند منبع باز، ناشران اخبار و موارد دیگر، میتوانیم از OpenAI و سایر شرکتهایی که به ما کمک میکنند اطلاعات تولید شده جمعی را مهار کنیم و در عین حال از مشارکتکنندگانی مانند Reddit (که خود یک جمعآوری مشارکتهای فردی است) برای منتظر پرداخت برای قسمت هایی که بازی می کنند. منبع باز جنگ های صدور مجوز خود را داشت و به نظر می رسد ما در شرف داشتن چیزی مشابه در دنیای GenAI هستیم، اما با عواقب بزرگتر.
پست های مرتبط
ماشین انگلی ChatGPT
ماشین انگلی ChatGPT
ماشین انگلی ChatGPT