۳۰ آذر ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

ماشین انگلی ChatGPT

ChatGPT و دیگر مدل‌های زبان بزرگ چه چیزی مدیون سازندگان انسانی هستند که اطلاعاتی را که بر اساس آنها آموزش می‌دهند ارائه می‌کنند؟ اگر سازندگان اطلاعات آماری خود را در دسترس عموم قرار ندهند، چه؟

ChatGPT و دیگر مدل‌های زبان بزرگ چه چیزی مدیون سازندگان انسانی هستند که اطلاعاتی را که بر اساس آنها آموزش می‌دهند ارائه می‌کنند؟ اگر سازندگان اطلاعات آماری خود را در دسترس عموم قرار ندهند، چه؟

در فناوری همه ما در نهایت انگل هستیم. همانطور که خالق دروپال Dries Buytaert سال ها پیش گفت، همه ما بیشتر “گیرنده” هستیم تا “ساز”. Buytaert به شیوه رایج در جوامع منبع باز اشاره می کرد: “کاربران به طور معنی داری به پروژه منبع باز که از آن برداشت می کنند کمک نمی کنند” و به پروژه هایی که به آنها وابسته هستند آسیب می رساند. حتی سرسخت‌ترین مشارکت‌کننده منبع باز هم بیشتر از مشارکت او می‌گیرد.

این روند انگلی مشابه برای گوگل، فیس‌بوک و توییتر رخ داده است – که هر کدام به محتوای دیگران وابسته است – و مسلماً امروزه در مورد هوش مصنوعی مولد (GenAI) بیشتر صادق است. استیو یگ، توسعه‌دهنده سورسگراف به‌طور چشمگیری اعلام می‌کند، «LLM‌ها فقط بزرگترین تغییر از زمان شبکه اجتماعی، تلفن همراه یا ابری – آنها بزرگترین چیز از زمان شبکه جهانی وب هستند، و او احتمالاً درست می گوید. اما آن مدل‌های زبان بزرگ (LLMs) اساساً ماهیت انگلی دارند: آنها به حذف مخازن کد دیگران (GitHub)، پاسخ‌های فناوری (Stack Overflow)، ادبیات و موارد دیگر بستگی دارند.

همانطور که در متن باز اتفاق افتاده است، سازندگان محتوا و تجمیع کنندگان شروع به قطع دسترسی LLM به محتوای خود کرده اند. برای مثال، با توجه به کاهش ترافیک سایت، Stack Overflow با درخواست سازندگان LLM به Reddit پیوسته است. برای استفاده از داده های آنها برای آموزش LLMها، به عنوان جزئیات توسط Wired. این یک حرکت جسورانه است که یادآور جنگ‌های صدور مجوز است که در منبع باز و دیوارهای پرداختی که توسط ناشران برای دفع Google و فیس‌بوک تحمیل شده‌اند، رخ داده است. اما آیا کار خواهد کرد؟

چرای بیش از حد عوام

مطمئنم که تاریخچه انگل‌های فناوری مربوط به منبع باز است، اما از آن زمان بود که کار من شروع شد، بنابراین از آنجا شروع خواهم کرد. از اولین روزهای لینوکس یا MySQL، شرکت‌هایی وجود داشتند که از کمک‌های دیگران سود ببرند. به عنوان مثال، اخیراً در لینوکس، راکی ​​لینوکس و آلما لینوکس هر دو وعده «سازگاری باگ برای اشکال» را با Red Hat Enterprise Linux (RHEL) می دهند، در حالی که هیچ کمکی به موفقیت Red Hat ندارند. در واقع، نتیجه طبیعی موفقیت این دو کلون RHEL این است که میزبان خود را از بین ببرند، و به نابودی خودشان منجر شود، به همین دلیل است که یکی از افراد در فضای لینوکس آنها را “کیسه های خاک” منبع باز نامید.

Multicloud: اوراکل پایگاه داده را با گوگل و مایکروسافت پیوند می دهد تا عملیات را سرعت بخشد

شاید یک عبارت بسیار رنگارنگ باشد، اما شما متوجه منظور آنها هستید. این همان انتقادی است که زمانی در AWS مطرح شد (نقد «استریپ ماینینگ» که روز به روز ارتباط خود را از دست می دهد) و انگیزه تعدادی تغییر مجوز منبع بسته، انحرافات مدل کسب و کار و بحث به ظاهر بی پایان در مورد پایداری منبع باز.

منبع باز، البته، هرگز قوی تر از این نبوده است. با این حال، پروژه های منبع باز فردی درجات مختلفی از سلامت دارند. برخی از پروژه‌ها (و نگهبانان پروژه) نحوه مدیریت «برندگان» را در جوامع خود کشف کرده‌اند. دیگران نداشته اند. با این حال، به عنوان یک روند، اهمیت و قدرت منبع باز همچنان در حال افزایش است.

تخلیه چاه

این ما را به LLM ها می رساند. شرکت‌های بزرگی مانند JP Morgan Chase میلیاردها دلار خرج می‌کنند و بیش از ۱۰۰۰ نفر استخدام می‌کنند. دانشمندان داده، مهندسان یادگیری ماشین و دیگران برای تأثیر میلیارد دلاری در شخصی‌سازی، تجزیه و تحلیل، و غیره. اگرچه بسیاری از شرکت‌ها از پذیرش عمومی چیزهایی مانند ChatGPT بدشان می‌آید، واقعیت این است که توسعه‌دهندگان آنها از قبل از LLM برای رانندگی استفاده می‌کنند. افزایش بهره وری.

هزینه این دستاوردها به تازگی مشخص شده است. یعنی هزینه شرکت‌هایی مانند Stack Overflow که در طول تاریخ منبع بهبود بهره‌وری بوده‌اند.

6 راه برای یافتن محتوای بهتر در Mastodon

برای مثال، طبق جزئیات Similarweb، از ژانویه ۲۰۲۲، ترافیک به ترافیک Stack Overflow به طور میانگین هر ماه ۶٪ کاهش یافته است و در مارس ۲۰۲۳ به میزان ۱۳.۹٪ کاهش یافته است. مقصر دانستن ChatGPT و دیگر ابزارهای مبتنی بر GenAI برای چنین کاهشی احتمالاً ساده‌سازی بیش از حد است، اما این نیز ساده‌لوحانه است که فکر کنیم آنها درگیر نیستند.

فقط از پیتر نیکسی بپرسید، بنیانگذار Intentional.io و یک کاربر برتر ۲٪ در Stack سرریز، با پاسخ هایی که به بیش از ۱.۷ میلیون توسعه دهنده رسیده است. نیکسی علیرغم شهرتش در Stack Overflow، می‌گوید: «بعید است که من هرگز دوباره چیزی در آنجا بنویسم.» چرا؟ زیرا LLMهایی مانند ChatGPT تهدیدی برای تخلیه دانش در Stack Overflow هستند.

“وقتی دانش خود را با یکدیگر ترکیب نمی کنیم و به جای آن مستقیماً در ماشین بریزیم چه اتفاقی می افتد؟” نیکسی می پرسد. منظور از «ماشین» ابزارهای GenAI مانند ChatGPT است. برای مثال، دریافت پاسخ از یک ابزار هوش مصنوعی مانند GitHub Copilot، که در مخازن GitHub، پرسش و پاسخ Stack Overflow و غیره آموزش داده شده است، فوق العاده است. اما این سؤالات، که به صورت خصوصی پرسیده می شوند، برخلاف Stack Overflow، هیچ مخزن عمومی اطلاعات را به همراه ندارند. بنابراین، در حالی که GPT-4 در مورد تمام سوالات پرسیده شده قبل از سال ۲۰۲۱ [در Stack Overflow] آموزش دیده بود، GPT-6 روی چه چیزی آموزش می‌دهد؟ او می پرسد.

بزرگراه های اطلاعاتی یک طرفه

مشکل را می بینید؟ این پیش پا افتاده نیست، و ممکن است جدی تر از آن چیزی باشد که در زمین منبع باز چانه زنی کرده ایم. او پیشنهاد می‌کند: «اگر این الگو در جای دیگری تکرار شود و جهت دانش جمعی ما از بیرون به انسان به درون ماشین تغییر کند، ما به روشی به آن وابسته هستیم که جایگزین همه وابستگی‌های قبلی ما به ماشین شود.» به بیان ملایم، این یک مشکل است. او تاکید می کند: «همانند یک نوع کووید-۱۹ که به سرعت در حال رشد است، هوش مصنوعی صرفاً به واسطه رشد به منبع اصلی دانش تبدیل خواهد شد». “اگر مثال Stack Overflow را در نظر بگیریم، آن مجموعه از دانش بشری که قبلاً متعلق به ما بود، ممکن است به وزنی صرف در داخل ترانسفورماتور کاهش یابد.”

Arctic LLM منبع باز Snowflake برای مقابله با Llama 3، Grok، Mistral و DBRX

میزان زیادی در خطر است، و نه فقط مقادیر فراوان پول نقد که همچنان به هوش مصنوعی ما همچنین باید ارزش نسبی اطلاعات تولید شده توسط چیزهایی مانند ChatGPT را بررسی کنیم. برای مثال، سرریز پشته، پاسخ‌های مشتق شده از ChatGPT را ممنوع کرد در دسامبر ۲۰۲۲، زیرا آنها از نظر متن غنی و اطلاعات ضعیفی بودند: «از آنجایی که میانگین نرخ دریافت پاسخ‌های درست از ChatGPT بسیار پایین است، ارسال پاسخ‌های ایجاد شده توسط ChatGPT به‌طور قابل ملاحظه‌ای مضر است< /em> به سایت و کاربرانی که سوال می‌کنند و به دنبال پاسخ‌های صحیح هستند [با تاکید در اصل].” چیزهایی مانند ChatGPT برای ارائه اطلاعات صحیح طراحی نشده اند، بلکه اطلاعات احتمالی ساده طراحی شده اند که با الگوهای موجود در داده ها مطابقت دارد. به عبارت دیگر، منبع باز ممکن است با “کیسه های خاکی” پر شود، اما بدون یک جریان ثابت از داده های آموزشی خوب، LLM ها ممکن است به سادگی خود را با اطلاعات زباله پر کنند و کمتر مفید شوند.

من به طور کلی وعده های LLM و GenAI را تحقیر نمی کنم. همانند منبع باز، ناشران اخبار و موارد دیگر، می‌توانیم از OpenAI و سایر شرکت‌هایی که به ما کمک می‌کنند اطلاعات تولید شده جمعی را مهار کنیم و در عین حال از مشارکت‌کنندگانی مانند Reddit (که خود یک جمع‌آوری مشارکت‌های فردی است) برای منتظر پرداخت برای قسمت هایی که بازی می کنند. منبع باز جنگ های صدور مجوز خود را داشت و به نظر می رسد ما در شرف داشتن چیزی مشابه در دنیای GenAI هستیم، اما با عواقب بزرگتر.

شاید به این مطالب علاقمند باشید