۳۰ شهریور ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

اطمینان حاصل کنید که منبع باز هوش مصنوعی را خراب نمی کند

درس‌های آموخته‌شده از ابر باعث می‌شود که یک بررسی فعالانه درباره معنای «منبع باز» بودن در دنیای به‌سرعت در حال تکامل هوش مصنوعی باشد.

درس‌های آموخته‌شده از ابر باعث می‌شود که یک بررسی فعالانه درباره معنای «منبع باز» بودن در دنیای به‌سرعت در حال تکامل هوش مصنوعی باشد.

منبع باز هرگز به راحتی در فضای ابری قرار نگرفته است. درست است که منبع باز هرگز قوی تر از این نبوده است (با وجود برخی شواهد که اکثر پروژه های منبع باز یک زمین بیهوده امنیتی هستند)، اما دلیلی وجود دارد که مدل های مجوز جدید همچنان ظاهر می شوند، و این طمع شرکتی نیست. . بلکه به این دلیل است که آزادی های اساسی منبع باز و تعریف منبع باز (OSD) که به درستی مورد احترام واقعاً به تفاوت های تحمیل شده رایانش ابری پاسخ دهید (چیزی که من نوشتن درباره سال ۲۰۰۹).

استفانو مافولی، مدیر اجرایی ابتکار منبع باز (OSI) که از OSD پشتیبانی می‌کند، استدلال می‌کند: «متن باز به نوعی تکامل روش توزیع و اجرای نرم‌افزار را از دست داده است. ما واقعاً به آنچه در جریان بود توجه نکردیم و این منجر به تنش زیادی در تجارت ابری شد.» همانطور که به یاد دارم، ما به این تغییر توجه زیادی کردیم، اما فشار زیادی برای حرکت سریع وجود داشت که به عنوان یک صنعت در نهایت هک های شخص ثالث مانند مجوز عمومی عمومی Affero را پذیرفتیم. (AGPL)، که هیچ کس را راضی نکرد و واقعیت ایجاد نرم افزار را نادیده گرفت. برخی نامیده اند AGPL “سمی” و باعث می‌شود که تأثیرگذاران اصلی مانند Google به سادگی آن را به عنوان وجود رد کنند< /a> “پیروی کردن با آن بسیار دشوار است.”

این بار، OSI مصمم است منبع باز را برای عصر هوش مصنوعی ارتقا دهد. در مصاحبه‌ای با Maffulli، او چالش‌ها و فرصت‌های اعمال OSD در هوش مصنوعی را بررسی کرد.

“شما به استفاده از آن کلمه ادامه می دهید”

ما همه شکار متا و دیگران را به دلیل سوء استفاده از اصطلاح “منبع باز” برای مدل‌های زبان بزرگ (LLM) و سایر پروژه‌های هوش مصنوعی دیده‌ایم. Mike توسعه دهنده می‌توانیم وانمود کنیم که منبع باز در هوش مصنوعی یکسان است، همانطور که با ابر انجام دادیم، اما نتیجه به همان اندازه رضایت‌بخش نخواهد بود. «مدل‌های هوش مصنوعی ظاهراً فقط برنامه‌های نرم‌افزاری هستند، اما نحوه توسعه، استفاده و توزیع آن‌ها بر خلاف نرم‌افزار است.» مهول شاه، مدیرعامل و یکی از بنیان‌گذاران آرین اشاره می‌کند. وقتی خلاف این را وانمود می کنیم، در حال تنظیم منبع باز برای شکست هستیم.

«هوش مصنوعی مرز بین داده‌ها و نرم‌افزار را می‌شکند» OSI پیشنهاد می‌کند. آیا منبع باز باید برای وزن ها / اعداد ممیز شناور در یک LLM اعمال شود، یا برای داده های آموزشی یا چیز دیگری؟ نامشخص است، و هرکسی که در غیر این صورت پیشنهاد می‌کند، خطر اشتباه ساده‌ای را که ما با ابر مرتکب شدیم، انجام می‌دهد و به جای اینکه واقعاً با مسائل سخت دست و پنجه نرم کند، به هک مجوز رضایت دهد.

نتایج مهم است.

آخرین پیش نویس قانون هوش مصنوعی اروپا، که سعی می کند استثناهایی را برای هوش مصنوعی “رایگان و منبع باز” ایجاد کند (بخش ۶۰). همانطور که مافولی خاطرنشان می‌کند، «اگر درک روشنی از معنای [منبع باز] در عمل وجود نداشته باشد، من انتظار دارم که تأثیر وحشتناک گسترده‌ای بر تحقیقات داشته باشد، و «هم دانشگاه‌ها و هم آزمایشگاه‌های خصوصی به دلیل عدم قطعیت‌ها آسیب خواهند دید». برای آن دسته از ما که در سال‌های اولیه استفاده از منبع باز تجاری در فضای ابری زندگی کرده‌ایم، مشکل را درک خواهید کرد در سال ۲۰۰۷ توضیح دادم: در آن زمان هیچ کس نمی دانست که “توزیع” به چه معنی است زیرا “نرم افزار” به طور فزاینده ای به معنای “خدمات توزیع شده از طریق شبکه” است. پذیرندگان شرکتی مطمئن نبودند که چگونه مجوزهای رایگان و منبع باز مانند GPL را اعمال کنند.

مافولی تأکید می‌کند: «نمی‌خواستم تکرار کنم… همان اشتباهات [که با] ابر با هوش مصنوعی داشتیم». بنابراین به همین دلیل است که سه سال پیش ما شروع به بررسی آنچه در [AI] اتفاق می‌افتد، کردیم.» اغراق کردن این موضوع دشوار است که چقدر با زمانی که ابر OSI را جابجا می کرد متفاوت است. به نظر می‌رسد که OSI سال‌ها دیر با ابر واکنش نشان داده است. اکنون، زود درگیر است.

“بسیار پیچیده”

به‌جای اینکه نرم‌افزار را نرم‌افزار فرض کنیم، Maffulli و OSI با سؤالات اساسی در مورد معنای نرم‌افزار در هوش مصنوعی دست و پنجه نرم می‌کنند. همانطور که Maffulli به آن می‌گوید، «برای یک توسعه‌دهنده دسترسی به یک مدل به چه معناست، و چه حقوقی باید اعمال شوند، و برای داشتن امکان تغییر [و توزیع مجدد] به چه چیزی نیاز دارید. آن مدل؟» اگرچه اکثر توسعه دهندگان کد منبع را بازرسی یا تغییر نمی دهند، ضروری است که بتوانند. این شاید به ویژه در هوش مصنوعی صادق باشد، زمانی که سیستم‌های جعبه سیاه می‌توانند تأثیرات قدرتمندی بر زندگی روزمره داشته باشند (مانند غربالگری متقاضیان شغل). ما به توانایی نگاه کردن به آن «جعبه سیاه» نیاز داریم تا بفهمیم چگونه مدل یادگیری ماشینی به تصمیم‌ها رسیده است. مافولی استدلال می‌کند که در متن باز، «شما باید نحوه کارکرد آن را مطالعه کنید تا بتوانید تأیید کنید آنچه دریافت می‌کنید با آنچه در جعبه ادعا می‌کند مطابقت دارد».

آسان به نظر می رسد؟ این نیست. او تاکید می کند: “این کاری است که ما در تلاشیم تا انجام دهیم و این یک سناریوی بسیار پیچیده است.”

برای اطمینان از اینکه OSI نافذ نیست، مافولی با طیف گسترده‌ای از طرف‌های علاقه‌مند کار می‌کند – موزیلا، سرمایه‌گذاران خطرپذیر، Creative Commons، دانشگاهیان و همه چیز در این بین. نکته این است که با طیف وسیعی از کسانی که “علاقه مند به درک واضح تر” هستند صحبت کنید زیرا “متن باز به عنوان یک محرک برای موفقیت اقتصادی شناخته می شود.”

بزرگترین مشکل در تعریف منبع باز در دنیایی است که داده ها و نرم افزار بسیار به هم مرتبط هستند. همانطور که مافولی توضیح می‌دهد، شدیدترین بحث‌ها در میان گروه کاری او حول وابستگی‌های بین داده‌های آموزشی و دستورالعمل‌های نحوه اعمال آن‌ها می‌چرخد. او می‌گوید، با توجه به پیچیدگی و مخاطرات موجود، شاید تعجب‌آور نباشد که «در حال حاضر هیچ اجماع قوی درباره معنای آن وجود ندارد.

حداقل دو رویکرد وجود دارد که دو جناح اصلی در گروه کاری قرار دارند. اولی سعی می کند به مفهوم راحت کد منبع پایبند باشد و این ایده را ترویج کند که “کد منبع” یک به یک به مجموعه داده ترجمه می شود. در این دیدگاه، ترکیبی از دستورالعمل‌های نحوه ساخت مدل و کد باینری، کد منبع موضوع «متن‌باز» است.

گروه دوم چیزها را کاملاً متفاوت می بیند و معتقد است که شما نمی توانید کد را بدون دسترسی به مجموعه داده اصلی تغییر دهید. در این دیدگاه، شما به چیزهای دیگری نیاز دارید تا به طور موثر آزادی های اساسی منبع باز را اعمال کنید. همانطور که Maffulli توضیح می دهد، شما نیاز به “توضیح بسیار دقیقی از آنچه در ایجاد این مصنوع انجام شده است.” در این دنیا، شما باید تمام اسکریپت‌هایی را که برای جمع‌آوری مجموعه داده‌ها، وزن‌های حاکم بر LLM، سوگیری‌هایی که به مدل وارد می‌کنید و غیره منتشر کنید. به نظر من، این موضوع بسیار جالب‌تر و جالب‌تر است. روشی مفید برای تفکر در مورد هوش مصنوعی منبع باز، اما ارائه آن در عمل نیز بسیار پیچیده تر است.

هیچ رویکردی به خودی خود قابل اجرا نیست. به گفته مافولی، “ما باید مخرج مشترک را پیدا کنیم.” همانطور که او توضیح می دهد، رویکردهای فعلی ممکن است بخش عظیمی از هوش مصنوعی را در برابر منبع باز غیرقابل نفوذ کند زیرا یکی از راه ها برنامه هایی را که نمی توان داده ها را به اشتراک گذاشت یا برنامه هایی را که بدون مفهوم داده های مشترک ساخته می شوند (مانند سیستم های یادگیری فدرال) نادیده می گیرد. way از اهمیت اساسی داده ها برای کارکرد هوش مصنوعی قدردانی نمی کند. از برخی جهات شبیه نحوه تلاش OSI برای ایجاد تعریفی از «توزیع» است که اجتناب از مجوزهایی مانند AGPL را برای برخی از بهترین شهروندان منبع باز مانند Google غیرعملی یا غیرممکن می کرد.

مافولی خوشبین است. او می‌گوید تا سال ۲۰۲۴، «چیزی را خواهیم دید که به چهار آزادی شباهت دارد، زیرا هرکسی برای یافتن تعریفی از هوش مصنوعی منبع باز بسیار فوریت دارد». رویکرد این بار متفاوت است. ما در حال برداشتن یک گام به عقب [و نه] چک لیستی از ۱۰ امتیاز برای ارزیابی مجوزها هستیم.» در عوض، آن چهار آزادی (در واقع چهار اصل) “به پنج آزادی تبدیل خواهند شد و [خواهد شد] برای سیستم های هوش مصنوعی اعمال می شود. او استدلال می‌کند که وقتی روی این اصول اساسی مستقر شدیم، استفاده از آنها در یادگیری عمیق، یادگیری ماشین و سایر سیستم‌های هوش مصنوعی برای سنجش «منبع باز» نسبتاً آسان خواهد بود.

خوشبختانه، OSI به تنهایی کار نمی کند. اگر می‌خواهید کمک کنید، می‌توانید در فرآیند غواصی عمیق OSI شرکت کنید، در مورد آن نظر دهید. تکامل OSD، یا با Maffulli مستقیم. Maffulli یک فرآیند باز و فراگیر را اجرا می کند تا اطمینان حاصل کند که OSI منبع باز را در هوش مصنوعی کوتاه نمی کند.