۲۹ شهریور ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

محدودیت های تنظیم دقیق مدل و RAG

تنظیم دقیق و تقویت بازیابی زمان بر و پرهزینه است. راه بهتری برای تخصصی کردن LLMها در افق است.

تنظیم دقیق و تقویت بازیابی زمان بر و پرهزینه است. راه بهتری برای تخصصی کردن LLMها در افق است.

هیاهو و هیبت پیرامون هوش مصنوعی مولد تا حدی کاهش یافته است. مدل‌های زبان بزرگ (LLM) “Generalist” مانند GPT-4، Gemini (بارد سابق)، و Llama جملات هوشمندانه‌ای را ایجاد می‌کنند، اما تخصص آنها در حوزه نازک، توهمات فقدان هوش هیجانی و بی توجهی به رویدادهای جاری می تواند منجر به غافلگیری های وحشتناک هوش مصنوعی مولد از انتظارات ما فراتر رفت تا زمانی که به آن نیاز داشتیم که قابل اعتماد باشد، نه فقط سرگرم کننده.

در پاسخ، LLM های اختصاصی دامنه ظهور کرده اند که هدفشان ارائه پاسخ های معتبرتر است. این “متخصصان” LLM عبارتند از LEGAL-BERT برای قانون، BloombergGPT برای امور مالی، و Med-PaLM برای پزشکی. سوال باز در هوش مصنوعی این است که چگونه می توان این متخصصان را ایجاد و به کار گرفت. این پاسخ ممکن است پیامدهایی برای کسب و کار مولد هوش مصنوعی داشته باشد، که تا کنون با ارزش گذاری ها بسیار پیچیده است، اما سود خشک به دلیل هزینه های بسیار زیاد توسعه LLMهای عمومی و تخصصی.

برای تخصصی کردن LLM، توسعه دهندگان هوش مصنوعی اغلب بر دو تکنیک کلیدی تکیه می کنند: تنظیم دقیق و تولید تقویت شده با بازیابی (RAG). هر کدام دارای محدودیت هایی هستند که توسعه LLM های تخصصی را با هزینه معقول دشوار کرده است. با این حال، این محدودیت‌ها تکنیک‌های جدیدی را به وجود آورده است که ممکن است در آینده نزدیک نحوه تخصص ما در LLM را تغییر دهد.

تخصص گران است

امروزه، در مجموع بهترین متخصصان LLM عمومی هستند، و بهترین متخصصان به عنوان متخصص عمومی شروع می‌کنند و سپس تحت تنظیم دقیق قرار می‌گیرند. این فرآیند شبیه به قرار دادن یک رشته علوم انسانی از طریق مدرک تحصیلات تکمیلی STEM است. و مانند برنامه‌های تحصیلات تکمیلی، تنظیم دقیق زمان‌بر و پرهزینه است. این یک نقطه خفقان در توسعه هوش مصنوعی مولد باقی می ماند زیرا تعداد کمی از شرکت ها منابع و دانش لازم را برای ایجاد کلیات با پارامترهای بالا از ابتدا دارند.

یک LLM را به عنوان یک توپ بزرگ از اعداد در نظر بگیرید که روابط بین کلمات، عبارات و جملات را در بر می گیرد. هر چه مجموعه داده های متنی پشت آن اعداد بزرگتر باشد، به نظر می رسد LLM بهتر عمل کند. بنابراین، یک LLM با ۱ تریلیون پارامتر تمایل به رقابت با مدل پارامتر ۷۰ میلیاردی در انسجام و دقت دارد.

برای تنظیم دقیق یک متخصص، یا توپ اعداد را تنظیم می کنیم یا مجموعه ای از اعداد مکمل را اضافه می کنیم. به عنوان مثال، برای تبدیل یک LLM عمومی به یک متخصص حقوقی، می‌توانیم اسناد قانونی را همراه با پاسخ‌های صحیح و نادرست در مورد آن اسناد به آن ارائه دهیم. تنظیم دقیق LLM در خلاصه کردن اسناد قانونی و پاسخ به سؤالات مربوط به آنها بهتر است.

وضعیت اکوسیستم توسعه دهندگان ++C

از آنجایی که یک پروژه تنظیم دقیق با پردازنده‌های گرافیکی Nvidia می‌تواند صدها هزار دلار هزینه داشته باشد، LLM‌های تخصصی به ندرت بیش از یک بار در هفته یا ماه تنظیم دقیق می‌شوند. در نتیجه، آنها به ندرت با آخرین دانش و رویدادهای حوزه خود آشنا هستند.

اگر میانبری برای تخصص وجود داشت، هزاران شرکت می توانستند وارد فضای LLM شوند که منجر به رقابت و نوآوری بیشتر می شد. و اگر این میان‌بر تخصص را سریع‌تر و کم‌هزینه‌تر کند، شاید LLM‌های تخصصی می‌توانستند به طور مداوم به روز شوند. RAG تقریباً همان میانبر است، اما محدودیت هایی نیز دارد.

یادگیری از RAG

LLM ها همیشه یک قدم عقب تر از زمان حال هستند. اگر ما به یک LLM در مورد رویدادهای اخیری که در طول آموزش ندیده است، دعوت کنیم، یا از پاسخ دادن امتناع می‌کند یا توهم ایجاد می‌کند. اگر من یک کلاس از رشته های علوم کامپیوتر در مقطع کارشناسی را با سوالات امتحانی در مورد یک موضوع ناآشنا شگفت زده کنم، نتیجه مشابه خواهد بود. برخی پاسخ نمی‌دهند و برخی پاسخ‌های منطقی می‌سازند. با این حال، اگر من به دانش آموزان یک آغازگر در مورد آن موضوع جدید در متن امتحان بدهم، ممکن است به اندازه کافی یاد بگیرند که به درستی پاسخ دهند.

به طور خلاصه RAG است. ما یک اعلان وارد می کنیم و سپس اطلاعات مرتبط و اضافی را با نمونه هایی از پاسخ های درست و غلط به LLM می دهیم تا آنچه را که ایجاد می کند تقویت کنیم. LLM به اندازه یک همتای تنظیم‌شده دقیق نخواهد بود، اما RAG می‌تواند یک LLM را با هزینه بسیار کمتر از تنظیم دقیق به سرعت بالا ببرد.

با این وجود، عوامل متعددی آنچه را که LLM می توانند از طریق RAG یاد بگیرند محدود می کند. اولین عامل کمک هزینه رمزی است. با دانش‌آموزان، من می‌توانستم اطلاعات جدید زیادی را در یک امتحان زمان‌بندی‌شده وارد کنم بدون اینکه آنها را تحت تأثیر قرار دهم. به طور مشابه، LLM ها معمولاً دارای یک محدودیت هستند، معمولاً بین ۴k تا ۳۲k توکن در هر درخواست، که میزان یادگیری یک LLM را در حین پرواز محدود می کند. هزینه فراخوانی یک LLM نیز بر اساس تعداد نشانه‌ها است، بنابراین مقرون به صرفه بودن با بودجه رمز برای کنترل هزینه مهم است.

دومین عامل محدود کننده ترتیبی است که نمونه های RAG به LLM ارائه می شوند. هر چه مفهومی زودتر در مثال معرفی شود، LLM به طور کلی به آن توجه بیشتری می کند. در حالی که یک سیستم می‌تواند درخواست‌های افزایش بازیابی را به‌طور خودکار مرتب کند، محدودیت‌های توکن همچنان اعمال می‌شوند و به طور بالقوه سیستم را مجبور می‌کنند تا حقایق مهم را کاهش دهد یا کم‌اهمیت جلوه دهد. برای مقابله با این خطر، می‌توانیم از LLM اطلاعاتی را که به سه یا چهار روش مختلف سفارش داده شده‌اند بخواهیم تا ببینیم آیا پاسخ سازگار است یا خیر. با این حال، در آن مرحله، ما بازدهی کاهشی در زمان و منابع محاسباتی خود دریافت می‌کنیم.

محبوبیت فرترن با محاسبات عددی و علمی افزایش می یابد

چالش سوم اجرای تقویت بازیابی به گونه ای است که تجربه کاربر را کاهش ندهد. اگر برنامه ای حساس به تأخیر باشد، RAG تمایل دارد تأخیر را بدتر کند. در مقایسه، تنظیم دقیق، کمترین تأثیر را بر تأخیر دارد. این تفاوت بین دانستن اطلاعات از قبل در مقابل خواندن در مورد آن و سپس ابداع پاسخ است.

یک گزینه این است که تکنیک ها را ترکیب کنید: ابتدا یک LLM را دقیق تنظیم کنید و سپس از RAG برای به روز رسانی دانش آن یا برای ارجاع به اطلاعات خصوصی (مانند IP سازمانی) استفاده کنید که نمی توانند در یک مدل در دسترس عموم گنجانده شوند. در حالی که تنظیم دقیق دائمی است، RAG به طور موقت یک LLM را مجدداً آموزش می‌دهد، که از سیم‌کشی مجدد کل مدل به روش‌های ناخواسته توسط ترجیحات و مواد مرجع یک کاربر جلوگیری می‌کند.

آزمایش محدودیت‌های تنظیم دقیق و RAG به ما کمک کرده است تا این سؤال باز را در هوش مصنوعی اصلاح کنیم: چگونه می‌توانیم LLM‌ها را با هزینه کمتر و سرعت بالاتر بدون قربانی کردن عملکرد به محدودیت‌های رمز، مسائل سفارش فوری و حساسیت تأخیر، تخصصی کنیم؟< /p>

شورای متخصصان

ما می دانیم که نقطه اختناق در هوش مصنوعی مولد، توسعه مقرون به صرفه LLM های تخصصی است که پاسخ های قابل اعتماد و در سطح متخصص را در حوزه های خاص ارائه می دهند. تنظیم دقیق و RAG ما را به آنجا می رساند اما با هزینه بسیار بالا. پس بیایید یک راه حل بالقوه را در نظر بگیریم. اگر از (بیشتر) آموزش های عمومی صرف نظر کنیم، چندین LLM با پارامترهای پایین تر را تخصصی کنیم و سپس RAG را اعمال کنیم؟

در اصل، ما یک کلاس از دانشجویان هنرهای لیبرال را می گیریم، برنامه کارشناسی آنها را از چهار سال به یک سال کاهش می دهیم و آنها را برای دریافت مدارک تحصیلات تکمیلی مرتبط می فرستیم. سپس سؤالات خود را توسط برخی یا همه متخصصان مطرح می‌کنیم. ایجاد و اجرای این شورای متخصصان از نظر محاسباتی هزینه کمتری خواهد داشت.

ایده، از نظر انسانی، این است که پنج وکیل با پنج سال تجربه هر کدام قابل اعتمادتر از یک وکیل با ۵۰ سال تجربه هستند. ما مطمئن هستیم که شورا، اگرچه تجربه کمتری دارد، اما در صورت توافق گسترده بین اعضای آن، احتمالاً پاسخ صحیحی ارائه کرده است.

ما شروع به دیدن آزمایش‌هایی کرده‌ایم که در آن چندین متخصص LLM در یک درخواست با یکدیگر همکاری می‌کنند. تا اینجای کار، آنها بسیار خوب کار کرده اند. به عنوان مثال، متخصص کد LLM Mixtral از مدل ترکیبی متخصصان با کیفیت بالا استفاده می کند. (SMoE) با هشت LLM مجزا. Mixtral هر توکن داده شده را به دو مدل تغذیه می کند، نتیجه این است که ۴۶.۷ میلیارد پارامتر کل وجود دارد اما تنها ۱۲.۹ میلیارد در هر توکن استفاده می شود.

آپاچی کافکا چیست؟ جریان رویداد مقیاس پذیر

شوراها همچنین تصادفی بودن ذاتی استفاده از یک LLM را حذف می کنند. احتمال اینکه یک LLM توهم داشته باشد نسبتاً زیاد است، اما احتمال اینکه پنج LLM همزمان توهم داشته باشند کمتر است. ما هنوز هم می توانیم RAG را برای به اشتراک گذاری اطلاعات جدید اضافه کنیم. اگر رویکرد شورا در نهایت کارساز باشد، شرکت‌های کوچک‌تر می‌توانند LLM‌های تخصصی ایجاد کنند که از متخصصان دقیق‌تر همخوانی داشته باشد و همچنان با استفاده از RAG بیاموزند.

برای دانشجویان انسانی، تخصص اولیه می تواند مشکل ساز باشد. دانش عمومی اغلب برای درک مطالب پیشرفته و قرار دادن آن در یک زمینه گسترده تر ضروری است. با این حال، LLM های متخصص مانند انسان ها مسئولیت های مدنی، اخلاقی و خانوادگی ندارند. ما می توانیم آنها را در جوانی بدون استرس در مورد کمبودهای ناشی از آن متخصص کنیم.

یک یا چند

امروزه، بهترین رویکرد برای آموزش یک متخصص LLM، تنظیم دقیق یک متخصص عمومی است. RAG می تواند به طور موقت دانش یک LLM را افزایش دهد، اما به دلیل محدودیت های رمزی، این دانش اضافه شده کم عمق است.

به زودی، ممکن است از آموزش عمومی صرف نظر کنیم و شوراهایی از LLM های تخصصی تر و کارآمدتر رایانشی ایجاد کنیم که توسط RAG تقویت شده است. دیگر به LLM های عمومی با توانایی های خارق العاده برای ساختن دانش وابسته نخواهیم بود. در عوض، چیزی شبیه دانش جمعی چندین دانشمند جوان و آموزش دیده به دست خواهیم آورد.

در حالی که باید مراقب انسان‌سازی LLMها باشیم – یا ویژگی‌های ماشین‌مانند را به انسان نسبت دهیم – برخی مشابهت‌ها قابل ذکر هستند. حساب کردن روی یک فرد، منبع خبری یا انجمن برای دانش ما خطرناک است، همانطور که وابستگی به یک LLM برای پاسخ های دقیق خطرناک است.

برعکس، طوفان فکری با ۵۰ نفر، خواندن ۵۰ منبع خبری، یا بررسی ۵۰ تالار گفتگو باعث ایجاد سر و صدای زیاد (و کار) می شود. در LLM ها هم همینطور. به احتمال زیاد بین یک متخصص عمومی و تعداد زیادی متخصص نقطه شیرینی وجود دارد. ما هنوز نمی دانیم کجا قرار دارد، اما RAG زمانی که تعادل را پیدا کنیم مفیدتر خواهد بود.

دکتر جیگنش پاتل یکی از بنیانگذاران DataChat و استاد دانشگاه کارنگی ملون.

Generative AI Insights مکانی را برای رهبران فناوری – از جمله فروشندگان و سایر مشارکت‌کنندگان خارجی – فراهم می‌کند تا چالش‌ها و فرصت‌های هوش مصنوعی مولد را بررسی و بحث کنند. این انتخاب گسترده است، از غواصی عمیق فناوری گرفته تا مطالعات موردی گرفته تا نظرات متخصص، اما همچنین ذهنی است، بر اساس قضاوت ما در مورد اینکه کدام موضوعات و درمان ها به بهترین وجه به مخاطبان فنی پیشرفته InfoWorld خدمت می کنند. InfoWorld وثیقه بازاریابی را برای انتشار نمی پذیرد و حق ویرایش تمام محتوای ارائه شده را برای خود محفوظ می دارد. تماس با doug_dineley@foundryco.com.

شاید به این مطالب علاقمند باشید