تنظیم دقیق و تقویت بازیابی زمان بر و پرهزینه است. راه بهتری برای تخصصی کردن LLMها در افق است.
هیاهو و هیبت پیرامون هوش مصنوعی مولد تا حدی کاهش یافته است. مدلهای زبان بزرگ (LLM) “Generalist” مانند GPT-4، Gemini (بارد سابق)، و Llama جملات هوشمندانهای را ایجاد میکنند، اما تخصص آنها در حوزه نازک، توهمات فقدان هوش هیجانی و بی توجهی به رویدادهای جاری می تواند منجر به غافلگیری های وحشتناک هوش مصنوعی مولد از انتظارات ما فراتر رفت تا زمانی که به آن نیاز داشتیم که قابل اعتماد باشد، نه فقط سرگرم کننده.
در پاسخ، LLM های اختصاصی دامنه ظهور کرده اند که هدفشان ارائه پاسخ های معتبرتر است. این “متخصصان” LLM عبارتند از LEGAL-BERT برای قانون، BloombergGPT برای امور مالی، و Med-PaLM برای پزشکی. سوال باز در هوش مصنوعی این است که چگونه می توان این متخصصان را ایجاد و به کار گرفت. این پاسخ ممکن است پیامدهایی برای کسب و کار مولد هوش مصنوعی داشته باشد، که تا کنون با ارزش گذاری ها بسیار پیچیده است، اما سود خشک به دلیل هزینه های بسیار زیاد توسعه LLMهای عمومی و تخصصی.
برای تخصصی کردن LLM، توسعه دهندگان هوش مصنوعی اغلب بر دو تکنیک کلیدی تکیه می کنند: تنظیم دقیق و تولید تقویت شده با بازیابی (RAG). هر کدام دارای محدودیت هایی هستند که توسعه LLM های تخصصی را با هزینه معقول دشوار کرده است. با این حال، این محدودیتها تکنیکهای جدیدی را به وجود آورده است که ممکن است در آینده نزدیک نحوه تخصص ما در LLM را تغییر دهد.
تخصص گران است
امروزه، در مجموع بهترین متخصصان LLM عمومی هستند، و بهترین متخصصان به عنوان متخصص عمومی شروع میکنند و سپس تحت تنظیم دقیق قرار میگیرند. این فرآیند شبیه به قرار دادن یک رشته علوم انسانی از طریق مدرک تحصیلات تکمیلی STEM است. و مانند برنامههای تحصیلات تکمیلی، تنظیم دقیق زمانبر و پرهزینه است. این یک نقطه خفقان در توسعه هوش مصنوعی مولد باقی می ماند زیرا تعداد کمی از شرکت ها منابع و دانش لازم را برای ایجاد کلیات با پارامترهای بالا از ابتدا دارند.
یک LLM را به عنوان یک توپ بزرگ از اعداد در نظر بگیرید که روابط بین کلمات، عبارات و جملات را در بر می گیرد. هر چه مجموعه داده های متنی پشت آن اعداد بزرگتر باشد، به نظر می رسد LLM بهتر عمل کند. بنابراین، یک LLM با ۱ تریلیون پارامتر تمایل به رقابت با مدل پارامتر ۷۰ میلیاردی در انسجام و دقت دارد.
برای تنظیم دقیق یک متخصص، یا توپ اعداد را تنظیم می کنیم یا مجموعه ای از اعداد مکمل را اضافه می کنیم. به عنوان مثال، برای تبدیل یک LLM عمومی به یک متخصص حقوقی، میتوانیم اسناد قانونی را همراه با پاسخهای صحیح و نادرست در مورد آن اسناد به آن ارائه دهیم. تنظیم دقیق LLM در خلاصه کردن اسناد قانونی و پاسخ به سؤالات مربوط به آنها بهتر است.
از آنجایی که یک پروژه تنظیم دقیق با پردازندههای گرافیکی Nvidia میتواند صدها هزار دلار هزینه داشته باشد، LLMهای تخصصی به ندرت بیش از یک بار در هفته یا ماه تنظیم دقیق میشوند. در نتیجه، آنها به ندرت با آخرین دانش و رویدادهای حوزه خود آشنا هستند.
اگر میانبری برای تخصص وجود داشت، هزاران شرکت می توانستند وارد فضای LLM شوند که منجر به رقابت و نوآوری بیشتر می شد. و اگر این میانبر تخصص را سریعتر و کمهزینهتر کند، شاید LLMهای تخصصی میتوانستند به طور مداوم به روز شوند. RAG تقریباً همان میانبر است، اما محدودیت هایی نیز دارد.
یادگیری از RAG
LLM ها همیشه یک قدم عقب تر از زمان حال هستند. اگر ما به یک LLM در مورد رویدادهای اخیری که در طول آموزش ندیده است، دعوت کنیم، یا از پاسخ دادن امتناع میکند یا توهم ایجاد میکند. اگر من یک کلاس از رشته های علوم کامپیوتر در مقطع کارشناسی را با سوالات امتحانی در مورد یک موضوع ناآشنا شگفت زده کنم، نتیجه مشابه خواهد بود. برخی پاسخ نمیدهند و برخی پاسخهای منطقی میسازند. با این حال، اگر من به دانش آموزان یک آغازگر در مورد آن موضوع جدید در متن امتحان بدهم، ممکن است به اندازه کافی یاد بگیرند که به درستی پاسخ دهند.
به طور خلاصه RAG است. ما یک اعلان وارد می کنیم و سپس اطلاعات مرتبط و اضافی را با نمونه هایی از پاسخ های درست و غلط به LLM می دهیم تا آنچه را که ایجاد می کند تقویت کنیم. LLM به اندازه یک همتای تنظیمشده دقیق نخواهد بود، اما RAG میتواند یک LLM را با هزینه بسیار کمتر از تنظیم دقیق به سرعت بالا ببرد.
با این وجود، عوامل متعددی آنچه را که LLM می توانند از طریق RAG یاد بگیرند محدود می کند. اولین عامل کمک هزینه رمزی است. با دانشآموزان، من میتوانستم اطلاعات جدید زیادی را در یک امتحان زمانبندیشده وارد کنم بدون اینکه آنها را تحت تأثیر قرار دهم. به طور مشابه، LLM ها معمولاً دارای یک محدودیت هستند، معمولاً بین ۴k تا ۳۲k توکن در هر درخواست، که میزان یادگیری یک LLM را در حین پرواز محدود می کند. هزینه فراخوانی یک LLM نیز بر اساس تعداد نشانهها است، بنابراین مقرون به صرفه بودن با بودجه رمز برای کنترل هزینه مهم است.
دومین عامل محدود کننده ترتیبی است که نمونه های RAG به LLM ارائه می شوند. هر چه مفهومی زودتر در مثال معرفی شود، LLM به طور کلی به آن توجه بیشتری می کند. در حالی که یک سیستم میتواند درخواستهای افزایش بازیابی را بهطور خودکار مرتب کند، محدودیتهای توکن همچنان اعمال میشوند و به طور بالقوه سیستم را مجبور میکنند تا حقایق مهم را کاهش دهد یا کماهمیت جلوه دهد. برای مقابله با این خطر، میتوانیم از LLM اطلاعاتی را که به سه یا چهار روش مختلف سفارش داده شدهاند بخواهیم تا ببینیم آیا پاسخ سازگار است یا خیر. با این حال، در آن مرحله، ما بازدهی کاهشی در زمان و منابع محاسباتی خود دریافت میکنیم.
چالش سوم اجرای تقویت بازیابی به گونه ای است که تجربه کاربر را کاهش ندهد. اگر برنامه ای حساس به تأخیر باشد، RAG تمایل دارد تأخیر را بدتر کند. در مقایسه، تنظیم دقیق، کمترین تأثیر را بر تأخیر دارد. این تفاوت بین دانستن اطلاعات از قبل در مقابل خواندن در مورد آن و سپس ابداع پاسخ است.
یک گزینه این است که تکنیک ها را ترکیب کنید: ابتدا یک LLM را دقیق تنظیم کنید و سپس از RAG برای به روز رسانی دانش آن یا برای ارجاع به اطلاعات خصوصی (مانند IP سازمانی) استفاده کنید که نمی توانند در یک مدل در دسترس عموم گنجانده شوند. در حالی که تنظیم دقیق دائمی است، RAG به طور موقت یک LLM را مجدداً آموزش میدهد، که از سیمکشی مجدد کل مدل به روشهای ناخواسته توسط ترجیحات و مواد مرجع یک کاربر جلوگیری میکند.
آزمایش محدودیتهای تنظیم دقیق و RAG به ما کمک کرده است تا این سؤال باز را در هوش مصنوعی اصلاح کنیم: چگونه میتوانیم LLMها را با هزینه کمتر و سرعت بالاتر بدون قربانی کردن عملکرد به محدودیتهای رمز، مسائل سفارش فوری و حساسیت تأخیر، تخصصی کنیم؟< /p>
شورای متخصصان
ما می دانیم که نقطه اختناق در هوش مصنوعی مولد، توسعه مقرون به صرفه LLM های تخصصی است که پاسخ های قابل اعتماد و در سطح متخصص را در حوزه های خاص ارائه می دهند. تنظیم دقیق و RAG ما را به آنجا می رساند اما با هزینه بسیار بالا. پس بیایید یک راه حل بالقوه را در نظر بگیریم. اگر از (بیشتر) آموزش های عمومی صرف نظر کنیم، چندین LLM با پارامترهای پایین تر را تخصصی کنیم و سپس RAG را اعمال کنیم؟
در اصل، ما یک کلاس از دانشجویان هنرهای لیبرال را می گیریم، برنامه کارشناسی آنها را از چهار سال به یک سال کاهش می دهیم و آنها را برای دریافت مدارک تحصیلات تکمیلی مرتبط می فرستیم. سپس سؤالات خود را توسط برخی یا همه متخصصان مطرح میکنیم. ایجاد و اجرای این شورای متخصصان از نظر محاسباتی هزینه کمتری خواهد داشت.
ایده، از نظر انسانی، این است که پنج وکیل با پنج سال تجربه هر کدام قابل اعتمادتر از یک وکیل با ۵۰ سال تجربه هستند. ما مطمئن هستیم که شورا، اگرچه تجربه کمتری دارد، اما در صورت توافق گسترده بین اعضای آن، احتمالاً پاسخ صحیحی ارائه کرده است.
ما شروع به دیدن آزمایشهایی کردهایم که در آن چندین متخصص LLM در یک درخواست با یکدیگر همکاری میکنند. تا اینجای کار، آنها بسیار خوب کار کرده اند. به عنوان مثال، متخصص کد LLM Mixtral از مدل ترکیبی متخصصان با کیفیت بالا استفاده می کند. (SMoE) با هشت LLM مجزا. Mixtral هر توکن داده شده را به دو مدل تغذیه می کند، نتیجه این است که ۴۶.۷ میلیارد پارامتر کل وجود دارد اما تنها ۱۲.۹ میلیارد در هر توکن استفاده می شود.
شوراها همچنین تصادفی بودن ذاتی استفاده از یک LLM را حذف می کنند. احتمال اینکه یک LLM توهم داشته باشد نسبتاً زیاد است، اما احتمال اینکه پنج LLM همزمان توهم داشته باشند کمتر است. ما هنوز هم می توانیم RAG را برای به اشتراک گذاری اطلاعات جدید اضافه کنیم. اگر رویکرد شورا در نهایت کارساز باشد، شرکتهای کوچکتر میتوانند LLMهای تخصصی ایجاد کنند که از متخصصان دقیقتر همخوانی داشته باشد و همچنان با استفاده از RAG بیاموزند.
برای دانشجویان انسانی، تخصص اولیه می تواند مشکل ساز باشد. دانش عمومی اغلب برای درک مطالب پیشرفته و قرار دادن آن در یک زمینه گسترده تر ضروری است. با این حال، LLM های متخصص مانند انسان ها مسئولیت های مدنی، اخلاقی و خانوادگی ندارند. ما می توانیم آنها را در جوانی بدون استرس در مورد کمبودهای ناشی از آن متخصص کنیم.
یک یا چند
امروزه، بهترین رویکرد برای آموزش یک متخصص LLM، تنظیم دقیق یک متخصص عمومی است. RAG می تواند به طور موقت دانش یک LLM را افزایش دهد، اما به دلیل محدودیت های رمزی، این دانش اضافه شده کم عمق است.
به زودی، ممکن است از آموزش عمومی صرف نظر کنیم و شوراهایی از LLM های تخصصی تر و کارآمدتر رایانشی ایجاد کنیم که توسط RAG تقویت شده است. دیگر به LLM های عمومی با توانایی های خارق العاده برای ساختن دانش وابسته نخواهیم بود. در عوض، چیزی شبیه دانش جمعی چندین دانشمند جوان و آموزش دیده به دست خواهیم آورد.
در حالی که باید مراقب انسانسازی LLMها باشیم – یا ویژگیهای ماشینمانند را به انسان نسبت دهیم – برخی مشابهتها قابل ذکر هستند. حساب کردن روی یک فرد، منبع خبری یا انجمن برای دانش ما خطرناک است، همانطور که وابستگی به یک LLM برای پاسخ های دقیق خطرناک است.
برعکس، طوفان فکری با ۵۰ نفر، خواندن ۵۰ منبع خبری، یا بررسی ۵۰ تالار گفتگو باعث ایجاد سر و صدای زیاد (و کار) می شود. در LLM ها هم همینطور. به احتمال زیاد بین یک متخصص عمومی و تعداد زیادی متخصص نقطه شیرینی وجود دارد. ما هنوز نمی دانیم کجا قرار دارد، اما RAG زمانی که تعادل را پیدا کنیم مفیدتر خواهد بود.
دکتر جیگنش پاتل یکی از بنیانگذاران DataChat و استاد دانشگاه کارنگی ملون.
—
Generative AI Insights مکانی را برای رهبران فناوری – از جمله فروشندگان و سایر مشارکتکنندگان خارجی – فراهم میکند تا چالشها و فرصتهای هوش مصنوعی مولد را بررسی و بحث کنند. این انتخاب گسترده است، از غواصی عمیق فناوری گرفته تا مطالعات موردی گرفته تا نظرات متخصص، اما همچنین ذهنی است، بر اساس قضاوت ما در مورد اینکه کدام موضوعات و درمان ها به بهترین وجه به مخاطبان فنی پیشرفته InfoWorld خدمت می کنند. InfoWorld وثیقه بازاریابی را برای انتشار نمی پذیرد و حق ویرایش تمام محتوای ارائه شده را برای خود محفوظ می دارد. تماس با doug_dineley@foundryco.com a>.
پست های مرتبط
محدودیت های تنظیم دقیق مدل و RAG
محدودیت های تنظیم دقیق مدل و RAG
محدودیت های تنظیم دقیق مدل و RAG