۲۹ شهریور ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

رویکرد جدید AWS برای ارزیابی RAG می‌تواند به شرکت‌ها در کاهش هزینه‌های هوش مصنوعی کمک کند

محققان AWS روش جدیدی برای طراحی مکانیزم ارزیابی خودکار RAG ایجاد کرده‌اند که می‌تواند به شرکت‌ها در ساخت سریع‌تر اپلیکیشن‌ها و کاهش هزینه‌ها کمک کند.

محققان AWS روش جدیدی برای طراحی مکانیزم ارزیابی خودکار RAG ایجاد کرده‌اند که می‌تواند به شرکت‌ها در ساخت سریع‌تر اپلیکیشن‌ها و کاهش هزینه‌ها کمک کند.

نظریه جدید AWS در مورد طراحی مکانیزم ارزیابی خودکار RAG نه تنها می تواند توسعه هوش مصنوعی مولد را تسهیل کند. مبتنی بر برنامه‌های کاربردی، بلکه به شرکت‌ها کمک می‌کند تا هزینه‌های زیرساخت محاسباتی را کاهش دهند.

RAG یا نسل افزوده بازیابی یکی از چندین تکنیک مورد استفاده برای رسیدگی به توهمات است، که پاسخ‌های دلخواه یا بی‌معنی هستند که توسط مدل‌های زبان بزرگ (LLM) هنگام رشد در پیچیدگی.

RAG با تغذیه واقعیت‌های مدل از یک منبع دانش خارجی یا مخزن برای بهبود پاسخ به یک درخواست خاص، LLM را پایه‌گذاری می‌کند.

راه‌های دیگری برای مدیریت توهم وجود دارد، مانند تنظیم دقیق و مهندسی سریع، اما چارلی دای، تحلیلگر اصلی Forrester اشاره کرد که RAG به یک رویکرد حیاتی برای شرکت‌ها برای کاهش توهمات در LLM و هدایت نتایج تجاری از هوش مصنوعی مولد.

با این حال، دای خاطرنشان کرد که خطوط لوله RAG به مجموعه‌ای از بلوک‌های ساختمانی و شیوه‌های مهندسی اساسی نیاز دارد، و شرکت‌ها به طور فزاینده‌ای به دنبال رویکردهای ارزیابی قوی و خودکار برای تسریع طرح‌های RAG خود هستند، به همین دلیل است که مقاله جدید AWS می‌تواند شرکت‌ها را مورد توجه قرار دهد. /p>

رویکردی که محققان AWS در این مقاله ارائه کرده‌اند می‌تواند به شرکت‌ها کمک کند تا راه‌حل‌های کارآمدتر و مقرون‌به‌صرفه‌تری را در مورد RAG بسازند که به تلاش‌های پرهزینه تنظیم دقیق، گردش‌های کاری ناکارآمد RAG، و بیش از حد یادگیری درون زمینه‌ای متکی نیست (یعنی حداکثر کردن) بردلی شیمین، تحلیلگر ارشد Omdia گفت.

Semantic Kernel: پلی بین مدل های زبان بزرگ و کد شما

مکانیسم ارزیابی خودکار RAG AWS چیست؟

مقاله با عنوان «ارزیابی خودکار مدل‌های زبان تقویت‌شده بازیابی با تولید آزمون‌های خاص»، که در کنفرانس ICML 2024 در ژوئیه ارائه می‌شود، یک فرآیند تولید آزمون خودکار را پیشنهاد می‌کند که توسط نظریه پاسخ آیتم (IRT) تقویت شده است. ، برای ارزیابی دقت واقعی مدل های RAG در وظایف خاص.

نظریه پاسخ آیتم، که به عنوان نظریه پاسخ نهفته شناخته می‌شود، معمولاً در روان‌سنجی برای تعیین رابطه بین ویژگی‌های غیرقابل مشاهده و ویژگی‌های قابل مشاهده، مانند خروجی یا پاسخ‌ها، با کمک یک خانواده از مدل‌های ریاضی استفاده می‌شود.

>

بر اساس پژوهشگران AWS، ارزیابی RAG با امتیازدهی به آن در یک امتحان مصنوعی تولید شده خودکار متشکل از سوالات چند گزینه ای بر اساس مجموعه اسناد مرتبط با یک کار خاص انجام می شود.

“ما از تئوری پاسخ آیتم برای تخمین کیفیت یک امتحان و آموزنده بودن آن در مورد دقت تکلیف استفاده می کنیم. IRT همچنین با حذف سوالات امتحانی که به اندازه کافی در مورد توانایی یک مدل اطلاعاتی ندارند، یک راه طبیعی برای بهبود مکرر امتحان ارائه می‌کند.

آنها توضیح دادند که فرآیند جدید ارزیابی RAG بر روی چهار تکلیف پرسش-پاسخ باز جدید مبتنی بر خلاصه‌های Arxiv، سؤالات StackExchange، راهنمای عیب‌یابی AWS DevOps و فایل‌های SEC آزمایش شد و افزودند که آزمایش‌ها بینش‌های کلی تری را نشان دادند. عوامل موثر بر عملکرد RAG مانند اندازه، مکانیسم بازیابی، درخواست و تنظیم دقیق.

رویکرد امیدوارکننده

رویکرد مورد بحث در مقاله AWS چندین نکته امیدوارکننده دارد، از جمله پرداختن به چالش خطوط لوله تخصصی که به آزمایش‌های تخصصی نیاز دارند، به گفته جو رگنزبرگر، متخصص هوش مصنوعی شرکت امنیت داده‌ها.

«این موضوع کلیدی است زیرا بیشتر خطوط لوله به LLMهای تجاری یا منبع باز غیرقابل عرضه تکیه می کنند. Regensburger توضیح داد که این مدل‌ها بر روی دانش خاص دامنه آموزش داده نشده‌اند، بنابراین مجموعه‌های آزمایشی معمولی مفید نخواهند بود.

غلبه بر محدودیت های هوش مصنوعی

با این حال، رگنسبرگر اشاره کرد که اگرچه این رویکرد امیدوارکننده است، اما همچنان باید در بخش تولید امتحان تکامل یابد، زیرا بزرگترین چالش ایجاد یک سؤال یا پاسخ مناسب نیست، بلکه ایجاد سؤالات حواس‌پرتی به اندازه کافی چالش برانگیز است. 

«فرایندهای خودکار، به طور کلی، در رقابت با سطح سؤالات تولید شده توسط انسان، به ویژه از نظر سؤالات حواس پرتی، تلاش می کنند. به این ترتیب، این فرآیند تولید حواس‌پرتی است که می‌تواند از بحث‌های دقیق‌تر بهره‌مند شود.» رجنزبرگر با مقایسه سؤالات ایجاد شده به طور خودکار با سؤالات تولید شده توسط انسان در آزمون‌های AP (جایگزینی پیشرفته) گفت.

به گفته Regensburger، سؤالات در امتحانات AP توسط متخصصان این حوزه تنظیم می‌شوند که به تنظیم، بررسی و تکرار سؤالات در حین تنظیم امتحان ادامه می‌دهند.

نکته مهم این است که کاوشگرهای مبتنی بر امتحان برای LLM ها از قبل وجود دارد. «بخشی از اسناد ChatGPT، عملکرد مدل را در برابر باتری آزمایش‌های استاندارد اندازه‌گیری می‌کند، Regensburger گفت، و افزود که مقاله AWS با پیشنهاد این که یک آزمون می تواند بر اساس پایگاه های دانش تخصصی و اغلب خصوصی ایجاد شود، فرض OpenAI را گسترش می دهد.  

“در تئوری، این ارزیابی می کند که چگونه یک خط لوله RAG می تواند به دانش جدید و تخصصی تعمیم یابد.”

در همان زمان، Shimmin Omdia اشاره کرد که چندین فروشنده، از جمله AWS، Microsoft، IBM، و Salesforce در حال حاضر ابزارها یا چارچوب‌هایی را ارائه می‌دهند که بر بهینه‌سازی و بهبود پیاده‌سازی RAG از ابزارهای اولیه اتوماسیون مانند LlamaIndex تا ابزارهای پیشرفته مانند ابزارهای جدید مایکروسافت تمرکز دارند. GraphRAG را راه اندازی کرد.

محدودیت های تنظیم دقیق مدل و RAG

RAG بهینه شده در مقابل مدل های زبان بسیار بزرگ

پژوهشگران AWS در مقاله اشاره کردند

انتخاب الگوریتم‌های بازیابی مناسب اغلب به دستاوردهای عملکردی بزرگ‌تری نسبت به استفاده از یک LLM بزرگ‌تر منجر می‌شود، که در آن رویکرد دوم ممکن است پرهزینه باشد.

در حالی که پیشرفت‌های اخیر مانند «ذخیره‌سازی متن» با Google Gemini Flash این امکان را برای شرکت‌ها فراهم می‌کند که نیاز به ساختن فرآیندهای پیچیده و پیچیده توکن‌سازی، قطعه‌سازی و بازیابی را به‌عنوان بخشی از خط لوله RAG نادیده بگیرند، این رویکرد می‌تواند بسیار بالا باشد. Shimmin از Omdia گفت: هزینه استنتاج منابع محاسبه برای جلوگیری از تأخیر.

Shimmin گفت: «تکنیک‌هایی مانند Item Response Theory از AWS به یکی از جنبه‌های پیچیده‌تر RAG کمک می‌کند، اندازه‌گیری اثربخشی اطلاعات بازیابی شده قبل از ارسال آن به مدل،» و افزود که با چنین بهینه‌سازی‌هایی آماده ، شرکت ها می توانند سربار استنباط خود را با ارسال بهترین اطلاعات به یک مدل بهتر بهینه کنند نه اینکه همه چیز را به یکباره در مدل قرار دهند.

Forrester’s Dai گفت: از سوی دیگر، اندازه مدل تنها یکی از عوامل موثر بر عملکرد مدل های فونداسیون است.

«شرکت‌ها باید یک رویکرد سیستماتیک برای ارزیابی مدل پایه، شامل قابلیت‌های فنی (مدلیت مدل، عملکرد مدل، هم‌ترازی مدل، و انطباق مدل)، قابلیت‌های تجاری (پشتیبانی منبع باز، مقرون‌به‌صرفه بودن، و در دسترس بودن محلی) و قابلیت‌های اکوسیستم (مهندسی سریع، پشتیبانی RAG، پشتیبانی عامل، پلاگین‌ها و APIها و ModelOps)،” دای توضیح داد.