محققان AWS روش جدیدی برای طراحی مکانیزم ارزیابی خودکار RAG ایجاد کردهاند که میتواند به شرکتها در ساخت سریعتر اپلیکیشنها و کاهش هزینهها کمک کند.
نظریه جدید AWS در مورد طراحی مکانیزم ارزیابی خودکار RAG نه تنها می تواند توسعه هوش مصنوعی مولد را تسهیل کند. مبتنی بر برنامههای کاربردی، بلکه به شرکتها کمک میکند تا هزینههای زیرساخت محاسباتی را کاهش دهند.
RAG یا نسل افزوده بازیابی یکی از چندین تکنیک مورد استفاده برای رسیدگی به توهمات است، که پاسخهای دلخواه یا بیمعنی هستند که توسط مدلهای زبان بزرگ (LLM) هنگام رشد در پیچیدگی.
RAG با تغذیه واقعیتهای مدل از یک منبع دانش خارجی یا مخزن برای بهبود پاسخ به یک درخواست خاص، LLM را پایهگذاری میکند.
راههای دیگری برای مدیریت توهم وجود دارد، مانند تنظیم دقیق و مهندسی سریع، اما چارلی دای، تحلیلگر اصلی Forrester اشاره کرد که RAG به یک رویکرد حیاتی برای شرکتها برای کاهش توهمات در LLM و هدایت نتایج تجاری از هوش مصنوعی مولد.
با این حال، دای خاطرنشان کرد که خطوط لوله RAG به مجموعهای از بلوکهای ساختمانی و شیوههای مهندسی اساسی نیاز دارد، و شرکتها به طور فزایندهای به دنبال رویکردهای ارزیابی قوی و خودکار برای تسریع طرحهای RAG خود هستند، به همین دلیل است که مقاله جدید AWS میتواند شرکتها را مورد توجه قرار دهد. /p>
رویکردی که محققان AWS در این مقاله ارائه کردهاند میتواند به شرکتها کمک کند تا راهحلهای کارآمدتر و مقرونبهصرفهتری را در مورد RAG بسازند که به تلاشهای پرهزینه تنظیم دقیق، گردشهای کاری ناکارآمد RAG، و بیش از حد یادگیری درون زمینهای متکی نیست (یعنی حداکثر کردن) بردلی شیمین، تحلیلگر ارشد Omdia گفت.
مکانیسم ارزیابی خودکار RAG AWS چیست؟
مقاله با عنوان «ارزیابی خودکار مدلهای زبان تقویتشده بازیابی با تولید آزمونهای خاص»، که در کنفرانس ICML 2024 در ژوئیه ارائه میشود، یک فرآیند تولید آزمون خودکار را پیشنهاد میکند که توسط نظریه پاسخ آیتم (IRT) تقویت شده است. ، برای ارزیابی دقت واقعی مدل های RAG در وظایف خاص.
نظریه پاسخ آیتم، که به عنوان نظریه پاسخ نهفته شناخته میشود، معمولاً در روانسنجی برای تعیین رابطه بین ویژگیهای غیرقابل مشاهده و ویژگیهای قابل مشاهده، مانند خروجی یا پاسخها، با کمک یک خانواده از مدلهای ریاضی استفاده میشود.
>
بر اساس پژوهشگران AWS، ارزیابی RAG با امتیازدهی به آن در یک امتحان مصنوعی تولید شده خودکار متشکل از سوالات چند گزینه ای بر اساس مجموعه اسناد مرتبط با یک کار خاص انجام می شود.
“ما از تئوری پاسخ آیتم برای تخمین کیفیت یک امتحان و آموزنده بودن آن در مورد دقت تکلیف استفاده می کنیم. IRT همچنین با حذف سوالات امتحانی که به اندازه کافی در مورد توانایی یک مدل اطلاعاتی ندارند، یک راه طبیعی برای بهبود مکرر امتحان ارائه میکند.
آنها توضیح دادند که فرآیند جدید ارزیابی RAG بر روی چهار تکلیف پرسش-پاسخ باز جدید مبتنی بر خلاصههای Arxiv، سؤالات StackExchange، راهنمای عیبیابی AWS DevOps و فایلهای SEC آزمایش شد و افزودند که آزمایشها بینشهای کلی تری را نشان دادند. عوامل موثر بر عملکرد RAG مانند اندازه، مکانیسم بازیابی، درخواست و تنظیم دقیق.
رویکرد امیدوارکننده
رویکرد مورد بحث در مقاله AWS چندین نکته امیدوارکننده دارد، از جمله پرداختن به چالش خطوط لوله تخصصی که به آزمایشهای تخصصی نیاز دارند، به گفته جو رگنزبرگر، متخصص هوش مصنوعی شرکت امنیت دادهها.
«این موضوع کلیدی است زیرا بیشتر خطوط لوله به LLMهای تجاری یا منبع باز غیرقابل عرضه تکیه می کنند. Regensburger توضیح داد که این مدلها بر روی دانش خاص دامنه آموزش داده نشدهاند، بنابراین مجموعههای آزمایشی معمولی مفید نخواهند بود.
با این حال، رگنسبرگر اشاره کرد که اگرچه این رویکرد امیدوارکننده است، اما همچنان باید در بخش تولید امتحان تکامل یابد، زیرا بزرگترین چالش ایجاد یک سؤال یا پاسخ مناسب نیست، بلکه ایجاد سؤالات حواسپرتی به اندازه کافی چالش برانگیز است.
«فرایندهای خودکار، به طور کلی، در رقابت با سطح سؤالات تولید شده توسط انسان، به ویژه از نظر سؤالات حواس پرتی، تلاش می کنند. به این ترتیب، این فرآیند تولید حواسپرتی است که میتواند از بحثهای دقیقتر بهرهمند شود.» رجنزبرگر با مقایسه سؤالات ایجاد شده به طور خودکار با سؤالات تولید شده توسط انسان در آزمونهای AP (جایگزینی پیشرفته) گفت.
به گفته Regensburger، سؤالات در امتحانات AP توسط متخصصان این حوزه تنظیم میشوند که به تنظیم، بررسی و تکرار سؤالات در حین تنظیم امتحان ادامه میدهند.
نکته مهم این است که کاوشگرهای مبتنی بر امتحان برای LLM ها از قبل وجود دارد. «بخشی از اسناد ChatGPT، عملکرد مدل را در برابر باتری آزمایشهای استاندارد اندازهگیری میکند، Regensburger گفت، و افزود که مقاله AWS با پیشنهاد این که یک آزمون می تواند بر اساس پایگاه های دانش تخصصی و اغلب خصوصی ایجاد شود، فرض OpenAI را گسترش می دهد.
“در تئوری، این ارزیابی می کند که چگونه یک خط لوله RAG می تواند به دانش جدید و تخصصی تعمیم یابد.”
در همان زمان، Shimmin Omdia اشاره کرد که چندین فروشنده، از جمله AWS، Microsoft، IBM، و Salesforce در حال حاضر ابزارها یا چارچوبهایی را ارائه میدهند که بر بهینهسازی و بهبود پیادهسازی RAG از ابزارهای اولیه اتوماسیون مانند LlamaIndex تا ابزارهای پیشرفته مانند ابزارهای جدید مایکروسافت تمرکز دارند. GraphRAG را راه اندازی کرد.
RAG بهینه شده در مقابل مدل های زبان بسیار بزرگ
پژوهشگران AWS در مقاله اشاره کردند
انتخاب الگوریتمهای بازیابی مناسب اغلب به دستاوردهای عملکردی بزرگتری نسبت به استفاده از یک LLM بزرگتر منجر میشود، که در آن رویکرد دوم ممکن است پرهزینه باشد.
در حالی که پیشرفتهای اخیر مانند «ذخیرهسازی متن» با Google Gemini Flash این امکان را برای شرکتها فراهم میکند که نیاز به ساختن فرآیندهای پیچیده و پیچیده توکنسازی، قطعهسازی و بازیابی را بهعنوان بخشی از خط لوله RAG نادیده بگیرند، این رویکرد میتواند بسیار بالا باشد. Shimmin از Omdia گفت: هزینه استنتاج منابع محاسبه برای جلوگیری از تأخیر.
Shimmin گفت: «تکنیکهایی مانند Item Response Theory از AWS به یکی از جنبههای پیچیدهتر RAG کمک میکند، اندازهگیری اثربخشی اطلاعات بازیابی شده قبل از ارسال آن به مدل،» و افزود که با چنین بهینهسازیهایی آماده ، شرکت ها می توانند سربار استنباط خود را با ارسال بهترین اطلاعات به یک مدل بهتر بهینه کنند نه اینکه همه چیز را به یکباره در مدل قرار دهند.
Forrester’s Dai گفت: از سوی دیگر، اندازه مدل تنها یکی از عوامل موثر بر عملکرد مدل های فونداسیون است.
«شرکتها باید یک رویکرد سیستماتیک برای ارزیابی مدل پایه، شامل قابلیتهای فنی (مدلیت مدل، عملکرد مدل، همترازی مدل، و انطباق مدل)، قابلیتهای تجاری (پشتیبانی منبع باز، مقرونبهصرفه بودن، و در دسترس بودن محلی) و قابلیتهای اکوسیستم (مهندسی سریع، پشتیبانی RAG، پشتیبانی عامل، پلاگینها و APIها و ModelOps)،” دای توضیح داد.
پست های مرتبط
رویکرد جدید AWS برای ارزیابی RAG میتواند به شرکتها در کاهش هزینههای هوش مصنوعی کمک کند
رویکرد جدید AWS برای ارزیابی RAG میتواند به شرکتها در کاهش هزینههای هوش مصنوعی کمک کند
رویکرد جدید AWS برای ارزیابی RAG میتواند به شرکتها در کاهش هزینههای هوش مصنوعی کمک کند