شرکتهایی که روی هوش مصنوعی مولد سرمایهگذاری میکنند دریافتند که تست و تضمین کیفیت دو مورد از حیاتیترین زمینهها برای بهبود هستند. در اینجا چهار استراتژی برای آزمایش LLM های تعبیه شده در برنامه های هوش مصنوعی مولد آورده شده است.
هیجان و هیجان قابل توجهی در مورد استفاده از راهنماهای هوش مصنوعی برای کاهش کار دستی، بهبود بهره وری توسعه دهندگان نرم افزار با تولیدکنندگان کد، و نوآوری با هوش مصنوعی مولد. فرصت های تجاری بسیاری از تیم های توسعه را به ایجاد پایگاه های دانش با پایگاه های داده برداری و مدلهای زبان بزرگ (LLM) را در برنامههای خود جاسازی کنید.
برخی موارد استفاده عمومی برای ساخت برنامههای کاربردی با قابلیتهای LLM عبارتند از تجارب جستجو< /a>، تولید محتوا، خلاصهسازی اسناد، رباتهای گفتگو و برنامههای پشتیبانی مشتری. نمونههای صنعت عبارتند از توسعه درگاههای بیمار در مراقبتهای بهداشتی، بهبود گردش کار بانکداران جوان در خدمات مالی و هموار کردن راه برای کارخانه آینده در تولید.
شرکتهایی که در LLM سرمایهگذاری میکنند با موانعی روبرو هستند، از جمله بهبود حاکمیت داده در مورد کیفیت داده، انتخاب یک معماری LLM، آدرس خطرات امنیتی و توسعه طرح زیرساخت ابری.
نگرانیهای بزرگتر من در نحوه برنامهریزی سازمانها برای آزمایش مدلها و برنامههای LLM خود نهفته است. مسائلی که باعث ایجاد اخبار می شود عبارتند از یک شرکت هواپیمایی به بازپرداخت ربات چت خود احترام می گذارد، دعوای حقوقی مربوط به نقض حق نشر و کاهش خطر توهم.
۴ استراتژی تست برای LLM های تعبیه شده
تیم های توسعه نیاز به یک استراتژی تست LLM دارند. به عنوان نقطه شروع، روش های زیر را برای آزمایش LLM های تعبیه شده در برنامه های کاربردی سفارشی در نظر بگیرید:
- دادههای آزمایشی را برای گسترش QA نرمافزار ایجاد کنید
- تست کیفیت و عملکرد مدل را خودکار کنید
- کیفیت RAG را بر اساس مورد استفاده ارزیابی کنید
- معیارها و معیارهای کیفیت را ایجاد کنید
داده های آزمایشی را برای گسترش QA نرم افزار ایجاد کنید
اکثر تیمهای توسعه، LLMهای تعمیمیافته ایجاد نمیکنند، و برنامههایی را برای کاربران نهایی و موارد استفاده خاص توسعه میدهند. برای توسعه یک استراتژی تست، تیم ها باید شخصیت های کاربر، اهداف، گردش کار و معیارهای کیفی درگیر را درک کنند.
Jakob Praher، مدیر ارشد فناوری Mindbreeze. برای این کارها، می توان مجموعه داده های آزمایشی را برای ایجاد معیارهایی برای عملکرد LLM ساخت. سپس، میتوان درخواستها را بهینه کرد یا مدل را بهطور سیستماتیک تنظیم کرد.»
به عنوان مثال، LLM طراحی شده برای خدمات مشتری ممکن است شامل مجموعه داده های آزمایشی از مشکلات رایج کاربر و بهترین پاسخ ها باشد. سایر موارد استفاده از LLM ممکن است ابزارهای ساده ای برای ارزیابی نتایج نداشته باشند، اما توسعه دهندگان همچنان می توانند از داده های آزمایشی برای انجام اعتبارسنجی استفاده کنند.
کیشور گدیراجو، معاون مهندسی Solix Technologies. مانند هر نرم افزار دیگری، تست LLM شامل تست واحد، عملکردی، رگرسیون و عملکرد است. علاوه بر این، آزمایش LLM نیاز به تعصب، انصاف، ایمنی، کنترل محتوا، و تست توضیح پذیری دارد.”
تست کیفیت و عملکرد مدل به صورت خودکار
هنگامی که مجموعه دادههای آزمایشی وجود دارد، تیمهای توسعه باید چندین رویکرد آزمایشی را بسته به اهداف کیفیت، ریسکها و ملاحظات هزینه در نظر بگیرند. اولگا مگورسکایا، مدیر عامل Toloka AI. با این حال، شرکتها همچنان باید متخصصان حوزه را برای موقعیتهایی که در آن مهم است تا نکات ظریفی را که سیستمهای خودکار ممکن است نادیده بگیرند، جذب کنند.
پیدا کردن تعادل مناسب بین اتوماسیون و آزمایش انسان در حلقه برای توسعه دهندگان یا دانشمندان داده آسان نیست. استیون هیلیون، معاون داده و هوش مصنوعی در اخترشناس. «برای نسخههای اصلی برنامههای کاربردی، تقریباً همیشه یک دور نهایی اعتبار سنجی دستی در برابر مجموعه آزمایشی خود میخواهید. این امر مخصوصاً زمانی صادق است که تعبیههای جدید، مدلهای جدید یا پیامهای جدیدی را معرفی کرده باشید که انتظار دارید سطح کلی کیفیت را بالا ببرد، زیرا اغلب بهبودها ظریف یا ذهنی هستند.”
تست دستی یک اقدام محتاطانه است تا زمانی که پلتفرمهای تست LLM قوی وجود داشته باشد. نیکولاوس واسیلوگلو، معاون پژوهشی ML در RelationalAI، میگوید: «هیچ پلتفرمهای پیشرفتهای برای سیستماتیک وجود ندارد. آزمایش کردن. وقتی صحبت از قابلیت اطمینان و توهم به میان میآید، یک ربات پرسشکننده نمودار دانش بهترین راهحل است.»
Gadiraju کتابخانه ها و ابزارهای آزمایش LLM زیر را به اشتراک می گذارد:
- AI Fairness 360، یک جعبه ابزار منبع باز که برای بررسی، گزارش، و کاهش تبعیض و سوگیری استفاده می شود در مدل های یادگیری ماشین
- DeepEval، یک چارچوب ارزیابی LLM منبع باز مشابه Pytest اما برای تست واحد LLM تخصصی خروجی ها
- Baserun، ابزاری برای کمک به اشکالزدایی، آزمایش و بهبود مکرر مدلها
- Nvidia NeMo-Guardrails، یک جعبه ابزار منبع باز برای افزودن محدودیت های قابل برنامه ریزی در خروجی های LLM
مونیکا رومیلا، مدیر ابزارهای علم داده و زمان اجرا در IBM Data و AI، دو مورد را به اشتراک گذاشت مناطق آزمایش برای LLM در موارد استفاده سازمانی:
- ارزیابی کیفیت مدل کیفیت مدل را با استفاده از مجموعه دادههای آکادمیک و داخلی برای موارد استفاده مانند طبقهبندی، استخراج، خلاصهسازی، تولید و تولید افزوده بازیابی (RAG) ارزیابی میکند.
- تست عملکرد مدل تأخیر مدل (زمان سپری شده برای انتقال داده) و توان عملیاتی (مقدار داده پردازش شده در یک بازه زمانی خاص) را تأیید می کند.
رومیلا میگوید تست عملکرد به دو پارامتر حیاتی بستگی دارد: تعداد درخواستهای همزمان و تعداد توکنهای تولید شده (تکههایی از متن که یک مدل استفاده میکند). مهم است که اندازهها و انواع بارهای مختلف را آزمایش کنید و عملکرد را با مدلهای موجود مقایسه کنید تا ببینید آیا بهروزرسانیها نیاز است یا خیر.»
DevOps و معماران ابر باید الزامات زیرساختی را برای انجام آزمایش عملکرد و بار برنامه های LLM در نظر بگیرند. هدر ساندهیم، مدیر مهندسی راهحلها در SADA. “ابزارهای تامین خودکار مانند Terraform و سیستم های کنترل نسخه مانند Git نقش اساسی در استقرارهای تکرارپذیر و همکاری موثر دارند و بر اهمیت متعادل کردن منابع، ذخیره سازی، استراتژی های استقرار و ابزارهای همکاری برای تست LLM قابل اعتماد تاکید دارند.”
کیفیت RAG را بر اساس مورد استفاده ارزیابی کنید
برخی از تکنیکها برای بهبود دقت LLM شامل متمرکز کردن محتوا، بهروزرسانی مدلها با جدیدترین دادهها و استفاده از RAG در خط لوله پرس و جو است. RAG ها برای تلفیق قدرت LLM با اطلاعات اختصاصی یک شرکت مهم هستند.
در یک برنامه معمولی LLM، کاربر درخواستی را وارد میکند، برنامه آن را به LLM میفرستد، و LLM پاسخی را ایجاد میکند که برنامه برای کاربر ارسال میکند. با RAG، برنامه ابتدا درخواست را به یک پایگاه داده اطلاعاتی مانند یک موتور جستجو یا یک پایگاه داده برداری میفرستد تا اطلاعات مرتبط و مرتبط با موضوع را بازیابی کند. برنامه درخواست و این اطلاعات متنی را به LLM می فرستد، که از آن برای فرموله کردن پاسخ استفاده می کند. بنابراین RAG پاسخ LLM را به اطلاعات مرتبط و متنی محدود می کند.
ایگور جابلوکوف، مدیر عامل و بنیانگذار Pryon، میگوید، «RAG برای استقرار به سبک سازمانی در جایی که قابل تأیید باشد، قابل قبولتر است. انتساب به محتوای منبع، به ویژه در زیرساخت های حیاتی ضروری است.»
استفاده از RAG با LLM برای کاهش توهمات نشان داده شده است. و دقت را بهبود بخشد. با این حال، استفاده از RAG همچنین یک مؤلفه جدید اضافه می کند که نیاز به آزمایش مربوط بودن و عملکرد آن دارد. انواع آزمایش به آسانی ارزیابی پاسخهای RAG و LLM و اینکه تیمهای توسعه تا چه حد میتوانند از بازخورد کاربر نهایی استفاده کنند، بستگی دارد.
من اخیراً با Deon Nicholas، مدیر عامل Forethought درباره گزینههای ارزیابی RAGهای مورد استفاده در مشتری مولد شرکتش صحبت کردم. پشتیبانی از هوش مصنوعی او سه رویکرد متفاوت را به اشتراک گذاشت:
- مجموعه دادههای استاندارد طلایی، یا مجموعه دادههای برچسبگذاری شده با پاسخهای صحیح برای پرسشهایی که به عنوان معیاری برای عملکرد مدل عمل میکنند
- یادگیری تقویتی، یا آزمایش مدل در سناریوهای واقعی مانند درخواست سطح رضایت کاربر پس از تعامل با ربات چت
- شبکه های متخاصم، یا آموزش یک LLM ثانویه برای ارزیابی عملکرد اولیه، که یک ارزیابی خودکار را با تکیه نکردن به بازخورد انسانی ارائه میدهد
نیکلاس میگوید: «هر روش دارای معاوضههایی است که تلاش انسان را در برابر خطر نادیده گرفتن خطاها متعادل میکند. “بهترین سیستم ها از این روش ها در سراسر اجزای سیستم برای به حداقل رساندن خطاها و تقویت استقرار هوش مصنوعی قوی استفاده می کنند.”
معیارها و معیارهای کیفیت را ایجاد کنید
هنگامی که دادههای آزمایشی، یک LLM جدید یا بهروز شده و یک استراتژی آزمایشی دارید، گام بعدی اعتبارسنجی کیفیت در برابر اهداف اعلامشده است.
آتنا ریحانی، مدیر ارشد محصول در ContractPodAi. برخی از معیارهایی که باید در نظر گرفته شوند، دقت، سازگاری، سرعت و ارتباط با موارد استفاده خاص دامنه هستند. توسعه دهندگان باید کل اکوسیستم LLM و مدل عملیاتی را در حوزه هدف ارزیابی کنند تا مطمئن شوند که نتایج دقیق، مرتبط و جامع ارائه میکند.”
یکی از ابزارهای یادگیری Chatbot Arena است، یک محیط باز برای مقایسه نتایج LLM. از سیستم رتبهبندی Elo استفاده میکند، الگوریتمی که اغلب برای رتبهبندی بازیکنان در بازیهای رقابتی استفاده میشود. اما زمانی که فرد پاسخ الگوریتمها یا نسخههای مختلف LLM را ارزیابی میکند، به خوبی کار میکند.
Joe Regensburger، معاون پژوهشی در ایموتا. Chatbot Arena نمونهای از آزمایش جمعسپاری است، و این نوع مطالعات ارزیاب انسانی میتواند یک حلقه بازخورد مهم برای ترکیب بازخورد کاربر فراهم کند.
Romila از IBM Data و AI سه معیار را به اشتراک گذاشت که بسته به مورد استفاده LLM باید در نظر گرفته شود.
- امتیاز F1 یک امتیاز ترکیبی در مورد دقت و یادآوری است و در LLM ها اعمال می شود برای طبقه بندی یا پیش بینی استفاده می شود. به عنوان مثال، یک LLM پشتیبانی مشتری را میتوان بر اساس این که تا چه حد یک دوره اقدام را توصیه میکند ارزیابی کرد.
- RougeL را می توان برای آزمایش RAG و LLM برای موارد استفاده خلاصه استفاده کرد، اما این معمولاً به یک خلاصه ایجاد شده توسط انسان برای محک زدن نتایج نیاز دارد.
- sacreBLEU روشی است که در ابتدا برای آزمایش ترجمههای زبان استفاده میشد که اکنون برای ارزیابی کمی پاسخ های LLM، همراه با روشهای دیگری مانند TER، ChrF و BERTScore.
برخی از صنایع دارای معیارهای کیفیت و ریسک هستند. Karthik Sj، معاون مدیریت محصول و بازاریابی در Aisera، میگوید: «در آموزش، ارزیابی سن مناسب و اجتناب از سمیت است. بسیار مهم است، اما در برنامه های کاربردی مصرف کننده، ارتباط و تأخیر پاسخ را در اولویت قرار دهید.”
آزمایش پس از استقرار یک مدل به پایان نمی رسد و دانشمندان داده باید به دنبال واکنش های کاربر نهایی، معیارهای عملکرد و سایر بازخوردها برای بهبود مدل ها باشند. داستین پیرس، معاون مهندسی و CISO در دامنه.
یک مرحله مهم برای آماده شدن برای تولید، استفاده از پرچم های ویژگی در برنامه است. شرکتهای فناوری هوش مصنوعی Anthropic، Character.ai، Notion و Brex محصول خود را با پرچمهای ویژگی برای آزمایش مشترک برنامه، معرفی آهسته قابلیتها به گروههای بزرگ و هدفگیری آزمایشها برای بخشهای مختلف کاربر.
در حالی که تکنیکهای نوظهوری برای اعتبارسنجی برنامههای LLM وجود دارد، پیادهسازی یا ارائه نتایج قطعی هیچ یک از آنها آسان نیست. در حال حاضر، ساختن یک برنامه با ادغام RAG و LLM ممکن است بخش آسانی در مقایسه با کار مورد نیاز برای آزمایش آن و پشتیبانی از پیشرفتها باشد.
پست های مرتبط
چگونه مدل های زبان بزرگ را تست کنیم
چگونه مدل های زبان بزرگ را تست کنیم
چگونه مدل های زبان بزرگ را تست کنیم