چگونه مدل های زبان بزرگ را تست کنیم

شرکت‌هایی که روی هوش مصنوعی مولد سرمایه‌گذاری می‌کنند دریافتند که تست و تضمین کیفیت دو مورد از حیاتی‌ترین زمینه‌ها برای بهبود هستند. در اینجا چهار استراتژی برای آزمایش LLM های تعبیه شده در برنامه های هوش مصنوعی مولد آورده شده است.

هیجان و هیجان قابل توجهی در مورد استفاده از راهنماهای هوش مصنوعی برای کاهش کار دستی، بهبود بهره وری توسعه دهندگان نرم افزار با تولیدکنندگان کد، و نوآوری با هوش مصنوعی مولد. فرصت های تجاری بسیاری از تیم های توسعه را به ایجاد پایگاه های دانش با پایگاه های داده برداری و مدل‌های زبان بزرگ (LLM) را در برنامه‌های خود جاسازی کنید.

برخی موارد استفاده عمومی برای ساخت برنامه‌های کاربردی با قابلیت‌های LLM عبارتند از تجارب جستجو< /a>، تولید محتوا، خلاصه‌سازی اسناد، ربات‌های گفتگو و برنامه‌های پشتیبانی مشتری. نمونه‌های صنعت عبارتند از توسعه درگاه‌های بیمار در مراقبت‌های بهداشتی، بهبود گردش کار بانکداران جوان در خدمات مالی و هموار کردن راه برای کارخانه آینده در تولید.

شرکت‌هایی که در LLM سرمایه‌گذاری می‌کنند با موانعی روبرو هستند، از جمله بهبود حاکمیت داده در مورد کیفیت داده، انتخاب یک معماری LLM، آدرس خطرات امنیتی و توسعه طرح زیرساخت ابری.

نگرانی‌های بزرگ‌تر من در نحوه برنامه‌ریزی سازمان‌ها برای آزمایش مدل‌ها و برنامه‌های LLM خود نهفته است. مسائلی که باعث ایجاد اخبار می شود عبارتند از یک شرکت هواپیمایی به بازپرداخت ربات چت خود احترام می گذارد، دعوای حقوقی مربوط به نقض حق نشر و کاهش خطر توهم.

آمیت جین، بنیانگذار و مدیر اجرایی Roadz می گوید: “آزمایش مدل های LLM نیازمند رویکردی چند وجهی است که فراتر از دقت فنی است. الف>. تیم‌ها باید در بهبود مکرر شرکت کنند و مستندات دقیقی را برای یادآوری فرآیند توسعه مدل، روش‌های آزمایش و معیارهای عملکرد ایجاد کنند. تعامل با جامعه تحقیقاتی برای معیار و به اشتراک گذاری بهترین شیوه ها نیز موثر است.»

۴ استراتژی تست برای LLM های تعبیه شده

تیم های توسعه نیاز به یک استراتژی تست LLM دارند. به عنوان نقطه شروع، روش های زیر را برای آزمایش LLM های تعبیه شده در برنامه های کاربردی سفارشی در نظر بگیرید:

داده‌های آزمایشی را برای گسترش QA نرم‌افزار ایجاد کنید
تست کیفیت و عملکرد مدل را خودکار کنید
کیفیت RAG را بر اساس مورد استفاده ارزیابی کنید
معیارها و معیارهای کیفیت را ایجاد کنید

داده های آزمایشی را برای گسترش QA نرم افزار ایجاد کنید

اکثر تیم‌های توسعه، LLM‌های تعمیم‌یافته ایجاد نمی‌کنند، و برنامه‌هایی را برای کاربران نهایی و موارد استفاده خاص توسعه می‌دهند. برای توسعه یک استراتژی تست، تیم ها باید شخصیت های کاربر، اهداف، گردش کار و معیارهای کیفی درگیر را درک کنند.

Jakob Praher، مدیر ارشد فناوری Mindbreeze. برای این کارها، می توان مجموعه داده های آزمایشی را برای ایجاد معیارهایی برای عملکرد LLM ساخت. سپس، می‌توان درخواست‌ها را بهینه کرد یا مدل را به‌طور سیستماتیک تنظیم کرد.»

به عنوان مثال، LLM طراحی شده برای خدمات مشتری ممکن است شامل مجموعه داده های آزمایشی از مشکلات رایج کاربر و بهترین پاسخ ها باشد. سایر موارد استفاده از LLM ممکن است ابزارهای ساده ای برای ارزیابی نتایج نداشته باشند، اما توسعه دهندگان همچنان می توانند از داده های آزمایشی برای انجام اعتبارسنجی استفاده کنند.

انتقال داده های اینترنت اشیا با MQTT

کیشور گدیراجو، معاون مهندسی Solix Technologies. مانند هر نرم افزار دیگری، تست LLM شامل تست واحد، عملکردی، رگرسیون و عملکرد است. علاوه بر این، آزمایش LLM نیاز به تعصب، انصاف، ایمنی، کنترل محتوا، و تست توضیح پذیری دارد.”

تست کیفیت و عملکرد مدل به صورت خودکار

هنگامی که مجموعه داده‌های آزمایشی وجود دارد، تیم‌های توسعه باید چندین رویکرد آزمایشی را بسته به اهداف کیفیت، ریسک‌ها و ملاحظات هزینه در نظر بگیرند. اولگا مگورسکایا، مدیر عامل Toloka AI. با این حال، شرکت‌ها همچنان باید متخصصان حوزه را برای موقعیت‌هایی که در آن مهم است تا نکات ظریفی را که سیستم‌های خودکار ممکن است نادیده بگیرند، جذب کنند.

پیدا کردن تعادل مناسب بین اتوماسیون و آزمایش انسان در حلقه برای توسعه دهندگان یا دانشمندان داده آسان نیست. استیون هیلیون، معاون داده و هوش مصنوعی در اخترشناس. «برای نسخه‌های اصلی برنامه‌های کاربردی، تقریباً همیشه یک دور نهایی اعتبار سنجی دستی در برابر مجموعه آزمایشی خود می‌خواهید. این امر مخصوصاً زمانی صادق است که تعبیه‌های جدید، مدل‌های جدید یا پیام‌های جدیدی را معرفی کرده باشید که انتظار دارید سطح کلی کیفیت را بالا ببرد، زیرا اغلب بهبودها ظریف یا ذهنی هستند.”

تست دستی یک اقدام محتاطانه است تا زمانی که پلتفرم‌های تست LLM قوی وجود داشته باشد. نیکولاوس واسیلوگلو، معاون پژوهشی ML در RelationalAI، می‌گوید: «هیچ پلت‌فرم‌های پیشرفته‌ای برای سیستماتیک وجود ندارد. آزمایش کردن. وقتی صحبت از قابلیت اطمینان و توهم به میان می‌آید، یک ربات پرسش‌کننده نمودار دانش بهترین راه‌حل است.»

Gadiraju کتابخانه ها و ابزارهای آزمایش LLM زیر را به اشتراک می گذارد:

AI Fairness 360، یک جعبه ابزار منبع باز که برای بررسی، گزارش، و کاهش تبعیض و سوگیری استفاده می شود در مدل های یادگیری ماشین
DeepEval، یک چارچوب ارزیابی LLM منبع باز مشابه Pytest اما برای تست واحد LLM تخصصی خروجی ها
Baserun، ابزاری برای کمک به اشکال‌زدایی، آزمایش و بهبود مکرر مدل‌ها
Nvidia NeMo-Guardrails، یک جعبه ابزار منبع باز برای افزودن محدودیت های قابل برنامه ریزی در خروجی های LLM

مونیکا رومیلا، مدیر ابزارهای علم داده و زمان اجرا در IBM Data و AI، دو مورد را به اشتراک گذاشت مناطق آزمایش برای LLM در موارد استفاده سازمانی:

ارزیابی کیفیت مدل کیفیت مدل را با استفاده از مجموعه داده‌های آکادمیک و داخلی برای موارد استفاده مانند طبقه‌بندی، استخراج، خلاصه‌سازی، تولید و تولید افزوده بازیابی (RAG) ارزیابی می‌کند.
تست عملکرد مدل تأخیر مدل (زمان سپری شده برای انتقال داده) و توان عملیاتی (مقدار داده پردازش شده در یک بازه زمانی خاص) را تأیید می کند.

رومیلا می‌گوید تست عملکرد به دو پارامتر حیاتی بستگی دارد: تعداد درخواست‌های همزمان و تعداد توکن‌های تولید شده (تکه‌هایی از متن که یک مدل استفاده می‌کند). مهم است که اندازه‌ها و انواع بارهای مختلف را آزمایش کنید و عملکرد را با مدل‌های موجود مقایسه کنید تا ببینید آیا به‌روزرسانی‌ها نیاز است یا خیر.»

Microsoft Visual Studio 2022 از راه می رسد

DevOps و معماران ابر باید الزامات زیرساختی را برای انجام آزمایش عملکرد و بار برنامه های LLM در نظر بگیرند. هدر ساندهیم، مدیر مهندسی راه‌حل‌ها در SADA. “ابزارهای تامین خودکار مانند Terraform و سیستم های کنترل نسخه مانند Git نقش اساسی در استقرارهای تکرارپذیر و همکاری موثر دارند و بر اهمیت متعادل کردن منابع، ذخیره سازی، استراتژی های استقرار و ابزارهای همکاری برای تست LLM قابل اعتماد تاکید دارند.”

کیفیت RAG را بر اساس مورد استفاده ارزیابی کنید

برخی از تکنیک‌ها برای بهبود دقت LLM شامل متمرکز کردن محتوا، به‌روزرسانی مدل‌ها با جدیدترین داده‌ها و استفاده از RAG در خط لوله پرس و جو است. RAG ها برای تلفیق قدرت LLM با اطلاعات اختصاصی یک شرکت مهم هستند.

در یک برنامه معمولی LLM، کاربر درخواستی را وارد می‌کند، برنامه آن را به LLM می‌فرستد، و LLM پاسخی را ایجاد می‌کند که برنامه برای کاربر ارسال می‌کند. با RAG، برنامه ابتدا درخواست را به یک پایگاه داده اطلاعاتی مانند یک موتور جستجو یا یک پایگاه داده برداری می‌فرستد تا اطلاعات مرتبط و مرتبط با موضوع را بازیابی کند. برنامه درخواست و این اطلاعات متنی را به LLM می فرستد، که از آن برای فرموله کردن پاسخ استفاده می کند. بنابراین RAG پاسخ LLM را به اطلاعات مرتبط و متنی محدود می کند.

ایگور جابلوکوف، مدیر عامل و بنیانگذار Pryon، می‌گوید، «RAG برای استقرار به سبک سازمانی در جایی که قابل تأیید باشد، قابل قبول‌تر است. انتساب به محتوای منبع، به ویژه در زیرساخت های حیاتی ضروری است.»

استفاده از RAG با LLM برای کاهش توهمات نشان داده شده است. و دقت را بهبود بخشد. با این حال، استفاده از RAG همچنین یک مؤلفه جدید اضافه می کند که نیاز به آزمایش مربوط بودن و عملکرد آن دارد. انواع آزمایش به آسانی ارزیابی پاسخ‌های RAG و LLM و اینکه تیم‌های توسعه تا چه حد می‌توانند از بازخورد کاربر نهایی استفاده کنند، بستگی دارد.

من اخیراً با Deon Nicholas، مدیر عامل Forethought درباره گزینه‌های ارزیابی RAGهای مورد استفاده در مشتری مولد شرکتش صحبت کردم. پشتیبانی از هوش مصنوعی او سه رویکرد متفاوت را به اشتراک گذاشت:

مجموعه داده‌های استاندارد طلایی، یا مجموعه داده‌های برچسب‌گذاری شده با پاسخ‌های صحیح برای پرسش‌هایی که به عنوان معیاری برای عملکرد مدل عمل می‌کنند
یادگیری تقویتی، یا آزمایش مدل در سناریوهای واقعی مانند درخواست سطح رضایت کاربر پس از تعامل با ربات چت
شبکه های متخاصم، یا آموزش یک LLM ثانویه برای ارزیابی عملکرد اولیه، که یک ارزیابی خودکار را با تکیه نکردن به بازخورد انسانی ارائه می‌دهد

نیکلاس می‌گوید: «هر روش دارای معاوضه‌هایی است که تلاش انسان را در برابر خطر نادیده گرفتن خطاها متعادل می‌کند. “بهترین سیستم ها از این روش ها در سراسر اجزای سیستم برای به حداقل رساندن خطاها و تقویت استقرار هوش مصنوعی قوی استفاده می کنند.”

معیارها و معیارهای کیفیت را ایجاد کنید

هنگامی که داده‌های آزمایشی، یک LLM جدید یا به‌روز شده و یک استراتژی آزمایشی دارید، گام بعدی اعتبارسنجی کیفیت در برابر اهداف اعلام‌شده است.

Multicloud: اوراکل برای سرعت بخشیدن به عملیات با گوگل و مایکروسافت ارتباط برقرار می کند

آتنا ریحانی، مدیر ارشد محصول در ContractPodAi. برخی از معیارهایی که باید در نظر گرفته شوند، دقت، سازگاری، سرعت و ارتباط با موارد استفاده خاص دامنه هستند. توسعه دهندگان باید کل اکوسیستم LLM و مدل عملیاتی را در حوزه هدف ارزیابی کنند تا مطمئن شوند که نتایج دقیق، مرتبط و جامع ارائه می‌کند.”

یکی از ابزارهای یادگیری Chatbot Arena است، یک محیط باز برای مقایسه نتایج LLM. از سیستم رتبه‌بندی Elo استفاده می‌کند، الگوریتمی که اغلب برای رتبه‌بندی بازیکنان در بازی‌های رقابتی استفاده می‌شود. اما زمانی که فرد پاسخ الگوریتم‌ها یا نسخه‌های مختلف LLM را ارزیابی می‌کند، به خوبی کار می‌کند.

Joe Regensburger، معاون پژوهشی در ایموتا. Chatbot Arena نمونه‌ای از آزمایش جمع‌سپاری است، و این نوع مطالعات ارزیاب انسانی می‌تواند یک حلقه بازخورد مهم برای ترکیب بازخورد کاربر فراهم کند.

Romila از IBM Data و AI سه معیار را به اشتراک گذاشت که بسته به مورد استفاده LLM باید در نظر گرفته شود.

امتیاز F1 یک امتیاز ترکیبی در مورد دقت و یادآوری است و در LLM ها اعمال می شود برای طبقه بندی یا پیش بینی استفاده می شود. به عنوان مثال، یک LLM پشتیبانی مشتری را می‌توان بر اساس این که تا چه حد یک دوره اقدام را توصیه می‌کند ارزیابی کرد.
RougeL را می توان برای آزمایش RAG و LLM برای موارد استفاده خلاصه استفاده کرد، اما این معمولاً به یک خلاصه ایجاد شده توسط انسان برای محک زدن نتایج نیاز دارد.
sacreBLEU روشی است که در ابتدا برای آزمایش ترجمه‌های زبان استفاده می‌شد که اکنون برای ارزیابی کمی پاسخ های LLM، همراه با روش‌های دیگری مانند TER، ChrF و BERTScore.

برخی از صنایع دارای معیارهای کیفیت و ریسک هستند. Karthik Sj، معاون مدیریت محصول و بازاریابی در Aisera، می‌گوید: «در آموزش، ارزیابی سن مناسب و اجتناب از سمیت است. بسیار مهم است، اما در برنامه های کاربردی مصرف کننده، ارتباط و تأخیر پاسخ را در اولویت قرار دهید.”

آزمایش پس از استقرار یک مدل به پایان نمی رسد و دانشمندان داده باید به دنبال واکنش های کاربر نهایی، معیارهای عملکرد و سایر بازخوردها برای بهبود مدل ها باشند. داستین پیرس، معاون مهندسی و CISO در دامنه.

یک مرحله مهم برای آماده شدن برای تولید، استفاده از پرچم های ویژگی در برنامه است. شرکت‌های فناوری هوش مصنوعی Anthropic، Character.ai، Notion و Brex محصول خود را با پرچم‌های ویژگی برای آزمایش مشترک برنامه، معرفی آهسته قابلیت‌ها به گروه‌های بزرگ و هدف‌گیری آزمایش‌ها برای بخش‌های مختلف کاربر.

در حالی که تکنیک‌های نوظهوری برای اعتبارسنجی برنامه‌های LLM وجود دارد، پیاده‌سازی یا ارائه نتایج قطعی هیچ یک از آنها آسان نیست. در حال حاضر، ساختن یک برنامه با ادغام RAG و LLM ممکن است بخش آسانی در مقایسه با کار مورد نیاز برای آزمایش آن و پشتیبانی از پیشرفت‌ها باشد.

۴ استراتژی تست برای LLM های تعبیه شده

داده های آزمایشی را برای گسترش QA نرم افزار ایجاد کنید

تست کیفیت و عملکرد مدل به صورت خودکار

کیفیت RAG را بر اساس مورد استفاده ارزیابی کنید

معیارها و معیارهای کیفیت را ایجاد کنید

پست های مرتبط

چگونه مدل های زبان بزرگ را تست کنیم

چگونه مدل های زبان بزرگ را تست کنیم

چگونه مدل های زبان بزرگ را تست کنیم

شاید به این مطالب علاقمند باشید

چگونه مدل های زبان بزرگ را تست کنیم

چگونه مدل های زبان بزرگ را تست کنیم

چگونه مدل های زبان بزرگ را تست کنیم

چگونه مدل های زبان بزرگ را تست کنیم