محققان نقایصی را در بنچمارک عامل هوش مصنوعی آشکار کردند

محققان دانشگاه پرینستون راه‌حل‌هایی را برای مشکلات رایج در روش‌های معیارسنجی پیشنهاد می‌کنند.

از آنجایی که عواملی که از هوش مصنوعی استفاده می‌کنند برای همه چیز از خدمات مشتری گرفته تا تعمیر کد نرم‌افزار وارد جریان اصلی شده‌اند، تعیین اینکه کدام یک برای یک برنامه خاص بهترین هستند و معیارهایی که باید در هنگام انتخاب یک نماینده در کنار آن در نظر گرفته شوند بسیار مهم است. عملکرد. و این جایی است که معیارگذاری وارد می شود.

معیارها برنامه های دنیای واقعی را منعکس نمی کنند

اما، یک مقاله تحقیقاتی جدید، عوامل هوش مصنوعی که مهم هستند، به ارزیابی و محک گذاری عامل فعلی اشاره می کند فرآیندها حاوی تعدادی کاستی هستند که مانع از سودمندی آنها در برنامه های کاربردی دنیای واقعی می شود. نویسندگان، پنج محقق دانشگاه پرینستون، خاطرنشان می‌کنند که این کاستی‌ها توسعه عواملی را تشویق می‌کند که در معیارها خوب عمل کنند، اما نه در عمل، و راه‌هایی برای رفع آنها پیشنهاد می‌کنند.

«ستاره شمالی این زمینه ساخت دستیارهایی مانند سیری یا الکسا و ترغیب آنها به انجام کارهای پیچیده، تفسیر دقیق درخواست‌های کاربران و عملکرد قابل اعتماد است.» پست وبلاگ درباره مقاله دو تن از نویسندگان آن، سایاش کاپور و آرویند نارایانان. “اما این دور از واقعیت است، و حتی جهت تحقیق نیز نسبتا جدید است.”

این مقاله می‌گوید که تشخیص پیشرفت‌های واقعی از تبلیغات تبلیغاتی دشوار است. و عامل ها به اندازه کافی با مدل های زبانی متفاوت هستند که شیوه های محک زدن نیاز به بازنگری دارند.

عامل هوش مصنوعی چیست؟

تعریف عامل در هوش مصنوعی سنتی، موجودی است که محیط خود را درک کرده و بر اساس آن عمل می‌کند، اما در عصر مدل‌های زبان بزرگ (LLM)، این تعریف پیچیده‌تر است. در آنجا، محققان آن را به عنوان طیفی از عوامل “عامل” به جای یک چیز واحد می بینند.

آنها گفتند که سه دسته از ویژگی ها یک سیستم هوش مصنوعی را عامل می کنند:

محیط زیست و اهداف – در یک محیط پیچیده‌تر، سیستم‌های هوش مصنوعی بیشتری عاملیت دارند، همانطور که سیستم‌هایی که اهداف پیچیده‌ای را بدون دستورالعمل دنبال می‌کنند.

OutSystems از AI Agent Builder بدون کد رونمایی کرد

واسط کاربری و نظارت – سیستم‌های هوش مصنوعی که به‌طور مستقل عمل می‌کنند یا ورودی زبان طبیعی را می‌پذیرند، عاملیت بیشتری دارند، به‌ویژه آن‌هایی که به نظارت کاربر کمتری نیاز دارند

طراحی سیستم – سیستم‌هایی که از ابزارهایی مانند جستجوی وب یا برنامه‌ریزی (مانند تجزیه اهداف به اهداف فرعی) استفاده می‌کنند، یا کنترل جریان آنها توسط یک LLM هدایت می‌شود، عاملیت بیشتری دارند.

یافته های کلیدی

پنج یافته کلیدی از تحقیق به دست آمد که همه توسط مطالعات موردی پشتیبانی می‌شوند:

ارزیابی عامل AI باید با هزینه کنترل شود – از آنجایی که فراخوانی مکرر مدل های زیربنای اکثر عوامل هوش مصنوعی (با هزینه اضافی برای هر تماس) می تواند دقت را افزایش دهد، محققان می توانند وسوسه شوند که عوامل بسیار گران قیمت بسازند. آنها می توانند رتبه اول را در دقت کسب کنند. اما این مقاله سه عامل ساده پایه توسعه یافته توسط نویسندگان را توصیف می کند که با هزینه بسیار کمتر از بسیاری از معماری های پیچیده بهتر عمل می کنند.

بهینه‌سازی مشترک دقت و هزینه می‌تواند طراحی عامل بهتری را به همراه داشته باشد – دو عامل کل هزینه اجرای یک عامل را تعیین می‌کند: هزینه‌های یکبار مصرف مربوط به بهینه‌سازی عامل برای یک کار، و هزینه‌های متغیر. هر بار اجرا می شود. نویسندگان نشان می‌دهند که با صرف هزینه بیشتر در بهینه‌سازی اولیه، هزینه‌های متغیر را می‌توان کاهش داد و در عین حال دقت را حفظ کرد.

بیل وانگ، تحلیلگر، پژوهشگر هوش مصنوعی در گروه تحقیقاتی Info-Tech، موافق است. او گفت: «تمرکز روی دقت یک ویژگی طبیعی است که باید هنگام مقایسه LLMها به آن توجه شود. و پیشنهاد اینکه شامل بهینه‌سازی هزینه تصویر کامل‌تری از عملکرد یک مدل ارائه می‌دهد، منطقی است، درست همانطور که معیارهای پایگاه داده مبتنی بر TPC سعی در ارائه آن داشتند، که یک معیار عملکردی بود که با منابع یا هزینه‌های موجود برای ارائه یک معیار عملکرد معین وزن داشت.

توسعه‌دهنده‌های مدل و توسعه‌دهندگان پایین‌دستی نیازهای متفاوتی برای معیارسنجی دارند – محققان و کسانی که مدل‌ها را توسعه می‌دهند، نیازهای متفاوتی نسبت به توسعه‌دهندگان پایین‌دستی دارند که هوش مصنوعی را برای استفاده از برنامه‌های خود انتخاب می‌کنند. توسعه دهندگان و محققان مدل معمولاً هزینه را در طول ارزیابی خود در نظر نمی گیرند، در حالی که برای توسعه دهندگان پایین دستی، هزینه یک عامل کلیدی است.

DataStax مترجم Schema GPT را به Astra Streaming مبتنی بر Apache Pulsar اضافه می کند

این مقاله خاطرنشان کرد: “چندین مانع برای ارزیابی هزینه وجود دارد.” «ارائه‌دهندگان مختلف می‌توانند مبالغ متفاوتی را برای یک مدل دریافت کنند، هزینه تماس API ممکن است یک شبه تغییر کند، و هزینه ممکن است بر اساس تصمیم‌های توسعه‌دهنده مدل متفاوت باشد، مانند اینکه آیا هزینه تماس‌های API انبوه متفاوت است یا خیر».

نویسندگان پیشنهاد می‌کنند که قابل تنظیم کردن نتایج ارزیابی با استفاده از مکانیسم‌هایی برای تنظیم هزینه مدل‌های در حال اجرا، مانند ارائه گزینه‌ای برای کاربران برای تنظیم هزینه نشانه‌های ورودی و خروجی برای ارائه‌دهنده انتخابی خود، به آنها در محاسبه مجدد معامله کمک می‌کند. بین هزینه و دقت. برای ارزیابی های پایین دستی نمایندگان، علاوه بر هزینه های دلاری، باید تعداد توکن های ورودی/خروجی نیز وجود داشته باشد، به طوری که هرکسی که در آینده به ارزیابی نگاه می کند بتواند هزینه را با استفاده از قیمت های فعلی دوباره محاسبه کند و تصمیم بگیرد که آیا نماینده هنوز هم انتخاب خوبی است. p>

معیارهای عامل میانبرها را فعال می‌کنند – این گزارش اشاره کرد که معیارها تنها در صورتی مفید هستند که دقت واقعی را منعکس کنند. به عنوان مثال، میانبرهایی مانند overfitting، که در آن یک مدل به قدری نزدیک به داده های آموزشی خود تنظیم شده است که نمی تواند پیش بینی یا نتیجه گیری دقیقی از هیچ داده دیگری به جز داده های آموزشی انجام دهد، منجر به معیارهایی می شود که دقت آنها به اندازه داده ها ترجمه نمی شود. دنیای واقعی.

این گزارش می‌گوید: «این یک مشکل بسیار جدی‌تر از آلودگی داده‌های آموزشی LLM است، زیرا دانش نمونه‌های آزمایشی را می‌توان مستقیماً در عامل برنامه‌ریزی کرد، نه اینکه صرفاً در طول آموزش در معرض آنها قرار گیرد».

پروژه genAI شما شکست خواهد خورد

ارزیابی‌های عامل فاقد استانداردسازی و تکرارپذیری هستند – مقاله اشاره کرد که بدون ارزیابی‌های عامل تکرارپذیر، تشخیص اینکه آیا پیشرفت‌های واقعی وجود داشته است یا خیر، دشوار است و این ممکن است توسعه‌دهندگان پایین‌دستی را هنگام انتخاب عامل‌ها گمراه کند. برنامه های آنها.

با این حال، همانطور که کاپور و نارایانان در وبلاگ خود اشاره کردند، آنها محتاطانه خوشبین هستند که تکرارپذیری در تحقیقات عامل هوش مصنوعی بهبود می یابد زیرا اشتراک گذاری کد و داده های بیشتری در توسعه مقالات منتشر شده وجود دارد. و آنها افزودند، “دلیل دیگر این است که تحقیقات بیش از حد خوش بینانه زمانی که محصولات مبتنی بر ارزیابی های گمراه کننده به شکست می انجامند، به سرعت مورد بررسی قرار می گیرند.”

راه آینده

به‌رغم فقدان استانداردها، وانگ از Info-Tech گفت، شرکت‌ها همچنان به دنبال استفاده از عوامل در برنامه‌های خود هستند.

او خاطرنشان کرد: “من موافقم که هیچ استانداردی برای اندازه گیری عملکرد برنامه های کاربردی هوش مصنوعی مبتنی بر عامل وجود ندارد.” با وجود این، سازمان‌ها ادعا می‌کنند که دنبال کردن معماری‌های مبتنی بر عامل برای افزایش دقت و هزینه‌های کمتر و تکیه بر LLM‌های یکپارچه، مزایایی دارد.

او گفت که فقدان استانداردها و تمرکز بر ارزیابی‌های مبتنی بر هزینه احتمالاً ادامه خواهد داشت، زیرا بسیاری از سازمان‌ها به دنبال ارزشی هستند که راه‌حل‌های مبتنی بر هوش مصنوعی می‌توانند به ارمغان بیاورند. با این حال، هزینه یکی از عوامل بسیاری است که باید در نظر گرفته شود. سازمان‌هایی که او با عوامل رتبه‌بندی مانند مهارت‌های مورد نیاز برای استفاده، سهولت اجرا و نگهداری، و مقیاس‌پذیری بالاتر از هزینه در هنگام ارزیابی راه‌حل‌ها کار کرده است.

و او گفت: “ما در حال مشاهده سازمان های بیشتری در صنایع مختلف هستیم که پایداری به یک محرک اساسی برای موارد استفاده از هوش مصنوعی تبدیل شده است.”

این امر هوش مصنوعی مبتنی بر عامل را به راه آینده تبدیل می‌کند، زیرا از مدل‌های کوچک‌تر استفاده می‌کند و مصرف انرژی را کاهش می‌دهد و در عین حال عملکرد مدل را حفظ یا حتی بهبود می‌بخشد.

معیارها برنامه های دنیای واقعی را منعکس نمی کنند

عامل هوش مصنوعی چیست؟

یافته های کلیدی

راه آینده

پست های مرتبط

محققان نقایصی را در بنچمارک عامل هوش مصنوعی آشکار کردند

محققان نقایصی را در بنچمارک عامل هوش مصنوعی آشکار کردند

محققان نقایصی را در بنچمارک عامل هوش مصنوعی آشکار کردند

شاید به این مطالب علاقمند باشید

محققان نقایصی را در بنچمارک عامل هوش مصنوعی آشکار کردند

محققان نقایصی را در بنچمارک عامل هوش مصنوعی آشکار کردند

محققان نقایصی را در بنچمارک عامل هوش مصنوعی آشکار کردند

محققان نقایصی را در بنچمارک عامل هوش مصنوعی آشکار کردند