محققان دانشگاه پرینستون راهحلهایی را برای مشکلات رایج در روشهای معیارسنجی پیشنهاد میکنند.
از آنجایی که عواملی که از هوش مصنوعی استفاده میکنند برای همه چیز از خدمات مشتری گرفته تا تعمیر کد نرمافزار وارد جریان اصلی شدهاند، تعیین اینکه کدام یک برای یک برنامه خاص بهترین هستند و معیارهایی که باید در هنگام انتخاب یک نماینده در کنار آن در نظر گرفته شوند بسیار مهم است. عملکرد. و این جایی است که معیارگذاری وارد می شود.
معیارها برنامه های دنیای واقعی را منعکس نمی کنند
اما، یک مقاله تحقیقاتی جدید، عوامل هوش مصنوعی که مهم هستند، به ارزیابی و محک گذاری عامل فعلی اشاره می کند فرآیندها حاوی تعدادی کاستی هستند که مانع از سودمندی آنها در برنامه های کاربردی دنیای واقعی می شود. نویسندگان، پنج محقق دانشگاه پرینستون، خاطرنشان میکنند که این کاستیها توسعه عواملی را تشویق میکند که در معیارها خوب عمل کنند، اما نه در عمل، و راههایی برای رفع آنها پیشنهاد میکنند.
«ستاره شمالی این زمینه ساخت دستیارهایی مانند سیری یا الکسا و ترغیب آنها به انجام کارهای پیچیده، تفسیر دقیق درخواستهای کاربران و عملکرد قابل اعتماد است.» پست وبلاگ درباره مقاله دو تن از نویسندگان آن، سایاش کاپور و آرویند نارایانان. “اما این دور از واقعیت است، و حتی جهت تحقیق نیز نسبتا جدید است.”
این مقاله میگوید که تشخیص پیشرفتهای واقعی از تبلیغات تبلیغاتی دشوار است. و عامل ها به اندازه کافی با مدل های زبانی متفاوت هستند که شیوه های محک زدن نیاز به بازنگری دارند.
عامل هوش مصنوعی چیست؟
تعریف عامل در هوش مصنوعی سنتی، موجودی است که محیط خود را درک کرده و بر اساس آن عمل میکند، اما در عصر مدلهای زبان بزرگ (LLM)، این تعریف پیچیدهتر است. در آنجا، محققان آن را به عنوان طیفی از عوامل “عامل” به جای یک چیز واحد می بینند.
آنها گفتند که سه دسته از ویژگی ها یک سیستم هوش مصنوعی را عامل می کنند:
محیط زیست و اهداف – در یک محیط پیچیدهتر، سیستمهای هوش مصنوعی بیشتری عاملیت دارند، همانطور که سیستمهایی که اهداف پیچیدهای را بدون دستورالعمل دنبال میکنند.
واسط کاربری و نظارت – سیستمهای هوش مصنوعی که بهطور مستقل عمل میکنند یا ورودی زبان طبیعی را میپذیرند، عاملیت بیشتری دارند، بهویژه آنهایی که به نظارت کاربر کمتری نیاز دارند
طراحی سیستم – سیستمهایی که از ابزارهایی مانند جستجوی وب یا برنامهریزی (مانند تجزیه اهداف به اهداف فرعی) استفاده میکنند، یا کنترل جریان آنها توسط یک LLM هدایت میشود، عاملیت بیشتری دارند.
یافته های کلیدی
پنج یافته کلیدی از تحقیق به دست آمد که همه توسط مطالعات موردی پشتیبانی میشوند:
ارزیابی عامل AI باید با هزینه کنترل شود – از آنجایی که فراخوانی مکرر مدل های زیربنای اکثر عوامل هوش مصنوعی (با هزینه اضافی برای هر تماس) می تواند دقت را افزایش دهد، محققان می توانند وسوسه شوند که عوامل بسیار گران قیمت بسازند. آنها می توانند رتبه اول را در دقت کسب کنند. اما این مقاله سه عامل ساده پایه توسعه یافته توسط نویسندگان را توصیف می کند که با هزینه بسیار کمتر از بسیاری از معماری های پیچیده بهتر عمل می کنند.
بهینهسازی مشترک دقت و هزینه میتواند طراحی عامل بهتری را به همراه داشته باشد – دو عامل کل هزینه اجرای یک عامل را تعیین میکند: هزینههای یکبار مصرف مربوط به بهینهسازی عامل برای یک کار، و هزینههای متغیر. هر بار اجرا می شود. نویسندگان نشان میدهند که با صرف هزینه بیشتر در بهینهسازی اولیه، هزینههای متغیر را میتوان کاهش داد و در عین حال دقت را حفظ کرد.
بیل وانگ، تحلیلگر، پژوهشگر هوش مصنوعی در گروه تحقیقاتی Info-Tech، موافق است. او گفت: «تمرکز روی دقت یک ویژگی طبیعی است که باید هنگام مقایسه LLMها به آن توجه شود. و پیشنهاد اینکه شامل بهینهسازی هزینه تصویر کاملتری از عملکرد یک مدل ارائه میدهد، منطقی است، درست همانطور که معیارهای پایگاه داده مبتنی بر TPC سعی در ارائه آن داشتند، که یک معیار عملکردی بود که با منابع یا هزینههای موجود برای ارائه یک معیار عملکرد معین وزن داشت.
توسعهدهندههای مدل و توسعهدهندگان پاییندستی نیازهای متفاوتی برای معیارسنجی دارند – محققان و کسانی که مدلها را توسعه میدهند، نیازهای متفاوتی نسبت به توسعهدهندگان پاییندستی دارند که هوش مصنوعی را برای استفاده از برنامههای خود انتخاب میکنند. توسعه دهندگان و محققان مدل معمولاً هزینه را در طول ارزیابی خود در نظر نمی گیرند، در حالی که برای توسعه دهندگان پایین دستی، هزینه یک عامل کلیدی است.
این مقاله خاطرنشان کرد: “چندین مانع برای ارزیابی هزینه وجود دارد.” «ارائهدهندگان مختلف میتوانند مبالغ متفاوتی را برای یک مدل دریافت کنند، هزینه تماس API ممکن است یک شبه تغییر کند، و هزینه ممکن است بر اساس تصمیمهای توسعهدهنده مدل متفاوت باشد، مانند اینکه آیا هزینه تماسهای API انبوه متفاوت است یا خیر».
نویسندگان پیشنهاد میکنند که قابل تنظیم کردن نتایج ارزیابی با استفاده از مکانیسمهایی برای تنظیم هزینه مدلهای در حال اجرا، مانند ارائه گزینهای برای کاربران برای تنظیم هزینه نشانههای ورودی و خروجی برای ارائهدهنده انتخابی خود، به آنها در محاسبه مجدد معامله کمک میکند. بین هزینه و دقت. برای ارزیابی های پایین دستی نمایندگان، علاوه بر هزینه های دلاری، باید تعداد توکن های ورودی/خروجی نیز وجود داشته باشد، به طوری که هرکسی که در آینده به ارزیابی نگاه می کند بتواند هزینه را با استفاده از قیمت های فعلی دوباره محاسبه کند و تصمیم بگیرد که آیا نماینده هنوز هم انتخاب خوبی است. p>
معیارهای عامل میانبرها را فعال میکنند – این گزارش اشاره کرد که معیارها تنها در صورتی مفید هستند که دقت واقعی را منعکس کنند. به عنوان مثال، میانبرهایی مانند overfitting، که در آن یک مدل به قدری نزدیک به داده های آموزشی خود تنظیم شده است که نمی تواند پیش بینی یا نتیجه گیری دقیقی از هیچ داده دیگری به جز داده های آموزشی انجام دهد، منجر به معیارهایی می شود که دقت آنها به اندازه داده ها ترجمه نمی شود. دنیای واقعی.
این گزارش میگوید: «این یک مشکل بسیار جدیتر از آلودگی دادههای آموزشی LLM است، زیرا دانش نمونههای آزمایشی را میتوان مستقیماً در عامل برنامهریزی کرد، نه اینکه صرفاً در طول آموزش در معرض آنها قرار گیرد».
ارزیابیهای عامل فاقد استانداردسازی و تکرارپذیری هستند – مقاله اشاره کرد که بدون ارزیابیهای عامل تکرارپذیر، تشخیص اینکه آیا پیشرفتهای واقعی وجود داشته است یا خیر، دشوار است و این ممکن است توسعهدهندگان پاییندستی را هنگام انتخاب عاملها گمراه کند. برنامه های آنها.
با این حال، همانطور که کاپور و نارایانان در وبلاگ خود اشاره کردند، آنها محتاطانه خوشبین هستند که تکرارپذیری در تحقیقات عامل هوش مصنوعی بهبود می یابد زیرا اشتراک گذاری کد و داده های بیشتری در توسعه مقالات منتشر شده وجود دارد. و آنها افزودند، “دلیل دیگر این است که تحقیقات بیش از حد خوش بینانه زمانی که محصولات مبتنی بر ارزیابی های گمراه کننده به شکست می انجامند، به سرعت مورد بررسی قرار می گیرند.”
راه آینده
بهرغم فقدان استانداردها، وانگ از Info-Tech گفت، شرکتها همچنان به دنبال استفاده از عوامل در برنامههای خود هستند.
او خاطرنشان کرد: “من موافقم که هیچ استانداردی برای اندازه گیری عملکرد برنامه های کاربردی هوش مصنوعی مبتنی بر عامل وجود ندارد.” با وجود این، سازمانها ادعا میکنند که دنبال کردن معماریهای مبتنی بر عامل برای افزایش دقت و هزینههای کمتر و تکیه بر LLMهای یکپارچه، مزایایی دارد.
او گفت که فقدان استانداردها و تمرکز بر ارزیابیهای مبتنی بر هزینه احتمالاً ادامه خواهد داشت، زیرا بسیاری از سازمانها به دنبال ارزشی هستند که راهحلهای مبتنی بر هوش مصنوعی میتوانند به ارمغان بیاورند. با این حال، هزینه یکی از عوامل بسیاری است که باید در نظر گرفته شود. سازمانهایی که او با عوامل رتبهبندی مانند مهارتهای مورد نیاز برای استفاده، سهولت اجرا و نگهداری، و مقیاسپذیری بالاتر از هزینه در هنگام ارزیابی راهحلها کار کرده است.
و او گفت: “ما در حال مشاهده سازمان های بیشتری در صنایع مختلف هستیم که پایداری به یک محرک اساسی برای موارد استفاده از هوش مصنوعی تبدیل شده است.”
این امر هوش مصنوعی مبتنی بر عامل را به راه آینده تبدیل میکند، زیرا از مدلهای کوچکتر استفاده میکند و مصرف انرژی را کاهش میدهد و در عین حال عملکرد مدل را حفظ یا حتی بهبود میبخشد.
پست های مرتبط
محققان نقایصی را در بنچمارک عامل هوش مصنوعی آشکار کردند
محققان نقایصی را در بنچمارک عامل هوش مصنوعی آشکار کردند
محققان نقایصی را در بنچمارک عامل هوش مصنوعی آشکار کردند