۱ دی ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

آیا ChatGPT می تواند ماشین من را رانندگی کند؟ موردی برای LLM در خودمختاری

موارد لبه رانندگی مستقل نیاز به استدلال پیچیده و شبیه انسان دارد که بسیار فراتر از الگوریتم‌ها و مدل‌های قدیمی است. مدل های زبان بزرگ در حال رسیدن به آن هستند.

موارد لبه رانندگی مستقل نیاز به استدلال پیچیده و شبیه انسان دارد که بسیار فراتر از الگوریتم‌ها و مدل‌های قدیمی است. مدل های زبان بزرگ در حال رسیدن به آن هستند.

هوش مصنوعی بزرگ شده است، و همینطور مدل های هوش مصنوعی. مدل‌های جهانی ۱۰ میلیارد پارامتری، مدل‌های ۵۰ میلیون پارامتری خاص تکلیف را درهم می‌کوبند و عملکرد برتر را در حل بسیاری از کارها از یک مدل نشان می‌دهند.

مدل‌های هوش مصنوعی نیز در حال تبدیل شدن به چند وجهی هستند. مدل‌های دید جدید مانند Florence 2 مایکروسافت و GPT-4V در حال گسترش برنامه‌های کاربردی این مدل‌ها برای ترکیب تصاویر، ویدئو، و صدا هستند و قدرت مدل‌های زبان بزرگ (LLM) را به ارمغان می‌آورند. ) به میلیون ها مورد استفاده جدید.

از آنجایی که بزرگتر در دنیای مهندسی مدل بهتر است، هر برنامه پیشرفت مشابهی را پشت سر گذاشته است: 

  1. یک کار، یک دامنه: یک مدل ساده برای یک مورد خاص – آشکارسازهای شی برای جاده‌ها، مدل‌های تقسیم‌بندی عمق برای صحنه‌های داخلی، مدل‌های زیرنویس تصویر، ربات‌های گفتگو برای برنامه‌های کاربردی وب و غیره. li>
  2. یک کار، هر دامنه: گسترش کاربرد آن مدل ساده برای موارد استفاده زیادی – آشکارسازهای شی برای همه جا (YOLO، DINO، و غیره)، تقسیم‌بندی عمق برای همه چیز (MobileNet)، افزونه‌های چت برای چندین محصول).
  3. هر کار، هر دامنه: مدل‌های بزرگی که می‌توانند همه چیز را انجام دهند، یک تغییر پارادایم که توسط LLM‌های جدید امکان‌پذیر شده است – به عنوان مثال، فلورانس، GPT-4V، ChatGPT.
  4. هر کار، یک دامنه: بهینه‌سازی مدل‌های بزرگ برای یک دامنه، فعال کردن برنامه‌های هم‌زمان و قابلیت اطمینان بالاتر—مانند GPT-3.5-Turbo برای جستجوی تعاملی، Harvey.ai برای تحقیق و تهیه پیش نویس اسناد حقوقی، DriveGPT برای رانندگی خودکار.

رانندگی خودران در مدل های کوچک

رانندگی خودکار همچنان در مدل‌های کوچک اجرا می‌شود. و در حالی که ترکیبی از بسیاری از مدل‌های تک کاره، حسگرهای تخصصی و نقشه‌برداری دقیق نمونه اولیه چشمگیری را ارائه کرده‌اند، دستور العمل امروزی هنوز ایمنی یا مقیاس لازم برای پشتیبانی از درایورهای روزمره را ارائه نمی‌کند.

این چیزی است که هنوز ما را عقب نگه می دارد:

  • تعمیم ضربه صفر. مدل‌های موجود اغلب در سناریوهایی که قبلاً دیده نشده‌اند شکست می‌خورند، که اغلب «دم بلند» رانندگی نامیده می‌شود. اگر به اندازه کافی آموزش نبینند، مدل ها توانایی استدلال از اصول اولیه در مورد کارهای بعدی را ندارند. راه حلی که تا به امروز وجود داشته است ساخت یک مدل با هدف خاص دیگر بوده است. سناریوهای پویا که ترسیم آنها دشوار است، نقطه ضعف اصلی اکثر محصولات خودمختار است.
  • تفسیر قصد راننده و بازیگر. مدل‌های موجود نمی‌توانند ظرافت‌های تعامل و نیت انسانی را با توجه به راننده داخل خودرو و بازیگران جاده در خارج از خودرو درک کنند.
  • نقشه برداری از کل جهان، با دقت. در حالی که مناطقی که به خوبی نقشه‌برداری شده‌اند عمدتاً قابل رانندگی هستند، مقیاس‌بندی دقیق نقشه‌برداری HD ثابت شده است. و بدون نقشه های دقیق، رانندگی مبتنی بر نقشه به خوبی کار نمی کند.
  • وسایل نقلیه جرم گیری. ناوگان کوچک رباتاکسی امروزی به حسگرهای تخصصی، محاسبات گران قیمت و ترکیبی از بسیاری از مدل‌های با هدف خاص متکی هستند – دستور العملی پیچیده و گران‌قیمت که هنوز برای رانندگان روزمره مقیاس نشده است.

LLM ها و مشکل دم دراز

در همه برنامه‌ها، مهندسان مدل از LLM به عنوان ابزار توسعه فوق‌العاده برای بهبود تقریباً هر جنبه از فرآیند مهندسی مدل استفاده می‌کنند. LLMها برای توسعه و بهبود محیط‌های شبیه‌سازی، برای مرتب‌سازی، درک و برچسب‌گذاری مجموعه‌های داده عظیم، و برای تفسیر و اشکال‌زدایی «جعبه‌های سیاه» که شبکه‌های عصبی هستند، بسیار مفید هستند.

شاید یکی از بزرگترین مزیت های LLM در فرآیند توسعه، توانایی بیان منطق پیچیده و چند مرحله ای به زبان طبیعی باشد که با دور زدن نیاز به کد خبره، سرعت توسعه را افزایش می دهد. این قبلاً در زمینه‌های مشکل پیچیده مانند خلاصه کردن متن یا تکمیل کد با وابستگی‌های پیچیده در پایه کد کاملاً مفید بوده است.

همه این ابزارهای مهندسی به طور گسترده تلاش‌های توسعه را بهبود می‌بخشند، از جمله خودمختاری، اما جالب‌ترین و تاثیرگذارترین کاربرد LLM‌ها مستقیماً بر روی خود وظیفه است: استدلال در مورد سناریوهای پیچیده و برنامه‌ریزی امن‌ترین مسیر رو به جلو.

رانندگی خودکار یک مشکل به خصوص چالش برانگیز است زیرا برخی از موارد لبه نیازمند استدلال پیچیده و شبیه انسان است که بسیار فراتر از الگوریتم‌ها و مدل‌های قدیمی است. LLM ها در فراتر رفتن از همبستگی های خالص و نشان دادن یک “درک واقعی از جهان” وعده داده اند. این سطح جدید از درک به وظیفه رانندگی نیز گسترش می‌یابد و برنامه‌ریزان را قادر می‌سازد تا سناریوهای پیچیده را با مانورهای ایمن و طبیعی بدون نیاز به آموزش صریح هدایت کنند.

در مواردی که مدل‌های موجود ممکن است با حضور کارگران ساختمانی در یک تقاطع یا مسیریابی در اطراف صحنه تصادف اشتباه گرفته شوند، LLMها توانایی استدلال در مورد مسیر و سرعت مناسب را با مهارت قابل توجهی نشان داده‌اند. LLM ها مسیر جدیدی را برای حل «دم دراز» ارائه می دهند، یعنی توانایی مدیریت موقعیت هایی که قبلا دیده نشده بود. دم بلند چالش اساسی رانندگی خودران در دو دهه گذشته بوده است.

محدودیت های LLM برای کارهای مستقل

مدل‌های زبان بزرگ امروزه هنوز محدودیت‌های واقعی برای برنامه‌های مستقل دارند. به زبان ساده، LLM ها باید بسیار قابل اعتمادتر و سریعتر شوند. اما راه حل هایی وجود دارد، و اینجاست که کار سخت در حال انجام است.

تأخیر و محدودیت‌های بی‌درنگ

تصمیمات رانندگی حیاتی برای ایمنی باید در کمتر از یک ثانیه گرفته شود. آخرین LLMهایی که در مراکز داده اجرا می شوند ممکن است ۱۰ ثانیه یا بیشتر طول بکشد.

یک راه حل برای این مشکل، معماری های ابری ترکیبی است که محاسبات داخل خودرو را با پردازش مرکز داده تکمیل می کند. یکی دیگر، LLM های هدفمندی است که مدل های بزرگ را به شکل فاکتورهای کوچک و به اندازه کافی سریع برای قرار دادن در خودرو فشرده می کند. در حال حاضر شاهد پیشرفت های چشمگیری در بهینه سازی مدل های بزرگ هستیم. Mistral 7B و Llama 2 7B عملکرد رقیب GPT-3.5 را با مرتبه بزرگی پارامترهای کمتر (۷ میلیارد در مقابل ۱۷۵ میلیارد) نشان داده است. قانون مور و بهینه‌سازی‌های مداوم باید به سرعت تعداد بیشتری از این مدل‌ها را به لبه تغییر دهند.

توهمات

مدل های زبان بزرگ بر اساس همبستگی ها استدلال می کنند، اما همه همبستگی ها در سناریوهای خاص معتبر نیستند. به عنوان مثال، فردی که در تقاطع ایستاده می تواند به معنای توقف (عابر پیاده)، رفتن (نگهبان عبور) یا کاهش سرعت (کارگر ساختمان) باشد. همبستگی های مثبت همیشه پاسخ صحیح را ارائه نمی دهند. وقتی مدل خروجی‌ای تولید می‌کند که واقعیت را منعکس نمی‌کند، به آن نتیجه به عنوان «توهم» اشاره می‌کنیم.

یادگیری تقویتی با بازخورد انسانی (RLHF) یک راه حل بالقوه برای این نوع مشکلات با همسو کردن مدل با بازخورد انسانی برای درک این نوع سناریوهای پیچیده رانندگی ارائه می دهد. با کیفیت داده بهتر، مدل‌های کوچک‌تر مانند Llama 2 70B عملکردی برابر با GPT-4 دارند با ۲۰ برابر پارامترهای کمتر (۷۰ میلیارد در مقابل ۱.۷ تریلیون).

پروژه‌های تحقیقاتی همچنین کیفیت داده‌های بهتر را برای مقیاس‌بندی آسان‌تر می‌کنند. برای مثال، چارچوب OpenChat از تکنیک‌های جدیدی مانند تنظیم دقیق یادگیری تقویتی (RLFT) بهره می‌برد که عملکرد را بهبود می‌بخشد. در حالی که از برچسب زدن ترجیحات انسانی پرهزینه اجتناب می شود.

دم بلند جدید

مدل‌های زبان «همه چیز» را در خود کدگذاری کرده‌اند، اما هنوز ممکن است تمام مفهوم‌های خاص رانندگی، مانند توانایی پیمایش در یک تقاطع شلوغ در حال ساخت را پوشش ندهند. یک راه حل بالقوه در اینجا قرار دادن مدل در معرض توالی طولانی از داده های رانندگی اختصاصی است که می تواند این مفاهیم دقیق تر را در مدل جاسازی کند. به عنوان مثال، Replit از داده‌های کدگذاری اختصاصی پایگاه کاربر خود برای بهبود مستمر کد خود استفاده کرده است. ابزارهای تولیدی با تنظیم دقیق و عملکرد بهتر از مدل های بزرگتر مانند Code Llama 7B.

آینده ای جدید برای رانندگی خودکار

رانندگی خودران هنوز به جریان اصلی نرسیده است، امروزه تنها تعداد کمی از وسایل نقلیه با پیچیده ترین محیط های شهری مقابله می کنند. مدل‌های بزرگ نحوه توسعه مدل‌های رانندگی خودران را متحول می‌کنند و در نهایت رانندگی خودران را متحول می‌کنند—ایمنی و مقیاس لازم برای ارائه در نهایت فناوری به رانندگان روزمره.

Prannay Khosla پیشرو مهندسی مدل در Ghost Autonomy، ارائه دهنده نرم افزار رانندگی خودمختار.

Generative AI Insights مکانی را برای رهبران فناوری – از جمله فروشندگان و سایر مشارکت‌کنندگان خارجی – فراهم می‌کند تا چالش‌ها و فرصت‌های هوش مصنوعی مولد را بررسی و بحث کنند. این انتخاب گسترده است، از غواصی عمیق فناوری گرفته تا مطالعات موردی گرفته تا نظرات متخصص، اما همچنین ذهنی است، بر اساس قضاوت ما در مورد اینکه کدام موضوعات و درمان‌ها به بهترین وجه به مخاطبان فنی پیشرفته InfoWorld خدمت می‌کنند. InfoWorld وثیقه بازاریابی را برای انتشار نمی پذیرد و حق ویرایش تمام محتوای ارائه شده را برای خود محفوظ می دارد. تماس با doug_dineley@foundryco.com.