موارد لبه رانندگی مستقل نیاز به استدلال پیچیده و شبیه انسان دارد که بسیار فراتر از الگوریتمها و مدلهای قدیمی است. مدل های زبان بزرگ در حال رسیدن به آن هستند.
هوش مصنوعی بزرگ شده است، و همینطور مدل های هوش مصنوعی. مدلهای جهانی ۱۰ میلیارد پارامتری، مدلهای ۵۰ میلیون پارامتری خاص تکلیف را درهم میکوبند و عملکرد برتر را در حل بسیاری از کارها از یک مدل نشان میدهند.
مدلهای هوش مصنوعی نیز در حال تبدیل شدن به چند وجهی هستند. مدلهای دید جدید مانند Florence 2 مایکروسافت و GPT-4V در حال گسترش برنامههای کاربردی این مدلها برای ترکیب تصاویر، ویدئو، و صدا هستند و قدرت مدلهای زبان بزرگ (LLM) را به ارمغان میآورند. ) به میلیون ها مورد استفاده جدید.
از آنجایی که بزرگتر در دنیای مهندسی مدل بهتر است، هر برنامه پیشرفت مشابهی را پشت سر گذاشته است:
- یک کار، یک دامنه: یک مدل ساده برای یک مورد خاص – آشکارسازهای شی برای جادهها، مدلهای تقسیمبندی عمق برای صحنههای داخلی، مدلهای زیرنویس تصویر، رباتهای گفتگو برای برنامههای کاربردی وب و غیره. li>
- یک کار، هر دامنه: گسترش کاربرد آن مدل ساده برای موارد استفاده زیادی – آشکارسازهای شی برای همه جا (YOLO، DINO، و غیره)، تقسیمبندی عمق برای همه چیز (MobileNet)، افزونههای چت برای چندین محصول).
- هر کار، هر دامنه: مدلهای بزرگی که میتوانند همه چیز را انجام دهند، یک تغییر پارادایم که توسط LLMهای جدید امکانپذیر شده است – به عنوان مثال، فلورانس، GPT-4V، ChatGPT.
- هر کار، یک دامنه: بهینهسازی مدلهای بزرگ برای یک دامنه، فعال کردن برنامههای همزمان و قابلیت اطمینان بالاتر—مانند GPT-3.5-Turbo برای جستجوی تعاملی، Harvey.ai برای تحقیق و تهیه پیش نویس اسناد حقوقی، DriveGPT برای رانندگی خودکار.
رانندگی خودران در مدل های کوچک
رانندگی خودکار همچنان در مدلهای کوچک اجرا میشود. و در حالی که ترکیبی از بسیاری از مدلهای تک کاره، حسگرهای تخصصی و نقشهبرداری دقیق نمونه اولیه چشمگیری را ارائه کردهاند، دستور العمل امروزی هنوز ایمنی یا مقیاس لازم برای پشتیبانی از درایورهای روزمره را ارائه نمیکند.
این چیزی است که هنوز ما را عقب نگه می دارد:
- تعمیم ضربه صفر. مدلهای موجود اغلب در سناریوهایی که قبلاً دیده نشدهاند شکست میخورند، که اغلب «دم بلند» رانندگی نامیده میشود. اگر به اندازه کافی آموزش نبینند، مدل ها توانایی استدلال از اصول اولیه در مورد کارهای بعدی را ندارند. راه حلی که تا به امروز وجود داشته است ساخت یک مدل با هدف خاص دیگر بوده است. سناریوهای پویا که ترسیم آنها دشوار است، نقطه ضعف اصلی اکثر محصولات خودمختار است.
- تفسیر قصد راننده و بازیگر. مدلهای موجود نمیتوانند ظرافتهای تعامل و نیت انسانی را با توجه به راننده داخل خودرو و بازیگران جاده در خارج از خودرو درک کنند.
- نقشه برداری از کل جهان، با دقت. در حالی که مناطقی که به خوبی نقشهبرداری شدهاند عمدتاً قابل رانندگی هستند، مقیاسبندی دقیق نقشهبرداری HD ثابت شده است. و بدون نقشه های دقیق، رانندگی مبتنی بر نقشه به خوبی کار نمی کند.
- وسایل نقلیه جرم گیری. ناوگان کوچک رباتاکسی امروزی به حسگرهای تخصصی، محاسبات گران قیمت و ترکیبی از بسیاری از مدلهای با هدف خاص متکی هستند – دستور العملی پیچیده و گرانقیمت که هنوز برای رانندگان روزمره مقیاس نشده است.
LLM ها و مشکل دم دراز
در همه برنامهها، مهندسان مدل از LLM به عنوان ابزار توسعه فوقالعاده برای بهبود تقریباً هر جنبه از فرآیند مهندسی مدل استفاده میکنند. LLMها برای توسعه و بهبود محیطهای شبیهسازی، برای مرتبسازی، درک و برچسبگذاری مجموعههای داده عظیم، و برای تفسیر و اشکالزدایی «جعبههای سیاه» که شبکههای عصبی هستند، بسیار مفید هستند.
شاید یکی از بزرگترین مزیت های LLM در فرآیند توسعه، توانایی بیان منطق پیچیده و چند مرحله ای به زبان طبیعی باشد که با دور زدن نیاز به کد خبره، سرعت توسعه را افزایش می دهد. این قبلاً در زمینههای مشکل پیچیده مانند خلاصه کردن متن یا تکمیل کد با وابستگیهای پیچیده در پایه کد کاملاً مفید بوده است.
همه این ابزارهای مهندسی به طور گسترده تلاشهای توسعه را بهبود میبخشند، از جمله خودمختاری، اما جالبترین و تاثیرگذارترین کاربرد LLMها مستقیماً بر روی خود وظیفه است: استدلال در مورد سناریوهای پیچیده و برنامهریزی امنترین مسیر رو به جلو.
رانندگی خودکار یک مشکل به خصوص چالش برانگیز است زیرا برخی از موارد لبه نیازمند استدلال پیچیده و شبیه انسان است که بسیار فراتر از الگوریتمها و مدلهای قدیمی است. LLM ها در فراتر رفتن از همبستگی های خالص و نشان دادن یک “درک واقعی از جهان” وعده داده اند. این سطح جدید از درک به وظیفه رانندگی نیز گسترش مییابد و برنامهریزان را قادر میسازد تا سناریوهای پیچیده را با مانورهای ایمن و طبیعی بدون نیاز به آموزش صریح هدایت کنند.
در مواردی که مدلهای موجود ممکن است با حضور کارگران ساختمانی در یک تقاطع یا مسیریابی در اطراف صحنه تصادف اشتباه گرفته شوند، LLMها توانایی استدلال در مورد مسیر و سرعت مناسب را با مهارت قابل توجهی نشان دادهاند. LLM ها مسیر جدیدی را برای حل «دم دراز» ارائه می دهند، یعنی توانایی مدیریت موقعیت هایی که قبلا دیده نشده بود. دم بلند چالش اساسی رانندگی خودران در دو دهه گذشته بوده است.
محدودیت های LLM برای کارهای مستقل
مدلهای زبان بزرگ امروزه هنوز محدودیتهای واقعی برای برنامههای مستقل دارند. به زبان ساده، LLM ها باید بسیار قابل اعتمادتر و سریعتر شوند. اما راه حل هایی وجود دارد، و اینجاست که کار سخت در حال انجام است.
تأخیر و محدودیتهای بیدرنگ
تصمیمات رانندگی حیاتی برای ایمنی باید در کمتر از یک ثانیه گرفته شود. آخرین LLMهایی که در مراکز داده اجرا می شوند ممکن است ۱۰ ثانیه یا بیشتر طول بکشد.
یک راه حل برای این مشکل، معماری های ابری ترکیبی است که محاسبات داخل خودرو را با پردازش مرکز داده تکمیل می کند. یکی دیگر، LLM های هدفمندی است که مدل های بزرگ را به شکل فاکتورهای کوچک و به اندازه کافی سریع برای قرار دادن در خودرو فشرده می کند. در حال حاضر شاهد پیشرفت های چشمگیری در بهینه سازی مدل های بزرگ هستیم. Mistral 7B و Llama 2 7B عملکرد رقیب GPT-3.5 را با مرتبه بزرگی پارامترهای کمتر (۷ میلیارد در مقابل ۱۷۵ میلیارد) نشان داده است. قانون مور و بهینهسازیهای مداوم باید به سرعت تعداد بیشتری از این مدلها را به لبه تغییر دهند.
توهمات
مدل های زبان بزرگ بر اساس همبستگی ها استدلال می کنند، اما همه همبستگی ها در سناریوهای خاص معتبر نیستند. به عنوان مثال، فردی که در تقاطع ایستاده می تواند به معنای توقف (عابر پیاده)، رفتن (نگهبان عبور) یا کاهش سرعت (کارگر ساختمان) باشد. همبستگی های مثبت همیشه پاسخ صحیح را ارائه نمی دهند. وقتی مدل خروجیای تولید میکند که واقعیت را منعکس نمیکند، به آن نتیجه به عنوان «توهم» اشاره میکنیم.
یادگیری تقویتی با بازخورد انسانی (RLHF) یک راه حل بالقوه برای این نوع مشکلات با همسو کردن مدل با بازخورد انسانی برای درک این نوع سناریوهای پیچیده رانندگی ارائه می دهد. با کیفیت داده بهتر، مدلهای کوچکتر مانند Llama 2 70B عملکردی برابر با GPT-4 دارند با ۲۰ برابر پارامترهای کمتر (۷۰ میلیارد در مقابل ۱.۷ تریلیون).
پروژههای تحقیقاتی همچنین کیفیت دادههای بهتر را برای مقیاسبندی آسانتر میکنند. برای مثال، چارچوب OpenChat از تکنیکهای جدیدی مانند تنظیم دقیق یادگیری تقویتی (RLFT) بهره میبرد که عملکرد را بهبود میبخشد. در حالی که از برچسب زدن ترجیحات انسانی پرهزینه اجتناب می شود.
دم بلند جدید
مدلهای زبان «همه چیز» را در خود کدگذاری کردهاند، اما هنوز ممکن است تمام مفهومهای خاص رانندگی، مانند توانایی پیمایش در یک تقاطع شلوغ در حال ساخت را پوشش ندهند. یک راه حل بالقوه در اینجا قرار دادن مدل در معرض توالی طولانی از داده های رانندگی اختصاصی است که می تواند این مفاهیم دقیق تر را در مدل جاسازی کند. به عنوان مثال، Replit از دادههای کدگذاری اختصاصی پایگاه کاربر خود برای بهبود مستمر کد خود استفاده کرده است. ابزارهای تولیدی با تنظیم دقیق و عملکرد بهتر از مدل های بزرگتر مانند Code Llama 7B.
آینده ای جدید برای رانندگی خودکار
رانندگی خودران هنوز به جریان اصلی نرسیده است، امروزه تنها تعداد کمی از وسایل نقلیه با پیچیده ترین محیط های شهری مقابله می کنند. مدلهای بزرگ نحوه توسعه مدلهای رانندگی خودران را متحول میکنند و در نهایت رانندگی خودران را متحول میکنند—ایمنی و مقیاس لازم برای ارائه در نهایت فناوری به رانندگان روزمره.
Prannay Khosla پیشرو مهندسی مدل در Ghost Autonomy، ارائه دهنده نرم افزار رانندگی خودمختار.
—
Generative AI Insights مکانی را برای رهبران فناوری – از جمله فروشندگان و سایر مشارکتکنندگان خارجی – فراهم میکند تا چالشها و فرصتهای هوش مصنوعی مولد را بررسی و بحث کنند. این انتخاب گسترده است، از غواصی عمیق فناوری گرفته تا مطالعات موردی گرفته تا نظرات متخصص، اما همچنین ذهنی است، بر اساس قضاوت ما در مورد اینکه کدام موضوعات و درمانها به بهترین وجه به مخاطبان فنی پیشرفته InfoWorld خدمت میکنند. InfoWorld وثیقه بازاریابی را برای انتشار نمی پذیرد و حق ویرایش تمام محتوای ارائه شده را برای خود محفوظ می دارد. تماس با doug_dineley@foundryco.com a>.
پست های مرتبط
آیا ChatGPT می تواند ماشین من را رانندگی کند؟ موردی برای LLM در خودمختاری
آیا ChatGPT می تواند ماشین من را رانندگی کند؟ موردی برای LLM در خودمختاری
آیا ChatGPT می تواند ماشین من را رانندگی کند؟ موردی برای LLM در خودمختاری