بزرگترین گلوگاه در مدل های زبان بزرگ

محدودیت‌های نرخ به این معنی است که همه منتظر منابع محاسباتی بهتر یا مدل‌های مختلف هوش مصنوعی مولد هستند.

مدل‌های زبان بزرگ (LLM) مانند GPT-4 OpenAI و Claude 2 Anthropic با توانایی خود در تولید متنی شبیه انسان، تخیل عمومی را به خود جلب کرده‌اند. شرکت‌ها به همان اندازه مشتاق هستند و بسیاری در حال بررسی چگونگی استفاده از LLM برای بهبود محصولات و خدمات هستند. با این حال، یک گلوگاه بزرگ به شدت پذیرش پیشرفته‌ترین LLMها را در محیط‌های تولید محدود می‌کند: محدودیت‌های نرخ. راه‌هایی برای عبور از این باجه‌های عوارض محدودیت نرخ وجود دارد، اما پیشرفت واقعی ممکن است بدون بهبود در منابع محاسباتی حاصل نشود.

پرداخت پایپر

APIهای عمومی LLM که به مدل‌های شرکت‌هایی مانند OpenAI و Anthropic دسترسی می‌دهند، محدودیت‌های سختی بر تعداد نشانه‌ها (واحدهای متن) قابل پردازش در دقیقه، تعداد درخواست‌ها در دقیقه و تعداد درخواست‌ها در هر دقیقه اعمال می‌کنند. روز این جمله، برای مثال، نه نشانه مصرف می کند.

تماس‌های

API با GPT-4 OpenAI در حال حاضر به سه درخواست در دقیقه (RPM)، ۲۰۰ درخواست در روز و حداکثر ۱۰۰۰۰ توکن در دقیقه (TPM) محدود شده‌اند. بالاترین سطح محدودیت های ۱۰۰۰۰ دور در دقیقه و ۳۰۰۰۰۰ TPM را مجاز می کند.

برای برنامه‌های تولید بزرگ‌تر که نیاز به پردازش میلیون‌ها توکن در دقیقه دارند، این محدودیت‌های نرخ استفاده از پیشرفته‌ترین LLM‌ها را اساسا غیرممکن می‌سازد. درخواست‌ها روی هم جمع می‌شوند، چند دقیقه یا ساعت طول می‌کشند، که مانع از پردازش هم‌زمان می‌شود.

اکثر شرکت‌ها هنوز در تلاش هستند تا LLM‌ها را به طور ایمن و مؤثر در مقیاس اتخاذ کنند. اما حتی زمانی که آنها از طریق چالش‌های پیرامون حساسیت داده‌ها و فرآیندهای داخلی کار می‌کنند، محدودیت‌های نرخ یک مانع سرسختانه ایجاد می‌کنند. استارت‌آپ‌هایی که محصولاتی پیرامون LLM می‌سازند، زمانی که استفاده از محصول و داده‌ها انباشته می‌شود، به سرعت به سقف می‌رسند، اما شرکت‌های بزرگ‌تر با پایگاه‌های کاربری بزرگ بیشترین محدودیت را دارند. بدون دسترسی ویژه، برنامه‌های آن‌ها اصلاً کار نمی‌کنند.

چه باید کرد؟

مسیریابی در اطراف محدودیت نرخ

یک راه این است که کلاً از فناوری‌های محدودکننده نرخ چشم پوشی کنید. برای مثال، مدل‌های هوش مصنوعی مولد مخصوص استفاده وجود دارند که با تنگناهای LLM همراه نیستند. Diffblue، یک استارت‌آپ مستقر در آکسفورد در بریتانیا، بر فناوری‌های یادگیری تقویتی متکی است که هیچ محدودیتی برای نرخ اعمال نمی‌کنند. این یک کار را بسیار خوب و بسیار کارآمد انجام می دهد و می تواند میلیون ها خط کد را پوشش دهد. به طور مستقل تست های واحد جاوا را با سرعت ۲۵۰ برابر سرعت یک توسعه دهنده و کامپایل ۱۰ برابر سریعتر ایجاد می کند.

Cohere ابتدا Command R+ LLM جدید را روی Azure راه اندازی کرد

تست‌های واحد نوشته شده توسط Diffblue Cover درک سریع برنامه‌های پیچیده را امکان‌پذیر می‌سازد که به شرکت‌ها و استارت‌آپ‌ها به طور یکسان اجازه می‌دهد با اطمینان نوآوری کنند، که برای مثال برای انتقال برنامه‌های قدیمی به ابر ایده‌آل است. همچنین می‌تواند به‌طور مستقل کد جدید بنویسد، کد موجود را بهبود بخشد، خطوط لوله CI/CD را تسریع بخشد، و بینش عمیقی از خطرات مرتبط با تغییر بدون نیاز به بررسی دستی ارائه دهد. بد نیست.

البته، برخی از شرکت ها باید به LLM اعتماد کنند. چه گزینه هایی دارند؟

لطفاً بیشتر محاسبه کنید

یک گزینه صرفاً درخواست افزایش محدودیت‌های نرخ شرکت است. تا اینجای کار خوب است، اما مشکل اساسی این است که بسیاری از ارائه دهندگان LLM در واقع ظرفیت اضافی برای ارائه ندارند. این اصل مشکل است. در دسترس بودن GPU توسط کل ویفر سیلیکونی که از ریخته گری هایی مانند TSMC شروع می شود، ثابت می شود. Nvidia، سازنده غالب پردازنده‌های گرافیکی، نمی‌تواند تراشه‌های کافی برای پاسخگویی به تقاضای انفجاری ناشی از بارهای کاری هوش مصنوعی تهیه کند، جایی که استنتاج در مقیاس به هزاران GPU نیاز دارد که در کنار هم قرار گرفته باشند.

مستقیم ترین راه برای افزایش منابع GPU، ساخت کارخانه های جدید ساخت نیمه هادی است که به عنوان fabs شناخته می شود. اما یک فاب جدید ۲۰ میلیارد دلار هزینه دارد و سال ها طول می کشد تا ساخته شود. سازندگان تراشه های بزرگ مانند اینتل، سامسونگ فاندری، TSMC و تگزاس اینسترومنتز در حال ساخت تاسیسات جدید تولید نیمه هادی در ایالات متحده هستند. روزی، که فوق العاده خواهد بود. در حال حاضر، همه باید منتظر بمانند.

Wasmer از کامپایلر Python to Wasm رونمایی کرد

در نتیجه، تعداد بسیار کمی استقرار تولید واقعی با اهرم GPT-4 وجود دارد. مواردی که این کار را انجام می دهند از نظر دامنه متوسط هستند و از LLM برای ویژگی های فرعی به جای یک جزء اصلی محصول استفاده می کنند. اکثر شرکت ها هنوز در حال ارزیابی آزمایشی ها و اثبات های مفهومی هستند. افزایش مورد نیاز برای ادغام LLMها در گردش کار سازمانی به خودی خود قابل توجه است، حتی قبل از در نظر گرفتن محدودیت های نرخ.

در جستجوی پاسخ

محدودیت‌های GPU که توان عملیاتی GPT-4 را محدود می‌کند، بسیاری از شرکت‌ها را به استفاده از سایر مدل‌های هوش مصنوعی مولد سوق می‌دهد. به عنوان مثال، AWS دارای تراشه های تخصصی خود برای آموزش و استنتاج (اجرای مدل پس از آموزش) است که به مشتریان خود امکان انعطاف پذیری بیشتری را می دهد. نکته مهم این است که هر مشکلی به قوی ترین و گران ترین منابع محاسباتی نیاز ندارد. AWS طیف وسیعی از مدل‌ها را ارائه می‌دهد که ارزان‌تر و تنظیم دقیق‌تر آن‌ها آسان‌تر است، مانند Titan Light. برخی از شرکت‌ها در حال بررسی جایگزین‌هایی مانند تنظیم دقیق مدل‌های منبع باز مانند Llama 2 متا هستند. برای موارد استفاده ساده شامل تولید افزوده بازیابی (RAG) که نیاز به پیوست کردن زمینه به یک اعلان و ایجاد پاسخ دارند، مدل‌های کمتر قدرتمند کافی هستند.

تکنیک‌هایی مانند موازی‌سازی درخواست‌ها در چندین LLM قدیمی با محدودیت‌های بالاتر، خرد کردن داده‌ها و تقطیر مدل نیز می‌تواند کمک کند. چندین تکنیک برای ارزان‌تر و سریع‌تر کردن استنتاج استفاده می‌شود. کوانتیزاسیون دقت وزن‌های مدل را که معمولاً اعداد ممیز شناور ۳۲ بیتی هستند، کاهش می‌دهد. این یک رویکرد جدید نیست. به عنوان مثال، سخت افزار استنتاج گوگل، واحدهای پردازش تانسور (TPUs)، تنها با مدل هایی کار می کند که وزن ها به اعداد صحیح هشت بیتی کوانتیزه شده اند. مدل کمی دقت را از دست می دهد، اما برای اجرا بسیار کوچکتر و سریعتر می شود.

یک تکنیک جدید محبوب به نام “مدل‌های پراکنده” می‌تواند هزینه‌های آموزش و استنتاج را کاهش دهد و نسبت به تقطیر کار فشرده‌تری دارد. شما می توانید یک LLM را به عنوان مجموعه ای از بسیاری از مدل های زبان کوچکتر در نظر بگیرید. به عنوان مثال، وقتی از GPT-4 سؤالی به زبان فرانسوی می‌پرسید، فقط باید از بخش پردازش فرانسوی مدل استفاده شود، و این همان چیزی است که مدل‌های پراکنده از آن بهره‌برداری می‌کنند.

از NET 6 در Microsoft Azure استفاده کنید

می‌توانید آموزش پراکنده را انجام دهید، که در آن فقط باید زیرمجموعه‌ای از مدل را به زبان فرانسوی آموزش دهید، و استنتاج پراکنده، جایی که فقط قسمت فرانسوی زبان مدل را اجرا می‌کنید. هنگامی که با کوانتیزاسیون استفاده می‌شود، این می‌تواند راهی برای استخراج مدل‌های ویژه کوچک‌تر از LLM باشد که می‌توانند به جای پردازنده‌های گرافیکی (البته با جریمه دقت کوچک) روی CPU اجرا شوند. مشکل؟ GPT-4 معروف است زیرا یک تولید کننده متن همه منظوره است، نه یک مدل محدودتر و خاص تر.

از نظر سخت‌افزار، معماری‌های پردازنده جدید که برای بارهای کاری هوش مصنوعی تخصصی شده‌اند، نویدبخش افزایش کارایی هستند. Cerebras یک موتور مقیاس ویفر غول پیکر ساخته است که برای یادگیری ماشینی بهینه شده است، و Manticore در حال استفاده مجدد از سیلیکون GPU “رد شده” است که توسط سازندگان دور ریخته شده است تا تراشه های قابل استفاده را ارائه دهد.

در نهایت، بیشترین دستاوردها از نسل بعدی LLM حاصل می شود که نیاز به محاسبه کمتری دارند. همراه با سخت افزار بهینه شده، LLM های آینده می توانند از موانع محدودیت نرخ امروزی عبور کنند. در حال حاضر، اکوسیستم تحت فشار شرکت های مشتاق صف کشیده اند تا از قدرت LLM استفاده کنند. کسانی که امیدوارند مسیرهای جدیدی را با هوش مصنوعی ایجاد کنند، ممکن است باید منتظر بمانند تا منابع GPU در مسیر طولانی آینده باز شوند. از قضا، این محدودیت ها ممکن است به تعدیل برخی از هیاهوهای کف آلود پیرامون هوش مصنوعی مولد کمک کند، و به صنعت زمان می دهد تا الگوهای مثبتی را برای استفاده مولد و مقرون به صرفه از آن بپذیرد.

پرداخت پایپر

مسیریابی در اطراف محدودیت نرخ

لطفاً بیشتر محاسبه کنید

در جستجوی پاسخ

پست های مرتبط

بزرگترین گلوگاه در مدل های زبان بزرگ

بزرگترین گلوگاه در مدل های زبان بزرگ

بزرگترین گلوگاه در مدل های زبان بزرگ

شاید به این مطالب علاقمند باشید

بزرگترین گلوگاه در مدل های زبان بزرگ

بزرگترین گلوگاه در مدل های زبان بزرگ

بزرگترین گلوگاه در مدل های زبان بزرگ

بزرگترین گلوگاه در مدل های زبان بزرگ