محدودیتهای نرخ به این معنی است که همه منتظر منابع محاسباتی بهتر یا مدلهای مختلف هوش مصنوعی مولد هستند.
مدلهای زبان بزرگ (LLM) مانند GPT-4 OpenAI و Claude 2 Anthropic با توانایی خود در تولید متنی شبیه انسان، تخیل عمومی را به خود جلب کردهاند. شرکتها به همان اندازه مشتاق هستند و بسیاری در حال بررسی چگونگی استفاده از LLM برای بهبود محصولات و خدمات هستند. با این حال، یک گلوگاه بزرگ به شدت پذیرش پیشرفتهترین LLMها را در محیطهای تولید محدود میکند: محدودیتهای نرخ. راههایی برای عبور از این باجههای عوارض محدودیت نرخ وجود دارد، اما پیشرفت واقعی ممکن است بدون بهبود در منابع محاسباتی حاصل نشود.
پرداخت پایپر
APIهای عمومی LLM که به مدلهای شرکتهایی مانند OpenAI و Anthropic دسترسی میدهند، محدودیتهای سختی بر تعداد نشانهها (واحدهای متن) قابل پردازش در دقیقه، تعداد درخواستها در دقیقه و تعداد درخواستها در هر دقیقه اعمال میکنند. روز این جمله، برای مثال، نه نشانه مصرف می کند.
تماسهای
API با GPT-4 OpenAI در حال حاضر به سه درخواست در دقیقه (RPM)، ۲۰۰ درخواست در روز و حداکثر ۱۰۰۰۰ توکن در دقیقه (TPM) محدود شدهاند. بالاترین سطح محدودیت های ۱۰۰۰۰ دور در دقیقه و ۳۰۰۰۰۰ TPM را مجاز می کند.
برای برنامههای تولید بزرگتر که نیاز به پردازش میلیونها توکن در دقیقه دارند، این محدودیتهای نرخ استفاده از پیشرفتهترین LLMها را اساسا غیرممکن میسازد. درخواستها روی هم جمع میشوند، چند دقیقه یا ساعت طول میکشند، که مانع از پردازش همزمان میشود.
اکثر شرکتها هنوز در تلاش هستند تا LLMها را به طور ایمن و مؤثر در مقیاس اتخاذ کنند. اما حتی زمانی که آنها از طریق چالشهای پیرامون حساسیت دادهها و فرآیندهای داخلی کار میکنند، محدودیتهای نرخ یک مانع سرسختانه ایجاد میکنند. استارتآپهایی که محصولاتی پیرامون LLM میسازند، زمانی که استفاده از محصول و دادهها انباشته میشود، به سرعت به سقف میرسند، اما شرکتهای بزرگتر با پایگاههای کاربری بزرگ بیشترین محدودیت را دارند. بدون دسترسی ویژه، برنامههای آنها اصلاً کار نمیکنند.
چه باید کرد؟
مسیریابی در اطراف محدودیت نرخ
یک راه این است که کلاً از فناوریهای محدودکننده نرخ چشم پوشی کنید. برای مثال، مدلهای هوش مصنوعی مولد مخصوص استفاده وجود دارند که با تنگناهای LLM همراه نیستند. Diffblue، یک استارتآپ مستقر در آکسفورد در بریتانیا، بر فناوریهای یادگیری تقویتی متکی است که هیچ محدودیتی برای نرخ اعمال نمیکنند. این یک کار را بسیار خوب و بسیار کارآمد انجام می دهد و می تواند میلیون ها خط کد را پوشش دهد. به طور مستقل تست های واحد جاوا را با سرعت ۲۵۰ برابر سرعت یک توسعه دهنده و کامپایل ۱۰ برابر سریعتر ایجاد می کند.
تستهای واحد نوشته شده توسط Diffblue Cover درک سریع برنامههای پیچیده را امکانپذیر میسازد که به شرکتها و استارتآپها به طور یکسان اجازه میدهد با اطمینان نوآوری کنند، که برای مثال برای انتقال برنامههای قدیمی به ابر ایدهآل است. همچنین میتواند بهطور مستقل کد جدید بنویسد، کد موجود را بهبود بخشد، خطوط لوله CI/CD را تسریع بخشد، و بینش عمیقی از خطرات مرتبط با تغییر بدون نیاز به بررسی دستی ارائه دهد. بد نیست.
البته، برخی از شرکت ها باید به LLM اعتماد کنند. چه گزینه هایی دارند؟
لطفاً بیشتر محاسبه کنید
یک گزینه صرفاً درخواست افزایش محدودیتهای نرخ شرکت است. تا اینجای کار خوب است، اما مشکل اساسی این است که بسیاری از ارائه دهندگان LLM در واقع ظرفیت اضافی برای ارائه ندارند. این اصل مشکل است. در دسترس بودن GPU توسط کل ویفر سیلیکونی که از ریخته گری هایی مانند TSMC شروع می شود، ثابت می شود. Nvidia، سازنده غالب پردازندههای گرافیکی، نمیتواند تراشههای کافی برای پاسخگویی به تقاضای انفجاری ناشی از بارهای کاری هوش مصنوعی تهیه کند، جایی که استنتاج در مقیاس به هزاران GPU نیاز دارد که در کنار هم قرار گرفته باشند.
مستقیم ترین راه برای افزایش منابع GPU، ساخت کارخانه های جدید ساخت نیمه هادی است که به عنوان fabs شناخته می شود. اما یک فاب جدید ۲۰ میلیارد دلار هزینه دارد و سال ها طول می کشد تا ساخته شود. سازندگان تراشه های بزرگ مانند اینتل، سامسونگ فاندری، TSMC و تگزاس اینسترومنتز در حال ساخت تاسیسات جدید تولید نیمه هادی در ایالات متحده هستند. روزی، که فوق العاده خواهد بود. در حال حاضر، همه باید منتظر بمانند.
در نتیجه، تعداد بسیار کمی استقرار تولید واقعی با اهرم GPT-4 وجود دارد. مواردی که این کار را انجام می دهند از نظر دامنه متوسط هستند و از LLM برای ویژگی های فرعی به جای یک جزء اصلی محصول استفاده می کنند. اکثر شرکت ها هنوز در حال ارزیابی آزمایشی ها و اثبات های مفهومی هستند. افزایش مورد نیاز برای ادغام LLMها در گردش کار سازمانی به خودی خود قابل توجه است، حتی قبل از در نظر گرفتن محدودیت های نرخ.
در جستجوی پاسخ
محدودیتهای GPU که توان عملیاتی GPT-4 را محدود میکند، بسیاری از شرکتها را به استفاده از سایر مدلهای هوش مصنوعی مولد سوق میدهد. به عنوان مثال، AWS دارای تراشه های تخصصی خود برای آموزش و استنتاج (اجرای مدل پس از آموزش) است که به مشتریان خود امکان انعطاف پذیری بیشتری را می دهد. نکته مهم این است که هر مشکلی به قوی ترین و گران ترین منابع محاسباتی نیاز ندارد. AWS طیف وسیعی از مدلها را ارائه میدهد که ارزانتر و تنظیم دقیقتر آنها آسانتر است، مانند Titan Light. برخی از شرکتها در حال بررسی جایگزینهایی مانند تنظیم دقیق مدلهای منبع باز مانند Llama 2 متا هستند. برای موارد استفاده ساده شامل تولید افزوده بازیابی (RAG) که نیاز به پیوست کردن زمینه به یک اعلان و ایجاد پاسخ دارند، مدلهای کمتر قدرتمند کافی هستند.
تکنیکهایی مانند موازیسازی درخواستها در چندین LLM قدیمی با محدودیتهای بالاتر، خرد کردن دادهها و تقطیر مدل نیز میتواند کمک کند. چندین تکنیک برای ارزانتر و سریعتر کردن استنتاج استفاده میشود. کوانتیزاسیون دقت وزنهای مدل را که معمولاً اعداد ممیز شناور ۳۲ بیتی هستند، کاهش میدهد. این یک رویکرد جدید نیست. به عنوان مثال، سخت افزار استنتاج گوگل، واحدهای پردازش تانسور (TPUs)، تنها با مدل هایی کار می کند که وزن ها به اعداد صحیح هشت بیتی کوانتیزه شده اند. مدل کمی دقت را از دست می دهد، اما برای اجرا بسیار کوچکتر و سریعتر می شود.
یک تکنیک جدید محبوب به نام “مدلهای پراکنده” میتواند هزینههای آموزش و استنتاج را کاهش دهد و نسبت به تقطیر کار فشردهتری دارد. شما می توانید یک LLM را به عنوان مجموعه ای از بسیاری از مدل های زبان کوچکتر در نظر بگیرید. به عنوان مثال، وقتی از GPT-4 سؤالی به زبان فرانسوی میپرسید، فقط باید از بخش پردازش فرانسوی مدل استفاده شود، و این همان چیزی است که مدلهای پراکنده از آن بهرهبرداری میکنند.
میتوانید آموزش پراکنده را انجام دهید، که در آن فقط باید زیرمجموعهای از مدل را به زبان فرانسوی آموزش دهید، و استنتاج پراکنده، جایی که فقط قسمت فرانسوی زبان مدل را اجرا میکنید. هنگامی که با کوانتیزاسیون استفاده میشود، این میتواند راهی برای استخراج مدلهای ویژه کوچکتر از LLM باشد که میتوانند به جای پردازندههای گرافیکی (البته با جریمه دقت کوچک) روی CPU اجرا شوند. مشکل؟ GPT-4 معروف است زیرا یک تولید کننده متن همه منظوره است، نه یک مدل محدودتر و خاص تر.
از نظر سختافزار، معماریهای پردازنده جدید که برای بارهای کاری هوش مصنوعی تخصصی شدهاند، نویدبخش افزایش کارایی هستند. Cerebras یک موتور مقیاس ویفر غول پیکر ساخته است که برای یادگیری ماشینی بهینه شده است، و Manticore در حال استفاده مجدد از سیلیکون GPU “رد شده” است که توسط سازندگان دور ریخته شده است تا تراشه های قابل استفاده را ارائه دهد.
در نهایت، بیشترین دستاوردها از نسل بعدی LLM حاصل می شود که نیاز به محاسبه کمتری دارند. همراه با سخت افزار بهینه شده، LLM های آینده می توانند از موانع محدودیت نرخ امروزی عبور کنند. در حال حاضر، اکوسیستم تحت فشار شرکت های مشتاق صف کشیده اند تا از قدرت LLM استفاده کنند. کسانی که امیدوارند مسیرهای جدیدی را با هوش مصنوعی ایجاد کنند، ممکن است باید منتظر بمانند تا منابع GPU در مسیر طولانی آینده باز شوند. از قضا، این محدودیت ها ممکن است به تعدیل برخی از هیاهوهای کف آلود پیرامون هوش مصنوعی مولد کمک کند، و به صنعت زمان می دهد تا الگوهای مثبتی را برای استفاده مولد و مقرون به صرفه از آن بپذیرد.
پست های مرتبط
بزرگترین گلوگاه در مدل های زبان بزرگ
بزرگترین گلوگاه در مدل های زبان بزرگ
بزرگترین گلوگاه در مدل های زبان بزرگ