۳۰ آذر ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

پارتیشن بندی یک LLM بین ابر و لبه

استفاده از سیستم های لبه برای اجرای عناصر هوش مصنوعی مولد می تواند بازی را تغییر دهد. این نیاز به برنامه ریزی و مهارت دارد، اما این رویکرد ترکیبی ممکن است آینده باشد.

استفاده از سیستم های لبه برای اجرای عناصر هوش مصنوعی مولد می تواند بازی را تغییر دهد. این نیاز به برنامه ریزی و مهارت دارد، اما این رویکرد ترکیبی ممکن است آینده باشد.

از لحاظ تاریخی، مدل های زبان بزرگ (LLM) به منابع محاسباتی قابل توجهی نیاز دارند. این بدان معناست که توسعه و استقرار عمدتاً به سیستم‌های متمرکز قدرتمند مانند ارائه‌دهندگان ابر عمومی محدود می‌شود. با این حال، اگرچه بسیاری از مردم بر این باورند که برای اجرای هوش مصنوعی مولد به مقادیر انبوهی از پردازنده‌های گرافیکی متصل به مقادیر زیادی فضای ذخیره‌سازی نیاز داریم، در حقیقت، روش‌هایی برای استفاده از معماری لایه‌ای یا پارتیشن‌بندی شده برای ایجاد ارزش برای موارد استفاده خاص تجاری وجود دارد.

به نحوی، در هوش مصنوعی مولد این است که محاسبات لبه کار نخواهد کرد. این با توجه به الزامات پردازش مدل‌های هوش مصنوعی مولد و نیاز به استنتاج با عملکرد بالا است. به دلیل این تصور نادرست، وقتی معماری «دانش در لبه» را پیشنهاد می‌کنم، اغلب با چالش مواجه می‌شوم. ما فرصت بزرگی را برای نوآوری از دست می دهیم، پس بیایید نگاهی بیندازیم.

همیشه امکان پذیر بوده است

این رویکرد ترکیبی کارایی هر دو نوع زیرساخت را به حداکثر می‌رساند. اجرای برخی عملیات در لبه به طور قابل توجهی تأخیر را کاهش می دهد، که برای برنامه هایی که نیاز به بازخورد فوری دارند، مانند سرویس های هوش مصنوعی تعاملی و پردازش داده ها در زمان واقعی، بسیار مهم است. کارهایی که نیازی به پاسخ‌های بی‌درنگ ندارند، می‌توانند به سرورهای ابری منتقل شوند.

پارتیشن بندی این مدل ها راهی برای متعادل کردن بار محاسباتی، افزایش پاسخگویی و افزایش کارایی استقرار هوش مصنوعی ارائه می دهد. این تکنیک شامل اجرای بخش‌ها یا نسخه‌های مختلف LLM در دستگاه‌های لبه، سرورهای ابری متمرکز یا سرورهای داخلی است.

با پارتیشن بندی LLMها، ما به یک معماری مقیاس پذیر دست پیدا می کنیم که در آن دستگاه های لبه وظایف سبک وزن و بلادرنگ را انجام می دهند در حالی که بار سنگین به ابر بارگذاری می شود. به عنوان مثال، بگوییم که ما در حال استفاده از دستگاه‌های اسکن پزشکی هستیم که در سراسر جهان وجود دارد. پردازش و تجزیه و تحلیل تصویر مبتنی بر هوش مصنوعی، هسته اصلی ارزش این دستگاه‌ها است. با این حال، اگر تصاویر عظیمی را برای تشخیص به برخی از پلتفرم‌های محاسباتی مرکزی ارسال کنیم، بهینه نخواهد بود. تأخیر شبکه برخی از پردازش ها را به تاخیر می اندازد، و اگر شبکه به نحوی از کار افتاده باشد، که ممکن است در چندین منطقه روستایی باشد، در این صورت شما از کار خارج شده اید.

نقد و بررسی: Nvidia AI Enterprise در VMware می درخشد

تقریباً ۸۰ درصد از آزمایش‌های تشخیصی می‌توانند بر روی دستگاه‌های کم‌مصرف در کنار اسکنر به خوبی اجرا شوند. بنابراین، چیزهای معمولی که اسکنر برای شناسایی طراحی شده است را می‌توان به صورت محلی انجام داد، در حالی که آزمایش‌هایی که به پردازش گسترده‌تر یا پیچیده‌تری نیاز دارند، می‌توانند برای تشخیص‌های اضافی به سرور متمرکز منتقل شوند.

موارد استفاده دیگر شامل تشخیص اجزای یک جت در پرواز است. شما دوست دارید از قدرت هوش مصنوعی برای نظارت و تصحیح مسائل مربوط به عملیات موتور جت برخوردار باشید، و نیاز دارید که این مشکلات در زمان واقعی اصلاح شوند. بازگرداندن عیب‌یابی عملیاتی به برخی از سیستم‌های پردازش هوش مصنوعی متمرکز نه تنها بهینه نیست بلکه ناامن است.

چرا معماری هوش مصنوعی ترکیبی گسترده نیست؟

معماری پارتیشن بندی شده تأخیر را کاهش می دهد و انرژی و توان محاسباتی را حفظ می کند. داده های حساس را می توان به صورت محلی در دستگاه های لبه پردازش کرد و با به حداقل رساندن انتقال داده ها از طریق اینترنت، نگرانی های مربوط به حریم خصوصی را کاهش داد. در مثال دستگاه پزشکی ما، این بدان معناست که نگرانی‌های مربوط به اطلاعات شناسایی شخصی کاهش می‌یابد و امنیت آن داده‌ها کمی ساده‌تر است. سپس ابر می‌تواند جنبه‌های غیرحساس تعمیم‌یافته را مدیریت کند و از رویکرد امنیتی لایه‌ای اطمینان حاصل کند.

هشدار مگاترند: ظهور محاسبات فراگیر

پس، چرا همه از آن استفاده نمی کنند؟

اول، پیچیده است. این معماری نیازمند تفکر و برنامه ریزی است. هوش مصنوعی مولد جدید است و اکثر معماران هوش مصنوعی جدید هستند و نشانه های معماری خود را از ارائه دهندگان ابری دریافت می کنند که ابر را فشار می دهند. به همین دلیل است که اجازه دادن به معمارانی که برای یک ارائه دهنده ابر خاص کار می کنند ایده خوبی نیست تا سیستم هوش مصنوعی شما را طراحی کنند. هر بار یک راه حل ابری دریافت خواهید کرد. ارائه دهندگان ابر، من به شما نگاه می کنم.

دوم، اکوسیستم‌های هوش مصنوعی مولد نیاز به پشتیبانی بهتری دارند. آنها پشتیبانی بهتری از سیستم های هوش مصنوعی متمرکز، مبتنی بر ابر، در محل یا منبع باز ارائه می دهند. برای یک الگوی معماری ترکیبی، شما باید خودتان را انجام دهید، البته چند راه حل ارزشمند در بازار وجود دارد، از جمله مجموعه ابزار محاسبات لبه ای که از هوش مصنوعی پشتیبانی می کنند.

چگونه یک معماری ترکیبی بسازیم

اولین مرحله شامل ارزیابی LLM و جعبه‌های ابزار هوش مصنوعی و تعیین اینکه کدام مؤلفه‌ها می‌توانند به طور مؤثر در لبه اجرا شوند، است. این معمولاً شامل مدل‌های سبک وزن یا لایه‌های خاصی از یک مدل بزرگتر است که وظایف استنتاج را انجام می‌دهد.

آموزش پیچیده و عملیات تنظیم دقیق در ابر یا سایر سیستم‌های جاودانه باقی می‌مانند. سیستم‌های لبه می‌توانند داده‌های خام را پیش‌پردازش کنند تا حجم و پیچیدگی آن‌ها را قبل از ارسال به ابر یا پردازش آن‌ها با استفاده از LLM (یا یک مدل زبان کوچک) کاهش دهند. مرحله پیش پردازش شامل پاکسازی داده ها، ناشناس سازی، و استخراج ویژگی های اولیه، ساده سازی پردازش متمرکز بعدی است.

عرضه هوش مصنوعی بسیار جلوتر از تقاضای هوش مصنوعی است

بنابراین، سیستم لبه می‌تواند دو نقش ایفا کند: این یک پیش‌پردازنده برای داده‌ها و فراخوان‌های API است که به LLM متمرکز ارسال می‌شود، یا برخی پردازش/استنتاج را انجام می‌دهد که می‌تواند با استفاده از مدل کوچک‌تر در لبه به بهترین شکل مدیریت شود. دستگاه این باید بازدهی بهینه را ارائه دهد زیرا هر دو سطح با هم کار می کنند، و همچنین ما با کمترین تعداد منابع در استفاده از این مدل ترکیبی لبه/مرکز بیشترین کار را انجام می دهیم.

برای اینکه مدل پارتیشن بندی شده به طور منسجم عمل کند، سیستم های لبه و ابری باید به طور موثر همگام شوند. این به APIهای قوی و پروتکل های انتقال داده برای اطمینان از ارتباط روان سیستم نیاز دارد. همگام سازی مداوم همچنین امکان به روز رسانی و بهبود مدل را در زمان واقعی فراهم می کند.

در نهایت، ارزیابی عملکرد برای تنظیم دقیق مدل پارتیشن بندی شده اجرا می شود. این فرآیند شامل متعادل‌سازی بار، آزمایش تأخیر، و بهینه‌سازی تخصیص منابع است تا اطمینان حاصل شود که معماری الزامات خاص برنامه را برآورده می‌کند.

پارتیشن بندی LLMهای AI مولد در لبه و زیرساخت های مرکزی/ابر، مرز بعدی در استقرار هوش مصنوعی را به تصویر می کشد. این رویکرد ترکیبی عملکرد و پاسخگویی را افزایش می دهد و استفاده از منابع و امنیت را بهینه می کند. با این حال، اکثر شرکت‌ها و حتی ارائه‌دهندگان فناوری از این معماری می‌ترسند، زیرا آن را بسیار پیچیده، بسیار گران و بسیار کند برای ساخت و استقرار می‌دانند.

اینطور نیست. در نظر نگرفتن این گزینه به این معنی است که احتمالاً ارزش تجاری خوبی را از دست داده اید. همچنین، در معرض خطر این هستید که افرادی مانند من در چند سال آینده ظاهر شوند و به این موضوع اشاره کنند که از نظر بهینه سازی هوش مصنوعی قایق را از دست داده اید. به شما هشدار داده شده است.