استفاده از سیستم های لبه برای اجرای عناصر هوش مصنوعی مولد می تواند بازی را تغییر دهد. این نیاز به برنامه ریزی و مهارت دارد، اما این رویکرد ترکیبی ممکن است آینده باشد.
از لحاظ تاریخی، مدل های زبان بزرگ (LLM) به منابع محاسباتی قابل توجهی نیاز دارند. این بدان معناست که توسعه و استقرار عمدتاً به سیستمهای متمرکز قدرتمند مانند ارائهدهندگان ابر عمومی محدود میشود. با این حال، اگرچه بسیاری از مردم بر این باورند که برای اجرای هوش مصنوعی مولد به مقادیر انبوهی از پردازندههای گرافیکی متصل به مقادیر زیادی فضای ذخیرهسازی نیاز داریم، در حقیقت، روشهایی برای استفاده از معماری لایهای یا پارتیشنبندی شده برای ایجاد ارزش برای موارد استفاده خاص تجاری وجود دارد.
به نحوی، در هوش مصنوعی مولد این است که محاسبات لبه کار نخواهد کرد. این با توجه به الزامات پردازش مدلهای هوش مصنوعی مولد و نیاز به استنتاج با عملکرد بالا است. به دلیل این تصور نادرست، وقتی معماری «دانش در لبه» را پیشنهاد میکنم، اغلب با چالش مواجه میشوم. ما فرصت بزرگی را برای نوآوری از دست می دهیم، پس بیایید نگاهی بیندازیم.
همیشه امکان پذیر بوده است
این رویکرد ترکیبی کارایی هر دو نوع زیرساخت را به حداکثر میرساند. اجرای برخی عملیات در لبه به طور قابل توجهی تأخیر را کاهش می دهد، که برای برنامه هایی که نیاز به بازخورد فوری دارند، مانند سرویس های هوش مصنوعی تعاملی و پردازش داده ها در زمان واقعی، بسیار مهم است. کارهایی که نیازی به پاسخهای بیدرنگ ندارند، میتوانند به سرورهای ابری منتقل شوند.
پارتیشن بندی این مدل ها راهی برای متعادل کردن بار محاسباتی، افزایش پاسخگویی و افزایش کارایی استقرار هوش مصنوعی ارائه می دهد. این تکنیک شامل اجرای بخشها یا نسخههای مختلف LLM در دستگاههای لبه، سرورهای ابری متمرکز یا سرورهای داخلی است.
با پارتیشن بندی LLMها، ما به یک معماری مقیاس پذیر دست پیدا می کنیم که در آن دستگاه های لبه وظایف سبک وزن و بلادرنگ را انجام می دهند در حالی که بار سنگین به ابر بارگذاری می شود. به عنوان مثال، بگوییم که ما در حال استفاده از دستگاههای اسکن پزشکی هستیم که در سراسر جهان وجود دارد. پردازش و تجزیه و تحلیل تصویر مبتنی بر هوش مصنوعی، هسته اصلی ارزش این دستگاهها است. با این حال، اگر تصاویر عظیمی را برای تشخیص به برخی از پلتفرمهای محاسباتی مرکزی ارسال کنیم، بهینه نخواهد بود. تأخیر شبکه برخی از پردازش ها را به تاخیر می اندازد، و اگر شبکه به نحوی از کار افتاده باشد، که ممکن است در چندین منطقه روستایی باشد، در این صورت شما از کار خارج شده اید.
تقریباً ۸۰ درصد از آزمایشهای تشخیصی میتوانند بر روی دستگاههای کممصرف در کنار اسکنر به خوبی اجرا شوند. بنابراین، چیزهای معمولی که اسکنر برای شناسایی طراحی شده است را میتوان به صورت محلی انجام داد، در حالی که آزمایشهایی که به پردازش گستردهتر یا پیچیدهتری نیاز دارند، میتوانند برای تشخیصهای اضافی به سرور متمرکز منتقل شوند.
موارد استفاده دیگر شامل تشخیص اجزای یک جت در پرواز است. شما دوست دارید از قدرت هوش مصنوعی برای نظارت و تصحیح مسائل مربوط به عملیات موتور جت برخوردار باشید، و نیاز دارید که این مشکلات در زمان واقعی اصلاح شوند. بازگرداندن عیبیابی عملیاتی به برخی از سیستمهای پردازش هوش مصنوعی متمرکز نه تنها بهینه نیست بلکه ناامن است.
چرا معماری هوش مصنوعی ترکیبی گسترده نیست؟
معماری پارتیشن بندی شده تأخیر را کاهش می دهد و انرژی و توان محاسباتی را حفظ می کند. داده های حساس را می توان به صورت محلی در دستگاه های لبه پردازش کرد و با به حداقل رساندن انتقال داده ها از طریق اینترنت، نگرانی های مربوط به حریم خصوصی را کاهش داد. در مثال دستگاه پزشکی ما، این بدان معناست که نگرانیهای مربوط به اطلاعات شناسایی شخصی کاهش مییابد و امنیت آن دادهها کمی سادهتر است. سپس ابر میتواند جنبههای غیرحساس تعمیمیافته را مدیریت کند و از رویکرد امنیتی لایهای اطمینان حاصل کند.
پس، چرا همه از آن استفاده نمی کنند؟
اول، پیچیده است. این معماری نیازمند تفکر و برنامه ریزی است. هوش مصنوعی مولد جدید است و اکثر معماران هوش مصنوعی جدید هستند و نشانه های معماری خود را از ارائه دهندگان ابری دریافت می کنند که ابر را فشار می دهند. به همین دلیل است که اجازه دادن به معمارانی که برای یک ارائه دهنده ابر خاص کار می کنند ایده خوبی نیست تا سیستم هوش مصنوعی شما را طراحی کنند. هر بار یک راه حل ابری دریافت خواهید کرد. ارائه دهندگان ابر، من به شما نگاه می کنم.
دوم، اکوسیستمهای هوش مصنوعی مولد نیاز به پشتیبانی بهتری دارند. آنها پشتیبانی بهتری از سیستم های هوش مصنوعی متمرکز، مبتنی بر ابر، در محل یا منبع باز ارائه می دهند. برای یک الگوی معماری ترکیبی، شما باید خودتان را انجام دهید، البته چند راه حل ارزشمند در بازار وجود دارد، از جمله مجموعه ابزار محاسبات لبه ای که از هوش مصنوعی پشتیبانی می کنند.
چگونه یک معماری ترکیبی بسازیم
اولین مرحله شامل ارزیابی LLM و جعبههای ابزار هوش مصنوعی و تعیین اینکه کدام مؤلفهها میتوانند به طور مؤثر در لبه اجرا شوند، است. این معمولاً شامل مدلهای سبک وزن یا لایههای خاصی از یک مدل بزرگتر است که وظایف استنتاج را انجام میدهد.
آموزش پیچیده و عملیات تنظیم دقیق در ابر یا سایر سیستمهای جاودانه باقی میمانند. سیستمهای لبه میتوانند دادههای خام را پیشپردازش کنند تا حجم و پیچیدگی آنها را قبل از ارسال به ابر یا پردازش آنها با استفاده از LLM (یا یک مدل زبان کوچک) کاهش دهند. مرحله پیش پردازش شامل پاکسازی داده ها، ناشناس سازی، و استخراج ویژگی های اولیه، ساده سازی پردازش متمرکز بعدی است.
بنابراین، سیستم لبه میتواند دو نقش ایفا کند: این یک پیشپردازنده برای دادهها و فراخوانهای API است که به LLM متمرکز ارسال میشود، یا برخی پردازش/استنتاج را انجام میدهد که میتواند با استفاده از مدل کوچکتر در لبه به بهترین شکل مدیریت شود. دستگاه این باید بازدهی بهینه را ارائه دهد زیرا هر دو سطح با هم کار می کنند، و همچنین ما با کمترین تعداد منابع در استفاده از این مدل ترکیبی لبه/مرکز بیشترین کار را انجام می دهیم.
برای اینکه مدل پارتیشن بندی شده به طور منسجم عمل کند، سیستم های لبه و ابری باید به طور موثر همگام شوند. این به APIهای قوی و پروتکل های انتقال داده برای اطمینان از ارتباط روان سیستم نیاز دارد. همگام سازی مداوم همچنین امکان به روز رسانی و بهبود مدل را در زمان واقعی فراهم می کند.
در نهایت، ارزیابی عملکرد برای تنظیم دقیق مدل پارتیشن بندی شده اجرا می شود. این فرآیند شامل متعادلسازی بار، آزمایش تأخیر، و بهینهسازی تخصیص منابع است تا اطمینان حاصل شود که معماری الزامات خاص برنامه را برآورده میکند.
پارتیشن بندی LLMهای AI مولد در لبه و زیرساخت های مرکزی/ابر، مرز بعدی در استقرار هوش مصنوعی را به تصویر می کشد. این رویکرد ترکیبی عملکرد و پاسخگویی را افزایش می دهد و استفاده از منابع و امنیت را بهینه می کند. با این حال، اکثر شرکتها و حتی ارائهدهندگان فناوری از این معماری میترسند، زیرا آن را بسیار پیچیده، بسیار گران و بسیار کند برای ساخت و استقرار میدانند.
اینطور نیست. در نظر نگرفتن این گزینه به این معنی است که احتمالاً ارزش تجاری خوبی را از دست داده اید. همچنین، در معرض خطر این هستید که افرادی مانند من در چند سال آینده ظاهر شوند و به این موضوع اشاره کنند که از نظر بهینه سازی هوش مصنوعی قایق را از دست داده اید. به شما هشدار داده شده است.
پست های مرتبط
پارتیشن بندی یک LLM بین ابر و لبه
پارتیشن بندی یک LLM بین ابر و لبه
پارتیشن بندی یک LLM بین ابر و لبه