۲۹ شهریور ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

امنیت، حریم خصوصی و هوش مصنوعی مولد

ادغام مدل‌های زبان بزرگ در بسیاری از محصولات و برنامه‌های شخص ثالث، خطرات امنیتی و حریم خصوصی ناشناخته بسیاری را به همراه دارد. در اینجا نحوه رسیدگی به آنها آمده است.

ادغام مدل‌های زبان بزرگ در بسیاری از محصولات و برنامه‌های شخص ثالث، خطرات امنیتی و حریم خصوصی ناشناخته بسیاری را به همراه دارد. در اینجا نحوه رسیدگی به آنها آمده است.

از زمان گسترش مدل‌های زبان بزرگ (LLM)، مانند GPT-4، Llama 2 متا، و PaLM 2 Google، ما شاهد انفجار هوش مصنوعی مولد بوده‌ایم. a> برنامه های کاربردی تقریباً در هر صنعت، از جمله امنیت سایبری. با این حال، برای اکثر برنامه های LLM، حفظ حریم خصوصی و اقامت داده ها یک نگرانی عمده است که کاربرد این فناوری ها را محدود می کند. در بدترین موارد، کارمندان سازمان‌ها بدون اطلاع از خطرات امنیتی مرتبط، اطلاعات شناسایی شخصی (PII) را خارج از کنترل‌های سازمان خود به سرویس‌هایی مانند ChatGPT ارسال می‌کنند.

در روشی مشابه، همه مدل‌های پایه به طور یکسان ایجاد نمی‌شوند. خروجی این مدل‌ها ممکن است همیشه واقعی نباشد و تغییرپذیری خروجی‌های آنها به طیف وسیعی از عوامل فنی وابسته است. چگونه مصرف کنندگان LLM می توانند تأیید کنند که یک فروشنده از مناسب ترین مدل ها برای مورد مورد نظر استفاده می کند، در حالی که به حریم خصوصی، محل اقامت داده ها و امنیت احترام می گذارد؟

این مقاله به این ملاحظات می‌پردازد و به سازمان‌ها توانایی بهتری برای ارزیابی نحوه استفاده و مدیریت مدل‌های LLM در طول زمان می‌دهد.

LLMهای اختصاصی در مقابل منبع باز

برای شروع بحث، ارائه پیشینه فنی در پیاده سازی و بهره برداری از خدمات LLM مهم است. در گسترده‌ترین مفهوم، دو دسته از LLM وجود دارد: مدل‌های اختصاصی و منبع باز. نمونه‌هایی از LLM‌های اختصاصی عبارتند از OpenAI’s GPT-3.5 و GPT-4، و Google’s Palm 2 (مدل پشت Bard)، که در آن دسترسی در پشت APIهای اینترنتی یا برنامه‌های چت پنهان است.

دسته دوم مدل‌های منبع باز هستند، مانند مدل‌هایی که در مخزن عمومی محبوب Hugging Face یا مدل‌هایی مانند Llama 2 میزبانی می‌شوند. لازم به ذکر است که هر سرویس تجاری با استفاده از LLM منبع باز باید نوعی از Llama 2 را اجرا کند. ، زیرا در حال حاضر بهترین مدل منبع باز برای بسیاری از برنامه های تجاری است.

مزیت اصلی مدل‌های منبع باز، امکان میزبانی محلی آنها در زیرساخت‌های متعلق به سازمان، با استفاده از سخت‌افزار داخلی، سخت‌افزار اختصاصی یا در محیط‌های ابری مدیریت‌شده خصوصی است. این به مالکان کنترل کاملی بر نحوه استفاده از مدل می دهد و می تواند اطمینان حاصل کند که داده ها در دامنه و کنترل سازمان باقی می مانند. در حالی که این مدل‌های منبع باز ممکن است در حال حاضر در مقایسه با مدل‌های جدید GPT-4 و PalM 2 عملکرد پایین‌تری داشته باشند، این شکاف به سرعت در حال کاهش است.

اگرچه تبلیغات قابل توجهی در مورد این فناوری ها وجود دارد، آنها می توانند چندین نگرانی امنیتی را ایجاد کنند که به راحتی می توان آنها را نادیده گرفت. در حال حاضر، هیچ استاندارد نظارتی یا انطباق قوی برای کنترل یا ممیزی این فناوری‌ها که مختص هوش مصنوعی هستند وجود ندارد. در حال حاضر قوانین قانونی زیادی در دست اجرا هستند، مانند قوانین هوش مصنوعی و داده ها (AIDA) در کانادا، قانون هوش مصنوعی اتحادیه اروپا، طرح اولیه هوش مصنوعی B iهمه حقوق در ایالات متحده و سایر استانداردهای تخصصی در حال توسعه از طریق NIST، SEC، و FTC. با این حال، علی‌رغم این دستورالعمل‌های اولیه، امروزه اعمال نظارتی یا نظارت بسیار کمی وجود دارد.

DataStax مترجم Schema GPT را به Astra Streaming مبتنی بر Apache Pulsar اضافه می کند

بنابراین، توسعه‌دهندگان مسئول پیروی از بهترین شیوه‌های موجود در مورد استقرار یادگیری ماشینی خود هستند و کاربران باید در زنجیره تامین هوش مصنوعی خود دقت لازم را انجام دهند. با در نظر گرفتن این سه جنبه – مدل های اختصاصی در مقابل مدل های منبع باز، ملاحظات عملکرد / دقت و عدم نظارت نظارتی – دو سوال اصلی وجود دارد که باید از فروشندگانی که از LLM در محصولات خود استفاده می کنند پرسیده شود: مدل پایه چیست؟ در حال استفاده است، و کجا میزبانی می شود؟

حفاظت از امنیت و حریم خصوصی LLM

بیایید ابتدا به سوال اول بپردازیم. برای هر سازمان مدرن، اگر از مدل های اختصاصی استفاده می کند، پاسخ معمولاً GPT-3.5 یا GPT-4 خواهد بود. اگر فروشنده‌ای از مدل‌های منبع باز استفاده می‌کند، می‌توانید انتظار داشته باشید که نوعی از Llama 2 باشد. 

اگر فروشنده ای از مدل GPT-3.5 یا GPT-4 استفاده می کند، باید چندین نگرانی در مورد حفظ حریم خصوصی داده ها و محل اقامت برطرف شود. به عنوان مثال، اگر آنها از OpenAI API استفاده می کنند، می توانید انتظار داشته باشید که هر داده وارد شده به سیستم های OpenAI ارسال شود. اگر PII خارج از دامنه‌های شرکت به اشتراک گذاشته شود، احتمالاً بسیاری از سیاست‌های حاکمیت داده، ریسک و انطباق (GRC) را نقض می‌کند و استفاده از OpenAI API را برای بسیاری از موارد غیرقابل قبول می‌کند.

با این حال، به دلیل نگرانی های زیادی که در اوایل امسال توسط توسعه دهندگان به اشتراک گذاشته شد، OpenAI سیاست حفظ حریم خصوصی موجود خود را اصلاح کرد و بیان کرد که داده های تجاری ارسال شده از طریق ChatGPT Enterprise یا API در آموزش مدل های آنها استفاده نخواهد شد. به این ترتیب، سازمان‌هایی که با راه‌حل‌های genAI که از OpenAI API استفاده می‌کنند، باید ارزیابی‌های ریسک شخص ثالث کافی را با توجه به حساسیت داده‌ها و ماهیت مورد استفاده انجام دهند. به طور مشابه، اگر فروشنده یا برنامه کاربردی هوش مصنوعی شما از سرویس Azure OpenAI استفاده می کند، داده ها توسط OpenAI به اشتراک گذاشته یا ذخیره نمی شوند.

توجه داشته باشید که چندین فناوری وجود دارد که می‌تواند درخواست‌های LLM PII را قبل از ارسال به نقاط پایانی اختصاصی پاکسازی کند تا خطر نشت PII را کاهش دهد. با این حال، تمیز کردن PII برای تعمیم و تایید با اطمینان ۱۰۰٪ دشوار است. به این ترتیب، مدل‌های منبع باز که به صورت محلی میزبانی می‌شوند، در مقایسه با مدل‌های اختصاصی، محافظت بسیار بیشتری در برابر نقض GRC ارائه می‌کنند.

با این حال، سازمان‌هایی که مدل‌های منبع باز را به کار می‌گیرند باید اطمینان حاصل کنند که کنترل‌های امنیتی دقیقی برای محافظت از داده‌ها و مدل‌ها در برابر عوامل تهدید وجود دارد (مانند رمزگذاری در تماس‌های API، کنترل‌های اقامت داده، کنترل‌های دسترسی مبتنی بر نقش در مجموعه‌های داده، و غیره .). با این حال، اگر حفظ حریم خصوصی یک نگرانی نیست، استفاده از مدل‌های اختصاصی معمولاً به دلیل هزینه، تأخیر و وفاداری پاسخ‌های آنها ترجیح داده می‌شود.

Nutanix برنامه شریک هوش مصنوعی، GPT-in-a-Box 2.0 را معرفی کرد

برای گسترش سطح بینش موجود در استقرار هوش مصنوعی، می توانید از یک دروازه LLM استفاده کنید. این یک پروکسی API است که به سازمان کاربر اجازه می‌دهد تا ثبت و تأیید درخواست‌های ارسال شده به LLMها را در زمان واقعی انجام دهد و همچنین هرگونه داده‌ای را که به اشتراک گذاشته شده و به کاربران بازگردانده می‌شود ردیابی کند. دروازه LLM نقطه کنترلی را فراهم می کند که می تواند با نظارت بر درخواست ها، تضمین های بیشتری در برابر چنین تخلفات PII اضافه کند، و در بسیاری از موارد، مشکلات امنیتی مرتبط با LLM ها را اصلاح کند. این یک منطقه در حال توسعه است، اما اگر بخواهیم سیستم‌های هوش مصنوعی را که «از نظر طراحی ایمن هستند» کنار هم قرار دهیم، ضروری است.

اطمینان از دقت و سازگاری LLM

حالا به عملکرد یا دقت مدل بپردازیم. LLM ها بر روی مقادیر عظیمی از داده های خراشیده شده از اینترنت آموزش می بینند. این مجموعه داده ها عبارتند از CommonCrawl، WebText، C4، CoDEx، و BookCorpus، فقط به نام چند. این داده های اساسی شامل دنیایی است که LLM درک خواهد کرد. بنابراین، اگر مدل فقط بر روی یک نوع بسیار خاص از داده ها آموزش داده شود، دید آن بسیار محدود خواهد بود و در پاسخ به سوالات خارج از حوزه خود با مشکل مواجه خواهد شد. نتیجه سیستمی خواهد بود که بیشتر مستعد توهمات هوش مصنوعی است که پاسخ‌های بی‌معنا یا کاملاً نادرست ارائه می‌دهد.

برای بسیاری از برنامه های پیشنهادی که در آنها LLM ها باید برتر باشند، ارائه پاسخ های نادرست می تواند عواقب جدی داشته باشد. خوشبختانه، بسیاری از LLM های اصلی بر روی منابع متعدد داده آموزش دیده اند. این به این مدل‌ها اجازه می‌دهد تا درباره مجموعه‌ای از موضوعات مختلف با وفاداری صحبت کنند. با این حال، معمولاً دانش کافی در مورد حوزه‌های تخصصی که داده‌ها در آنها نسبتاً کم است، مانند موضوعات فنی عمیق در پزشکی، دانشگاه یا امنیت سایبری وجود ندارد. به این ترتیب، این مدل‌های پایه بزرگ معمولاً از طریق فرآیندی به نام تنظیم دقیق بیشتر اصلاح می‌شوند.

تنظیم دقیق به این مدل‌ها اجازه می‌دهد تا به تراز بهتری با دامنه مورد نظر دست یابند. تنظیم دقیق به یک مزیت اساسی تبدیل شده است که حتی OpenAI اخیراً پشتیبانی از این قابلیت را برای رقابت با مدل‌های منبع باز منتشر کرده است. با در نظر گرفتن این ملاحظات، مصرف‌کنندگان محصولات LLM که خواهان بهترین خروجی‌های ممکن، با کمترین خطا هستند، باید داده‌هایی را که در آن LLM آموزش دیده است (یا تنظیم دقیق) برای اطمینان از استفاده و کاربرد بهینه درک کنند.

محققان در مورد پسوندهای Visual Studio Code مخرب هشدار می دهند

به‌عنوان مثال، امنیت سایبری دامنه‌ای است که در داده‌های زیربنایی که برای آموزش این مدل‌های پایه استفاده می‌شود، ارائه نشده است. این به نوبه خود باعث سوگیری این مدل‌ها می‌شود تا هنگام بحث درباره داده‌های سایبری و امنیت سایبری، پاسخ‌های ساختگی یا نادرست‌تری ایجاد کنند. اگرچه تشخیص بخشی از موضوعات امنیت سایبری در داده های آموزشی این LLM ها دشوار است، اما به جرات می توان گفت که در مقایسه با موضوعات رایج تر، حداقل است. به عنوان مثال، GPT-3 بر روی ۴۵ ترابایت داده آموزش داده شد. این را با مجموعه داده های متمرکز سایبری ۲ گیگابایتی که برای تنظیم دقیق مدل CySecBert استفاده می شود، مقایسه کنید. در حالی که LLM های همه منظوره می توانند روانی زبان طبیعی و توانایی پاسخگویی واقعی به کاربران را ارائه دهند، داده های تخصصی مورد استفاده در تنظیم دقیق جایی است که بیشترین ارزش را می توان ایجاد کرد.

در حالی که تنظیم دقیق LLM ها رایج تر می شود، جمع آوری داده های مناسب برای تنظیم دقیق مدل های پایه می تواند چالش برانگیز باشد. این امر معمولاً مستلزم آن است که فروشنده یک زیرساخت مهندسی داده نسبتاً بالغ داشته باشد و ویژگی‌های مربوطه را در قالب‌های غیرساخت‌یافته جمع‌آوری کند. به این ترتیب، درک نحوه اجرای فرآیند تنظیم دقیق توسط فروشنده و داده‌هایی که یک مدل بر اساس آن آموزش داده شده است، در درک عملکرد نسبی آن و در نهایت اینکه برنامه چقدر می‌تواند نتایج قابل اعتمادی ارائه دهد، بسیار مهم است. برای شرکت‌هایی که علاقه‌مند به توسعه محصولات هوش مصنوعی یا استفاده از خدماتی از ارائه‌دهنده دیگر هستند، درک اینکه این داده‌ها از کجا آمده و چگونه به عنوان بخشی از تنظیم دقیق مورد استفاده قرار گرفته‌اند، یک متمایزکننده جدید بازار خواهد بود.

همانطور که به مسائل امنیتی، حریم خصوصی و عملکرد ناشی از استفاده از LLM نگاه می کنیم، باید بتوانیم نحوه تعامل کاربران با این سیستم ها را مدیریت و پیگیری کنیم. اگر از همان ابتدا این موضوع را درست در نظر نگیریم، در این صورت با این خطر مواجه می شویم که نسل های قبلی متخصصان فناوری اطلاعات با استفاده در سایه IT و استقرار پیش فرض ناامن مواجه شوند. ما فرصتی برای ایجاد امنیت و حریم خصوصی در نحوه ارائه هوش مصنوعی مولد از همان ابتدا داریم و نباید این فرصت را از دست دهیم.

جف شوارتزنتروبر دانشمند ارشد یادگیری ماشین در eSentire است.

Generative AI Insights مکانی را برای رهبران فناوری فراهم می کند تا چالش ها و فرصت های هوش مصنوعی مولد را بررسی و بحث کنند. این انتخاب گسترده است، از غواصی عمیق فناوری گرفته تا مطالعات موردی گرفته تا نظرات متخصص، اما همچنین ذهنی است، بر اساس قضاوت ما در مورد اینکه کدام موضوعات و درمان‌ها به بهترین وجه به مخاطبان فنی پیشرفته InfoWorld خدمت می‌کنند. InfoWorld وثیقه بازاریابی را برای انتشار نمی پذیرد و حق ویرایش تمام محتوای ارائه شده را برای خود محفوظ می دارد. با doug_dineley@foundryco.com تماس بگیرید.