ادغام مدلهای زبان بزرگ در بسیاری از محصولات و برنامههای شخص ثالث، خطرات امنیتی و حریم خصوصی ناشناخته بسیاری را به همراه دارد. در اینجا نحوه رسیدگی به آنها آمده است.
از زمان گسترش مدلهای زبان بزرگ (LLM)، مانند GPT-4، Llama 2 متا، و PaLM 2 Google، ما شاهد انفجار هوش مصنوعی مولد بودهایم. a> برنامه های کاربردی تقریباً در هر صنعت، از جمله امنیت سایبری. با این حال، برای اکثر برنامه های LLM، حفظ حریم خصوصی و اقامت داده ها یک نگرانی عمده است که کاربرد این فناوری ها را محدود می کند. در بدترین موارد، کارمندان سازمانها بدون اطلاع از خطرات امنیتی مرتبط، اطلاعات شناسایی شخصی (PII) را خارج از کنترلهای سازمان خود به سرویسهایی مانند ChatGPT ارسال میکنند.
در روشی مشابه، همه مدلهای پایه به طور یکسان ایجاد نمیشوند. خروجی این مدلها ممکن است همیشه واقعی نباشد و تغییرپذیری خروجیهای آنها به طیف وسیعی از عوامل فنی وابسته است. چگونه مصرف کنندگان LLM می توانند تأیید کنند که یک فروشنده از مناسب ترین مدل ها برای مورد مورد نظر استفاده می کند، در حالی که به حریم خصوصی، محل اقامت داده ها و امنیت احترام می گذارد؟
این مقاله به این ملاحظات میپردازد و به سازمانها توانایی بهتری برای ارزیابی نحوه استفاده و مدیریت مدلهای LLM در طول زمان میدهد.
LLMهای اختصاصی در مقابل منبع باز
برای شروع بحث، ارائه پیشینه فنی در پیاده سازی و بهره برداری از خدمات LLM مهم است. در گستردهترین مفهوم، دو دسته از LLM وجود دارد: مدلهای اختصاصی و منبع باز. نمونههایی از LLMهای اختصاصی عبارتند از OpenAI’s GPT-3.5 و GPT-4، و Google’s Palm 2 (مدل پشت Bard)، که در آن دسترسی در پشت APIهای اینترنتی یا برنامههای چت پنهان است.
دسته دوم مدلهای منبع باز هستند، مانند مدلهایی که در مخزن عمومی محبوب Hugging Face یا مدلهایی مانند Llama 2 میزبانی میشوند. لازم به ذکر است که هر سرویس تجاری با استفاده از LLM منبع باز باید نوعی از Llama 2 را اجرا کند. ، زیرا در حال حاضر بهترین مدل منبع باز برای بسیاری از برنامه های تجاری است.
مزیت اصلی مدلهای منبع باز، امکان میزبانی محلی آنها در زیرساختهای متعلق به سازمان، با استفاده از سختافزار داخلی، سختافزار اختصاصی یا در محیطهای ابری مدیریتشده خصوصی است. این به مالکان کنترل کاملی بر نحوه استفاده از مدل می دهد و می تواند اطمینان حاصل کند که داده ها در دامنه و کنترل سازمان باقی می مانند. در حالی که این مدلهای منبع باز ممکن است در حال حاضر در مقایسه با مدلهای جدید GPT-4 و PalM 2 عملکرد پایینتری داشته باشند، این شکاف به سرعت در حال کاهش است.
اگرچه تبلیغات قابل توجهی در مورد این فناوری ها وجود دارد، آنها می توانند چندین نگرانی امنیتی را ایجاد کنند که به راحتی می توان آنها را نادیده گرفت. در حال حاضر، هیچ استاندارد نظارتی یا انطباق قوی برای کنترل یا ممیزی این فناوریها که مختص هوش مصنوعی هستند وجود ندارد. در حال حاضر قوانین قانونی زیادی در دست اجرا هستند، مانند قوانین هوش مصنوعی و داده ها (AIDA) در کانادا، قانون هوش مصنوعی اتحادیه اروپا، طرح اولیه هوش مصنوعی B iهمه حقوق در ایالات متحده و سایر استانداردهای تخصصی در حال توسعه از طریق NIST، SEC، و FTC. با این حال، علیرغم این دستورالعملهای اولیه، امروزه اعمال نظارتی یا نظارت بسیار کمی وجود دارد.
بنابراین، توسعهدهندگان مسئول پیروی از بهترین شیوههای موجود در مورد استقرار یادگیری ماشینی خود هستند و کاربران باید در زنجیره تامین هوش مصنوعی خود دقت لازم را انجام دهند. با در نظر گرفتن این سه جنبه – مدل های اختصاصی در مقابل مدل های منبع باز، ملاحظات عملکرد / دقت و عدم نظارت نظارتی – دو سوال اصلی وجود دارد که باید از فروشندگانی که از LLM در محصولات خود استفاده می کنند پرسیده شود: مدل پایه چیست؟ در حال استفاده است، و کجا میزبانی می شود؟
حفاظت از امنیت و حریم خصوصی LLM
بیایید ابتدا به سوال اول بپردازیم. برای هر سازمان مدرن، اگر از مدل های اختصاصی استفاده می کند، پاسخ معمولاً GPT-3.5 یا GPT-4 خواهد بود. اگر فروشندهای از مدلهای منبع باز استفاده میکند، میتوانید انتظار داشته باشید که نوعی از Llama 2 باشد.
اگر فروشنده ای از مدل GPT-3.5 یا GPT-4 استفاده می کند، باید چندین نگرانی در مورد حفظ حریم خصوصی داده ها و محل اقامت برطرف شود. به عنوان مثال، اگر آنها از OpenAI API استفاده می کنند، می توانید انتظار داشته باشید که هر داده وارد شده به سیستم های OpenAI ارسال شود. اگر PII خارج از دامنههای شرکت به اشتراک گذاشته شود، احتمالاً بسیاری از سیاستهای حاکمیت داده، ریسک و انطباق (GRC) را نقض میکند و استفاده از OpenAI API را برای بسیاری از موارد غیرقابل قبول میکند.
با این حال، به دلیل نگرانی های زیادی که در اوایل امسال توسط توسعه دهندگان به اشتراک گذاشته شد، OpenAI سیاست حفظ حریم خصوصی موجود خود را اصلاح کرد و بیان کرد که داده های تجاری ارسال شده از طریق ChatGPT Enterprise یا API در آموزش مدل های آنها استفاده نخواهد شد. به این ترتیب، سازمانهایی که با راهحلهای genAI که از OpenAI API استفاده میکنند، باید ارزیابیهای ریسک شخص ثالث کافی را با توجه به حساسیت دادهها و ماهیت مورد استفاده انجام دهند. به طور مشابه، اگر فروشنده یا برنامه کاربردی هوش مصنوعی شما از سرویس Azure OpenAI استفاده می کند، داده ها توسط OpenAI به اشتراک گذاشته یا ذخیره نمی شوند.
توجه داشته باشید که چندین فناوری وجود دارد که میتواند درخواستهای LLM PII را قبل از ارسال به نقاط پایانی اختصاصی پاکسازی کند تا خطر نشت PII را کاهش دهد. با این حال، تمیز کردن PII برای تعمیم و تایید با اطمینان ۱۰۰٪ دشوار است. به این ترتیب، مدلهای منبع باز که به صورت محلی میزبانی میشوند، در مقایسه با مدلهای اختصاصی، محافظت بسیار بیشتری در برابر نقض GRC ارائه میکنند.
با این حال، سازمانهایی که مدلهای منبع باز را به کار میگیرند باید اطمینان حاصل کنند که کنترلهای امنیتی دقیقی برای محافظت از دادهها و مدلها در برابر عوامل تهدید وجود دارد (مانند رمزگذاری در تماسهای API، کنترلهای اقامت داده، کنترلهای دسترسی مبتنی بر نقش در مجموعههای داده، و غیره .). با این حال، اگر حفظ حریم خصوصی یک نگرانی نیست، استفاده از مدلهای اختصاصی معمولاً به دلیل هزینه، تأخیر و وفاداری پاسخهای آنها ترجیح داده میشود.
برای گسترش سطح بینش موجود در استقرار هوش مصنوعی، می توانید از یک دروازه LLM استفاده کنید. این یک پروکسی API است که به سازمان کاربر اجازه میدهد تا ثبت و تأیید درخواستهای ارسال شده به LLMها را در زمان واقعی انجام دهد و همچنین هرگونه دادهای را که به اشتراک گذاشته شده و به کاربران بازگردانده میشود ردیابی کند. دروازه LLM نقطه کنترلی را فراهم می کند که می تواند با نظارت بر درخواست ها، تضمین های بیشتری در برابر چنین تخلفات PII اضافه کند، و در بسیاری از موارد، مشکلات امنیتی مرتبط با LLM ها را اصلاح کند. این یک منطقه در حال توسعه است، اما اگر بخواهیم سیستمهای هوش مصنوعی را که «از نظر طراحی ایمن هستند» کنار هم قرار دهیم، ضروری است.
اطمینان از دقت و سازگاری LLM
حالا به عملکرد یا دقت مدل بپردازیم. LLM ها بر روی مقادیر عظیمی از داده های خراشیده شده از اینترنت آموزش می بینند. این مجموعه داده ها عبارتند از CommonCrawl، WebText، C4، CoDEx، و BookCorpus، فقط به نام چند. این داده های اساسی شامل دنیایی است که LLM درک خواهد کرد. بنابراین، اگر مدل فقط بر روی یک نوع بسیار خاص از داده ها آموزش داده شود، دید آن بسیار محدود خواهد بود و در پاسخ به سوالات خارج از حوزه خود با مشکل مواجه خواهد شد. نتیجه سیستمی خواهد بود که بیشتر مستعد توهمات هوش مصنوعی است که پاسخهای بیمعنا یا کاملاً نادرست ارائه میدهد.
برای بسیاری از برنامه های پیشنهادی که در آنها LLM ها باید برتر باشند، ارائه پاسخ های نادرست می تواند عواقب جدی داشته باشد. خوشبختانه، بسیاری از LLM های اصلی بر روی منابع متعدد داده آموزش دیده اند. این به این مدلها اجازه میدهد تا درباره مجموعهای از موضوعات مختلف با وفاداری صحبت کنند. با این حال، معمولاً دانش کافی در مورد حوزههای تخصصی که دادهها در آنها نسبتاً کم است، مانند موضوعات فنی عمیق در پزشکی، دانشگاه یا امنیت سایبری وجود ندارد. به این ترتیب، این مدلهای پایه بزرگ معمولاً از طریق فرآیندی به نام تنظیم دقیق بیشتر اصلاح میشوند.
تنظیم دقیق به این مدلها اجازه میدهد تا به تراز بهتری با دامنه مورد نظر دست یابند. تنظیم دقیق به یک مزیت اساسی تبدیل شده است که حتی OpenAI اخیراً پشتیبانی از این قابلیت را برای رقابت با مدلهای منبع باز منتشر کرده است. با در نظر گرفتن این ملاحظات، مصرفکنندگان محصولات LLM که خواهان بهترین خروجیهای ممکن، با کمترین خطا هستند، باید دادههایی را که در آن LLM آموزش دیده است (یا تنظیم دقیق) برای اطمینان از استفاده و کاربرد بهینه درک کنند.
بهعنوان مثال، امنیت سایبری دامنهای است که در دادههای زیربنایی که برای آموزش این مدلهای پایه استفاده میشود، ارائه نشده است. این به نوبه خود باعث سوگیری این مدلها میشود تا هنگام بحث درباره دادههای سایبری و امنیت سایبری، پاسخهای ساختگی یا نادرستتری ایجاد کنند. اگرچه تشخیص بخشی از موضوعات امنیت سایبری در داده های آموزشی این LLM ها دشوار است، اما به جرات می توان گفت که در مقایسه با موضوعات رایج تر، حداقل است. به عنوان مثال، GPT-3 بر روی ۴۵ ترابایت داده آموزش داده شد. این را با مجموعه داده های متمرکز سایبری ۲ گیگابایتی که برای تنظیم دقیق مدل CySecBert استفاده می شود، مقایسه کنید. در حالی که LLM های همه منظوره می توانند روانی زبان طبیعی و توانایی پاسخگویی واقعی به کاربران را ارائه دهند، داده های تخصصی مورد استفاده در تنظیم دقیق جایی است که بیشترین ارزش را می توان ایجاد کرد.
در حالی که تنظیم دقیق LLM ها رایج تر می شود، جمع آوری داده های مناسب برای تنظیم دقیق مدل های پایه می تواند چالش برانگیز باشد. این امر معمولاً مستلزم آن است که فروشنده یک زیرساخت مهندسی داده نسبتاً بالغ داشته باشد و ویژگیهای مربوطه را در قالبهای غیرساختیافته جمعآوری کند. به این ترتیب، درک نحوه اجرای فرآیند تنظیم دقیق توسط فروشنده و دادههایی که یک مدل بر اساس آن آموزش داده شده است، در درک عملکرد نسبی آن و در نهایت اینکه برنامه چقدر میتواند نتایج قابل اعتمادی ارائه دهد، بسیار مهم است. برای شرکتهایی که علاقهمند به توسعه محصولات هوش مصنوعی یا استفاده از خدماتی از ارائهدهنده دیگر هستند، درک اینکه این دادهها از کجا آمده و چگونه به عنوان بخشی از تنظیم دقیق مورد استفاده قرار گرفتهاند، یک متمایزکننده جدید بازار خواهد بود.
همانطور که به مسائل امنیتی، حریم خصوصی و عملکرد ناشی از استفاده از LLM نگاه می کنیم، باید بتوانیم نحوه تعامل کاربران با این سیستم ها را مدیریت و پیگیری کنیم. اگر از همان ابتدا این موضوع را درست در نظر نگیریم، در این صورت با این خطر مواجه می شویم که نسل های قبلی متخصصان فناوری اطلاعات با استفاده در سایه IT و استقرار پیش فرض ناامن مواجه شوند. ما فرصتی برای ایجاد امنیت و حریم خصوصی در نحوه ارائه هوش مصنوعی مولد از همان ابتدا داریم و نباید این فرصت را از دست دهیم.
جف شوارتزنتروبر دانشمند ارشد یادگیری ماشین در eSentire است.
—
Generative AI Insights مکانی را برای رهبران فناوری فراهم می کند تا چالش ها و فرصت های هوش مصنوعی مولد را بررسی و بحث کنند. این انتخاب گسترده است، از غواصی عمیق فناوری گرفته تا مطالعات موردی گرفته تا نظرات متخصص، اما همچنین ذهنی است، بر اساس قضاوت ما در مورد اینکه کدام موضوعات و درمانها به بهترین وجه به مخاطبان فنی پیشرفته InfoWorld خدمت میکنند. InfoWorld وثیقه بازاریابی را برای انتشار نمی پذیرد و حق ویرایش تمام محتوای ارائه شده را برای خود محفوظ می دارد. با doug_dineley@foundryco.com تماس بگیرید.
پست های مرتبط
امنیت، حریم خصوصی و هوش مصنوعی مولد
امنیت، حریم خصوصی و هوش مصنوعی مولد
امنیت، حریم خصوصی و هوش مصنوعی مولد