هوش مصنوعی مولد خطرات، چالشها و فرصتهای جدیدی را برای نحوه منبعیابی و استفاده سازمانها از دادهها معرفی میکند. در اینجا چهار روشی وجود دارد که تیمهای حاکمیت داده به این مناسبت ارتقا مییابند.
حاکمیت داده اخیراً در ذهن من بود، بنابراین تصمیم گرفتم با وارد کردن عبارت «حاکمیت داده چیست؟» از ChatGPT سؤال کنم. هوش مصنوعی پاسخ داد: «حاکمیت داده مجموعهای از فرآیندها، خطمشیها، استانداردها و دستورالعملهایی است که تضمین میکند دادهها به درستی مدیریت، محافظت و در یک سازمان مورد استفاده قرار میگیرند.» این شروع خوبی است و در حال حاضر چیزهای بیشتری در مورد حاکمیت داده و معنای آن می توان گفت.
حاکمیت داده در عصر هوش مصنوعی مولد
حاکمیت داده طیفی از رشتهها را پوشش میدهد، از جمله امنیت داده ها، مدیریت، کیفیت و فهرست نویسی. این عمل مستلزم تعریف خطمشیهای استفاده، ایجاد منابع اصلی داده، نمایهسازی مجموعههای داده، مستندسازی فرهنگنامهها و نظارت بر چرخه عمر دادهها است. یک مدل سازمانی اغلب نقشهایی را برای مدیر ارشد داده تعریف میکند. a> تسهیل یک استراتژی، صاحبان دادهها که سیاستهای مربوط به مجموعههای داده را تعیین میکنند، و مباشران داده مسئول بهبود کیفیت دادهها.
Tendü Yogurtçu، PhD، مدیر ارشد فناوری در دقیقا. “درکی از معنی، اصل و نسب و تاثیر داده ها ارائه می دهد، بنابراین کسب و کارها می توانند مطابقت داشته باشند و اطمینان حاصل کنند که مدل های هوش مصنوعی با داده های قابل اعتماد برای نتایج قابل اعتماد تغذیه می شوند.”
Yogurtçu می گوید که مدیریت داده زمانی یک تعهد فنی بود که بر روی انطباق تمرکز داشت. او میگوید: «با افزایش پذیرش هوش مصنوعی، دادهها به حیاتیترین دارایی شرکت تبدیل شدهاند و حاکمیت داده باید یک اولویت کل سازمان باشد.
برای بسیاری از سازمانهایی که با genAI آزمایش میکنند یا برنامههای کاربردی را با مدلهای زبان بزرگ (LLM) میسازند، مسئولیتهای حاکمیت داده بیشتر است، خطرات بیشتری ناشی از نحوه استفاده کارکنان از ابزارهای هوش مصنوعی، و دامنه جدید از داده های بدون ساختار. من با چندین متخصص در مورد اینکه چگونه حاکمیت داده باید تکامل یابد تا فرصت ها و خطرات ذاتی ابزارها و قابلیت های هوش مصنوعی مولد را برآورده کند، مشورت کردم.
۴ روش برای تکامل حاکمیت داده برای genAI
- بررسی خط مشی های داده برای استفاده در ابزارهای genAI و LLM
- تسریع ابتکارات کیفیت داده
- مدیریت دادهها و معماریهای خط لوله را مرور کنید
- توسعه حاکمیت داده به گردشهای کاری genAI
بررسی سیاست های داده برای استفاده در ابزارهای genAI و LLM
بخشهای حاکمیت داده بر کاتالوگهای داده نظارت میکنند و خطمشیهای استفاده از داده را برای کمک به کارمندان برای استفاده از مجموعههای داده متمرکز و استفاده از آنها برای ساخت مدلهای یادگیری ماشین، داشبورد، و سایر ابزارهای تحلیلی، به اشتراک میگذارند. این بخشها اکنون در حال بهروزرسانی خطمشیها هستند تا شامل استفاده و نحوه استفاده از منابع داده سازمانی در LLM و ابزارهای genAI باز شوند. توسعهدهندگان و دانشمندان داده باید این خطمشیها را بازبینی کنند و در مورد هرگونه سؤال درباره استفاده از مجموعههای داده برای پشتیبانی از آزمایش genAI با صاحبان داده مشورت کنند.
کریس لاهیری، یکی از بنیانگذاران و مدیر ارشد امنیت Egnyte. «سازمانها باید به دادههایی که با این ابزارهای هوش مصنوعی استفاده میشوند توجه بیشتری داشته باشند، خواه اشخاص ثالث مانند OpenAI، PalM، یا یک LLM داخلی که شرکت ممکن است در داخل از آن استفاده کند.»
بررسی سیاست های genAI در مورد حریم خصوصی، حفاظت از داده ها، و استفاده قابل قبول. بسیاری از سازمانها قبل از استفاده از مجموعه دادهها برای موارد استفاده genAI، نیاز به ارسال درخواستها و تأییدیههای صاحبان دادهها دارند. قبل از استفاده از مجموعه دادههایی که باید GDPR، CCPA، PCI، HIPAA یا سایر استانداردهای انطباق دادهها را داشته باشند، با ریسک، انطباق، و عملکردهای قانونی مشورت کنید.
خطمشیهای داده باید زنجیره تأمین داده و مسئولیتها را هنگام کار با منابع داده شخص ثالث در نظر بگیرند. میگوید: «اگر یک حادثه امنیتی مربوط به دادههایی که در یک منطقه خاص محافظت میشوند رخ دهد، فروشندگان باید مسئولیتهای خود و مشتریانشان را برای کاهش صحیح آن مشخص کنند، به خصوص اگر قرار باشد این دادهها در پلتفرمهای AI/ML استفاده شوند». Jozef de Vries، مدیر ارشد مهندسی محصول EDB.
برای کسانی که در مورد فرصتهای genAI هیجانزده هستند، مهم است که با درک خطمشیهای مربوط به حریم خصوصی دادهها، امنیت و انطباق دادههای سازمانشان، یک طرز فکر اولیه داشته باشند.
تسریع ابتکارات کیفیت داده
بسیاری از شرکتها راهحلهای با کیفیت داده ارائه میدهند، از جمله Attacama، Collibra، Experian، IBM، Informatica، Precisely، SAP، SAS، و Talend. اندازه بازار جهانی ابزار کیفیت داده در بیش از ۴ میلیارد دلار در سال ۲۰۲۲ و پیش بینی می شود سالانه ۱۷.۷ درصد رشد کند. اکنون که بسیاری از شرکتها در حال آزمایش ابزارهای هوش مصنوعی و LLM هستند، انتظار رشد بیشتری دارم.
Mateusz Krempa، مدیر ارشد اجرایی در Piwik Pro. “کیفیت ضعیف داده می تواند منجر به بینش های گمراه کننده یا اشتباه شود که به طور جدی بر نتایج تأثیر می گذارد.”
Krempa میگوید که چالشهای کیفیت دادهها از حجم، سرعت و تنوع کلان دادهها ناشی میشود، بهویژه از آنجایی که LLMها اکنون از منابع داده بدون ساختار سازمان بهره میبرند. شرکتهایی که به دنبال توسعه LLMهای داخلی هستند، باید طرحهای کیفی دادهها را گسترش دهند تا شامل اطلاعات استخراجشده از اسناد، ابزارهای همکاری، مخازن کد، و سایر ابزارهای ذخیرهسازی دانش سازمانی و مالکیت معنوی شوند.
کارن مپن، سرپرست مدیریت داده در هاکودا. تمرکز بر حصول اطمینان از اینکه دادهها فقط بزرگ نیستند، بلکه هوشمند هستند، دقیق، قابل درک، آگاه به حریم خصوصی، ایمن و محترمانه به خطرات و تأثیرات مالکیت معنوی و انصاف است.»
کیفیت داده را می توان با استفاده از ابزارهای مختلف، بسته به اهداف کسب و کار و انواع داده، بهبود بخشید.
-
ابزارهای
- کیفیت دادههای سنتی میتوانند کپی برداری کنند، فیلدهای داده را عادی کنند، دادهها را در برابر قوانین تجاری اعتبارسنجی کنند، ناهنجاریها را شناسایی کنند و معیارهای کیفیت را محاسبه کنند.
- مدیریت دادههای اصلی (MDM) به سازمانها کمک میکنند تا چندین منبع داده را به هم متصل کنند و منبعی از حقیقت در اطراف نهادهای تجاری مانند مشتریان و محصولات ایجاد کنند.
- پلتفرمهای دادههای مشتری (CDP) ابزارهای تخصصی برای متمرکز کردن اطلاعات مشتری و فعال کردن بازاریابی، فروش، خدمات مشتری، و سایر تعاملات با مشتری هستند.
ابزارهای
منتظر ارتقاء و ابزارهای جدید کیفیت داده برای بهبود پشتیبانی از منابع داده بدون ساختار و افزایش قابلیتهای کیفیت داده برای موارد استفاده genAI باشید.
توصیه دیگری از Graeme Cantu-Park، CISO Matillion، بر اهمیت اصل و نسب داده تمرکز دارد. “هوش مصنوعی نیاز به روشی کاملاً متفاوت برای نگاه کردن به اولویتها و شیوههای حاکمیتی دارد تا دید بهتری نسبت به خطوط لوله داده و سلسله دادههایی داشته باشد که برنامهها و مدلهای هوش مصنوعی را تغذیه میکنند.”
نسب دادهها به افشای چرخه حیات دادهها و پاسخ به سؤالات مربوط به چه کسی، چه زمانی، کجا، چرا و چگونه دادهها کمک میکند. از آنجایی که هوش مصنوعی دامنه داده ها و موارد استفاده از آن را گسترش می دهد، درک اصل و نسب داده برای افراد بیشتری در سازمان، از جمله افرادی که در امنیت و سایر عملکردهای مدیریت ریسک هستند، مهم تر می شود.
مدیریت دادهها و معماریهای خط لوله را مرور کنید
با نگاهی فراتر از سیاستها و کیفیت دادهها، رهبران حاکمیت داده باید نفوذ خود را در عملکردهای مدیریت داده و معماری گسترش دهند. حاکمیت دادههای فعال مجموعهای از قابلیتها را فعال میکند تا کارمندان بیشتری بتوانند از داده ها، تجزیه و تحلیل – و اکنون هوش مصنوعی – برای انجام وظایف خود و تصمیم گیری هوشمندانه استفاده کنید. نحوه ذخیره، دسترسی، تولید، فهرستنویسی و مستندسازی دادهها، همه عواملی هستند که نشان میدهند سازمانها چقدر سریع، آسان و ایمن میتوانند دادههای خود را در موارد استفاده genAI گسترش دهند.
هیلاری اشتون، مدیر محصول Teradata، راههای زیر را برای واقعی کردن هیجانانگیزترین موارد استفاده از هوش مصنوعی پیشنهاد میکند. :
- محصولات داده قابل استفاده مجدد، یا مجموعهای از دادههای خوب شناختهشده را ایجاد کنید تا به سازمان کمک کند کنترل بهتری داشته باشد و به دادههایش اعتماد ایجاد کند.
- به جاذبه داده احترام بگذارید تا اطلاعات را برای افراد بیشتری در نیروی کار بدون جابجایی داده ها در محیط های مختلف در دسترس قرار دهید.
- ابتکارات آزمایشی هوش مصنوعی با در نظر گرفتن مقیاسپذیری، از جمله خطوط لوله داده AI/ML با حاکمیت قوی که یک اکوسیستم باز و متصل را نیز ممکن میسازد.
یک کلید برای تیمهای داده، شناسایی چارچوبها و پلتفرمهایی است که استفاده از آنها آسان است و موارد استفاده چندگانه را پشتیبانی میکنند. شان ماهونی، مدیر کل و معاون در Ensono میگوید، «چارچوبهای حاکمیتی شروع به چابکتر به نظر رسیدن میکنند تا به تیمها اجازه پاسخگویی را بدهد. سریع تر به سرعت پیشرفت های فناوری.” او پیشنهاد می کند که رهبران حاکمیت داده نیز این ابزارها را بررسی کرده و در آن مشارکت کنند:
- شبکههای داده برای واگذاری مدیریت دادهها به کسانی که آن را ایجاد میکنند.
- پایگاههای اطلاعاتی برداری برای مدیریت مقیاسپذیری و پیچیدگی ذاتی در هوش مصنوعی و LLMهای مولد.
- ابزارهای پایش بیدرنگ برای گسترش حاکمیت داده در سیستمهای بیشتر.
یکی دیگر از ملاحظات این است که چگونه حاکمیت، مدیریت و معماری داده نیازمند درک قوانین جهانی در مورد ذخیره سازی داده است. De Vries از EDB توصیه میکند: «شرکتها باید پایگاههای داده توزیعشده در سطح جهانی را برای ارتقای شیوههای حاکمیت داده خود با حفظ دادههای بسیار تنظیمشده در منطقه خود پیادهسازی کنند و در عین حال دادههای محدودکننده کمتری را در سطح جهانی برای چابکی هنگام تغذیه در پلتفرمهای هوش مصنوعی توزیع کنند.
حاکمیت داده را به جریانهای کاری genAI گسترش دهید
کارکردهای حاکمیت داده همچنین باید در نظر بگیرند که چگونه استفاده از ابزارهای genAI و LLMها به سیاستها و بهترین شیوهها نیاز دارد. به عنوان مثال، در ابتدای این مقاله، من به صراحت ChatGPT را نقل کردم تا خوانندگان بدانند که پاسخ از یک منبع genAI آمده است. حکمرانی خوب داده مستلزم آموزش کارمندان در مورد رویه هایی برای افزایش شفافیت، ابزارهایی که مجاز به استفاده از آنها هستند و شیوه هایی است که مسائل مربوط به حریم خصوصی داده ها را به حداقل می رساند.
دئون نیکلاس، مدیر عامل پیش اندیشی. برای مثال، موتورهای جستجوی مبتنی بر LLM مانند Perplexity همیشه منابع خود را ذکر میکنند، یا فناوریهای ویرایش دادهها مانند هوش مصنوعی خصوصی که به شما امکان میدهد قبل از دریافت یا ارسال دادهها به LLMS، Pil را پاکسازی و ویرایش کنید.»
یک اقدام پیشگیرانه و جدید که رهبران حاکمیت داده باید در نظر بگیرند، ایجاد کتابخانه های سریع است که در آن کارکنان می توانند موارد استفاده سریع خود را ثبت کنند و آنها را در سراسر سازمان ها به اشتراک بگذارند. این رشته شیوه های مدیریت دانش را که بسیاری از تیم های حاکمیت داده در حال حاضر در مورد نگهداری کاتالوگ داده ها و فرهنگ لغت های داده انجام می دهند، گسترش می دهد.
نیکلاوس واسیلوگلو، معاون پژوهشی ML در RelationalAI، میگوید: «سوخت LLMها شامل ترکیبی از محتوای تمیز و منظم است که معمولاً در یک نمودار دانش به همراه دانش تخصصی که معمولاً به شکل کتابخانههای سریع است ذخیره میشود. در حالی که ما شیوههای حکمرانی خوبی برای نمودارهای دانش داریم، نحوه مدیریت بر دومی واضح نیست.”
من عاشق این جمله هستم که در فیلم مرد عنکبوتی رایج شده است، “با قدرت بزرگ، مسئولیت بزرگی به همراه دارد.” ما شاهد تکامل سریع قابلیتهای genAI هستیم، و سوال این است که آیا تیمهای حاکمیت داده با طرف معادله خود پیش خواهند رفت.
پست های مرتبط
چگونه حاکمیت داده باید برای مقابله با چالش هوش مصنوعی مولد تکامل یابد
چگونه حاکمیت داده باید برای مقابله با چالش هوش مصنوعی مولد تکامل یابد
چگونه حاکمیت داده باید برای مقابله با چالش هوش مصنوعی مولد تکامل یابد