۲۹ شهریور ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

چگونه حاکمیت داده باید برای مقابله با چالش هوش مصنوعی مولد تکامل یابد

هوش مصنوعی مولد خطرات، چالش‌ها و فرصت‌های جدیدی را برای نحوه منبع‌یابی و استفاده سازمان‌ها از داده‌ها معرفی می‌کند. در اینجا چهار روشی وجود دارد که تیم‌های حاکمیت داده به این مناسبت ارتقا می‌یابند.

هوش مصنوعی مولد خطرات، چالش‌ها و فرصت‌های جدیدی را برای نحوه منبع‌یابی و استفاده سازمان‌ها از داده‌ها معرفی می‌کند. در اینجا چهار روشی وجود دارد که تیم‌های حاکمیت داده به این مناسبت ارتقا می‌یابند.

حاکمیت داده اخیراً در ذهن من بود، بنابراین تصمیم گرفتم با وارد کردن عبارت «حاکمیت داده چیست؟» از ChatGPT سؤال کنم. هوش مصنوعی پاسخ داد: «حاکمیت داده مجموعه‌ای از فرآیندها، خط‌مشی‌ها، استانداردها و دستورالعمل‌هایی است که تضمین می‌کند داده‌ها به درستی مدیریت، محافظت و در یک سازمان مورد استفاده قرار می‌گیرند.» این شروع خوبی است و در حال حاضر چیزهای بیشتری در مورد حاکمیت داده و معنای آن می توان گفت.

حاکمیت داده در عصر هوش مصنوعی مولد

حاکمیت داده طیفی از رشته‌ها را پوشش می‌دهد، از جمله امنیت داده ها، مدیریت، کیفیت و فهرست نویسی. این عمل مستلزم تعریف خط‌مشی‌های استفاده، ایجاد منابع اصلی داده، نمایه‌سازی مجموعه‌های داده، مستندسازی فرهنگ‌نامه‌ها و نظارت بر چرخه عمر داده‌ها است. یک مدل سازمانی اغلب نقش‌هایی را برای مدیر ارشد داده تعریف می‌کند. a> تسهیل یک استراتژی، صاحبان داده‌ها که سیاست‌های مربوط به مجموعه‌های داده را تعیین می‌کنند، و مباشران داده مسئول بهبود کیفیت داده‌ها.

Tendü Yogurtçu، PhD، مدیر ارشد فناوری در دقیقا. “درکی از معنی، اصل و نسب و تاثیر داده ها ارائه می دهد، بنابراین کسب و کارها می توانند مطابقت داشته باشند و اطمینان حاصل کنند که مدل های هوش مصنوعی با داده های قابل اعتماد برای نتایج قابل اعتماد تغذیه می شوند.”

Yogurtçu می گوید که مدیریت داده زمانی یک تعهد فنی بود که بر روی انطباق تمرکز داشت. او می‌گوید: «با افزایش پذیرش هوش مصنوعی، داده‌ها به حیاتی‌ترین دارایی شرکت تبدیل شده‌اند و حاکمیت داده باید یک اولویت کل سازمان باشد.

برای بسیاری از سازمان‌هایی که با genAI آزمایش می‌کنند یا برنامه‌های کاربردی را با مدل‌های زبان بزرگ (LLM) می‌سازند، مسئولیت‌های حاکمیت داده بیشتر است، خطرات بیشتری ناشی از نحوه استفاده کارکنان از ابزارهای هوش مصنوعی، و دامنه جدید از داده های بدون ساختار. من با چندین متخصص در مورد اینکه چگونه حاکمیت داده باید تکامل یابد تا فرصت ها و خطرات ذاتی ابزارها و قابلیت های هوش مصنوعی مولد را برآورده کند، مشورت کردم.

۴ روش برای تکامل حاکمیت داده برای genAI

  • بررسی خط مشی های داده برای استفاده در ابزارهای genAI و LLM
  • تسریع ابتکارات کیفیت داده
  • مدیریت داده‌ها و معماری‌های خط لوله را مرور کنید
  • توسعه حاکمیت داده به گردش‌های کاری genAI

بررسی سیاست های داده برای استفاده در ابزارهای genAI و LLM

بخش‌های حاکمیت داده بر کاتالوگ‌های داده نظارت می‌کنند و خط‌مشی‌های استفاده از داده را برای کمک به کارمندان برای استفاده از مجموعه‌های داده متمرکز و استفاده از آنها برای ساخت مدل‌های یادگیری ماشین، داشبورد، و سایر ابزارهای تحلیلی، به اشتراک می‌گذارند. این بخش‌ها اکنون در حال به‌روزرسانی خط‌مشی‌ها هستند تا شامل استفاده و نحوه استفاده از منابع داده سازمانی در LLM و ابزارهای genAI باز شوند. توسعه‌دهندگان و دانشمندان داده باید این خط‌مشی‌ها را بازبینی کنند و در مورد هرگونه سؤال درباره استفاده از مجموعه‌های داده برای پشتیبانی از آزمایش genAI با صاحبان داده مشورت کنند.

قیمت گذاری جاوا برای هر کارمند اوراکل باعث نگرانی می شود

کریس لاهیری، یکی از بنیانگذاران و مدیر ارشد امنیت Egnyte. «سازمان‌ها باید به داده‌هایی که با این ابزارهای هوش مصنوعی استفاده می‌شوند توجه بیشتری داشته باشند، خواه اشخاص ثالث مانند OpenAI، PalM، یا یک LLM داخلی که شرکت ممکن است در داخل از آن استفاده کند.»

بررسی سیاست های genAI در مورد حریم خصوصی، حفاظت از داده ها، و استفاده قابل قبول. بسیاری از سازمان‌ها قبل از استفاده از مجموعه داده‌ها برای موارد استفاده genAI، نیاز به ارسال درخواست‌ها و تأییدیه‌های صاحبان داده‌ها دارند. قبل از استفاده از مجموعه داده‌هایی که باید GDPR، CCPA، PCI، HIPAA یا سایر استانداردهای انطباق داده‌ها را داشته باشند، با ریسک، انطباق، و عملکردهای قانونی مشورت کنید.

خط‌مشی‌های داده باید زنجیره تأمین داده و مسئولیت‌ها را هنگام کار با منابع داده شخص ثالث در نظر بگیرند. می‌گوید: «اگر یک حادثه امنیتی مربوط به داده‌هایی که در یک منطقه خاص محافظت می‌شوند رخ دهد، فروشندگان باید مسئولیت‌های خود و مشتریانشان را برای کاهش صحیح آن مشخص کنند، به خصوص اگر قرار باشد این داده‌ها در پلتفرم‌های AI/ML استفاده شوند». Jozef de Vries، مدیر ارشد مهندسی محصول EDB.

برای کسانی که در مورد فرصت‌های genAI هیجان‌زده هستند، مهم است که با درک خط‌مشی‌های مربوط به حریم خصوصی داده‌ها، امنیت و انطباق داده‌های سازمانشان، یک طرز فکر اولیه داشته باشند.

تسریع ابتکارات کیفیت داده

بسیاری از شرکت‌ها راه‌حل‌های با کیفیت داده ارائه می‌دهند، از جمله Attacama، Collibra، Experian، IBM، Informatica، Precisely، SAP، SAS، و Talend. اندازه بازار جهانی ابزار کیفیت داده در بیش از ۴ میلیارد دلار در سال ۲۰۲۲ و پیش بینی می شود سالانه ۱۷.۷ درصد رشد کند. اکنون که بسیاری از شرکت‌ها در حال آزمایش ابزارهای هوش مصنوعی و LLM هستند، انتظار رشد بیشتری دارم.

Mateusz Krempa، مدیر ارشد اجرایی در Piwik Pro. “کیفیت ضعیف داده می تواند منجر به بینش های گمراه کننده یا اشتباه شود که به طور جدی بر نتایج تأثیر می گذارد.”

Krempa می‌گوید که چالش‌های کیفیت داده‌ها از حجم، سرعت و تنوع کلان داده‌ها ناشی می‌شود، به‌ویژه از آنجایی که LLM‌ها اکنون از منابع داده بدون ساختار سازمان بهره می‌برند. شرکت‌هایی که به دنبال توسعه LLM‌های داخلی هستند، باید طرح‌های کیفی داده‌ها را گسترش دهند تا شامل اطلاعات استخراج‌شده از اسناد، ابزارهای همکاری، مخازن کد، و سایر ابزارهای ذخیره‌سازی دانش سازمانی و مالکیت معنوی شوند.

کارن مپن، سرپرست مدیریت داده در هاکودا. تمرکز بر حصول اطمینان از اینکه داده‌ها فقط بزرگ نیستند، بلکه هوشمند هستند، دقیق، قابل درک، آگاه به حریم خصوصی، ایمن و محترمانه به خطرات و تأثیرات مالکیت معنوی و انصاف است.»

کیفیت داده را می توان با استفاده از ابزارهای مختلف، بسته به اهداف کسب و کار و انواع داده، بهبود بخشید.

    ابزارهای

  • کیفیت داده‌های سنتی می‌توانند کپی برداری کنند، فیلدهای داده را عادی کنند، داده‌ها را در برابر قوانین تجاری اعتبارسنجی کنند، ناهنجاری‌ها را شناسایی کنند و معیارهای کیفیت را محاسبه کنند.
  • ابزارهای

  • مدیریت داده‌های اصلی (MDM) به سازمان‌ها کمک می‌کنند تا چندین منبع داده را به هم متصل کنند و منبعی از حقیقت در اطراف نهادهای تجاری مانند مشتریان و محصولات ایجاد کنند.
  • پلتفرم‌های داده‌های مشتری (CDP) ابزارهای تخصصی برای متمرکز کردن اطلاعات مشتری و فعال کردن بازاریابی، فروش، خدمات مشتری، و سایر تعاملات با مشتری هستند.
چگونه هوش مصنوعی مولد می تواند شرح وظایف فراگیر را ارتقا دهد

منتظر ارتقاء و ابزارهای جدید کیفیت داده برای بهبود پشتیبانی از منابع داده بدون ساختار و افزایش قابلیت‌های کیفیت داده برای موارد استفاده genAI باشید.

توصیه دیگری از Graeme Cantu-Park، CISO Matillion، بر اهمیت اصل و نسب داده تمرکز دارد. “هوش مصنوعی نیاز به روشی کاملاً متفاوت برای نگاه کردن به اولویت‌ها و شیوه‌های حاکمیتی دارد تا دید بهتری نسبت به خطوط لوله داده و سلسله داده‌هایی داشته باشد که برنامه‌ها و مدل‌های هوش مصنوعی را تغذیه می‌کنند.”

نسب داده‌ها به افشای چرخه حیات داده‌ها و پاسخ به سؤالات مربوط به چه کسی، چه زمانی، کجا، چرا و چگونه داده‌ها کمک می‌کند. از آنجایی که هوش مصنوعی دامنه داده ها و موارد استفاده از آن را گسترش می دهد، درک اصل و نسب داده برای افراد بیشتری در سازمان، از جمله افرادی که در امنیت و سایر عملکردهای مدیریت ریسک هستند، مهم تر می شود.

مدیریت داده‌ها و معماری‌های خط لوله را مرور کنید

با نگاهی فراتر از سیاست‌ها و کیفیت داده‌ها، رهبران حاکمیت داده باید نفوذ خود را در عملکردهای مدیریت داده و معماری گسترش دهند. حاکمیت داده‌های فعال مجموعه‌ای از قابلیت‌ها را فعال می‌کند تا کارمندان بیشتری بتوانند از داده ها، تجزیه و تحلیل – و اکنون هوش مصنوعی – برای انجام وظایف خود و تصمیم گیری هوشمندانه استفاده کنید. نحوه ذخیره، دسترسی، تولید، فهرست‌نویسی و مستندسازی داده‌ها، همه عواملی هستند که نشان می‌دهند سازمان‌ها چقدر سریع، آسان و ایمن می‌توانند داده‌های خود را در موارد استفاده genAI گسترش دهند.

هیلاری اشتون، مدیر محصول Teradata، راه‌های زیر را برای واقعی کردن هیجان‌انگیزترین موارد استفاده از هوش مصنوعی پیشنهاد می‌کند. :

  • محصولات داده قابل استفاده مجدد، یا مجموعه‌ای از داده‌های خوب شناخته‌شده را ایجاد کنید تا به سازمان کمک کند کنترل بهتری داشته باشد و به داده‌هایش اعتماد ایجاد کند.
  • به جاذبه داده احترام بگذارید تا اطلاعات را برای افراد بیشتری در نیروی کار بدون جابجایی داده ها در محیط های مختلف در دسترس قرار دهید.
  • ابتکارات آزمایشی هوش مصنوعی با در نظر گرفتن مقیاس‌پذیری، از جمله خطوط لوله داده AI/ML با حاکمیت قوی که یک اکوسیستم باز و متصل را نیز ممکن می‌سازد.

یک کلید برای تیم‌های داده، شناسایی چارچوب‌ها و پلتفرم‌هایی است که استفاده از آن‌ها آسان است و موارد استفاده چندگانه را پشتیبانی می‌کنند. شان ماهونی، مدیر کل و معاون در Ensono می‌گوید، «چارچوب‌های حاکمیتی شروع به چابک‌تر به نظر رسیدن می‌کنند تا به تیم‌ها اجازه پاسخگویی را بدهد. سریع تر به سرعت پیشرفت های فناوری.” او پیشنهاد می کند که رهبران حاکمیت داده نیز این ابزارها را بررسی کرده و در آن مشارکت کنند:

  • شبکه‌های داده برای واگذاری مدیریت داده‌ها به کسانی که آن را ایجاد می‌کنند.
  • پایگاه‌های اطلاعاتی برداری برای مدیریت مقیاس‌پذیری و پیچیدگی ذاتی در هوش مصنوعی و LLM‌های مولد.
  • ابزارهای پایش بی‌درنگ برای گسترش حاکمیت داده در سیستم‌های بیشتر.
GitHub پناهندگان Bitbucket و Bamboo را جلب می کند

یکی دیگر از ملاحظات این است که چگونه حاکمیت، مدیریت و معماری داده نیازمند درک قوانین جهانی در مورد ذخیره سازی داده است. De Vries از EDB توصیه می‌کند: «شرکت‌ها باید پایگاه‌های داده توزیع‌شده در سطح جهانی را برای ارتقای شیوه‌های حاکمیت داده خود با حفظ داده‌های بسیار تنظیم‌شده در منطقه خود پیاده‌سازی کنند و در عین حال داده‌های محدودکننده کمتری را در سطح جهانی برای چابکی هنگام تغذیه در پلتفرم‌های هوش مصنوعی توزیع کنند.

حاکمیت داده را به جریانهای کاری genAI گسترش دهید

کارکردهای حاکمیت داده همچنین باید در نظر بگیرند که چگونه استفاده از ابزارهای genAI و LLMها به سیاست‌ها و بهترین شیوه‌ها نیاز دارد. به عنوان مثال، در ابتدای این مقاله، من به صراحت ChatGPT را نقل کردم تا خوانندگان بدانند که پاسخ از یک منبع genAI آمده است. حکمرانی خوب داده مستلزم آموزش کارمندان در مورد رویه هایی برای افزایش شفافیت، ابزارهایی که مجاز به استفاده از آنها هستند و شیوه هایی است که مسائل مربوط به حریم خصوصی داده ها را به حداقل می رساند.

دئون نیکلاس، مدیر عامل پیش اندیشی. برای مثال، موتورهای جستجوی مبتنی بر LLM مانند Perplexity همیشه منابع خود را ذکر می‌کنند، یا فناوری‌های ویرایش داده‌ها مانند هوش مصنوعی خصوصی که به شما امکان می‌دهد قبل از دریافت یا ارسال داده‌ها به LLMS، Pil را پاکسازی و ویرایش کنید.»

یک اقدام پیشگیرانه و جدید که رهبران حاکمیت داده باید در نظر بگیرند، ایجاد کتابخانه های سریع است که در آن کارکنان می توانند موارد استفاده سریع خود را ثبت کنند و آنها را در سراسر سازمان ها به اشتراک بگذارند. این رشته شیوه های مدیریت دانش را که بسیاری از تیم های حاکمیت داده در حال حاضر در مورد نگهداری کاتالوگ داده ها و فرهنگ لغت های داده انجام می دهند، گسترش می دهد.

نیکلاوس واسیلوگلو، معاون پژوهشی ML در RelationalAI، می‌گوید: «سوخت LLMها شامل ترکیبی از محتوای تمیز و منظم است که معمولاً در یک نمودار دانش به همراه دانش تخصصی که معمولاً به شکل کتابخانه‌های سریع است ذخیره می‌شود. در حالی که ما شیوه‌های حکمرانی خوبی برای نمودارهای دانش داریم، نحوه مدیریت بر دومی واضح نیست.”

من عاشق این جمله هستم که در فیلم مرد عنکبوتی رایج شده است، “با قدرت بزرگ، مسئولیت بزرگی به همراه دارد.” ما شاهد تکامل سریع قابلیت‌های genAI هستیم، و سوال این است که آیا تیم‌های حاکمیت داده با طرف معادله خود پیش خواهند رفت.