۳۰ آذر ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

آیا دریاچه داده شما به اندازه کافی باز است؟ مراقب چه چیزی باشیم

مانند انبارهای داده دیروز، دریاچه های داده امروزی ما را در قالب ها و سیستم های اختصاصی که نوآوری را محدود می کند و هزینه ها را افزایش می دهد تهدید می کند.

مانند انبارهای داده دیروز، دریاچه های داده امروزی ما را در قالب ها و سیستم های اختصاصی که نوآوری را محدود می کند و هزینه ها را افزایش می دهد تهدید می کند.

یک دریاچه داده یک سیستم یا مخزن است که داده‌ها را در قالب خام خود همراه با مجموعه داده‌های تبدیل‌شده و قابل اعتماد ذخیره می‌کند و دسترسی برنامه‌ای و مبتنی بر SQL به این داده‌ها را برای وظایف تحلیلی متنوع فراهم می‌کند. به عنوان اکتشاف داده، تجزیه و تحلیل تعاملی، و یادگیری ماشین. داده های ذخیره شده در دریاچه داده می تواند شامل داده های ساختار یافته از پایگاه های داده رابطه ای (ردیف ها و ستون ها)، داده های نیمه ساختار یافته (CSV، logs، XML، JSON)، داده های بدون ساختار (ایمیل ها، اسناد، فایل های PDF) و داده های باینری (تصاویر، صوتی، تصویری).

یک چالش با دریاچه‌های داده، قفل نشدن در قالب‌ها یا سیستم‌های اختصاصی است. این قفل توانایی انتقال داده‌ها به داخل و خارج برای مصارف دیگر یا پردازش داده‌ها با استفاده از ابزارهای دیگر را محدود می‌کند و همچنین می‌تواند یک دریاچه داده را به یک محیط ابری منفرد پیوند دهد. به همین دلیل است که کسب‌وکارها باید تلاش کنند تا دریاچه‌های داده باز بسازند، جایی که داده‌ها در قالب باز ذخیره می‌شوند و از طریق رابط‌های باز و مبتنی بر استاندارد قابل دسترسی هستند. پایبندی به یک فلسفه باز باید در هر جنبه ای از سیستم نفوذ کند، از جمله ذخیره سازی داده ها، مدیریت داده ها، پردازش داده ها، عملیات، دسترسی به داده ها، حاکمیت و امنیت.

یک قالب باز مبتنی بر یک استاندارد باز اساسی است که از طریق یک فرآیند عمومی و جامعه محور بدون برنامه افزودنی اختصاصی فروشنده توسعه یافته و به اشتراک گذاشته شده است. به عنوان مثال، فرمت داده باز یک قالب داده مستقل از پلت فرم و قابل خواندن ماشین است، مانند ORC یا Parket، که مشخصات آن در جامعه منتشر می شود، به طوری که هر سازمانی می تواند ابزارها و برنامه هایی را برای خواندن داده ها در قالب ایجاد کند.< /p>

یک دریاچه داده معمولی دارای قابلیت های زیر است:

  • حذف و ذخیره داده
  • پردازش داده و پشتیبانی از مهندسی داده پیوسته
  • دسترسی و مصرف داده
  • حاکمیت داده از جمله قابلیت کشف، امنیت و انطباق
  • زیرساخت و عملیات

در بخش‌های بعدی، الزامات باز بودن هر قابلیت را شرح خواهیم داد.

حذف و ذخیره داده

یک دریاچه داده باز داده‌ها را از منابعی مانند برنامه‌های کاربردی، پایگاه‌های داده، انبارهای داده و جریان‌های بی‌درنگ جذب می‌کند. این داده‌ها را در قالب داده‌های باز، مانند ORC و پارکت، قالب‌بندی و ذخیره می‌کند، که مستقل از پلتفرم، قابل خواندن از طریق ماشین، بهینه‌سازی شده برای دسترسی سریع و تجزیه و تحلیل است و بدون محدودیتی که مانع استفاده مجدد از آن می‌شود، در دسترس مصرف‌کنندگان قرار می‌گیرد. آن اطلاعات

از پردازنده‌های گرافیکی برای برنامه‌های یادگیری ماشین حداکثر استفاده را ببرید

یک دریاچه داده باز از دریافت داده‌ها هم مبتنی بر کشش و هم مبتنی بر فشار پشتیبانی می‌کند. از جذب مبتنی بر کشش از طریق خطوط لوله داده دسته ای و جذب مبتنی بر فشار از طریق پردازش جریان پشتیبانی می کند. برای هر دو نوع دریافت داده، یک دریاچه داده باز از استانداردهای باز مانند SQL و Apache Spark برای ایجاد تبدیل داده ها پشتیبانی می کند. برای خطوط لوله داده دسته ای، از درج ها و به روز رسانی های سطح ردیف – UPSERT – برای مجموعه های داده در دریاچه پشتیبانی می کند. قابلیت Upsert با جداسازی عکس فوری – و به طور کلی تر، معنای ACID – کار را بسیار ساده می کند، برخلاف بازنویسی پارتیشن های داده یا کل مجموعه داده ها.

قابلیت جذب یک دریاچه داده باز تضمین می کند که داده ها از دست نرود و دقیقاً یک بار یا حداقل یک بار می نویسد، تنوع طرحواره را کنترل می کند، در بهینه ترین قالب داده در پارتیشن های مناسب می نویسد، و توانایی دوباره سازی را فراهم می کند. داده ها را در صورت نیاز مصرف کنید.

پردازش داده و پشتیبانی از مهندسی داده پیوسته

یک دریاچه داده باز داده های خام منابع داده های مختلف را در قالب باز استاندارد ذخیره می کند. با این حال، موارد استفاده مانند کاوش داده، تجزیه و تحلیل تعاملی، و یادگیری ماشینی نیازمند پردازش داده‌های خام برای ایجاد مجموعه‌های داده قابل اعتماد مبتنی بر موارد استفاده است. برای کاوش داده ها و موارد استفاده از یادگیری ماشین، کاربران به طور مداوم مجموعه داده ها را برای نیازهای تجزیه و تحلیل خود اصلاح می کنند. در نتیجه، هر پیاده‌سازی دریاچه داده باید کاربران را قادر سازد تا بین مهندسی داده و موارد استفاده مانند تجزیه و تحلیل تعاملی و یادگیری ماشین تکرار کنند. این را می توان به عنوان مهندسی داده پیوسته در نظر گرفت که شامل توانایی تعاملی برای نویسنده، نظارت و اشکال زدایی خطوط لوله داده است. در یک دریاچه داده باز، این خطوط لوله با استفاده از رابط های استاندارد و ابزارهای منبع باز مانند SQL، Python، Apache Spark و Apache Hive ایجاد می شوند.

دسترسی و مصرف داده

مشهودترین نتیجه دریاچه داده، انواع موارد استفاده است که فعال می کند. چه مورد استفاده، کاوش داده، تجزیه و تحلیل تعاملی یا یادگیری ماشینی باشد، دسترسی به داده ها حیاتی است. دسترسی به داده ها می تواند از طریق SQL یا زبان های برنامه نویسی مانند Python، R و Scala باشد. در حالی که SQL هنجار تجزیه و تحلیل تعاملی است، زبان های برنامه نویسی برای برنامه های پیشرفته تر مانند یادگیری ماشین و یادگیری عمیق استفاده می شوند.

دموکراتیک کردن هوش مصنوعی با پلتفرم‌های پذیرش دیجیتال

یک دریاچه داده باز از دسترسی به داده ها از طریق پیاده سازی مبتنی بر استانداردهای  SQL بدون برنامه افزودنی اختصاصی پشتیبانی می کند. این ابزارهای خارجی را قادر می سازد تا از طریق استانداردهایی مانند ODBC و JDBC به آن داده ها دسترسی داشته باشند. همچنین، یک دریاچه داده باز از دسترسی برنامه‌ای به داده‌ها از طریق زبان‌های برنامه‌نویسی استاندارد مانند R، Python، و Scala و کتابخانه‌های استاندارد برای محاسبات عددی و یادگیری ماشین مانند TensorFlow، Keras، PyTorch، Apache Spark MLlib، MXNet و Scikit پشتیبانی می‌کند. -یاد بگیرید.

حاکمیت داده – قابلیت کشف، امنیت و انطباق

هنگامی که انتقال داده و دسترسی به داده به خوبی اجرا شود، داده‌ها می‌توانند به صورت گسترده در دسترس کاربران قرار گیرند. هنگامی که چندین تیم شروع به دسترسی به داده‌ها می‌کنند، معماران داده باید برای اهداف حاکمیتی، امنیتی و انطباق نظارت داشته باشند.

کشف داده

یافتن و درک داده ها به خودی خود سخت است و همیشه قابل اعتماد نیست. کاربران قبل از اینکه بتوانند برای موارد استفاده خود به آنها اعتماد کنند، به توانایی کشف و نمایه مجموعه داده ها برای یکپارچگی نیاز دارند. یک کاتالوگ داده، ابرداده را از طریق مکانیسم‌های مختلف غنی می‌کند، از آن برای مستندسازی مجموعه‌های داده استفاده می‌کند و از یک رابط جستجو برای کمک به کشف پشتیبانی می‌کند.

از آنجایی که اولین گام کشف مجموعه‌های داده‌های مورد نیاز است، ضروری است که ابرداده‌ها را برای اهداف اکتشافی در اختیار کاربران نهایی قرار دهیم، ببینیم داده‌ها در کجا قرار دارند و حاوی چه چیزی هستند، و تعیین اینکه آیا برای پاسخ دادن به یک مورد خاص مفید است یا خیر. سوال Discovery شامل قابلیت‌های پروفایل داده است که از پیش‌نمایش‌های تعاملی مجموعه داده‌ها برای روشن کردن قالب‌بندی، استانداردسازی، برچسب‌ها، شکل داده‌ها و غیره پشتیبانی می‌کند.

یک دریاچه داده باز باید دارای مخزن ابرداده باز باشد. به عنوان مثال، مخزن ابرداده Apache Hive یک مخزن باز است که از قفل شدن فروشنده برای ابرداده جلوگیری می کند.

امنیت

افزایش دسترسی به داده‌ها نیازمند دریاچه‌های داده برای پشتیبانی از کنترل دسترسی قوی و ویژگی‌های امنیتی است. برای باز بودن، یک دریاچه داده باید این کار را از طریق APIهای امنیتی و کنترل دسترسی غیر اختصاصی انجام دهد. به عنوان مثال، ادغام عمیق با چارچوب‌های منبع باز مانند Apache Ranger و Apache Sentry می‌تواند امنیت دانه‌ای در سطح جدول، سطح ردیف و سطح ستون را تسهیل کند. این به مدیران امکان می‌دهد تا مجوزهایی را برای نقش‌های کاربر از قبل تعریف‌شده در دایرکتوری‌های سازمانی مانند Active Directory اعطا کنند. با پایه‌گذاری کنترل دسترسی بر چارچوب‌های منبع باز، دریاچه‌های داده باز از قفل شدن فروشنده که ناشی از پیاده‌سازی امنیتی اختصاصی است، جلوگیری می‌کنند.

انطباق

مقررات جدید یا توسعه‌یافته حفظ حریم خصوصی داده‌ها، مانند GDPR و CCPA، الزامات جدیدی را در مورد «حق پاک کردن» و «حق فراموش شدن» ایجاد کرده‌اند. اینها بر حقوق مصرف کنندگان در مورد داده هایشان حاکم است و جریمه های مالی سختی را برای عدم رعایت آنها (به اندازه چهار درصد از گردش مالی جهانی) در بر می گیرد، بنابراین نباید آنها را نادیده گرفت. بنابراین، امکان حذف زیرمجموعه های خاصی از داده ها بدون ایجاد اختلال در فرآیند مدیریت داده ضروری است. یک دریاچه داده باز این توانایی را از طریق فرمت های باز و مخازن ابرداده باز پشتیبانی می کند. به این ترتیب، آنها یک راه حل ناشناس فروشنده را برای نیازهای انطباق فعال می کنند.

یادگیری ماشین برای توسعه دهندگان جاوا: الگوریتم هایی برای یادگیری ماشین

زیرساخت و عملیات

چه دریاچه داده در فضای ابری یا در محل مستقر شود، هر ارائه‌دهنده ابر پیاده‌سازی خاصی برای تهیه، پیکربندی، نظارت و مدیریت دریاچه داده و همچنین منابع مورد نیاز خود دارد. یک دریاچه داده باز نسبت به ابرها حساس است و در هر محیط ابری، از جمله ابرهای عمومی و خصوصی قابل حمل است. این به مدیران اجازه می دهد تا از مزایای ابر عمومی و خصوصی از منظر اقتصادی، امنیتی، حاکمیتی و چابکی استفاده کنند.

باز برای نوآوری

افزایش حجم، سرعت و تنوع داده‌ها، همراه با انواع جدید تجزیه و تحلیل و یادگیری ماشین، دریاچه‌های داده را به مکمل ضروری برای انبارهای داده سنتی‌تر تبدیل می‌کند. انبارهای داده عمدتاً در دنیایی از قالب‌های اختصاصی، پسوندهای اختصاصی SQL و مخازن اختصاصی ابرداده وجود دارند و دسترسی برنامه‌ای به داده‌ها ندارند. دریاچه های داده نیازی به پیروی از این مسیر اختصاصی ندارند، که منجر به نوآوری محدود و هزینه های بالاتر می شود. یک دریاچه داده باز و به خوبی طراحی شده، یک سیستم مدیریت داده قوی و مطمئن برای آینده ارائه می‌کند که از طیف گسترده‌ای از نیازهای پردازش داده‌ها از جمله اکتشاف داده، تجزیه و تحلیل تعاملی، و یادگیری ماشین پشتیبانی می‌کند.

اشیش توسوو یکی از بنیانگذاران و مدیر اجرایی Qubole است. قبل از تأسیس Qubole، Ashish تیم زیرساخت داده فیس بوک را اداره می کرد. تحت رهبری او، تیم زیرساخت داده فیس بوک یکی از بزرگترین پلتفرم های پردازش و تجزیه و تحلیل داده در جهان را ساخت و مجموعه ای از ابزارها، فناوری ها و الگوها را ایجاد کرد که امروزه در سراسر صنعت استفاده می شود.

انجمن فناوری جدید مکانی را برای کاوش و بحث در مورد فناوری سازمانی نوظهور در عمق و وسعت بی سابقه ای فراهم می کند. انتخاب ذهنی است، بر اساس انتخاب ما از فناوری هایی که معتقدیم مهم هستند و برای خوانندگان InfoWorld بیشترین علاقه را دارند. InfoWorld وثیقه بازاریابی را برای انتشار نمی پذیرد و حق ویرایش تمام محتوای ارائه شده را برای خود محفوظ می دارد. همه سوالات را به newtechforum@infoworld.com ارسال کنید .