مانند انبارهای داده دیروز، دریاچه های داده امروزی ما را در قالب ها و سیستم های اختصاصی که نوآوری را محدود می کند و هزینه ها را افزایش می دهد تهدید می کند.
یک دریاچه داده یک سیستم یا مخزن است که دادهها را در قالب خام خود همراه با مجموعه دادههای تبدیلشده و قابل اعتماد ذخیره میکند و دسترسی برنامهای و مبتنی بر SQL به این دادهها را برای وظایف تحلیلی متنوع فراهم میکند. به عنوان اکتشاف داده، تجزیه و تحلیل تعاملی، و یادگیری ماشین. داده های ذخیره شده در دریاچه داده می تواند شامل داده های ساختار یافته از پایگاه های داده رابطه ای (ردیف ها و ستون ها)، داده های نیمه ساختار یافته (CSV، logs، XML، JSON)، داده های بدون ساختار (ایمیل ها، اسناد، فایل های PDF) و داده های باینری (تصاویر، صوتی، تصویری).
یک چالش با دریاچههای داده، قفل نشدن در قالبها یا سیستمهای اختصاصی است. این قفل توانایی انتقال دادهها به داخل و خارج برای مصارف دیگر یا پردازش دادهها با استفاده از ابزارهای دیگر را محدود میکند و همچنین میتواند یک دریاچه داده را به یک محیط ابری منفرد پیوند دهد. به همین دلیل است که کسبوکارها باید تلاش کنند تا دریاچههای داده باز بسازند، جایی که دادهها در قالب باز ذخیره میشوند و از طریق رابطهای باز و مبتنی بر استاندارد قابل دسترسی هستند. پایبندی به یک فلسفه باز باید در هر جنبه ای از سیستم نفوذ کند، از جمله ذخیره سازی داده ها، مدیریت داده ها، پردازش داده ها، عملیات، دسترسی به داده ها، حاکمیت و امنیت.
یک قالب باز مبتنی بر یک استاندارد باز اساسی است که از طریق یک فرآیند عمومی و جامعه محور بدون برنامه افزودنی اختصاصی فروشنده توسعه یافته و به اشتراک گذاشته شده است. به عنوان مثال، فرمت داده باز یک قالب داده مستقل از پلت فرم و قابل خواندن ماشین است، مانند ORC یا Parket، که مشخصات آن در جامعه منتشر می شود، به طوری که هر سازمانی می تواند ابزارها و برنامه هایی را برای خواندن داده ها در قالب ایجاد کند.< /p>
یک دریاچه داده معمولی دارای قابلیت های زیر است:
- حذف و ذخیره داده
- پردازش داده و پشتیبانی از مهندسی داده پیوسته
- دسترسی و مصرف داده
- حاکمیت داده از جمله قابلیت کشف، امنیت و انطباق
- زیرساخت و عملیات
در بخشهای بعدی، الزامات باز بودن هر قابلیت را شرح خواهیم داد.
حذف و ذخیره داده
یک دریاچه داده باز دادهها را از منابعی مانند برنامههای کاربردی، پایگاههای داده، انبارهای داده و جریانهای بیدرنگ جذب میکند. این دادهها را در قالب دادههای باز، مانند ORC و پارکت، قالببندی و ذخیره میکند، که مستقل از پلتفرم، قابل خواندن از طریق ماشین، بهینهسازی شده برای دسترسی سریع و تجزیه و تحلیل است و بدون محدودیتی که مانع استفاده مجدد از آن میشود، در دسترس مصرفکنندگان قرار میگیرد. آن اطلاعات
یک دریاچه داده باز از دریافت دادهها هم مبتنی بر کشش و هم مبتنی بر فشار پشتیبانی میکند. از جذب مبتنی بر کشش از طریق خطوط لوله داده دسته ای و جذب مبتنی بر فشار از طریق پردازش جریان پشتیبانی می کند. برای هر دو نوع دریافت داده، یک دریاچه داده باز از استانداردهای باز مانند SQL و Apache Spark برای ایجاد تبدیل داده ها پشتیبانی می کند. برای خطوط لوله داده دسته ای، از درج ها و به روز رسانی های سطح ردیف – UPSERT – برای مجموعه های داده در دریاچه پشتیبانی می کند. قابلیت Upsert با جداسازی عکس فوری – و به طور کلی تر، معنای ACID – کار را بسیار ساده می کند، برخلاف بازنویسی پارتیشن های داده یا کل مجموعه داده ها.
قابلیت جذب یک دریاچه داده باز تضمین می کند که داده ها از دست نرود و دقیقاً یک بار یا حداقل یک بار می نویسد، تنوع طرحواره را کنترل می کند، در بهینه ترین قالب داده در پارتیشن های مناسب می نویسد، و توانایی دوباره سازی را فراهم می کند. داده ها را در صورت نیاز مصرف کنید.
پردازش داده و پشتیبانی از مهندسی داده پیوسته
یک دریاچه داده باز داده های خام منابع داده های مختلف را در قالب باز استاندارد ذخیره می کند. با این حال، موارد استفاده مانند کاوش داده، تجزیه و تحلیل تعاملی، و یادگیری ماشینی نیازمند پردازش دادههای خام برای ایجاد مجموعههای داده قابل اعتماد مبتنی بر موارد استفاده است. برای کاوش داده ها و موارد استفاده از یادگیری ماشین، کاربران به طور مداوم مجموعه داده ها را برای نیازهای تجزیه و تحلیل خود اصلاح می کنند. در نتیجه، هر پیادهسازی دریاچه داده باید کاربران را قادر سازد تا بین مهندسی داده و موارد استفاده مانند تجزیه و تحلیل تعاملی و یادگیری ماشین تکرار کنند. این را می توان به عنوان مهندسی داده پیوسته در نظر گرفت که شامل توانایی تعاملی برای نویسنده، نظارت و اشکال زدایی خطوط لوله داده است. در یک دریاچه داده باز، این خطوط لوله با استفاده از رابط های استاندارد و ابزارهای منبع باز مانند SQL، Python، Apache Spark و Apache Hive ایجاد می شوند.
دسترسی و مصرف داده
مشهودترین نتیجه دریاچه داده، انواع موارد استفاده است که فعال می کند. چه مورد استفاده، کاوش داده، تجزیه و تحلیل تعاملی یا یادگیری ماشینی باشد، دسترسی به داده ها حیاتی است. دسترسی به داده ها می تواند از طریق SQL یا زبان های برنامه نویسی مانند Python، R و Scala باشد. در حالی که SQL هنجار تجزیه و تحلیل تعاملی است، زبان های برنامه نویسی برای برنامه های پیشرفته تر مانند یادگیری ماشین و یادگیری عمیق استفاده می شوند.
یک دریاچه داده باز از دسترسی به داده ها از طریق پیاده سازی مبتنی بر استانداردهای SQL بدون برنامه افزودنی اختصاصی پشتیبانی می کند. این ابزارهای خارجی را قادر می سازد تا از طریق استانداردهایی مانند ODBC و JDBC به آن داده ها دسترسی داشته باشند. همچنین، یک دریاچه داده باز از دسترسی برنامهای به دادهها از طریق زبانهای برنامهنویسی استاندارد مانند R، Python، و Scala و کتابخانههای استاندارد برای محاسبات عددی و یادگیری ماشین مانند TensorFlow، Keras، PyTorch، Apache Spark MLlib، MXNet و Scikit پشتیبانی میکند. -یاد بگیرید.
حاکمیت داده – قابلیت کشف، امنیت و انطباق
هنگامی که انتقال داده و دسترسی به داده به خوبی اجرا شود، دادهها میتوانند به صورت گسترده در دسترس کاربران قرار گیرند. هنگامی که چندین تیم شروع به دسترسی به دادهها میکنند، معماران داده باید برای اهداف حاکمیتی، امنیتی و انطباق نظارت داشته باشند.
کشف داده
یافتن و درک داده ها به خودی خود سخت است و همیشه قابل اعتماد نیست. کاربران قبل از اینکه بتوانند برای موارد استفاده خود به آنها اعتماد کنند، به توانایی کشف و نمایه مجموعه داده ها برای یکپارچگی نیاز دارند. یک کاتالوگ داده، ابرداده را از طریق مکانیسمهای مختلف غنی میکند، از آن برای مستندسازی مجموعههای داده استفاده میکند و از یک رابط جستجو برای کمک به کشف پشتیبانی میکند.
از آنجایی که اولین گام کشف مجموعههای دادههای مورد نیاز است، ضروری است که ابردادهها را برای اهداف اکتشافی در اختیار کاربران نهایی قرار دهیم، ببینیم دادهها در کجا قرار دارند و حاوی چه چیزی هستند، و تعیین اینکه آیا برای پاسخ دادن به یک مورد خاص مفید است یا خیر. سوال Discovery شامل قابلیتهای پروفایل داده است که از پیشنمایشهای تعاملی مجموعه دادهها برای روشن کردن قالببندی، استانداردسازی، برچسبها، شکل دادهها و غیره پشتیبانی میکند.
یک دریاچه داده باز باید دارای مخزن ابرداده باز باشد. به عنوان مثال، مخزن ابرداده Apache Hive یک مخزن باز است که از قفل شدن فروشنده برای ابرداده جلوگیری می کند.
امنیت
افزایش دسترسی به دادهها نیازمند دریاچههای داده برای پشتیبانی از کنترل دسترسی قوی و ویژگیهای امنیتی است. برای باز بودن، یک دریاچه داده باید این کار را از طریق APIهای امنیتی و کنترل دسترسی غیر اختصاصی انجام دهد. به عنوان مثال، ادغام عمیق با چارچوبهای منبع باز مانند Apache Ranger و Apache Sentry میتواند امنیت دانهای در سطح جدول، سطح ردیف و سطح ستون را تسهیل کند. این به مدیران امکان میدهد تا مجوزهایی را برای نقشهای کاربر از قبل تعریفشده در دایرکتوریهای سازمانی مانند Active Directory اعطا کنند. با پایهگذاری کنترل دسترسی بر چارچوبهای منبع باز، دریاچههای داده باز از قفل شدن فروشنده که ناشی از پیادهسازی امنیتی اختصاصی است، جلوگیری میکنند.
انطباق
مقررات جدید یا توسعهیافته حفظ حریم خصوصی دادهها، مانند GDPR و CCPA، الزامات جدیدی را در مورد «حق پاک کردن» و «حق فراموش شدن» ایجاد کردهاند. اینها بر حقوق مصرف کنندگان در مورد داده هایشان حاکم است و جریمه های مالی سختی را برای عدم رعایت آنها (به اندازه چهار درصد از گردش مالی جهانی) در بر می گیرد، بنابراین نباید آنها را نادیده گرفت. بنابراین، امکان حذف زیرمجموعه های خاصی از داده ها بدون ایجاد اختلال در فرآیند مدیریت داده ضروری است. یک دریاچه داده باز این توانایی را از طریق فرمت های باز و مخازن ابرداده باز پشتیبانی می کند. به این ترتیب، آنها یک راه حل ناشناس فروشنده را برای نیازهای انطباق فعال می کنند.
زیرساخت و عملیات
چه دریاچه داده در فضای ابری یا در محل مستقر شود، هر ارائهدهنده ابر پیادهسازی خاصی برای تهیه، پیکربندی، نظارت و مدیریت دریاچه داده و همچنین منابع مورد نیاز خود دارد. یک دریاچه داده باز نسبت به ابرها حساس است و در هر محیط ابری، از جمله ابرهای عمومی و خصوصی قابل حمل است. این به مدیران اجازه می دهد تا از مزایای ابر عمومی و خصوصی از منظر اقتصادی، امنیتی، حاکمیتی و چابکی استفاده کنند.
باز برای نوآوری
افزایش حجم، سرعت و تنوع دادهها، همراه با انواع جدید تجزیه و تحلیل و یادگیری ماشین، دریاچههای داده را به مکمل ضروری برای انبارهای داده سنتیتر تبدیل میکند. انبارهای داده عمدتاً در دنیایی از قالبهای اختصاصی، پسوندهای اختصاصی SQL و مخازن اختصاصی ابرداده وجود دارند و دسترسی برنامهای به دادهها ندارند. دریاچه های داده نیازی به پیروی از این مسیر اختصاصی ندارند، که منجر به نوآوری محدود و هزینه های بالاتر می شود. یک دریاچه داده باز و به خوبی طراحی شده، یک سیستم مدیریت داده قوی و مطمئن برای آینده ارائه میکند که از طیف گستردهای از نیازهای پردازش دادهها از جمله اکتشاف داده، تجزیه و تحلیل تعاملی، و یادگیری ماشین پشتیبانی میکند.
اشیش توسوو یکی از بنیانگذاران و مدیر اجرایی Qubole است. قبل از تأسیس Qubole، Ashish تیم زیرساخت داده فیس بوک را اداره می کرد. تحت رهبری او، تیم زیرساخت داده فیس بوک یکی از بزرگترین پلتفرم های پردازش و تجزیه و تحلیل داده در جهان را ساخت و مجموعه ای از ابزارها، فناوری ها و الگوها را ایجاد کرد که امروزه در سراسر صنعت استفاده می شود.
—
انجمن فناوری جدید مکانی را برای کاوش و بحث در مورد فناوری سازمانی نوظهور در عمق و وسعت بی سابقه ای فراهم می کند. انتخاب ذهنی است، بر اساس انتخاب ما از فناوری هایی که معتقدیم مهم هستند و برای خوانندگان InfoWorld بیشترین علاقه را دارند. InfoWorld وثیقه بازاریابی را برای انتشار نمی پذیرد و حق ویرایش تمام محتوای ارائه شده را برای خود محفوظ می دارد. همه سوالات را به newtechforum@infoworld.com ارسال کنید .
پست های مرتبط
آیا دریاچه داده شما به اندازه کافی باز است؟ مراقب چه چیزی باشیم
آیا دریاچه داده شما به اندازه کافی باز است؟ مراقب چه چیزی باشیم
آیا دریاچه داده شما به اندازه کافی باز است؟ مراقب چه چیزی باشیم