این ابزار در حال حاضر در لینکدین با بیش از ۳۵۰۰ جدول مدیریت شده OpenHouse در حال تولید است که به بیش از ۵۵۰ کاربر فعال روزانه خدمات ارائه می دهد.
LinkedIn تصمیم گرفته است که ابزار مدیریت داده خود، OpenHouse را منبع باز کند، که می گوید می تواند به مهندسان داده و تیم های زیرساخت داده مرتبط در یک شرکت کمک کند تا تلاش مهندسی محصول خود را کاهش دهند و زمان مورد نیاز برای استقرار محصولات یا برنامه ها را کاهش دهند. p>
OpenHouse با دریاچههای داده منبع باز سازگار است و یک صفحه کنترلی است که شامل یک کاتالوگ “اعلامی” و مجموعه ای از خدمات داده است.
دریاچهخانه داده، معماری دادهای است که هم قابلیتهای ذخیرهسازی و هم قابلیتهای تحلیلی را ارائه میدهد، برخلاف مفاهیم دریاچههای داده، که دادهها را در قالب اصلی ذخیره میکنند، و انبار دادهها، که داده های ساخت یافته را ذخیره می کند (اغلب در قالب SQL).
«کاربران میتوانند بهطور یکپارچه جدولها، طرحوارهها و ابردادههای مرتبط را بهصورت شفاف در کاتالوگ تعریف کنند. LinkedIn در حین تشریح پیشنهاد در GitHub< نوشت: OpenHouse وضعیت مشاهده شده جداول را با وضعیت مطلوب با هماهنگی سرویس های داده مختلف تطبیق می دهد. /a>.
ایده اساسی پشت محصول
اما چرا LinkedIn توسعه ابزار مدیریت داده های بزرگ را برای خانه های دریاچه انتخاب کرد؟
طبق گفته مهندس شرکت Sumedh Sakdeo، همه چیز با انتخاب شرکت برای نیازهای داخلی دادههای منبع باز به جای انبارهای داده ابری آغاز شد، زیرا اولی “به مقیاسپذیری و انعطافپذیری بیشتری اجازه میدهد.”
با این حال، Sakdeo گفت که علیرغم اتخاذ یک Lakehouse منبع باز، LinkedIn با چالش هایی در زمینه ارائه یک تجربه مدیریت شده برای کاربران نهایی خود مواجه شده است.
بر خلاف درک معمولی از ارائههای مدیریت شده در پایگاههای داده یا پلتفرمهای داده، در این مورد، کاربران نهایی تیمهای داده داخلی LinkedIn بودند و مدیریت باید توسط تیم مهندسی محصول آن انجام میشد.
«نداشتن تجربه مدیریت شده اغلب به این معنی است که کاربران نهایی ما باید با نگرانیهای زیرساختی سطح پایین مانند مدیریت طرحبندی بهینه فایلها در فضای ذخیرهسازی، انقضای دادهها بر اساس TTL برای جلوگیری از اتمام سهمیه، تکرار دادهها در مناطق جغرافیایی مقابله کنند. و مدیریت مجوزها در سطح فایل،” Sakdeo گفت.
ساکدئو توضیح داد:
بهعلاوه، تیمهای زیرساخت داده لینکدین کنترل کمی بر سیستمی که باید کار میکردند، باقی میماند، که تنظیم حاکمیت و بهینهسازی مناسب را برای آنها دشوارتر میکند.
ورود به OpenHouse – ابزاری که این چالشها را با حذف نیاز به انجام فعالیتهای مدیریت داده اضافی در یک Lakehouse منبع باز حل میکند.
طبق گزارش LinkedIn، این شرکت بیش از ۳۵۰۰ جدول OpenHouse مدیریت شده را در تولید پیاده سازی کرده است که به بیش از ۵۵۰ کاربر فعال روزانه خدمات ارائه می دهد و طیف گسترده ای از موارد استفاده را ارائه می دهد.
ساکدئو گفت: «به طور قابل توجهی، OpenHouse زمان عرضه dbt لینکدین را در جداول مدیریت شده ساده کرده است، و آن را بیش از ۶ ماه کاهش داده است. کاهش ۵۰٪ در زحمت کاربر نهایی مرتبط با اشتراک گذاری داده ها.
داخل OpenHouse
اما چگونه کار می کند؟ Sakdeo گفت که در قلب خود، OpenHouse، که یک صفحه کنترل برای مدیریت جداول است، یک کاتالوگ است که با یک سرویس جدول RESTful طراحی شده است که برای ارائه جدول ایمن و مقیاس پذیر و مدیریت فراداده اعلامی طراحی شده است. p>
مهندس ارشد نرمافزار گفت:
علاوه بر این، صفحه کنترل شامل سرویسهای داده است که میتواند برای هماهنگی یکپارچه کارهای تعمیر و نگهداری جدول سفارشی شود.
به گفته LinkedIn، سرویس کاتالوگ، ایجاد، بازیابی، بهروزرسانی و حذف جدول OpenHouse را تسهیل میکند.
“به طور یکپارچه با Apache Spark ادغام شده است تا کاربران نهایی بتوانند از نحو استاندارد موتور، جستجوهای SQL و DataFrame API برای اجرای این عملیات استفاده کنند.” در بیانیه ای گفت.
نحو استاندارد پشتیبانی شده شامل، اما محدود به موارد زیر نیست: نمایش پایگاه داده، نمایش جداول، ایجاد جدول، تغییر جدول، انتخاب از، درج در و رها کردن جدول.
علاوه بر این، سرویس کاتالوگ به کاربران اجازه می دهد تا سیاست های حفظ را در جداول OpenHouse با زمان تقسیم بندی شده ایجاد کنند.
«از طریق این خطمشیهای پیکربندیشده، سرویسهای داده بهطور خودکار پارتیشنهای قدیمیتر از آستانه تعیینشده را شناسایی و حذف میکنند. کاربران نهایی همچنین میتوانند از نحو توسعه یافته SQL متناسب با OpenHouse استفاده کنند.
OpenHouse از فرمتهای جدول Apache Iceberg، Hudi و Delta پشتیبانی میکند.
برای کمک به کاربران سازمانی در تکثیر جداول، این شرکت چارچوب القایی دادهها، Apache Gobblin را با مشارکت گسترش داده است. قابلیت تکرار جغرافیایی متقابل که برای جداول کوه یخ طراحی شده است.
شرکت گفت
IcebergDistcp، مؤلفهای در این چارچوب، در دسترس بودن بالا برای جداول Iceberg را تضمین میکند و به کاربران اجازه میدهد تا گردشهای کاری حیاتی را از هر مکان جغرافیایی اجرا کنند.
“OpenHouse جداول را به عنوان انواع جدول اصلی یا مشابه طبقه بندی می کند و به جداول replica اجازه می دهد فقط خواندنی برای کاربران نهایی باشند. مجوزهای بهروزرسانی و نوشتن منحصراً به کار distcp و کاربر سیستم OpenHouse داده میشود.
در قسمت فضای ذخیرهسازی، از رابط فایل سیستم Hadoop، سازگار با HDFS و فروشگاههای blob که از آن پشتیبانی میکنند، پشتیبانی میکند. این شرکت گفت که رابطهای فضای ذخیرهسازی را میتوان برای اتصال به APIهای فروشگاه محلی blob افزایش داد.
در مورد پشتیبانی پایگاه داده، OpenHouse از پایگاه داده MySQL برای ذخیره نشانگرهای فراداده برای ابرداده جدول Iceberg در فضای ذخیره سازی استفاده می کند.
“انتخاب پایگاه داده قابل اتصال است. Sakdeo گفت: OpenHouse از چارچوب Spring Data JPA برای ارائه انعطاف پذیری برای ادغام با سیستم های مختلف پایگاه داده استفاده می کند.
سایر عملکردهای OpenHouse شامل قابلیت مشاهده و حاکمیت است.
پست های مرتبط
ابزار منبع باز لینکدین Lakehouse OpenHouse
ابزار منبع باز لینکدین Lakehouse OpenHouse
ابزار منبع باز لینکدین Lakehouse OpenHouse