۲۹ شهریور ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

ابزار منبع باز لینکدین Lakehouse OpenHouse

این ابزار در حال حاضر در لینکدین با بیش از 3500 جدول مدیریت شده OpenHouse در حال تولید است که به بیش از 550 کاربر فعال روزانه خدمات ارائه می دهد.

این ابزار در حال حاضر در لینکدین با بیش از ۳۵۰۰ جدول مدیریت شده OpenHouse در حال تولید است که به بیش از ۵۵۰ کاربر فعال روزانه خدمات ارائه می دهد.

LinkedIn تصمیم گرفته است که ابزار مدیریت داده خود، OpenHouse را منبع باز کند، که می گوید می تواند به مهندسان داده و تیم های زیرساخت داده مرتبط در یک شرکت کمک کند تا تلاش مهندسی محصول خود را کاهش دهند و زمان مورد نیاز برای استقرار محصولات یا برنامه ها را کاهش دهند.

OpenHouse با دریاچه‌های داده منبع باز سازگار است و یک صفحه کنترلی است که شامل یک کاتالوگ “اعلامی” و مجموعه ای از خدمات داده است.

دریاچه‌خانه داده، معماری داده‌ای است که هم قابلیت‌های ذخیره‌سازی و هم قابلیت‌های تحلیلی را ارائه می‌دهد، برخلاف مفاهیم دریاچه‌های داده، که داده‌ها را در قالب اصلی ذخیره می‌کنند، و انبار داده‌ها، که داده های ساخت یافته را ذخیره می کند (اغلب در قالب SQL).

«کاربران می‌توانند به‌طور یکپارچه جدول‌ها، طرحواره‌ها و ابرداده‌های مرتبط را به‌صورت شفاف در کاتالوگ تعریف کنند. LinkedIn در حین تشریح پیشنهاد در GitHub< نوشت: OpenHouse وضعیت مشاهده شده جداول را با وضعیت مطلوب با هماهنگی سرویس های داده مختلف تطبیق می دهد. /a>.

ایده اساسی پشت محصول

اما چرا LinkedIn توسعه ابزار مدیریت داده های بزرگ را برای خانه های دریاچه انتخاب کرد؟

طبق گفته مهندس شرکت Sumedh Sakdeo، همه چیز با انتخاب شرکت برای نیازهای داخلی داده‌های منبع باز به جای انبارهای داده ابری آغاز شد، زیرا اولی “به مقیاس‌پذیری و انعطاف‌پذیری بیشتری اجازه می‌دهد.”

چرا توسعه دهندگان از Confluent برای مدیریت آپاچی کافکا استفاده می کنند؟

با این حال، Sakdeo گفت که علیرغم اتخاذ یک Lakehouse منبع باز، LinkedIn با چالش هایی در زمینه ارائه یک تجربه مدیریت شده برای کاربران نهایی خود مواجه شده است.

بر خلاف درک معمولی از ارائه‌های مدیریت شده در پایگاه‌های داده یا پلتفرم‌های داده، در این مورد، کاربران نهایی تیم‌های داده داخلی LinkedIn بودند و مدیریت باید توسط تیم مهندسی محصول آن انجام می‌شد.

«نداشتن تجربه مدیریت شده اغلب به این معنی است که کاربران نهایی ما باید با نگرانی‌های زیرساختی سطح پایین مانند مدیریت طرح‌بندی بهینه فایل‌ها در فضای ذخیره‌سازی، انقضای داده‌ها بر اساس TTL برای جلوگیری از اتمام سهمیه، تکرار داده‌ها در مناطق جغرافیایی مقابله کنند. و مدیریت مجوزها در سطح فایل،” Sakdeo گفت.

ساکدئو توضیح داد:

به‌علاوه، تیم‌های زیرساخت داده لینکدین کنترل کمی بر سیستمی که باید کار می‌کردند، باقی می‌ماند، که تنظیم حاکمیت و بهینه‌سازی مناسب را برای آنها دشوارتر می‌کند.

ورود به OpenHouse – ابزاری که این چالش‌ها را با حذف نیاز به انجام فعالیت‌های مدیریت داده اضافی در یک Lakehouse منبع باز حل می‌کند.

طبق گزارش LinkedIn، این شرکت بیش از ۳۵۰۰ جدول OpenHouse مدیریت شده را در تولید پیاده سازی کرده است که به بیش از ۵۵۰ کاربر فعال روزانه خدمات ارائه می دهد و طیف گسترده ای از موارد استفاده را ارائه می دهد.

ساکدئو گفت: «به طور قابل توجهی، OpenHouse زمان عرضه dbt لینکدین را در جداول مدیریت شده ساده کرده است، و آن را بیش از ۶ ماه کاهش داده است. کاهش ۵۰٪ در زحمت کاربر نهایی مرتبط با اشتراک گذاری داده ها.

آوردن قابلیت مشاهده به پشته داده های مدرن

داخل OpenHouse

اما چگونه کار می کند؟ Sakdeo گفت که در قلب خود، OpenHouse، که یک صفحه کنترل برای مدیریت جداول است، یک کاتالوگ است که با یک سرویس جدول RESTful طراحی شده است که برای ارائه جدول ایمن و مقیاس پذیر و مدیریت فراداده اعلامی طراحی شده است. p>

مهندس ارشد نرم‌افزار گفت:

علاوه بر این، صفحه کنترل شامل سرویس‌های داده است که می‌تواند برای هماهنگی یکپارچه کارهای تعمیر و نگهداری جدول سفارشی شود.

به گفته LinkedIn، سرویس کاتالوگ، ایجاد، بازیابی، به‌روزرسانی و حذف جدول OpenHouse را تسهیل می‌کند.

LinkedIn

“به طور یکپارچه با Apache Spark ادغام شده است تا کاربران نهایی بتوانند از نحو استاندارد موتور، جستجوهای SQL و DataFrame API برای اجرای این عملیات استفاده کنند.” در بیانیه ای گفت.

نحو استاندارد پشتیبانی شده شامل، اما محدود به موارد زیر نیست: نمایش پایگاه داده، نمایش جداول، ایجاد جدول، تغییر جدول، انتخاب از، درج در و رها کردن جدول.

علاوه بر این، سرویس کاتالوگ به کاربران اجازه می دهد تا سیاست های حفظ را در جداول OpenHouse با زمان تقسیم بندی شده ایجاد کنند.

«از طریق این خط‌مشی‌های پیکربندی‌شده، سرویس‌های داده به‌طور خودکار پارتیشن‌های قدیمی‌تر از آستانه تعیین‌شده را شناسایی و حذف می‌کنند. کاربران نهایی همچنین می‌توانند از نحو توسعه یافته SQL متناسب با OpenHouse استفاده کنند.

داده ها باید یک شهروند درجه یک در فضای ابری باشند

OpenHouse از فرمت‌های جدول Apache Iceberg، Hudi و Delta پشتیبانی می‌کند.

برای کمک به کاربران سازمانی در تکثیر جداول، این شرکت چارچوب القایی داده‌ها، Apache Gobblin را با مشارکت گسترش داده است. قابلیت تکرار جغرافیایی متقابل که برای جداول کوه یخ طراحی شده است.

شرکت گفت

IcebergDistcp، مؤلفه‌ای در این چارچوب، در دسترس بودن بالا برای جداول Iceberg را تضمین می‌کند و به کاربران اجازه می‌دهد تا گردش‌های کاری حیاتی را از هر مکان جغرافیایی اجرا کنند.

“OpenHouse جداول را به عنوان انواع جدول اصلی یا مشابه طبقه بندی می کند و به جداول replica اجازه می دهد فقط خواندنی برای کاربران نهایی باشند. مجوزهای به‌روزرسانی و نوشتن منحصراً به کار distcp و کاربر سیستم OpenHouse داده می‌شود.

در قسمت فضای ذخیره‌سازی، از رابط فایل سیستم Hadoop، سازگار با HDFS و فروشگاه‌های blob که از آن پشتیبانی می‌کنند، پشتیبانی می‌کند. این شرکت گفت که رابط‌های فضای ذخیره‌سازی را می‌توان برای اتصال به API‌های فروشگاه محلی blob افزایش داد.

در مورد پشتیبانی پایگاه داده، OpenHouse از پایگاه داده MySQL برای ذخیره نشانگرهای فراداده برای ابرداده جدول Iceberg در فضای ذخیره سازی استفاده می کند.

“انتخاب پایگاه داده قابل اتصال است. Sakdeo گفت: OpenHouse از چارچوب Spring Data JPA برای ارائه انعطاف پذیری برای ادغام با سیستم های مختلف پایگاه داده استفاده می کند.

سایر عملکردهای OpenHouse شامل قابلیت مشاهده و حاکمیت است.