Apache Iceberg یک فرمت جدول باز است که مقیاس پذیری، قابلیت استفاده و مزایای عملکرد را برای مجموعه داده های بسیار بزرگ ارائه می دهد. در اینجا پنج دلیل بهینه بودن Iceberg برای حجم کاری داده های ابری آورده شده است.
این ابر به تیمهای داده اجازه داده است که مقادیر زیادی از داده را جمعآوری کرده و با هزینه معقول ذخیره کنند، و دری را به روی موارد استفاده از تحلیلهای جدید که از دریاچههای داده، مش دادهها و دیگر معماریهای مدرن استفاده میکنند، باز میکند. اما برای حجم بسیار زیادی از دادهها، ذخیرهسازی ابری عمومی نیز چالشها و محدودیتهایی در نحوه دسترسی، مدیریت و استفاده از آن دادهها ایجاد میکند.
سیستمهای ذخیرهسازی حباب معمولی در فضای ابری فاقد اطلاعات مورد نیاز برای نشان دادن روابط بین فایلها یا نحوه مطابقت آنها با یک جدول هستند، که کار موتورهای جستجو را بسیار سختتر میکند. علاوه بر این، فایلها به خودی خود تغییر طرحوارههای جدول یا «سفر در زمان» را بر روی آن آسان نمیکنند. هر موتور پرس و جو باید دیدگاه خاص خود را در مورد نحوه پرس و جو کردن فایل ها داشته باشد. به طور ناگهانی، چیزی که به نظر میرسید یک معماری داده با قابلیت پیادهسازی آسان به نظر میرسید، دشوارتر از آنچه انتظار میرفت میشود.
این جایی است که استفاده از قالبهای جدول برای دادهها بسیار مفید میشود. فرمت های جدول به صراحت یک جدول، ابرداده آن و فایل هایی که جدول را تشکیل می دهند را تعریف می کند. به جای استفاده از طرحواره هنگام خواندن داده ها، مشتریان از قبل طرح را قبل از اجرای پرس و جو می شناسند. علاوه بر این، ابرداده های جدول را می توان به گونه ای ذخیره کرد که پارتیشن بندی دقیق تری ارائه دهد. بنابراین، اعمال یک قالب جدول برای داده ها می تواند مزایای متعددی را ارائه دهد، مانند:
- عملکرد سریعتر به دلیل فیلتر یا پارتیشن بندی بهتر
- تکامل آسانتر طرحواره
- قابلیت “سفر در زمان” در سراسر جدول برای مشاهده داده ها در یک نقطه زمانی معین
- انطباق ACID جدول
چرا کوه یخ آپاچی؟
انتخاب قالب جدول برای استفاده تصمیم مهمی است زیرا می تواند ویژگی های موجود را فعال یا محدود کند. در طول دو سال گذشته، ما پشتیبانی قابل توجه در حال ظهور برای Apache Iceberg، قالب جدولی که در ابتدا توسط Netfl توسعه داده شده بود. یک پروژه انکوباتور آپاچی در سال ۲۰۱۸ و از برنامه انکوباتور در سال ۲۰۲۰ فارغ التحصیل شد.
کوه یخ از ابتدا برای رفع برخی از چالشهای موجود در Apache Hive هنگام کار با مجموعه داده های بسیار بزرگ، از جمله مسائل مربوط به مقیاس، قابلیت استفاده و عملکرد. به عنوان یک مهندس نتفلیکس در آن زمان اشاره شد، قالبهای جدول برای مجموعههای داده در مقیاس بسیار بزرگ باید به اندازه SQL قابل اعتماد و قابل پیشبینی کار کنند، “بدون هیچ گونه غافلگیری ناخوشایند”.
با چندین گزینه موجود، ما معتقدیم Iceberg نسبت به سایر قالبهای جدول باز موجود برتری دارد. در اینجا پنج دلیل وجود دارد.
کوه یخ از گذشته جدا می شود
گذشته میتواند تأثیر عمدهای بر نحوه عملکرد قالب جدول امروزی داشته باشد. برخی از قالبهای جدول از فناوریهای قدیمیتر تکامل یافتهاند، در حالی که برخی دیگر به یک شکست کامل تبدیل شدهاند. کوه یخ در کمپ دوم است. این از ابتدا برای رفع کاستیهای Apache Hive ساخته شده است، به این معنی که از برخی از ویژگیهای نامطلوب که در گذشته دریاچههای داده را نگه میداشتند، اجتناب کرده است. اینکه چگونه تغییرات طرحواره را می توان مدیریت کرد، مانند تغییر نام یک ستون، مثال خوبی است.
با نگاهی به آینده، این بدان معناست که Iceberg نیازی به منطقی کردن نحوه جدایی بیشتر از ابزارهای مرتبط بدون ایجاد مشکل در برنامه های داده تولید ندارد. با گذشت زمان، سایر فرمتهای جدول احتمالاً به نتیجه میرسند، اما در حال حاضر، Iceberg بر روی ارائه مجموعه بعدی از ویژگیهای جدید متمرکز شده است، به جای اینکه برای رفع مشکلات قدیمی به گذشته نگاه کند.
Iceberg نسبت به موتور پردازش و فرمت فایل آگنوستیک است
با جدا کردن موتور پردازش از قالب جدول، Iceberg انعطاف پذیری و انتخاب بیشتری را فراهم می کند. مهندسان به جای اینکه مجبور به استفاده از یک موتور پردازش شوند، می توانند بهترین ابزار را برای این کار انتخاب کنند. انتخاب حداقل به دو دلیل کلیدی مهم است. اول، موتورهایی که یک شرکت برای پردازش داده ها استفاده می کند، می توانند در طول زمان تغییر کنند. به عنوان مثال، بسیاری از مشاغل از Hadoop به Spark یا Trino نقل مکان کردند. دوم، برای سازمانهای بزرگ معمول است که از چندین فناوری مختلف استفاده میکنند، و داشتن حق انتخاب به آنها امکان میدهد از چندین ابزار به جای یکدیگر استفاده کنند.
Iceberg از چندین فرمت فایل نیز پشتیبانی میکند، از جمله پارکت آپاچی، Apache Avro، و Apache ORC. این امر امروزه انعطافپذیری را فراهم میکند، اما همچنین قابلیت اتصال طولانیمدت بهتری را برای فرمتهای فایلی که ممکن است در آینده ظاهر شوند را ممکن میسازد.
Iceberg یک پروژه منبع باز است که به خوبی اجرا می شود
پروژه کوه یخ توسط بنیاد نرم افزار آپاچی، به این معنی که به چندین راههای آپاچی، از جمله قدرت کسب شده و تصمیمگیری اجماع. این لزوماً برای هر پروژه ای که خود را “متن باز” می نامد صادق نیست. Apache Iceberg مدیریت پروژه خود را انجام می دهد عمومی، بنابراین می دانید چه کسی پروژه را اجرا می کند. سایر قالبهای جدول مشخص نمیکنند که چه کسی اختیار تصمیمگیری را دارد. قالب جدول یک انتخاب اساسی در معماری داده است، بنابراین انتخاب پروژه ای که واقعاً باز و مشارکتی باشد می تواند به طور قابل توجهی خطرات قفل تصادفی را کاهش دهد.
همکاری در Iceberg ایده ها و کمک های جدیدی را ایجاد می کند
نشانههای متعددی وجود دارد که نشان میدهد جامعه در اطراف کوه یخ آپاچی به کاربران سود می رساند و پروژه را برای موفقیت بلندمدت آماده می کند. برای کاربران، کانال Slack و مخزن GitHub تعامل بالایی را نشان میدهند، هم در مورد ایدههای جدید و هم پشتیبانی از عملکردهای موجود. به طور بحرانی، تعامل از سراسر صنعت انجام می شود، نه فقط یک گروه یا نویسندگان اصلی Iceberg.
درجه بالای همکاری نیز به نفع خود فناوری است. این پروژه درخواست یک تعداد فزاینده ای از پیشنهادات که در تفکر خود متنوع هستند و موارد استفاده متفاوت را حل می کنند. علاوه بر این، پروژه در حال ایجاد پروژهها و ایدههای جدیدی است، مانند پروژه نسی، مشخصات Puffin، و
برخلاف برخی دیگر از پروژههای جدول، Iceberg دارای ویژگیهای عملکرد محور از همان ابتدا است که از چند جهت برای کاربران مفید است. اولاً، کاربران اغلب فرض میکنند که پروژهای با کد باز شامل ویژگیهای عملکردی است، اما متوجه میشوند که در آینده گنجانده نشدهاند یا به طور مبهم وعده داده شدهاند. دوم، اگر میخواهید بارهای کاری را جابهجا کنید، که باید با قالب جدول آسان باشد، احتمال اینکه تفاوتهای اساسی در پیادهسازی Iceberg داشته باشید، بسیار کمتر است. سوم، هنگامی که شروع به استفاده از Iceberg منبع باز کردید، بعید است که متوجه شوید که ویژگی مورد نیاز شما در پشت یک دیوار پرداخت پنهان شده است. تمایز بین آنچه باز است و آنچه نیست نیز یک مشکل لحظه به لحظه نیست. به عنوان یک پروژه باز از ابتدا، Iceberg برای حل یک مشکل عملی وجود دارد، نه یک مورد استفاده تجاری. این یک تمایز کوچک اما مهم است: فروشندگان با محصولات پولی که از Iceberg پشتیبانی میکنند، مانند Snowflake، AWS، Apple، Cloudera، Google Cloud و موارد دیگر، میتوانند در نحوه اجرای مشخصات Iceberg رقابت کنند، اما خود پروژه Iceberg برای هدایت کسب و کار برای یک شرکت خاص در نظر گرفته نشده است. در Snowflake، ما قالب جدول خود را در اوایل ایجاد کردیم، که انواع قابلیتهای جدید را فعال میکرد. اما وقتی کسبوکارها به سمت پلتفرم دادههای ابری حرکت میکنند، نیازها و زمانبندی آنها متفاوت است. برخی از شرکتها الزامات نظارتی دارند که محل ذخیره دادهها را محدود میکند یا سرمایهگذاریهای موجود برای محافظت از آنها را محدود میکند. پشتیبانی از قالب جدول خارجی مانند Iceberg به مشتریان ما این امکان را میدهد تا از تمام دادههای خود از داخل Snowflake استفاده کنند، حتی اگر برخی از آنها نیاز به اقامت در مکان دیگری داشته باشند. به همین دلیل پشتیبانی از Iceberg به عنوان یک گزینه جدول اضافی در Snowflake در اوایل سال جاری، و اخیراً نوع جدیدی از جدول دانه های برف به نام جدول کوه یخ. منابع عالی در جامعه Apache Iceberg برای کسب اطلاعات بیشتر در مورد پروژه و مشارکت در تلاش منبع باز وجود دارد.Iceberg دارای ویژگی هایی است که در قالب های جدول دیگر پرداخت می شوند
دانه برف و کوه یخ
آغاز با Apache Iceberg
> ۷۳f048fa33b2df1d ” rel=”nofollow”>راهنمای شروع Iceberg
مثال هایی از نحوه شروع به کار در Iceberg و Apache Spark کاملاً منبع باز ارائه می دهد.
اگر کاربر Snowflake هستید، امروز میتوانید با پشتیبانی از پیشنمایش خصوصی Iceberg ما شروع کنید. برای کسب اطلاعات بیشتر در مورد این ویژگی ها یا ثبت نام، با تیم حساب Snowflake خود تماس بگیرید.
- جدول کوه یخ: نوع جدول جدید ما را کاملاً بر اساس کوه یخ و پارکت در فضای ذخیره سازی خارجی، اما با مزایا و عملکرد مشابه میزهای برف ریزه.
- جدول خارجی برای کوه یخ: اتصال آسان Snowflake با جدول Iceberg موجود را از طریق میز خارجی دانه برف a>.
جیمز مالون مدیر ارشد مدیریت محصول است در دانه برف.
—
New Tech Forum مکانی برای کاوش و بحث در مورد فناوری سازمانی نوظهور در عمق و وسعت بی سابقه ای فراهم می کند. انتخاب ذهنی است، بر اساس انتخاب ما از فناوری هایی که معتقدیم مهم هستند و برای خوانندگان InfoWorld بیشترین علاقه را دارند. InfoWorld وثیقه بازاریابی را برای انتشار نمی پذیرد و حق ویرایش تمام محتوای ارائه شده را برای خود محفوظ می دارد. همه سوالات را به newtechforum@infoworld.com ارسال کنید.
پست های مرتبط
چرا کوه یخ آپاچی بر داده ها در فضای ابری حکومت می کند؟
چرا کوه یخ آپاچی بر داده ها در فضای ابری حکومت می کند؟
چرا کوه یخ آپاچی بر داده ها در فضای ابری حکومت می کند؟