معماری داده بدون سر به این معنی است که دیگر نیازی به هماهنگ کردن چندین نسخه از داده ها نیست و آزاد بودن برای استفاده از هر پردازشگر یا موتور پرس و جو که برای کار مناسب است. در اینجا نحوه عملکرد آن آمده است.
معماری داده بدون سر، ظهوری ارگانیک از جداسازی ذخیرهسازی، مدیریت، بهینهسازی و دسترسی دادهها از سرویسهایی است که آن را مینویسند، پردازش میکنند، و پرس و جو میکنند. با این معماری، می توانید داده های خود را از یک مکان منطقی واحد، از جمله مجوزها، تکامل طرحواره و بهینه سازی جدول، مدیریت کنید. و برای تکمیل آن، انطباق با مقررات را بسیار سادهتر میکند، زیرا دادههای شما به جای کپی شدن در هر موتور پردازشی که به آن نیاز دارد، در یک مکان قرار دارد.
ما به دلیل شباهت آن به یک سرور بدون هد، آن را معماری داده بدون هد می نامیم، جایی که باید از مانیتور و صفحه کلید خود برای ورود به سیستم استفاده کنید. اگر می خواهید داده های خود را در یک داده بدون هد پردازش یا پرس و جو کنید. معماری، شما باید «سر» پردازش یا پرس و جو خود را بیاورید و آن را به داده ها وصل کنید – به عنوان مثال، Trino، Presto، Apache Flink، یا Apache Spark.
معماری داده بدون هد میتواند چندین قالب داده را در بر گیرد، با جریان های داده و جداول به عنوان دو رایج ترین. استریم ها دسترسی کم تاخیر به داده های افزایشی را فراهم می کنند، در حالی که جداول قابلیت های پرس و جوی انبوه کارآمد را ارائه می دهند. آنها با هم به شما انعطاف پذیری می دهند تا بتوانید قالبی را انتخاب کنید که برای موارد استفاده شما مناسب است، خواه عملیاتی، تحلیلی یا جایی در این بین.
ابتدا، بیایید نگاهی به جریان در معماری داده بدون هد بیاندازیم.
جریانهایی برای معماری داده بدون سر
Apache Kafka، یک پلتفرم جریانی مبتنی بر رویداد توزیعشده منبع باز، از روز اول یک مدل داده بدون هد داشته است. کافکا API، لایه ذخیرهسازی داده، کنترلهای دسترسی و ابردادههای اساسی در مورد خوشه را فراهم میکند. یک تولیدکننده در مورد یک موضوع می نویسد و سپس یک یا چند مصرف کننده می توانند داده های آن موضوع را با سرعت خود بخوانند.
تهیه کننده به عنوان یک رئیس کاملا مستقل عمل می کند. ممکن است در برو نوشته شده باشد، < a href="http://Python%20https://www.infoworld.com/article/3204016/what-is-python-powerful-intuitive-programming.html">Pythدر، جاوا، Rust یا زبان C (و بیشتر)، و همچنین می تواند از چارچوب های پردازش جریانی محبوب مانند Kafka Streams یا Apache Flink استفاده کند. در همین حال، مصرف کنندگان شما به طور مشابه مستقل هستند. شاید یکی از مصرف کنندگان شما یک نمونه Kafka Connect باشد، در حالی که دیگری Python باشد، و سومی با C نوشته شده باشد.
پشتیبانی از جریان کامل برای معماری داده بدون سر نیاز به عملکرد بیشتری دارد. برای اولین بار، رویدادها برای قابلیت اطمینان و ایمنی به طرحوارههای صریح و کاملاً تعریفشده نیاز دارند، که توسط یک ثبت طرح ارائه و اجرا میشود. همچنین برای ردیابی مالکیت، مدیریت برچسبها و ابردادههای کسبوکار، و ارائه قابلیتهای مرور، کشف و نسب، به یک کاتالوگ ابرداده نیاز دارید.
جریانها معمولاً برای هدایت موارد استفاده عملیاتی، مانند انجام سفارشهای تجارت الکترونیک، سفارش موجودی، و سازماندهی گردشهای کاری پیچیده که زیربنای کسبوکارها هستند، استفاده میشوند. و در حالی که ممکن است استفاده از جریانها را برای ایجاد موارد استفاده تحلیلی انتخاب کنید، در عوض میتوانید به محاسبات دورهای مبتنی بر دستهای که از جداول ساخته شدهاند تکیه کنید. پس چگونه جداول را در معماری داده بدون سر ادغام کنیم؟
جدول برای معماری داده بدون سر
جدولها برای مدت طولانی جزء اصلی دریاچه های داده و انبار داده، اما در طول تاریخ توسط پایگاه داده اختصاصی تعریف شده اند. اگر می خواستید جدول را پرس و جو کنید، باید از موتور پایگاه داده ای که جدول را در وهله اول ذخیره می کرد استفاده کنید.
امروزه، ما به قالبهای منبع باز محبوب مانند Apache Parquet تکیه میکنیم تا تعاریف تمیزی از دادههای اساسی ارائه کنیم. اما تعریف جدول مستقل از فایلهای زیربنایی باقی میماند، و برای این منظور ما به فناوری محبوبتر به نام آپاچی یخ نگاه میکنیم. پروژه مدیریت داده منبع باز Iceberg یک مدیر سیستم فایل قوی و قدرتمند برای داده های ستونی (از جمله پارکت) است و چندین مؤلفه کلیدی برای فعال کردن جداول در معماری داده بدون هد فراهم می کند.
اجزای اصلی Apache Iceberg:
- اولین جزء ذخیره سازی و بهینه سازی جدول است. Iceberg تمام داده ها را برای ساخت جداول ذخیره می کند، معمولاً با استفاده از فضای ذخیره سازی ابری در دسترس مانند Amazon S3. Iceberg ذخیره و نگهداری داده ها را مدیریت می کند، از جمله بهینه سازی هایی مانند فشرده سازی فایل و نسخه سازی.
- کاتالوگ کوه یخ، که حاوی ابرداده ها، طرحواره ها و اطلاعات جدول است، مانند جدول هایی که دارید و کجا آن ها هستند. شما جداول خود را در کاتالوگ Iceberg خود اعلام می کنید، به طوری که می توانید موتورهای پردازش و جستجوی خود را برای دسترسی به داده های اساسی وصل کنید.
- معاملات. Iceberg از تراکنشها و خواندن و نوشتن همزمان پشتیبانی میکند تا چندین هد بتوانند کارهای سنگین را بدون تأثیر بر یکدیگر انجام دهند.
- کوه یخ قابلیت سفر در زمان را فراهم می کند. شما می توانید پرس و جوها را در یک زمان خاص در برابر یک جدول اجرا کنید، که Iceberg را برای ممیزی، رفع اشکال و تست رگرسیون بسیار مفید می کند.
- Iceberg یک لایه داده مرکزی قابل اتصال را فراهم می کند. میتوانید گزینههای منبع باز خود مانند Flink، Trino، Presto، Hive، Spark، و DuckDB یا گزینههای محبوب SaaS مانند BigQuery، Redshift، Snowflake و Databricks را وصل کنید.
نحوه ادغام شما با این سرویسها متفاوت است، اما معمولاً به تکثیر ابرداده از کاتالوگ Iceberg بستگی دارد، بنابراین موتور پردازش شما میتواند بفهمد فایلها کجا هستند و چگونه آنها را پرس و جو کند. برای اطلاعات بیشتر با اسناد موتور پردازش خود برای ادغام Iceberg مشورت کنید.
مزایای معماری داده بدون سر
پس مزایای اصلی معماری داده بدون سر چیست؟
- دیگر نیازی به کپی کردن داده ها ندارید و در هزینه و زمان صرفه جویی می کنید. برای مثال، کاربران AWS میتوانند جداول خود را به Athena، Snowflake و Redshift وصل کنند، بدون اینکه دادههای خود را به جایی منتقل کنند.
- دیگر لازم نیست چندین نسخه از داده ها را هماهنگ کنید، و مجموعه داده های مشابه و در عین حال متفاوت را حذف کنید، که به نوبه خود منجر به خطوط لوله داده کمتر می شود.
- شما می توانید هر هدی که برای کار مناسب تر است را انتخاب کنید، مانند Flink برای یکی، اما DuckDB برای دیگری. از آنجایی که دادههای شما از موتورهای پردازش انتزاع میشوند، دیگر با این یا آن پردازنده «گیر» ندارید. شما در هیچ موتور خاصی قفل نشدهاید، فقط به این دلیل که سالها پیش دادهها را در آن بارگیری کردهاید.
- با یک نقطه کنترل دسترسی، می توانید دسترسی در لایه داده را برای همه پردازنده ها کنترل کنید. برای اطمینان از ایمن ماندن دادهها، میتوانید کنترل دقیقتری را در مورد اطلاعات خصوصی و مالی انتخاب کنید.
تفاوت های قابل توجه بین معماری هدلس و دریاچه داده
سه تفاوت اساسی بین معماری داده بدون سر و معماری دریاچه داده وجود دارد.
- در معماری داده بدون سر، هر سرویسی می تواند از داده ها استفاده کند. این مهم نیست که تحلیلی، عملیاتی یا جایی در این بین باشد. معماری Headless در مورد آسان کردن دسترسی به داده ها و اتصال به مکان مورد نیاز است و فقط به مجموعه ابزارهای تحلیلی محدود نمی شود.
- میتوانید از جداول، جریانها یا هر دو استفاده کنید — این کاملاً به شما بستگی دارد، بر اساس موارد استفاده و نیازهای تجاری شما.
- معماری داده بدون سر نیازی به کپی کردن همه داده های خود در یک مکان مرکزی ندارد. مرسوم است که لایه داده خود را از منابع داده مختلف ترکیب کنید و یک لایه داده مدولار بسازید.
علاوه بر این، معماری داده بدون سر به شما امکان میدهد دریاچهها و انبارهای داده بسازید. شما به سادگی جداول Iceberg خود را به دریاچه داده یا انبار داده متصل می کنید و آن را به عنوان یک جدول خارجی ثبت می کنید. مطمئناً میتوانید خط لولهای راهاندازی کنید تا دادههای بدون هد را در دریاچهها یا انبارهای خود کپی کنید، اما هدلس همان مزیتها را بدون نیاز به کپی به شما میدهد.
ماژولار بودن، قابلیت استفاده مجدد، ساختار، و دسترسی آسان به هر دو جریان و جداول، ویژگیهای کلیدی معماری داده بدون سر هستند. هر کاری که با آن دادهها پس از قرار گرفتن در مرز دریاچه دادهتان انجام دهید، کاملاً به شما بستگی دارد.
چگونه یک معماری داده بدون هد بسازیم
واقعیت بخشیدن به معماری داده بدون سر نیاز به سرمایه گذاری در لایه داده بدون سر دارد. امروزه بسیاری از کسبوکارها در حال ساخت معماریهای داده بدون سر خود هستند، حتی اگر هنوز آن را کاملاً به این نام نمیخوانند، اگرچه استفاده از سرویسهای ابری سادهترین و محبوبترین راه برای شروع است. اگر معماری داده بدون هد خود را میسازید، مهم است که ابتدا جریانهای دادهای سازمانیافته و طرحوارهای ایجاد کنید، قبل از اینکه آنها را در جداول Apache Iceberg پر کنید.
اتصال دهنده ها (مانند Kafka Connect) معمولاً برای تبدیل جریان داده های شما به جداول Iceberg استفاده می شوند. اما میتوانید به سرویسهای مدیریتشده نیز تکیه کنید که بهطور خودکار موضوعات شما را در جدولهای Iceberg فقط ضمیمه و بدون شکستگی تبدیل میکنند. تعمیر کار، بدون خطوط لوله، فقط با استفاده از همان داده های موجود به عنوان یک جریان یا به عنوان یک جدول.
در نهایت، میتوانید جریانها و جداول دادههای خود را به هر دریاچه داده، انبار داده، پردازنده، موتور جستجو، نرمافزار گزارشدهی، پایگاه داده یا چارچوب برنامهای که به آن نیاز دارید متصل کنید.
همچنین باید برای هدهای پردازش انتخابی خود پشتیبانی ارائه دهید. برخی از پردازنده ها می توانند مستقیماً به کاتالوگ Iceberg متصل شوند و دسترسی فوری به داده ها را فراهم کنند. موتورهای پردازش اختصاصی، مانند موتورهای ارائهدهندگان ابری بزرگ، معمولاً به یک کپی از ابرداده Iceberg برای فعال کردن پردازش نیاز دارند. برای اطمینان از صحت، باید اسناد خود را بررسی کنید.
اگرچه ممکن است کمی دلهره آور به نظر برسد، اما واقعیت این است که احتمالاً در ابتدا فقط از یک یا دو هد مختلف استفاده خواهید کرد. در مقاله بعدی، رویکرد دقیقتری در مورد نحوه پیادهسازی معماری داده بدون هد، از جمله انتقال رسمی دادهها به سمت چپ برای قابلدسترسیتر کردن و قابلاعتمادتر کردن آن برای همه کسانی که به آن نیاز دارند، خواهیم داشت.
آدام بلمار، کارشناس فنی در گروه استراتژی فناوری در Confluent است.
—
New Tech Forum مکانی را برای رهبران فناوری – از جمله فروشندگان و سایر مشارکتکنندگان خارجی – فراهم میکند تا فناوری سازمانی نوظهور را در عمق و وسعت بیسابقه بررسی و بحث کنند. انتخاب ذهنی است، بر اساس انتخاب ما از فناوری هایی که معتقدیم مهم هستند و برای خوانندگان InfoWorld بیشترین علاقه را دارند. InfoWorld وثیقه بازاریابی را برای انتشار نمی پذیرد و حق ویرایش تمام محتوای ارائه شده را برای خود محفوظ می دارد. همه پرس و جوها را به doug_dineley@foundryco ارسال کنید. com.
پست های مرتبط
راهنمای توسعه دهنده برای معماری داده بدون سر
راهنمای توسعه دهنده برای معماری داده بدون سر
راهنمای توسعه دهنده برای معماری داده بدون سر