Apache Airflow یک خط لوله داده عالی به عنوان کد است، اما اینکه بیشتر مشارکت کنندگان آن برای Astronomer کار می کنند نمونه دیگری از مشکل با منبع باز است.
بسته به سیاست شما، اقتصاد trickle-down هرگز به این خوبی در ایالات متحده تحت ریاست جمهوری رونالد ریگان. با این حال، در نرم افزار منبع باز، به نظر می رسد که به خوبی کار می کند.
البته من واقعاً در مورد سیاستهای اقتصادی صحبت نمیکنم، بلکه در مورد تیمهای مهندسی نرمافزار نخبهای صحبت میکنم که کدی را منتشر میکنند که در نهایت جریان اصلی نه چندان نخبه را تامین میکند. برای مثال Lyft را در نظر بگیرید که پروژه محبوب Envoy را منتشر کرد. یا گوگل که به جهان Kubernetes داد (البته، همانطور که من استدلال کرده ام، هدف خیریه خیریه نبود، بلکه استراتژی شرکتی برای دور زدن AWS غالب بود). Airbnb راهی برای حرکت فراتر از زمانبندی cron
دستهمحور پیدا کرد، هدیه Apache Airflow و خطوط لوله داده به عنوان کد .
امروزه طیف گستردهای از شرکتهای اصلی به Airflow وابسته هستند، از Walmart گرفته تا Adobe و Marriott. اگرچه انجمن آن شامل توسعه دهندگانی از Snowflake، Cloudera و موارد دیگر است، اکثر کارهای سنگین توسط مهندسان در اخترشناس، که ۱۶ نفر از ۲۵ مرتکب برتر را استخدام می کند. Astronomer از این سرپرستی و تخصص به خوبی استفاده می کند و یک سرویس کاملاً مدیریت شده جریان هوا به نام Astro را اجرا می کند، اما این تنها سرویس نیست. جای تعجب نیست که ابرها به سرعت خدمات خود را ایجاد کردهاند، بدون اینکه کدهای مربوطه را پشت سر بگذارند، که نگرانی در مورد پایداری را افزایش میدهد.
اگر این کد نتواند هزینه خود را بپردازد، خودش نمینویسد.
به هر حال خط لوله داده چیست؟
امروزه همه در مورد مدلهای زبان بزرگ (LLM)، نسل افزودهشده با بازیابی (RAG) و دیگر کلمات اختصاری هوش مصنوعی (genAI) صحبت میکنند، همانطور که ۱۰ سال پیش نتوانستیم از Apache Hadoop، MySQL و غیره استفاده کنیم. نامها تغییر میکنند، اما دادهها باقی میمانند، با این نگرانی که همیشه چگونه میتوان آن دادهها را بین سیستمها منتقل کرد.
این جایی است که جریان هوا وارد می شود.
از برخی جهات، Airflow مانند یک زمانبندی کار cron
بهطور جدی ارتقا یافته است. شرکت ها با سیستم های ایزوله شروع می کنند که در نهایت باید به هم متصل شوند. یا، بهتر است، داده ها باید بین آنها جریان داشته باشد. به عنوان یک صنعت، ما انواع و اقسام راهها را برای مدیریت این خطوط لوله ابداع کردهایم، اما با افزایش دادهها، سیستمهای مدیریت آن دادهها تکثیر میشوند، نه به پیچیدگی روزافزون تعامل بین این اجزا. همانطور که تیم Airbnb هنگام منبع باز Airflow نوشت، این یک کابوس است: «اگر یک تیم داده سریع و متوسط را برای چند سال روی یک زیرساخت داده در حال تکامل در نظر بگیرید و یک شبکه بسیار پیچیده از کارهای محاسباتی در دست دارید. ، این پیچیدگی می تواند بار مهمی برای تیم های داده برای مدیریت یا حتی درک آن باشد.”
که در پایتون نوشته شده است، Airflow به طور طبیعی به زبان داده صحبت می کند. آن را به عنوان بافت همبند در نظر بگیرید که به توسعه دهندگان راهی ثابت برای برنامه ریزی، هماهنگی و درک نحوه جریان داده ها بین هر سیستم می دهد. بخش قابل توجه و رو به رشد Fortune 500 به Airflow برای هماهنگی خط لوله داده بستگی دارد، و هر چه بیشتر از آن استفاده کنند، ارزشمندتر می شود. جریان هوا به طور فزاینده ای برای زنجیره های تامین داده های سازمانی حیاتی است.
پس بیایید به مسئله پول برگردیم.
کد قرار نیست خودش بنویسد
یک جامعه قوی در اطراف Airflow وجود دارد، اما شاید ۵۵٪ یا بیشتر از کد توسط افرادی که برای Astronomer کار می کنند ارائه شده است. این شرکت را در موقعیتی عالی برای پشتیبانی از Airflow در تولید برای مشتریان خود قرار می دهد (از طریق سرویس مدیریت شده Astro)، اما این پروژه را نیز در معرض خطر قرار می دهد. نه، نه از سوی اخترشناس که بر پروژه تأثیر ناروا میگذارد. پروژههای بنیاد نرمافزار آپاچی، طبق تعریف، هرگز پروژههای تک شرکتی نیستند. در عوض، این ریسک از آنجا ناشی می شود که اخترشناس به طور بالقوه تصمیم می گیرد که نمی تواند سطح سرمایه گذاری خود را از نظر مالی توجیه کند.
این جایی است که ادعاهای “کشیدن فرش منبع باز” قدرت خود را از دست می دهند. همانطور که اخیراً بحث کرده ام، ما یک مشکل تریلیون دلاری رایگان سواری در منبع باز داریم. ما همیشه شباهتی از این موضوع داشته ایم. هیچ شرکتی از طریق خیریه کمک نمی کند. این همیشه در مورد منافع شخصی است. یک مشکل این است که زمان زیادی طول می کشد تا شرکت ها بفهمند که منافع شخصی آنها باید آنها را وادار به مشارکت کند (همانطور که اتفاق افتاد زمانی که Elastic مجوز خود را تغییر داد و AWS متوجه شد که باید با جدا کردن Elasticsearch از میلیاردها دلار درآمد محافظت کند). این شناسایی تاخیری زمانی تشدید میشود که شخص دیگری هزینه توسعه را بپردازد.
این بسیار آسان است که اجازه دهید شخص دیگری کار را انجام دهد، در حالی که شما در حال کاهش سود هستید.
Kubernetes را در نظر بگیرید. به درستی یک پوستر برای جامعه در نظر گرفته می شود، اما به مشارکتهای انجمن چقدر متمرکز است. از زمان آغاز به کار، گوگل ۲۸ درصد از کد را کمک کرده است. بزرگترین مشارکت کننده بعدی Red Hat با ۱۱٪ است، پس از VMware با ۸٪، سپس مایکروسافت با ۵٪. همه افراد دیگر یک خطای نسبی گرد کردن هستند، از جمله AWS (1%)، که برای درآمد کسب شده از Kubernetes، همه افراد دیگر را کوچک می کند. این کاملاً منصفانه است، زیرا مجوز آن را اجازه می دهد. اما چه اتفاقی میافتد اگر Google تصمیم بگیرد که به نفع خود شرکت نیست که به انجام این همه توسعه برای منافع دیگران ادامه دهد؟
یک احتمال (و دادههای مشارکتکننده ممکن است این نتیجهگیری را تأیید کند) این است که شرکتها سرمایهگذاریهای خود را مجدداً تنظیم کنند. به عنوان مثال، در طول دو سال گذشته، سهم گوگل از مشارکت به ۲۰٪ و Red Hat به ۸٪ کاهش یافته است. مایکروسافت، به نوبه خود، سهم نسبی مشارکت خود را به ۸٪ افزایش داد و AWS، در حالی که هنوز نسبتا کوچک بود، به ۲٪ افزایش یافت. شاید جوامع خوب خود را اصلاح می کنند؟
که ما را به مسئله داده ها برمی گرداند.
این دنیای پایتون است
از آنجایی که Airflow در پایتون ساخته شده است، و به نظر میرسد پایتون زبان دوم هر توسعهدهندهای باشد (اگر نه اولین آن)، شروع کار برای توسعهدهندگان آسان است. مهمتر از آن، شاید این باشد که اصلاً فکر کردن به خطوط انتقال داده برای آنها نیز آسان باشد. مهندسان داده واقعاً نمی خواهند خطوط لوله داده را حفظ کنند. آنها میخواهند که لولهکشی در پسزمینه محو شود.
نحوه انجام آن بلافاصله مشخص نیست، به ویژه با توجه به هرج و مرج مطلق در چشم انداز داده/AI امروز، همانطور که گرفته شده است. توسط FirstMark Capital. جریان هوا، بهویژه با سرویس مدیریتشدهای مانند Astronomer’s Astro، حفظ اختیاری بودن (گزینههای زیادی در نمودار FirstMark) و در عین حال سادهسازی تعمیر و نگهداری خطوط لوله بین سیستمها را آسان میکند.
این یک معامله بزرگ است که با افزایش منابع داده بزرگتر خواهد شد. این “معامله بزرگ” باید بیشتر در جدول مشارکت کنندگان نشان داده شود. امروزه توسعه دهندگان Astronomer نیروی محرکه انتشارات Airflow هستند. بسیار خوب است که سایر شرکتها نیز مشارکتهای خود را متناسب با درآمدی که بدون شک از Airflow کسب میکنند، افزایش دهند.
پست های مرتبط
خطوط لوله داده برای بقیه ما
خطوط لوله داده برای بقیه ما
خطوط لوله داده برای بقیه ما