۳۰ آذر ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

نحوه انتخاب یک پلت فرم تجزیه و تحلیل داده و یادگیری ماشین

راهنمای مختصری در مورد چرخه حیات تجزیه و تحلیل، مجموعه در حال گسترش ابزارها و فناوری ها، و انتخاب بستر داده مناسب برای نیازهای شما

راهنمای مختصری در مورد چرخه حیات تجزیه و تحلیل، مجموعه در حال گسترش ابزارها و فناوری ها، و انتخاب بستر داده مناسب برای نیازهای شما

چه مسئولیت‌هایی در زمینه توسعه نرم‌افزار، توسعه‌دهی، سیستم‌ها، ابرها، اتوماسیون تست، قابلیت اطمینان سایت، تیم‌های پیشرو اسکرام، infosec یا سایر حوزه‌های فناوری اطلاعات داشته باشید، فرصت‌ها و الزامات فزاینده‌ای برای کار با داده‌ها، تجزیه و تحلیل‌ها، و یادگیری ماشینی.

تکنولوژی Spotlight: Analytics

ممکن است قرار گرفتن شما در معرض تجزیه و تحلیل ها از طریق داده های فناوری اطلاعات، مانند توسعه معیارها و اطلاعات آماری از agile، devops، یا معیارهای وب سایت باشد. هیچ راه بهتری برای یادگیری مهارت‌ها و ابزارهای اساسی در مورد داده‌ها، تجزیه و تحلیل، و یادگیری ماشینی وجود ندارد تا اینکه آنها را روی داده‌هایی که می‌شناسید و می‌توانید برای اطلاعات بینش استخراج کنید، به کار ببرید.

وقتی از دنیای داده‌های فناوری اطلاعات منشعب می‌شوید و به تیم‌های دانشمندان داده خدمات ارائه می‌کنید، همه چیز کمی پیچیده‌تر می‌شود، دانشمندان داده شهروند، و سایر تحلیلگران تجاری که تجسم داده، تجزیه و تحلیل و یادگیری ماشین را انجام می دهند.

ابتدا، داده ها باید بارگیری و پاک شوند. سپس، بسته به حجم، تنوع و سرعت داده‌ها، احتمالاً با چندین پایگاه داده پشتیبان و فناوری‌های داده ابری مواجه خواهید شد. در نهایت، در طی چندین سال گذشته، آنچه که قبلاً انتخاب بین هوش تجاری و ابزارهای تجسم داده بود، به یک ماتریس پیچیده از تجزیه و تحلیل چرخه عمر کامل و پلتفرم‌های یادگیری ماشین تبدیل شده است.

اهمیت تجزیه و تحلیل و یادگیری ماشینی مسئولیت‌های فناوری اطلاعات را در چندین زمینه افزایش می‌دهد. به عنوان مثال:

  • IT اغلب خدماتی را پیرامون همه ادغام‌های داده، پایگاه‌های داده پشتیبان و پلتفرم‌های تجزیه و تحلیل ارائه می‌کند.
  • تیم‌های Devops اغلب زیرساخت داده را مستقر و مقیاس می‌کنند تا آزمایش بر روی مدل‌های یادگیری ماشین را امکان‌پذیر کنند و سپس از پردازش داده‌های تولید پشتیبانی کنند.
  • تیم های عملیات شبکه، ارتباطات ایمن را بین ابزارهای تجزیه و تحلیل SaaS، چند ابری و مراکز داده برقرار می کنند.
  • تیم‌های مدیریت خدمات فناوری اطلاعات به درخواست‌ها و رویدادهای سرویس داده و تجزیه و تحلیل پاسخ می‌دهند.
  • Infosec بر حاکمیت و اجرای امنیت داده نظارت دارد.
  • توسعه‌دهندگان مدل‌های تحلیلی و یادگیری ماشین را در برنامه‌ها ادغام می‌کنند.

با توجه به انفجار تجزیه و تحلیل، پلتفرم‌های داده ابری و قابلیت‌های یادگیری ماشین، در اینجا مقدمه‌ای برای درک بهتر چرخه حیات تجزیه و تحلیل، از یکپارچه‌سازی و تمیز کردن داده‌ها گرفته تا دیتاوپ‌ها و مدلاپ‌ها، تا پایگاه‌های داده، پلت‌فرم‌های داده، و پیشنهادات تحلیلی ارائه شده است. خودشان.

موتورهای داده نسل بعدی عملکرد ابرداده را تغییر می دهند

تحلیل با یکپارچه سازی داده ها و پاکسازی داده ها آغاز می شود

قبل از اینکه تحلیل‌گران، دانشمندان داده شهروندی یا تیم‌های علم داده بتوانند تجزیه و تحلیل را انجام دهند، منابع داده مورد نیاز باید در پلتفرم‌های تجسم و تجزیه و تحلیل داده‌ها در دسترس آنها باشد.

برای شروع، ممکن است الزامات تجاری برای ادغام داده‌ها از چندین سیستم سازمانی، استخراج داده‌ها از برنامه‌های SaaS، یا جریان داده‌ها از حسگرهای IoT و موارد دیگر وجود داشته باشد. منابع داده بلادرنگ.

اینها همه مراحل برای جمع‌آوری، بارگیری و ادغام داده‌ها برای تجزیه و تحلیل و یادگیری ماشین هستند. بسته به پیچیدگی داده ها و مسائل مربوط به کیفیت داده، فرصت هایی برای مشارکت در dataops، کاتالوگ داده، مدیریت داده اصلی، و حاکمیت داده.

همه ما عبارت “زباله داخل، زباله بیرون” را می شناسیم. تحلیلگران باید نگران کیفیت داده های خود باشند و دانشمندان داده باید نگران سوگیری ها در مدل های یادگیری ماشینی آنها. همچنین، به موقع بودن یکپارچه‌سازی داده‌های جدید برای کسب‌وکارهایی که به‌دنبال تبدیل شدن به شرکت‌های بیشتر هستند، حیاتی است. .html”>داده محور در زمان واقعی. به این دلایل، خطوط لوله ای که داده ها را بارگیری و پردازش می کنند در تجزیه و تحلیل و یادگیری ماشین بسیار مهم هستند.

پایگاه های داده و پلت فرم های داده برای انواع چالش های مدیریت داده

بارگیری و پردازش داده ها اولین گام ضروری است، اما پس از انتخاب پایگاه داده بهینه، همه چیز پیچیده تر می شود. انتخاب‌های امروزی شامل انبارهای داده سازمانی، دریاچه‌های داده، پلت‌فرم‌های پردازش داده‌های بزرگ و پایگاه‌های داده تخصصی NoSQL، نمودار، کلید-مقدار، سند و ستونی است. برای پشتیبانی از انبارداری و تجزیه و تحلیل داده در مقیاس بزرگ، پلتفرم هایی مانند Snowflake، Redshift، BigQuery، Vertica، و Greenplum وجود دارد. در نهایت، پلتفرم‌های کلان داده، از جمله Spark و Hadoop وجود دارند.

شرکت‌های بزرگ احتمالاً چندین مخزن داده دارند و از پلتفرم‌های داده ابری مانند پلتفرم داده کلودرا یا پلتفرم داده MapR، یا پلتفرم‌های هماهنگ‌سازی داده‌ها مانند InfoWorks DataFoundy، تا همه آن مخازن را برای تجزیه و تحلیل در دسترس قرار دهید.

کلادهای عمومی اصلی، از جمله AWS، GCP، و Azure، همگی دارای پلتفرم‌ها و سرویس‌های مدیریت داده هستند که می‌توان از آن‌ها استفاده کرد. برای مثال، Azure Synapse Analytics انبار داده SQL مایکروسافت در فضای ابری است. ، در حالی که Azure Cosmos DB رابط‌هایی را برای بسیاری از فروشگاه‌های داده NoSQL فراهم می‌کند، از جمله Cassandra (داده های ستونی)، MongoDB (داده های کلید-مقدار و سند)، و Gremlin (داده های نمودار).

دریاچه‌های داده اسکله‌های بارگیری محبوبی هستند که داده‌های بدون ساختار را برای تجزیه و تحلیل سریع متمرکز می‌کنند، و می‌توان از Azure Data Lake، Amazon S3 یا Google Cloud Storage برای این منظور استفاده کرد. برای پردازش کلان داده، ابرهای AWS، GCP و Azure همگی دارای Spark و Hadoop هستند.

طلوع توسعه سیستم های سازگار با محیط زیست

پلتفرم های تجزیه و تحلیل یادگیری ماشین و همکاری را هدف قرار می دهند

با داده‌های بارگیری، پاکسازی و ذخیره‌سازی، دانشمندان و تحلیلگران داده می‌توانند تجزیه و تحلیل و یادگیری ماشین را شروع کنند. سازمان‌ها بسته به نوع تجزیه و تحلیل، مهارت‌های تیم تحلیلی که کار را انجام می‌دهند و ساختار داده‌های زیربنایی، گزینه‌های زیادی دارند.

تحلیل‌ها را می‌توان در ابزارهای تجسم داده‌های خودسرویس مانند Tableau و Microsoft Power BI. هر دوی این ابزارها دانشمندان داده شهروندی را هدف قرار می‌دهند و تجسم‌ها، محاسبات و تحلیل‌های اولیه را در معرض نمایش قرار می‌دهند. این ابزارها از یکپارچه‌سازی داده‌های اولیه و بازسازی داده پشتیبانی می‌کنند، اما بحث پیچیده‌تر داده‌ها اغلب قبل از مراحل تجزیه و تحلیل اتفاق می‌افتد. Tableau Data Prep و Azure Data Factory ابزارهای همراه برای کمک به ادغام و تبدیل داده ها هستند.

تیم های تجزیه و تحلیل که می خواهند بیش از یکپارچه سازی داده ها و آماده سازی را خودکار کنند، می توانند به پلتفرم هایی مانند Alteryx Analytics مراجعه کنند. اتوماسیون فرآیند. این پلت فرم مشترک و سرتاسر، توسعه دهندگان، تحلیلگران، دانشمندان داده شهروندی و دانشمندان داده را با اتوماسیون گردش کار و پردازش داده های سلف سرویس، تجزیه و تحلیل و قابلیت های پردازش یادگیری ماشینی به هم متصل می کند.

Alan Jacobson، مدیر ارشد تجزیه و تحلیل و داده در Alteryx، توضیح می دهد: “ظهور اتوماسیون فرآیند تحلیلی (APA) به عنوان یک مقوله، بر انتظار جدیدی برای هر کارگر در یک سازمان به عنوان یک کارگر داده تاکید می کند. توسعه دهندگان فناوری اطلاعات نیز از این قاعده مستثنی نیستند و توسعه پذیری پلتفرم Alteryx APA به ویژه برای این کارکنان دانش مفید است.”

ابزارها و پلتفرم‌های متعددی وجود دارد که دانشمندان داده را هدف قرار می‌دهند و هدف آن‌ها افزایش بهره‌وری با فناوری‌هایی مانند پایتون و R و در عین حال ساده‌سازی بسیاری از مراحل عملیاتی و زیرساختی است. به عنوان مثال، Databricks یک پلت فرم عملیاتی علم داده است که امکان استقرار الگوریتم ها را در Apache Spark فراهم می کند. و TensorFlow، در حالی که خوشه‌های محاسباتی را در ابر AWS یا Azure مدیریت می‌کنند. 

اکنون برخی از پلتفرم‌ها مانند SAS Viya آماده‌سازی داده، تجزیه و تحلیل، پیش‌بینی، یادگیری ماشین، تجزیه و تحلیل متن، و مدیریت مدل یادگیری ماشین در یک پلتفرم مدلops واحد. SAS تحلیل های عملیاتی را انجام می دهد و دانشمندان داده، تحلیلگران کسب و کار، توسعه دهندگان و مدیران اجرایی با یک پلت فرم مشارکتی سرتاسر.

دیوید دولینگ، مدیر تحقیق و توسعه مدیریت تصمیم در SAS، می‌گوید: «ما مدلاپ‌ها را به‌عنوان تمرین ایجاد یک خط لوله قابل تکرار و قابل ممیزی از عملیات برای استقرار تمام تحلیل‌ها، از جمله مدل‌های هوش مصنوعی و ML، در سیستم‌های عملیاتی می‌بینیم. به عنوان بخشی از modelops، می‌توانیم از شیوه‌های devops مدرن برای مدیریت کد، آزمایش و نظارت استفاده کنیم. این به بهبود فرکانس و قابلیت اطمینان استقرار مدل کمک می‌کند، که به نوبه خود چابکی فرآیندهای تجاری ساخته شده بر روی این مدل‌ها را افزایش می‌دهد.”

امنیت، حریم خصوصی و هوش مصنوعی مولد

Dataiku پلتفرم دیگری است که در تلاش است تا آماده سازی داده، تجزیه و تحلیل، و یادگیری ماشینی را به داده های در حال رشد بیاورد. تیم های علمی و همکاران آنها Dataiku یک مدل برنامه نویسی بصری برای فعال کردن نوت بوک های همکاری و کد برای توسعه دهندگان پیشرفته تر SQL و Python دارد.

سایر پلت‌فرم‌های تحلیلی و یادگیری ماشینی از فروشندگان پیشرو نرم‌افزار سازمانی با هدف ارائه قابلیت‌های تجزیه و تحلیل به مراکز داده و منابع داده ابری هستند. برای مثال، Oracle Analytics Cloud و SAP Analytics Cloud هر دو هدفشان متمرکز کردن اطلاعات و خودکارسازی اطلاعات بینش برای فعال کردن تصمیم‌گیری‌های سرتاسر است.

انتخاب یک پلت فرم تجزیه و تحلیل داده

انتخاب ابزارهای یکپارچه سازی داده، انبارداری و تجزیه و تحلیل قبل از ظهور کلان داده، یادگیری ماشین و مدیریت داده ساده تر بود. امروزه ترکیبی از اصطلاحات، قابلیت‌های پلتفرم، الزامات عملیاتی، نیازهای حاکمیتی و شخصیت‌های هدفمند کاربر وجود دارد که انتخاب پلتفرم‌ها را پیچیده‌تر می‌کند، به‌ویژه از آنجایی که بسیاری از فروشندگان از پارادایم‌های استفاده چندگانه پشتیبانی می‌کنند. 

کسب و کارها در الزامات و نیازهای تجزیه و تحلیل متفاوت هستند، اما باید پلتفرم های جدیدی را از نقطه نظر آنچه در حال حاضر وجود دارد جستجو کنند. به عنوان مثال:

  • شرکت‌هایی که در برنامه‌های علوم داده شهروندی موفق بوده‌اند و از قبل ابزارهای تجسم داده را در اختیار دارند، ممکن است بخواهند این برنامه را با فناوری‌های خودکارسازی فرآیند تحلیل یا آماده‌سازی داده گسترش دهند.
  • شرکت‌هایی که خواهان یک زنجیره ابزار هستند که دانشمندان داده را قادر می‌سازد در بخش‌های مختلف کسب‌وکار کار کنند، می‌توانند پلتفرم‌های تحلیلی سرتاسری با قابلیت‌های modelops را در نظر بگیرند.
  • سازمان‌هایی که دارای پلت‌فرم‌های داده پشتیبان متعدد و متفاوت هستند، ممکن است از پلت‌فرم‌های داده ابری برای فهرست‌نویسی و مدیریت مرکزی آنها بهره ببرند.
  • شرکت‌هایی که تمام یا اکثر قابلیت‌های داده را در یک فروشنده عمومی ابری استاندارد می‌کنند، باید پلتفرم‌های ارائه‌شده یکپارچه‌سازی داده، مدیریت داده، و تجزیه و تحلیل داده‌ها را بررسی کنند.

با تبدیل شدن تجزیه و تحلیل و یادگیری ماشینی به یک شایستگی اصلی، فن‌آوران باید درک خود را از پلتفرم‌های موجود و قابلیت‌های آن‌ها عمیق‌تر کنند. قدرت و ارزش پلتفرم های تحلیلی و همچنین نفوذ آنها در سراسر سازمان افزایش می یابد.