راهنمای مختصری در مورد چرخه حیات تجزیه و تحلیل، مجموعه در حال گسترش ابزارها و فناوری ها، و انتخاب بستر داده مناسب برای نیازهای شما
چه مسئولیتهایی در زمینه توسعه نرمافزار، توسعهدهی، سیستمها، ابرها، اتوماسیون تست، قابلیت اطمینان سایت، تیمهای پیشرو اسکرام، infosec یا سایر حوزههای فناوری اطلاعات داشته باشید، فرصتها و الزامات فزایندهای برای کار با دادهها، تجزیه و تحلیلها، و یادگیری ماشینی.
تکنولوژی Spotlight: Analytics
- نحوه انتخاب یک پلت فرم تجزیه و تحلیل داده (InfoWorld)
- ۶ بهترین روش برای تجسم داده های کسب و کار (دنیای کامپیوتر)
- تجزیه و تحلیل مراقبت های بهداشتی: ۴ داستان موفقیت (CIO)
- SD-WAN و تجزیه و تحلیل: ازدواجی که برای شرایط عادی جدید (دنیای شبکه)
- نحوه محافظت از الگوریتم ها به عنوان مالکیت معنوی (CSO)
ساخته شده است
ممکن است قرار گرفتن شما در معرض تجزیه و تحلیل ها از طریق داده های فناوری اطلاعات، مانند توسعه معیارها و اطلاعات آماری از agile، devops، یا معیارهای وب سایت باشد. هیچ راه بهتری برای یادگیری مهارتها و ابزارهای اساسی در مورد دادهها، تجزیه و تحلیل، و یادگیری ماشینی وجود ندارد تا اینکه آنها را روی دادههایی که میشناسید و میتوانید برای اطلاعات بینش استخراج کنید، به کار ببرید.
وقتی از دنیای دادههای فناوری اطلاعات منشعب میشوید و به تیمهای دانشمندان داده خدمات ارائه میکنید، همه چیز کمی پیچیدهتر میشود، دانشمندان داده شهروند، و سایر تحلیلگران تجاری که تجسم داده، تجزیه و تحلیل و یادگیری ماشین را انجام می دهند.
ابتدا، داده ها باید بارگیری و پاک شوند. سپس، بسته به حجم، تنوع و سرعت دادهها، احتمالاً با چندین پایگاه داده پشتیبان و فناوریهای داده ابری مواجه خواهید شد. در نهایت، در طی چندین سال گذشته، آنچه که قبلاً انتخاب بین هوش تجاری و ابزارهای تجسم داده بود، به یک ماتریس پیچیده از تجزیه و تحلیل چرخه عمر کامل و پلتفرمهای یادگیری ماشین تبدیل شده است.
اهمیت تجزیه و تحلیل و یادگیری ماشینی مسئولیتهای فناوری اطلاعات را در چندین زمینه افزایش میدهد. به عنوان مثال:
- IT اغلب خدماتی را پیرامون همه ادغامهای داده، پایگاههای داده پشتیبان و پلتفرمهای تجزیه و تحلیل ارائه میکند.
- تیمهای Devops اغلب زیرساخت داده را مستقر و مقیاس میکنند تا آزمایش بر روی مدلهای یادگیری ماشین را امکانپذیر کنند و سپس از پردازش دادههای تولید پشتیبانی کنند.
- تیم های عملیات شبکه، ارتباطات ایمن را بین ابزارهای تجزیه و تحلیل SaaS، چند ابری و مراکز داده برقرار می کنند.
- تیمهای مدیریت خدمات فناوری اطلاعات به درخواستها و رویدادهای سرویس داده و تجزیه و تحلیل پاسخ میدهند.
- Infosec بر حاکمیت و اجرای امنیت داده نظارت دارد.
- توسعهدهندگان مدلهای تحلیلی و یادگیری ماشین را در برنامهها ادغام میکنند.
با توجه به انفجار تجزیه و تحلیل، پلتفرمهای داده ابری و قابلیتهای یادگیری ماشین، در اینجا مقدمهای برای درک بهتر چرخه حیات تجزیه و تحلیل، از یکپارچهسازی و تمیز کردن دادهها گرفته تا دیتاوپها و مدلاپها، تا پایگاههای داده، پلتفرمهای داده، و پیشنهادات تحلیلی ارائه شده است. خودشان.
تحلیل با یکپارچه سازی داده ها و پاکسازی داده ها آغاز می شود
قبل از اینکه تحلیلگران، دانشمندان داده شهروندی یا تیمهای علم داده بتوانند تجزیه و تحلیل را انجام دهند، منابع داده مورد نیاز باید در پلتفرمهای تجسم و تجزیه و تحلیل دادهها در دسترس آنها باشد.
برای شروع، ممکن است الزامات تجاری برای ادغام دادهها از چندین سیستم سازمانی، استخراج دادهها از برنامههای SaaS، یا جریان دادهها از حسگرهای IoT و موارد دیگر وجود داشته باشد. منابع داده بلادرنگ.
اینها همه مراحل برای جمعآوری، بارگیری و ادغام دادهها برای تجزیه و تحلیل و یادگیری ماشین هستند. بسته به پیچیدگی داده ها و مسائل مربوط به کیفیت داده، فرصت هایی برای مشارکت در dataops، کاتالوگ داده، مدیریت داده اصلی، و حاکمیت داده.
همه ما عبارت “زباله داخل، زباله بیرون” را می شناسیم. تحلیلگران باید نگران کیفیت داده های خود باشند و دانشمندان داده باید نگران سوگیری ها در مدل های یادگیری ماشینی آنها. همچنین، به موقع بودن یکپارچهسازی دادههای جدید برای کسبوکارهایی که بهدنبال تبدیل شدن به شرکتهای بیشتر هستند، حیاتی است. .html”>داده محور در زمان واقعی. به این دلایل، خطوط لوله ای که داده ها را بارگیری و پردازش می کنند در تجزیه و تحلیل و یادگیری ماشین بسیار مهم هستند.
پایگاه های داده و پلت فرم های داده برای انواع چالش های مدیریت داده
بارگیری و پردازش داده ها اولین گام ضروری است، اما پس از انتخاب پایگاه داده بهینه، همه چیز پیچیده تر می شود. انتخابهای امروزی شامل انبارهای داده سازمانی، دریاچههای داده، پلتفرمهای پردازش دادههای بزرگ و پایگاههای داده تخصصی NoSQL، نمودار، کلید-مقدار، سند و ستونی است. برای پشتیبانی از انبارداری و تجزیه و تحلیل داده در مقیاس بزرگ، پلتفرم هایی مانند Snowflake، Redshift، BigQuery، Vertica، و Greenplum وجود دارد. در نهایت، پلتفرمهای کلان داده، از جمله Spark و Hadoop وجود دارند.
شرکتهای بزرگ احتمالاً چندین مخزن داده دارند و از پلتفرمهای داده ابری مانند پلتفرم داده کلودرا یا پلتفرم داده MapR، یا پلتفرمهای هماهنگسازی دادهها مانند InfoWorks DataFoundy، تا همه آن مخازن را برای تجزیه و تحلیل در دسترس قرار دهید.
کلادهای عمومی اصلی، از جمله AWS، GCP، و Azure، همگی دارای پلتفرمها و سرویسهای مدیریت داده هستند که میتوان از آنها استفاده کرد. برای مثال، Azure Synapse Analytics انبار داده SQL مایکروسافت در فضای ابری است. ، در حالی که Azure Cosmos DB رابطهایی را برای بسیاری از فروشگاههای داده NoSQL فراهم میکند، از جمله Cassandra (داده های ستونی)، MongoDB (داده های کلید-مقدار و سند)، و Gremlin (داده های نمودار).
دریاچههای داده اسکلههای بارگیری محبوبی هستند که دادههای بدون ساختار را برای تجزیه و تحلیل سریع متمرکز میکنند، و میتوان از Azure Data Lake، Amazon S3 یا Google Cloud Storage برای این منظور استفاده کرد. برای پردازش کلان داده، ابرهای AWS، GCP و Azure همگی دارای Spark و Hadoop هستند.
پلتفرم های تجزیه و تحلیل یادگیری ماشین و همکاری را هدف قرار می دهند
با دادههای بارگیری، پاکسازی و ذخیرهسازی، دانشمندان و تحلیلگران داده میتوانند تجزیه و تحلیل و یادگیری ماشین را شروع کنند. سازمانها بسته به نوع تجزیه و تحلیل، مهارتهای تیم تحلیلی که کار را انجام میدهند و ساختار دادههای زیربنایی، گزینههای زیادی دارند.
تحلیلها را میتوان در ابزارهای تجسم دادههای خودسرویس مانند Tableau و Microsoft Power BI. هر دوی این ابزارها دانشمندان داده شهروندی را هدف قرار میدهند و تجسمها، محاسبات و تحلیلهای اولیه را در معرض نمایش قرار میدهند. این ابزارها از یکپارچهسازی دادههای اولیه و بازسازی داده پشتیبانی میکنند، اما بحث پیچیدهتر دادهها اغلب قبل از مراحل تجزیه و تحلیل اتفاق میافتد. Tableau Data Prep و Azure Data Factory ابزارهای همراه برای کمک به ادغام و تبدیل داده ها هستند.
تیم های تجزیه و تحلیل که می خواهند بیش از یکپارچه سازی داده ها و آماده سازی را خودکار کنند، می توانند به پلتفرم هایی مانند Alteryx Analytics مراجعه کنند. اتوماسیون فرآیند. این پلت فرم مشترک و سرتاسر، توسعه دهندگان، تحلیلگران، دانشمندان داده شهروندی و دانشمندان داده را با اتوماسیون گردش کار و پردازش داده های سلف سرویس، تجزیه و تحلیل و قابلیت های پردازش یادگیری ماشینی به هم متصل می کند.
Alan Jacobson، مدیر ارشد تجزیه و تحلیل و داده در Alteryx، توضیح می دهد: “ظهور اتوماسیون فرآیند تحلیلی (APA) به عنوان یک مقوله، بر انتظار جدیدی برای هر کارگر در یک سازمان به عنوان یک کارگر داده تاکید می کند. توسعه دهندگان فناوری اطلاعات نیز از این قاعده مستثنی نیستند و توسعه پذیری پلتفرم Alteryx APA به ویژه برای این کارکنان دانش مفید است.”
ابزارها و پلتفرمهای متعددی وجود دارد که دانشمندان داده را هدف قرار میدهند و هدف آنها افزایش بهرهوری با فناوریهایی مانند پایتون و R و در عین حال سادهسازی بسیاری از مراحل عملیاتی و زیرساختی است. به عنوان مثال، Databricks یک پلت فرم عملیاتی علم داده است که امکان استقرار الگوریتم ها را در Apache Spark فراهم می کند. و TensorFlow، در حالی که خوشههای محاسباتی را در ابر AWS یا Azure مدیریت میکنند.
اکنون برخی از پلتفرمها مانند SAS Viya آمادهسازی داده، تجزیه و تحلیل، پیشبینی، یادگیری ماشین، تجزیه و تحلیل متن، و مدیریت مدل یادگیری ماشین در یک پلتفرم مدلops واحد. SAS تحلیل های عملیاتی را انجام می دهد و دانشمندان داده، تحلیلگران کسب و کار، توسعه دهندگان و مدیران اجرایی با یک پلت فرم مشارکتی سرتاسر.
دیوید دولینگ، مدیر تحقیق و توسعه مدیریت تصمیم در SAS، میگوید: «ما مدلاپها را بهعنوان تمرین ایجاد یک خط لوله قابل تکرار و قابل ممیزی از عملیات برای استقرار تمام تحلیلها، از جمله مدلهای هوش مصنوعی و ML، در سیستمهای عملیاتی میبینیم. به عنوان بخشی از modelops، میتوانیم از شیوههای devops مدرن برای مدیریت کد، آزمایش و نظارت استفاده کنیم. این به بهبود فرکانس و قابلیت اطمینان استقرار مدل کمک میکند، که به نوبه خود چابکی فرآیندهای تجاری ساخته شده بر روی این مدلها را افزایش میدهد.”
Dataiku پلتفرم دیگری است که در تلاش است تا آماده سازی داده، تجزیه و تحلیل، و یادگیری ماشینی را به داده های در حال رشد بیاورد. تیم های علمی و همکاران آنها Dataiku یک مدل برنامه نویسی بصری برای فعال کردن نوت بوک های همکاری و کد برای توسعه دهندگان پیشرفته تر SQL و Python دارد.
سایر پلتفرمهای تحلیلی و یادگیری ماشینی از فروشندگان پیشرو نرمافزار سازمانی با هدف ارائه قابلیتهای تجزیه و تحلیل به مراکز داده و منابع داده ابری هستند. برای مثال، Oracle Analytics Cloud و SAP Analytics Cloud هر دو هدفشان متمرکز کردن اطلاعات و خودکارسازی اطلاعات بینش برای فعال کردن تصمیمگیریهای سرتاسر است.
انتخاب یک پلت فرم تجزیه و تحلیل داده
انتخاب ابزارهای یکپارچه سازی داده، انبارداری و تجزیه و تحلیل قبل از ظهور کلان داده، یادگیری ماشین و مدیریت داده ساده تر بود. امروزه ترکیبی از اصطلاحات، قابلیتهای پلتفرم، الزامات عملیاتی، نیازهای حاکمیتی و شخصیتهای هدفمند کاربر وجود دارد که انتخاب پلتفرمها را پیچیدهتر میکند، بهویژه از آنجایی که بسیاری از فروشندگان از پارادایمهای استفاده چندگانه پشتیبانی میکنند.
کسب و کارها در الزامات و نیازهای تجزیه و تحلیل متفاوت هستند، اما باید پلتفرم های جدیدی را از نقطه نظر آنچه در حال حاضر وجود دارد جستجو کنند. به عنوان مثال:
- شرکتهایی که در برنامههای علوم داده شهروندی موفق بودهاند و از قبل ابزارهای تجسم داده را در اختیار دارند، ممکن است بخواهند این برنامه را با فناوریهای خودکارسازی فرآیند تحلیل یا آمادهسازی داده گسترش دهند.
- شرکتهایی که خواهان یک زنجیره ابزار هستند که دانشمندان داده را قادر میسازد در بخشهای مختلف کسبوکار کار کنند، میتوانند پلتفرمهای تحلیلی سرتاسری با قابلیتهای modelops را در نظر بگیرند.
- سازمانهایی که دارای پلتفرمهای داده پشتیبان متعدد و متفاوت هستند، ممکن است از پلتفرمهای داده ابری برای فهرستنویسی و مدیریت مرکزی آنها بهره ببرند.
- شرکتهایی که تمام یا اکثر قابلیتهای داده را در یک فروشنده عمومی ابری استاندارد میکنند، باید پلتفرمهای ارائهشده یکپارچهسازی داده، مدیریت داده، و تجزیه و تحلیل دادهها را بررسی کنند.
با تبدیل شدن تجزیه و تحلیل و یادگیری ماشینی به یک شایستگی اصلی، فنآوران باید درک خود را از پلتفرمهای موجود و قابلیتهای آنها عمیقتر کنند. قدرت و ارزش پلتفرم های تحلیلی و همچنین نفوذ آنها در سراسر سازمان افزایش می یابد.
پست های مرتبط
نحوه انتخاب یک پلت فرم تجزیه و تحلیل داده و یادگیری ماشین
نحوه انتخاب یک پلت فرم تجزیه و تحلیل داده و یادگیری ماشین
نحوه انتخاب یک پلت فرم تجزیه و تحلیل داده و یادگیری ماشین