در حالی که رویکردها و قابلیتها متفاوت است، همه این پایگاههای داده به شما امکان میدهند مدلهای یادگیری ماشینی را دقیقاً در جایی که دادههای شما قرار دارند بسازید.
در مقاله اکتبر ۲۰۲۲ من، «نحوه انتخاب یک پلت فرم یادگیری ماشین ابری»، اولین دستورالعمل من برای انتخاب پلتفرم این بود: «به داده های خود نزدیک باشید». نگه داشتن کد در نزدیکی داده ها برای پایین نگه داشتن تاخیر ضروری است، زیرا سرعت نور سرعت انتقال را محدود می کند. به هر حال، یادگیری ماشین – به ویژه یادگیری عمیق – تمایل دارد همه دادههای شما را چندین بار مرور کند (هر بار دوره نامیده میشود).
مورد ایدهآل برای مجموعه دادههای بسیار بزرگ، ساخت مدلی است که دادهها قبلاً در آن قرار دارند، بهگونهای که نیازی به انتقال انبوه داده نباشد. چندین پایگاه داده به میزان محدودی از آن پشتیبانی می کنند. سوال طبیعی بعدی این است که کدام پایگاه داده از یادگیری ماشین داخلی پشتیبانی می کند و چگونه این کار را انجام می دهد؟ من در مورد آن پایگاههای داده به ترتیب حروف الفبا بحث خواهم کرد.
Amazon Redshift
Amazon Redshift یک سرویس انبار داده مدیریت شده در مقیاس پتابایت است که برای ساده و مقرون به صرفه کردن تجزیه و تحلیل همه داده های شما با استفاده از ابزارهای هوش تجاری موجود طراحی شده است. این برای مجموعه های داده از چند صد گیگابایت تا یک پتابایت یا بیشتر بهینه شده است و هزینه آن کمتر از ۱۰۰۰ دلار در هر ترابایت در سال است.
Amazon Redshift ML طراحی شده است تا کاربران SQL را آسان کند با استفاده از دستورات SQL مدل های یادگیری ماشینی را ایجاد، آموزش و استقرار دهید. دستور CREATE MODEL در Redshift SQL داده ها را برای استفاده برای آموزش و ستون هدف تعریف می کند، سپس داده ها را برای آموزش از طریق یک سطل رمزگذاری شده Amazon S3 در همان منطقه به Amazon SageMaker Autopilot می دهد.
بعد از آموزش AutoML، Redshift ML بهترین مدل را کامپایل می کند و آن را به عنوان یک تابع SQL پیش بینی در خوشه Redshift شما ثبت می کند. سپس میتوانید با فراخوانی تابع پیشبینی در داخل یک عبارت SELECT، مدل را برای استنتاج فراخوانی کنید.
خلاصه: Redshift ML از SageMaker Autopilot برای ایجاد خودکار مدلهای پیشبینی از دادههایی که از طریق یک دستور SQL تعیین میکنید، استفاده میکند که در یک سطل S3 استخراج میشود. بهترین تابع پیش بینی یافت شده در خوشه Redshift ثبت شده است.
BlazingSQL
BlazingSQL یک موتور SQL با شتاب GPU است که بر روی اکوسیستم RAPIDS به عنوان یک پروژه منبع باز و یک سرویس پولی وجود دارد. RAPIDS مجموعه ای از کتابخانه ها و API های نرم افزار منبع باز است که توسط Nvidia انکوبه شده است، که از CUDA استفاده می کند و بر اساس فرمت حافظه ستونی Apache Arrow است. CuDF، بخشی از RAPIDS، یک کتابخانه GPU DataFrame شبیه پانداها برای بارگیری، پیوستن، جمعآوری، فیلتر کردن و دستکاری دادهها است.
Dask یک ابزار منبع باز است که میتواند بستههای پایتون را به چندین ماشین تبدیل کند. Dask می تواند داده ها و محاسبات را بر روی چندین GPU توزیع کند، چه در یک سیستم یا در یک خوشه چند گره. Dask با RAPIDS cuDF، XGBoost، و RAPIDS cuML ادغام میشود تا تجزیه و تحلیل دادهها و یادگیری ماشین با شتاب GPU.
خلاصه: BlazingSQL میتواند پرسوجوهای با شتاب GPU را روی دریاچههای داده در آمازون S3 اجرا کند، DataFrameهای حاصل را برای دستکاری دادهها به cuDF ارسال کند، و در نهایت یادگیری ماشین را با RAPIDS XGBoost و cuML و یادگیری عمیق با PyTorch و TensorFlow انجام دهد. p>
Brytlyt
Brytlyt یک پلت فرم مبتنی بر مرورگر است که هوش مصنوعی درون پایگاه داده را با قابلیتهای یادگیری عمیق فعال میکند. Brytlyt یک پایگاه داده PostgreSQL، PyTorch، Jupyter Notebooks، Scikit-learn، NumPy، Pandas و MLflow را در یک پلتفرم واحد بدون سرور ترکیب می کند که به عنوان سه محصول با شتاب GPU عمل می کند: یک پایگاه داده، یک ابزار تجسم داده، و یک ابزار علم داده که از آن استفاده می کند. نوت بوک.
Brytlyt با هر محصولی که دارای کانکتور PostgreSQL است، از جمله ابزارهای BI مانند Tableau و Python متصل می شود. این برنامه از بارگیری و جذب داده از فایل های داده خارجی مانند CSV و از منابع داده خارجی SQL پشتیبانی می کند که توسط بسته های داده خارجی PostgreSQL (FDWs) پشتیبانی می شود. مورد دوم شامل Snowflake، Microsoft SQL Server، Google Cloud BigQuery، Databricks، Amazon Redshift و Amazon Athena است.
به عنوان یک پایگاه داده GPU با پردازش موازی اتصالات، Brytlyt می تواند میلیاردها ردیف داده را در چند ثانیه پردازش کند. Brytlyt در ارتباطات راه دور، خرده فروشی، نفت و گاز، امور مالی، تدارکات و DNA و ژنومیک کاربرد دارد.
خلاصه: با PyTorch و Scikit-learn یکپارچه، Brytlyt میتواند هم از یادگیری عمیق و هم از مدلهای یادگیری ماشینی ساده که به صورت داخلی در برابر دادههایش اجرا میشوند، پشتیبانی کند. پشتیبانی از GPU و پردازش موازی به این معنی است که همه عملیات ها نسبتا سریع هستند، اگرچه آموزش مدل های یادگیری عمیق پیچیده در برابر میلیاردها ردیف البته مدتی طول خواهد کشید.
Google Cloud BigQuery
BigQuery انبار داده مدیریت شده و در مقیاس پتابایتی Google Cloud است که به شما امکان میدهد تجزیه و تحلیلها را روی حجم وسیعی از دادهها در زمان واقعی انجام دهید. BigQuery ML به شما امکان میدهد مدلهای یادگیری ماشینی را در BigQuery با استفاده از جستارهای SQL ایجاد و اجرا کنید.< /p>
BigQuery ML از رگرسیون خطی برای پیش بینی پشتیبانی می کند. رگرسیون لجستیک باینری و چند کلاسه برای طبقه بندی. K-means خوشه بندی برای تقسیم بندی داده ها. فاکتورسازی ماتریس برای ایجاد سیستم های توصیه محصول. سری زمانی برای انجام پیشبینیهای سری زمانی، از جمله ناهنجاریها، فصلی بودن و تعطیلات؛ طبقه بندی XGBoost و مدل های رگرسیون؛ شبکههای عصبی عمیق مبتنی بر TensorFlow برای مدلهای طبقهبندی و رگرسیون؛ جداول AutoML; و وارد کردن مدل TensorFlow. میتوانید از یک مدل با دادههای چند مجموعه داده BigQuery برای آموزش و برای پیشبینی استفاده کنید. BigQuery ML داده ها را از انبار داده استخراج نمی کند. میتوانید با استفاده از عبارت TRANSFORM در عبارت CREATE MODEL، مهندسی ویژگی را با BigQuery ML انجام دهید.
خلاصه: BigQuery ML بسیاری از قدرت Google Cloud Machine Learning را با دستور SQL به انبار داده BigQuery میآورد، بدون اینکه دادهها را از انبار داده استخراج کند.
انبار IBM Db2
IBM Db2 Warehouse on Cloud یک سرویس ابری عمومی مدیریت شده است. همچنین می توانید IBM Db2 Warehouse را در محل با سخت افزار خود یا در یک ابر خصوصی راه اندازی کنید. به عنوان یک انبار داده، شامل ویژگی هایی مانند پردازش داده های درون حافظه و جداول ستونی برای پردازش تحلیلی آنلاین است. فنآوری Netezza مجموعهای قوی از تجزیه و تحلیلها را ارائه میکند که برای رساندن پرس و جو به دادهها طراحی شدهاند. طیف وسیعی از کتابخانه ها و عملکردها به شما کمک می کند تا به بینش دقیق مورد نیاز خود برسید.
Db2 Warehouse از یادگیری ماشینی درون پایگاه داده در Python، R و SQL پشتیبانی می کند. ماژول IDAX شامل رویه های ذخیره شده تحلیلی، از جمله تجزیه و تحلیل واریانس، قوانین ارتباط، تبدیل داده ها، درخت های تصمیم، اقدامات تشخیصی، گسسته سازی و لحظه ها، خوشه بندی K-means، k-نزدیک ترین همسایگان، رگرسیون خطی، مدیریت ابرداده، طبقه بندی ساده بیز، اصلی است. تجزیه و تحلیل مؤلفه ها، توزیع های احتمال، نمونه گیری تصادفی، درخت های رگرسیون، الگوها و قوانین ترتیبی، و آمار پارامتریک و ناپارامتریک.
خلاصه: IBM Db2 Warehouse شامل مجموعه گستردهای از تجزیه و تحلیلهای SQL درون پایگاه داده است که شامل برخی از عملکردهای اساسی یادگیری ماشین، بهعلاوه پشتیبانی درون پایگاه داده برای R و Python است.
Kinetica
Kinetica Streaming Data Warehouse تجزیه و تحلیل داده های تاریخی و جریانی را با هوش مکانی و هوش مصنوعی در یک پلتفرم واحد که همه از طریق API و SQL قابل دسترسی هستند. Kinetica یک پایگاه داده بسیار سریع، توزیع شده، ستونی، حافظه اول، پایگاه داده با شتاب GPU با قابلیت فیلتر، تجسم، و تجمیع است.
Kinetica مدلها و الگوریتمهای یادگیری ماشین را با دادههای شما یکپارچه میکند تا تجزیه و تحلیل پیشبینیکننده همزمان در مقیاس باشد. این به شما امکان می دهد خطوط لوله داده و چرخه عمر تجزیه و تحلیل، مدل های یادگیری ماشین و مهندسی داده خود را ساده کنید و ویژگی ها را با جریان محاسبه کنید. Kinetica یک راه حل کامل چرخه عمر برای یادگیری ماشینی ارائه می دهد که توسط GPU ها تسریع شده است: نوت بوک های مدیریت شده Jupyter، آموزش مدل از طریق RAPIDS، و استقرار خودکار مدل و استنتاج در پلت فرم Kinetica.
خلاصه: Kinetica یک راهحل کامل چرخه حیات درون پایگاه داده برای یادگیری ماشینی که توسط GPUها تسریع میشود، ارائه میکند و میتواند ویژگیها را از دادههای جریانی محاسبه کند.
مایکروسافت SQL Server
خدمات یادگیری ماشین سرور SQL مایکروسافت از R، Python، Java، دستور PREDICT T-SQL، و رویه ذخیره شده rx_Predict در RDBMS SQL Server و SparkML در خوشه های کلان داده سرور SQL. در زبانهای R و Python، مایکروسافت شامل چندین بسته و کتابخانه برای یادگیری ماشین است. شما می توانید مدل های آموزش دیده خود را در پایگاه داده یا خارجی ذخیره کنید. Azure SQL Managed Instance از خدمات یادگیری ماشین برای Python و R به عنوان پیش نمایش پشتیبانی می کند.
Microsoft R دارای برنامههای افزودنی است که به آن امکان پردازش دادهها از روی دیسک و همچنین حافظه را میدهد. SQL Server یک چارچوب پسوندی را فراهم می کند تا کدهای R، Python و Java بتوانند از داده ها و توابع SQL Server استفاده کنند. SQL Server Big Data Cluster ها SQL Server، Spark و HDFS را در Kubernetes اجرا می کنند. وقتی SQL Server کد پایتون را فراخوانی میکند، به نوبه خود میتواند آزور ماشین یادگیری را فراخوانی کند و مدل حاصل را برای استفاده در پیشبینیها در پایگاه داده ذخیره کند.
خلاصه: نسخههای فعلی SQL Server میتوانند مدلهای یادگیری ماشین را در چندین زبان برنامهنویسی آموزش داده و استنباط کنند.
پایگاه داده Oracle
Oracle Cloud Infrastructure (OCI) علم داده یک پلتفرم مدیریتشده و بدون سرور برای تیمهای علم داده برای ساخت، آموزش و مدیریت مدلهای یادگیری ماشینی با استفاده از زیرساخت ابری اوراکل، از جمله پایگاه داده خودکار اوراکل و انبار داده خودکار اوراکل. این شامل ابزارها، کتابخانهها و بستههای پایتون محور است که توسط جامعه منبع باز و کتابخانه Oracle Accelerated Data Science (ADS) توسعه یافتهاند که از چرخه عمر سرتاسر مدلهای پیشبینی پشتیبانی میکند:
- اکتساب داده، نمایه سازی، آماده سازی و تجسم
- مهندسی ویژگی
- آموزش مدل (از جمله Oracle AutoML)
- ارزیابی، توضیح و تفسیر مدل (از جمله Oracle MLX)
- استقرار مدل در توابع Oracle
OCI Data Science با بقیه پشته Oracle Cloud Infrastructure، از جمله توابع، جریان داده، انبار داده مستقل، و ذخیرهسازی اشیا ادغام میشود.
مدل هایی که در حال حاضر پشتیبانی می شوند عبارتند از:
ADS همچنین از قابلیت توضیح یادگیری ماشین (MLX) پشتیبانی میکند.
خلاصه: Oracle Cloud Infrastructure میتواند میزبان منابع علم داده باشد که با انبار داده، ذخیره اشیاء و توابع خود یکپارچه شده است و امکان چرخه عمر توسعه مدل کامل را فراهم میکند.
Vertica
پلتفرم تجزیه و تحلیل Vertica یک انبار داده ذخیره سازی ستونی مقیاس پذیر است. این در دو حالت اجرا می شود: Enterprise که داده ها را به صورت محلی در سیستم فایل گره هایی که پایگاه داده را تشکیل می دهند ذخیره می کند و EON که داده ها را به صورت مشترک برای همه گره های محاسباتی ذخیره می کند.
Vertica از پردازش موازی انبوه برای مدیریت پتابایت داده استفاده می کند و یادگیری ماشین داخلی خود را با موازی سازی داده ها انجام می دهد. دارای هشت الگوریتم داخلی برای آمادهسازی داده، سه الگوریتم رگرسیون، چهار الگوریتم طبقهبندی، دو الگوریتم خوشهبندی، چندین عملکرد مدیریت مدل، و توانایی وارد کردن مدلهای TensorFlow و PMML که در جاهای دیگر آموزش دیدهاند. هنگامی که یک مدل را مناسب یا وارد کردید، می توانید از آن برای پیش بینی استفاده کنید. Vertica همچنین به برنامههای افزودنی تعریفشده توسط کاربر اجازه میدهد که در C++، Java، Python یا R برنامهریزی شدهاند. شما از نحو SQL هم برای آموزش و هم برای استنتاج استفاده میکنید.
خلاصه: Vertica دارای مجموعهای از الگوریتمهای یادگیری ماشین داخلی است و میتواند مدلهای TensorFlow و PMML را وارد کند. میتواند از مدلهای وارداتی و همچنین مدلهای خودش پیشبینی کند.
MindsDB
اگر پایگاه داده شما قبلاً از یادگیری ماشین داخلی پشتیبانی نمیکند، احتمالاً میتوانید این قابلیت را با استفاده از MindsDB اضافه کنید، که با نیم دوجین پایگاه داده و پنج ابزار BI ادغام می شود. پایگاههای داده پشتیبانیشده شامل MariaDB، MySQL، PostgreSQL، ClickHouse، Microsoft SQL Server، و Snowflake، با ادغام MongoDB در حال کار و ادغام با پایگاههای داده جریانی که بعداً در سال ۲۰۲۱ وعده داده شد. ابزارهای پشتیبانی شده BI در حال حاضر شامل SAS، Qlik Sense، Microsoft Power BI، Looker هستند. و Domo.
MindsDB دارای AutoML، جداول هوش مصنوعی و هوش مصنوعی قابل توضیح (XAI) است. میتوانید آموزش AutoML را از MindsDB Studio، از دستور SQL INSERT یا از یک فراخوانی Python API فراخوانی کنید. آموزش میتواند به صورت اختیاری از پردازندههای گرافیکی استفاده کند، و بهصورت اختیاری میتواند یک مدل سری زمانی ایجاد کند.
میتوانید مدل را بهعنوان جدول پایگاه داده ذخیره کنید، و آن را از یک دستور SQL SELECT در مقابل مدل ذخیرهشده، از MindsDB Studio یا از فراخوانی Python API فراخوانی کنید. میتوانید کیفیت مدل را از MindsDB Studio ارزیابی، توضیح و تجسم کنید.
همچنین می توانید MindsDB Studio و Python API را به منابع داده محلی و راه دور متصل کنید. MindsDB علاوه بر این یک چارچوب یادگیری عمیق ساده شده به نام Lightwood را ارائه می دهد که روی PyTorch اجرا می شود.
خلاصه: MindsDB قابلیتهای یادگیری ماشینی مفیدی را به تعدادی پایگاه داده که فاقد پشتیبانی داخلی برای یادگیری ماشین هستند، میآورد.
تعداد فزاینده ای از پایگاه های داده از انجام یادگیری ماشینی به صورت داخلی پشتیبانی می کنند. مکانیسم دقیق متفاوت است و برخی از آنها توانایی بیشتری نسبت به دیگران دارند. اگر دادههای زیادی دارید که در غیر این صورت مجبور خواهید بود مدلهایی را در زیر مجموعه نمونهبرداری شده جاسازی کنید، هر یک از هشت پایگاه داده ذکر شده در بالا – و سایر پایگاههای داده با کمک MindsDB – ممکن است به شما کمک کند تا مدلهایی را از مجموعه دادههای کامل بسازید. تحمیل سربار جدی برای صادرات داده.
پست های مرتبط
۱۰ پایگاه داده که از یادگیری ماشینی درون پایگاه داده پشتیبانی می کنند
۱۰ پایگاه داده که از یادگیری ماشینی درون پایگاه داده پشتیبانی می کنند
۱۰ پایگاه داده که از یادگیری ماشینی درون پایگاه داده پشتیبانی می کنند