۲۹ شهریور ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

۱۰ پایگاه داده که از یادگیری ماشینی درون پایگاه داده پشتیبانی می کنند

در حالی که رویکردها و قابلیت‌ها متفاوت است، همه این پایگاه‌های داده به شما امکان می‌دهند مدل‌های یادگیری ماشینی را دقیقاً در جایی که داده‌های شما قرار دارند بسازید.

در حالی که رویکردها و قابلیت‌ها متفاوت است، همه این پایگاه‌های داده به شما امکان می‌دهند مدل‌های یادگیری ماشینی را دقیقاً در جایی که داده‌های شما قرار دارند بسازید.

در مقاله اکتبر ۲۰۲۲ من، «نحوه انتخاب یک پلت فرم یادگیری ماشین ابری»، اولین دستورالعمل من برای انتخاب پلتفرم این بود: «به داده های خود نزدیک باشید». نگه داشتن کد در نزدیکی داده ها برای پایین نگه داشتن تاخیر ضروری است، زیرا سرعت نور سرعت انتقال را محدود می کند. به هر حال، یادگیری ماشین – به ویژه یادگیری عمیق – تمایل دارد همه داده‌های شما را چندین بار مرور کند (هر بار دوره نامیده می‌شود).

مورد ایده‌آل برای مجموعه داده‌های بسیار بزرگ، ساخت مدلی است که داده‌ها قبلاً در آن قرار دارند، به‌گونه‌ای که نیازی به انتقال انبوه داده نباشد. چندین پایگاه داده به میزان محدودی از آن پشتیبانی می کنند. سوال طبیعی بعدی این است که کدام پایگاه داده از یادگیری ماشین داخلی پشتیبانی می کند و چگونه این کار را انجام می دهد؟ من در مورد آن پایگاه‌های داده به ترتیب حروف الفبا بحث خواهم کرد.

Amazon Redshift

Amazon Redshift یک سرویس انبار داده مدیریت شده در مقیاس پتابایت است که برای ساده و مقرون به صرفه کردن تجزیه و تحلیل همه داده های شما با استفاده از ابزارهای هوش تجاری موجود طراحی شده است. این برای مجموعه های داده از چند صد گیگابایت تا یک پتابایت یا بیشتر بهینه شده است و هزینه آن کمتر از ۱۰۰۰ دلار در هر ترابایت در سال است.

Amazon Redshift ML طراحی شده است تا کاربران SQL را آسان کند با استفاده از دستورات SQL مدل های یادگیری ماشینی را ایجاد، آموزش و استقرار دهید. دستور CREATE MODEL در Redshift SQL داده ها را برای استفاده برای آموزش و ستون هدف تعریف می کند، سپس داده ها را برای آموزش از طریق یک سطل رمزگذاری شده Amazon S3 در همان منطقه به Amazon SageMaker Autopilot می دهد.

بعد از آموزش AutoML، Redshift ML بهترین مدل را کامپایل می کند و آن را به عنوان یک تابع SQL پیش بینی در خوشه Redshift شما ثبت می کند. سپس می‌توانید با فراخوانی تابع پیش‌بینی در داخل یک عبارت SELECT، مدل را برای استنتاج فراخوانی کنید.

خلاصه: Redshift ML از SageMaker Autopilot برای ایجاد خودکار مدل‌های پیش‌بینی از داده‌هایی که از طریق یک دستور SQL تعیین می‌کنید، استفاده می‌کند که در یک سطل S3 استخراج می‌شود. بهترین تابع پیش بینی یافت شده در خوشه Redshift ثبت شده است.

BlazingSQL

BlazingSQL یک موتور SQL با شتاب GPU است که بر روی اکوسیستم RAPIDS به عنوان یک پروژه منبع باز و یک سرویس پولی وجود دارد. RAPIDS مجموعه ای از کتابخانه ها و API های نرم افزار منبع باز است که توسط Nvidia انکوبه شده است، که از CUDA استفاده می کند و بر اساس فرمت حافظه ستونی Apache Arrow است. CuDF، بخشی از RAPIDS، یک کتابخانه GPU DataFrame شبیه پانداها برای بارگیری، پیوستن، جمع‌آوری، فیلتر کردن و دستکاری داده‌ها است.

Dask یک ابزار منبع باز است که می‌تواند بسته‌های پایتون را به چندین ماشین تبدیل کند. Dask می تواند داده ها و محاسبات را بر روی چندین GPU توزیع کند، چه در یک سیستم یا در یک خوشه چند گره. Dask با RAPIDS cuDF، XGBoost، و RAPIDS cuML ادغام می‌شود تا تجزیه و تحلیل داده‌ها و یادگیری ماشین با شتاب GPU.

خلاصه: BlazingSQL می‌تواند پرس‌و‌جوهای با شتاب GPU را روی دریاچه‌های داده در آمازون S3 اجرا کند، DataFrame‌های حاصل را برای دستکاری داده‌ها به cuDF ارسال کند، و در نهایت یادگیری ماشین را با RAPIDS XGBoost و cuML و یادگیری عمیق با PyTorch و TensorFlow انجام دهد.

آنچه کاربران SQL باید در مورد داده های سری زمانی بدانند

Brytlyt

Brytlyt یک پلت فرم مبتنی بر مرورگر است که هوش مصنوعی درون پایگاه داده را با قابلیت‌های یادگیری عمیق فعال می‌کند. Brytlyt یک پایگاه داده PostgreSQL، PyTorch، Jupyter Notebooks، Scikit-learn، NumPy، Pandas و MLflow را در یک پلتفرم واحد بدون سرور ترکیب می کند که به عنوان سه محصول با شتاب GPU عمل می کند: یک پایگاه داده، یک ابزار تجسم داده، و یک ابزار علم داده که از آن استفاده می کند. نوت بوک.

Brytlyt با هر محصولی که دارای کانکتور PostgreSQL است، از جمله ابزارهای BI مانند Tableau و Python متصل می شود. این برنامه از بارگیری و جذب داده از فایل های داده خارجی مانند CSV و از منابع داده خارجی SQL پشتیبانی می کند که توسط بسته های داده خارجی PostgreSQL (FDWs) پشتیبانی می شود. مورد دوم شامل Snowflake، Microsoft SQL Server، Google Cloud BigQuery، Databricks، Amazon Redshift و Amazon Athena است.

به عنوان یک پایگاه داده GPU با پردازش موازی اتصالات، Brytlyt می تواند میلیاردها ردیف داده را در چند ثانیه پردازش کند. Brytlyt در ارتباطات راه دور، خرده فروشی، نفت و گاز، امور مالی، تدارکات و DNA و ژنومیک کاربرد دارد.

خلاصه: با PyTorch و Scikit-learn یکپارچه، Brytlyt می‌تواند هم از یادگیری عمیق و هم از مدل‌های یادگیری ماشینی ساده که به صورت داخلی در برابر داده‌هایش اجرا می‌شوند، پشتیبانی کند. پشتیبانی از GPU و پردازش موازی به این معنی است که همه عملیات ها نسبتا سریع هستند، اگرچه آموزش مدل های یادگیری عمیق پیچیده در برابر میلیاردها ردیف البته مدتی طول خواهد کشید.

Google Cloud BigQuery

BigQuery انبار داده مدیریت شده و در مقیاس پتابایتی Google Cloud است که به شما امکان می‌دهد تجزیه و تحلیل‌ها را روی حجم وسیعی از داده‌ها در زمان واقعی انجام دهید. BigQuery ML به شما امکان می‌دهد مدل‌های یادگیری ماشینی را در BigQuery با استفاده از جستارهای SQL ایجاد و اجرا کنید.< /p>

BigQuery ML از رگرسیون خطی برای پیش بینی پشتیبانی می کند. رگرسیون لجستیک باینری و چند کلاسه برای طبقه بندی. K-means خوشه بندی برای تقسیم بندی داده ها. فاکتورسازی ماتریس برای ایجاد سیستم های توصیه محصول. سری زمانی برای انجام پیش‌بینی‌های سری زمانی، از جمله ناهنجاری‌ها، فصلی بودن و تعطیلات؛ طبقه بندی XGBoost و مدل های رگرسیون؛ شبکه‌های عصبی عمیق مبتنی بر TensorFlow برای مدل‌های طبقه‌بندی و رگرسیون؛ جداول AutoML; و وارد کردن مدل TensorFlow. می‌توانید از یک مدل با داده‌های چند مجموعه داده BigQuery برای آموزش و برای پیش‌بینی استفاده کنید. BigQuery ML داده ها را از انبار داده استخراج نمی کند. می‌توانید با استفاده از عبارت TRANSFORM در عبارت CREATE MODEL، مهندسی ویژگی را با BigQuery ML انجام دهید.

خلاصه: BigQuery ML بسیاری از قدرت Google Cloud Machine Learning را با دستور SQL به انبار داده BigQuery می‌آورد، بدون اینکه داده‌ها را از انبار داده استخراج کند.

انبار IBM Db2

IBM Db2 Warehouse on Cloud یک سرویس ابری عمومی مدیریت شده است. همچنین می توانید IBM Db2 Warehouse را در محل با سخت افزار خود یا در یک ابر خصوصی راه اندازی کنید. به عنوان یک انبار داده، شامل ویژگی هایی مانند پردازش داده های درون حافظه و جداول ستونی برای پردازش تحلیلی آنلاین است. فن‌آوری Netezza مجموعه‌ای قوی از تجزیه و تحلیل‌ها را ارائه می‌کند که برای رساندن پرس و جو به داده‌ها طراحی شده‌اند. طیف وسیعی از کتابخانه ها و عملکردها به شما کمک می کند تا به بینش دقیق مورد نیاز خود برسید.

Db2 Warehouse از یادگیری ماشینی درون پایگاه داده در Python، R و SQL پشتیبانی می کند. ماژول IDAX شامل رویه های ذخیره شده تحلیلی، از جمله تجزیه و تحلیل واریانس، قوانین ارتباط، تبدیل داده ها، درخت های تصمیم، اقدامات تشخیصی، گسسته سازی و لحظه ها، خوشه بندی K-means، k-نزدیک ترین همسایگان، رگرسیون خطی، مدیریت ابرداده، طبقه بندی ساده بیز، اصلی است. تجزیه و تحلیل مؤلفه ها، توزیع های احتمال، نمونه گیری تصادفی، درخت های رگرسیون، الگوها و قوانین ترتیبی، و آمار پارامتریک و ناپارامتریک.

چگونه والمارت ابر ترکیبی خود را برای توسعه دهندگان انتزاعی می کند

خلاصه: IBM Db2 Warehouse شامل مجموعه گسترده‌ای از تجزیه و تحلیل‌های SQL درون پایگاه داده است که شامل برخی از عملکردهای اساسی یادگیری ماشین، به‌علاوه پشتیبانی درون پایگاه داده برای R و Python است.

Kinetica

Kinetica Streaming Data Warehouse تجزیه و تحلیل داده های تاریخی و جریانی را با هوش مکانی و هوش مصنوعی در یک پلتفرم واحد که همه از طریق API و SQL قابل دسترسی هستند. Kinetica یک پایگاه داده بسیار سریع، توزیع شده، ستونی، حافظه اول، پایگاه داده با شتاب GPU با قابلیت فیلتر، تجسم، و تجمیع است.

Kinetica مدل‌ها و الگوریتم‌های یادگیری ماشین را با داده‌های شما یکپارچه می‌کند تا تجزیه و تحلیل پیش‌بینی‌کننده هم‌زمان در مقیاس باشد. این به شما امکان می دهد خطوط لوله داده و چرخه عمر تجزیه و تحلیل، مدل های یادگیری ماشین و مهندسی داده خود را ساده کنید و ویژگی ها را با جریان محاسبه کنید. Kinetica یک راه حل کامل چرخه عمر برای یادگیری ماشینی ارائه می دهد که توسط GPU ها تسریع شده است: نوت بوک های مدیریت شده Jupyter، آموزش مدل از طریق RAPIDS، و استقرار خودکار مدل و استنتاج در پلت فرم Kinetica.

خلاصه: Kinetica یک راه‌حل کامل چرخه حیات درون پایگاه داده برای یادگیری ماشینی که توسط GPUها تسریع می‌شود، ارائه می‌کند و می‌تواند ویژگی‌ها را از داده‌های جریانی محاسبه کند.

مایکروسافت SQL Server

خدمات یادگیری ماشین سرور SQL مایکروسافت از R، Python، Java، دستور PREDICT T-SQL، و رویه ذخیره شده rx_Predict در RDBMS SQL Server و SparkML در خوشه های کلان داده سرور SQL. در زبان‌های R و Python، مایکروسافت شامل چندین بسته و کتابخانه برای یادگیری ماشین است. شما می توانید مدل های آموزش دیده خود را در پایگاه داده یا خارجی ذخیره کنید. Azure SQL Managed Instance از خدمات یادگیری ماشین برای Python و R به عنوان پیش نمایش پشتیبانی می کند.

Microsoft R دارای برنامه‌های افزودنی است که به آن امکان پردازش داده‌ها از روی دیسک و همچنین حافظه را می‌دهد. SQL Server یک چارچوب پسوندی را فراهم می کند تا کدهای R، Python و Java بتوانند از داده ها و توابع SQL Server استفاده کنند. SQL Server Big Data Cluster ها SQL Server، Spark و HDFS را در Kubernetes اجرا می کنند. وقتی SQL Server کد پایتون را فراخوانی می‌کند، به نوبه خود می‌تواند آزور ماشین یادگیری را فراخوانی کند و مدل حاصل را برای استفاده در پیش‌بینی‌ها در پایگاه داده ذخیره کند.

خلاصه: نسخه‌های فعلی SQL Server می‌توانند مدل‌های یادگیری ماشین را در چندین زبان برنامه‌نویسی آموزش داده و استنباط کنند.

پایگاه داده Oracle

Oracle Cloud Infrastructure (OCI) علم داده یک پلتفرم مدیریت‌شده و بدون سرور برای تیم‌های علم داده برای ساخت، آموزش و مدیریت مدل‌های یادگیری ماشینی با استفاده از زیرساخت ابری اوراکل، از جمله پایگاه داده خودکار اوراکل و انبار داده خودکار اوراکل. این شامل ابزارها، کتابخانه‌ها و بسته‌های پایتون محور است که توسط جامعه منبع باز و کتابخانه Oracle Accelerated Data Science (ADS) توسعه یافته‌اند که از چرخه عمر سرتاسر مدل‌های پیش‌بینی پشتیبانی می‌کند:

  • اکتساب داده، نمایه سازی، آماده سازی و تجسم
  • مهندسی ویژگی
  • آموزش مدل (از جمله Oracle AutoML)
  • ارزیابی، توضیح و تفسیر مدل (از جمله Oracle MLX)
  • استقرار مدل در توابع Oracle

OCI Data Science با بقیه پشته Oracle Cloud Infrastructure، از جمله توابع، جریان داده، انبار داده مستقل، و ذخیره‌سازی اشیا ادغام می‌شود.

مدل هایی که در حال حاضر پشتیبانی می شوند عبارتند از:

ADS همچنین از قابلیت توضیح یادگیری ماشین (MLX) پشتیبانی می‌کند.

خلاصه: Oracle Cloud Infrastructure می‌تواند میزبان منابع علم داده باشد که با انبار داده، ذخیره اشیاء و توابع خود یکپارچه شده است و امکان چرخه عمر توسعه مدل کامل را فراهم می‌کند.

Vertica

پلتفرم تجزیه و تحلیل Vertica یک انبار داده ذخیره سازی ستونی مقیاس پذیر است. این در دو حالت اجرا می شود: Enterprise که داده ها را به صورت محلی در سیستم فایل گره هایی که پایگاه داده را تشکیل می دهند ذخیره می کند و EON که داده ها را به صورت مشترک برای همه گره های محاسباتی ذخیره می کند.

Vertica از پردازش موازی انبوه برای مدیریت پتابایت داده استفاده می کند و یادگیری ماشین داخلی خود را با موازی سازی داده ها انجام می دهد. دارای هشت الگوریتم داخلی برای آماده‌سازی داده، سه الگوریتم رگرسیون، چهار الگوریتم طبقه‌بندی، دو الگوریتم خوشه‌بندی، چندین عملکرد مدیریت مدل، و توانایی وارد کردن مدل‌های TensorFlow و PMML که در جاهای دیگر آموزش دیده‌اند. هنگامی که یک مدل را مناسب یا وارد کردید، می توانید از آن برای پیش بینی استفاده کنید. Vertica همچنین به برنامه‌های افزودنی تعریف‌شده توسط کاربر اجازه می‌دهد که در C++، Java، Python یا R برنامه‌ریزی شده‌اند. شما از نحو SQL هم برای آموزش و هم برای استنتاج استفاده می‌کنید.

خلاصه: Vertica دارای مجموعه‌ای از الگوریتم‌های یادگیری ماشین داخلی است و می‌تواند مدل‌های TensorFlow و PMML را وارد کند. می‌تواند از مدل‌های وارداتی و همچنین مدل‌های خودش پیش‌بینی کند.

MindsDB

اگر پایگاه داده شما قبلاً از یادگیری ماشین داخلی پشتیبانی نمی‌کند، احتمالاً می‌توانید این قابلیت را با استفاده از MindsDB اضافه کنید، که با نیم دوجین پایگاه داده و پنج ابزار BI ادغام می شود. پایگاه‌های داده پشتیبانی‌شده شامل MariaDB، MySQL، PostgreSQL، ClickHouse، Microsoft SQL Server، و Snowflake، با ادغام MongoDB در حال کار و ادغام با پایگاه‌های داده جریانی که بعداً در سال ۲۰۲۱ وعده داده شد. ابزارهای پشتیبانی شده BI در حال حاضر شامل SAS، Qlik Sense، Microsoft Power BI، Looker هستند. و Domo.

MindsDB دارای AutoML، جداول هوش مصنوعی و هوش مصنوعی قابل توضیح (XAI) است. می‌توانید آموزش AutoML را از MindsDB Studio، از دستور SQL INSERT یا از یک فراخوانی Python API فراخوانی کنید. آموزش می‌تواند به صورت اختیاری از پردازنده‌های گرافیکی استفاده کند، و به‌صورت اختیاری می‌تواند یک مدل سری زمانی ایجاد کند.

می‌توانید مدل را به‌عنوان جدول پایگاه داده ذخیره کنید، و آن را از یک دستور SQL SELECT در مقابل مدل ذخیره‌شده، از MindsDB Studio یا از فراخوانی Python API فراخوانی کنید. می‌توانید کیفیت مدل را از MindsDB Studio ارزیابی، توضیح و تجسم کنید.

همچنین می توانید MindsDB Studio و Python API را به منابع داده محلی و راه دور متصل کنید. MindsDB علاوه بر این یک چارچوب یادگیری عمیق ساده شده به نام Lightwood را ارائه می دهد که روی PyTorch اجرا می شود.

خلاصه: MindsDB قابلیت‌های یادگیری ماشینی مفیدی را به تعدادی پایگاه داده که فاقد پشتیبانی داخلی برای یادگیری ماشین هستند، می‌آورد.

تعداد فزاینده ای از پایگاه های داده از انجام یادگیری ماشینی به صورت داخلی پشتیبانی می کنند. مکانیسم دقیق متفاوت است و برخی از آنها توانایی بیشتری نسبت به دیگران دارند. اگر داده‌های زیادی دارید که در غیر این صورت مجبور خواهید بود مدل‌هایی را در زیر مجموعه نمونه‌برداری شده جاسازی کنید، هر یک از هشت پایگاه داده ذکر شده در بالا – و سایر پایگاه‌های داده با کمک MindsDB – ممکن است به شما کمک کند تا مدل‌هایی را از مجموعه داده‌های کامل بسازید. تحمیل سربار جدی برای صادرات داده.