۱ دی ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

حل مسائل پیچیده با پایگاه داده برداری

پایگاه‌های داده برداری، بینش‌های مدفون در داده‌های پیچیده از جمله اسناد، فیلم‌ها، تصاویر، فایل‌های صوتی، گردش کار، و هشدارهای تولید شده توسط سیستم را باز می‌کنند. در اینجا نحوه

پایگاه‌های داده برداری، بینش‌های مدفون در داده‌های پیچیده از جمله اسناد، فیلم‌ها، تصاویر، فایل‌های صوتی، گردش کار، و هشدارهای تولید شده توسط سیستم را باز می‌کنند. در اینجا نحوه

دنیای داده‌ها به سرعت در اطراف ما در حال تغییر است، با این حال بسیاری از شرکت‌ها به آرامی به روندها واکنش نشان می‌دهند. کارشناسان پیش بینی می کنند که تا سال ۲۰۲۵، ۸۰٪ یا بیشتر از همه داده ها بدون ساختار خواهند بود، اما نظرسنجی Deloitte نشان می‌دهد که تنها ۱۸ درصد از سازمان‌ها برای تجزیه و تحلیل داده‌های بدون ساختار آماده هستند. این بدان معناست که اکثریت قریب به اتفاق شرکت‌ها نمی‌توانند از بخش بهتری از داده‌های در اختیارشان استفاده کنند و همه اینها به داشتن ابزار مناسب برمی‌گردد.

بسیاری از این داده ها نسبتاً ساده هستند. کلمات کلیدی، معیارها، رشته ها و اشیاء ساختار یافته مانند JSON نسبتا ساده هستند. پایگاه های داده سنتی می توانند این نوع داده ها را سازماندهی کنند و بسیاری از موتورهای جستجوی اولیه می توانند به شما در جستجوی آنها کمک کنند. آنها به شما کمک می کنند تا به سوالات نسبتا ساده پاسخ دهید:

  • کدام اسناد حاوی این مجموعه کلمات هستند؟
  • چه مواردی این معیارهای فیلترینگ هدف را دارند؟

تفسیر داده‌های پیچیده‌تر به‌طور قابل‌توجهی دشوارتر است، اما جالب‌تر نیز هستند و ممکن است با پاسخ دادن به سؤالات پیچیده‌تر مانند:

  • چه آهنگ هایی شبیه به نمونه آهنگ های “پسندیده” هستند؟
  • چه اسنادی در مورد یک موضوع خاص موجود است؟
  • کدام هشدارهای امنیتی نیاز به توجه دارند و کدامیک را می توان نادیده گرفت؟
  • کدام موارد با توضیحات زبان طبیعی مطابقت دارند؟

پاسخ دادن به سوالاتی از این دست اغلب به داده‌های پیچیده‌تر و ساختارمندتر از جمله اسناد، متن‌های ساده، ویدیوها، تصاویر، فایل‌های صوتی، گردش کار و هشدارهای سیستمی نیاز دارد. این اشکال داده به راحتی در پایگاه داده های سنتی به سبک SQL قرار نمی گیرند و ممکن است توسط موتورهای جستجوی ساده قابل کشف نباشند. برای سازماندهی و جستجو در میان این نوع داده‌ها، باید داده‌ها را به قالب‌هایی تبدیل کنیم که رایانه‌ها بتوانند پردازش کنند.

قدرت بردارها

خوشبختانه، مدل‌های یادگیری ماشینی به ما امکان می‌دهند تا نمایش‌های عددی متن، صدا، تصاویر و سایر اشکال داده‌های پیچیده را ایجاد کنیم. این نمایش‌های عددی، یا جاسازی‌های برداری، به گونه‌ای طراحی شده‌اند که موارد مشابه از نظر معنایی به نمایش‌های مجاور نگاشت می‌شوند. دو نمایش نزدیک یا دور بسته به زاویه یا فاصله بین آنها، زمانی که به عنوان نقاط در فضای با ابعاد بالا مشاهده می شود، نزدیک یا دور هستند.

مدل‌های یادگیری ماشینی به ما این امکان را می‌دهند که با ماشین‌ها تعامل بیشتری داشته باشیم تا نحوه تعامل ما با انسان‌ها. برای متن، این بدان معناست که کاربران می‌توانند سوالات زبان طبیعی بپرسند – پرس و جو با استفاده از همان مدل جاسازی که همه موارد جستجو را به بردار تبدیل می‌کند، به بردار تبدیل می‌شود. سپس بردار پرس و جو با همه بردارهای شی مقایسه می شود تا نزدیکترین موارد مطابقت را پیدا کند. به همین ترتیب، فایل‌های تصویری یا صوتی را می‌توان به بردارهایی تبدیل کرد که به ما امکان می‌دهد مطابق نزدیکی (یا شباهت ریاضی) بردارهای آنها را جستجو کنیم.

امروزه، به لطف چندین مدل ترانسفورماتور بردار موجود که عملکرد خوبی دارند و اغلب همانطور که هستند کار می کنند، می توانید داده های خود را راحت تر از چند سال پیش به بردار تبدیل کنید. مدل‌های مبدل جمله و متن مانند Word2Vec، GLoVE، و BERT جاسازی‌کننده‌های برداری عالی برای همه منظوره هستند. تصاویر را می توان با استفاده از مدل هایی مانند VGG و شروع. ضبط های صوتی را می توان با استفاده از تبدیل های جاسازی تصویر بر روی نمایش بصری فرکانس صوتی به بردار تبدیل کرد. همه این مدل‌ها به خوبی تثبیت شده‌اند و می‌توانند برای کاربردهای خاص و حوزه‌های دانش به‌خوبی تنظیم شوند.

گوگل برنامه توسعه دهنده گوگل را راه اندازی کرد

با مدل‌های ترانسفورماتور برداری که به آسانی در دسترس هستند، این سوال از نحوه تبدیل داده‌های پیچیده به بردار، به نحوه سازماندهی و جستجوی آنها تغییر می‌کند؟

پایگاه داده های برداری را وارد کنید. پایگاه داده های برداری به طور خاص برای کار با ویژگی های منحصر به فرد جاسازی های برداری طراحی شده اند. آنها داده ها را به گونه ای فهرست بندی می کنند که جستجو و بازیابی اشیا را بر اساس مقادیر عددی آنها آسان می کند.

پایگاه داده برداری چیست؟

در Pinecone، ما یک پایگاه داده برداری را به عنوان ابزاری تعریف می‌کنیم که جاسازی‌های برداری را برای بازیابی سریع و جستجوی مشابه، با قابلیت‌هایی مانند فیلتر کردن ابرداده و مقیاس افقی فهرست‌بندی و ذخیره می‌کند. همانطور که قبلاً اشاره کردیم، جاسازی های برداری یا بردارها، نمایش عددی اشیاء داده هستند. پایگاه داده برداری، بردارها را طوری سازماندهی می کند که بتوان آنها را به سرعت با یکدیگر یا با نمایش برداری یک عبارت جستجو مقایسه کرد.

پایگاه داده های برداری به طور خاص برای داده های بدون ساختار طراحی شده اند و در عین حال برخی از عملکردهایی را که از یک پایگاه داده رابطه ای سنتی انتظار دارید را ارائه می دهند. آن‌ها می‌توانند عملیات CRUD (ایجاد، خواندن، به‌روزرسانی و حذف) را روی بردارهایی که ذخیره می‌کنند، اجرا کنند، پایداری داده‌ها را فراهم کنند، و درخواست‌ها را بر اساس ابرداده فیلتر کنند. هنگامی که جستجوی برداری را با عملیات پایگاه داده ترکیب می کنید، یک ابزار قدرتمند با برنامه های کاربردی زیادی دریافت می کنید.

در حالی که این فناوری هنوز در حال ظهور است، پایگاه‌های داده برداری برخی از بزرگترین پلتفرم‌های فناوری در جهان را تامین می‌کنند. Spotify بر اساس آهنگ‌های دوست‌داشتنی، سابقه گوش دادن و نمایه‌های موسیقی مشابه، توصیه‌های موسیقی شخصی‌سازی شده ارائه می‌دهد. آمازون از بردارها برای توصیه محصولاتی استفاده می کند که مکمل موارد در حال مرور هستند. یوتیوب Google با ارائه محتوای جدید مرتبط بر اساس شباهت به ویدیوی فعلی و سابقه مشاهده، بینندگان را در پلتفرم خود به جریان می‌اندازد. فناوری پایگاه داده برداری به بهبود خود ادامه داده است و عملکرد بهتر و تجربیات کاربری شخصی تری را برای مشتریان ارائه می دهد.

امروزه، وعده پایگاه داده های برداری برای هر سازمانی در دسترس است. پروژه های منبع باز به سازمان هایی کمک می کند که می خواهند پایگاه داده برداری خود را بسازند و نگهداری کنند. و خدمات مدیریت شده به شرکت هایی کمک می کند که به دنبال برون سپاری این کار هستند و توجه خود را به جای دیگری متمرکز کنند. در این مقاله، ویژگی‌های مهم پایگاه‌های داده برداری و بهترین راه‌های استفاده از آنها را بررسی خواهیم کرد.

برنامه های رایج برای پایگاه های داده برداری

جستجوی شباهت یا “جستجوی برداری” رایج ترین مورد استفاده برای پایگاه های داده برداری است. جستجوی برداری نزدیکی چندین بردار در فهرست را با یک عبارت جستجو یا مورد موضوع مقایسه می کند. برای یافتن موارد مشابه، با استفاده از همان مدل جاسازی یادگیری ماشینی که برای ایجاد جاسازی‌های برداری خود استفاده می‌شود، مورد موضوع یا پرس و جو را به بردار تبدیل می‌کنید. پایگاه داده برداری، مجاورت این بردارها را برای یافتن نزدیکترین مطابقت ها مقایسه می کند و نتایج جستجوی مرتبط را ارائه می دهد. چند نمونه از برنامه های کاربردی پایگاه داده برداری:

  • جستجوی معنایی. معمولاً هنگام جستجوی متن و اسناد دو گزینه دارید: جستجوی لغوی یا معنایی. جستجوی واژگانی به دنبال تطبیق رشته‌های کلمات، کلمات دقیق یا بخش‌های کلمه می‌گردد. از سوی دیگر، جستجوی معنایی از معنای یک عبارت جستجو برای مقایسه آن با اشیاء کاندید استفاده می کند. مدل‌های پردازش زبان طبیعی (NLP) متن و کل اسناد را به جاسازی‌های برداری تبدیل می‌کنند. این مدل ها به دنبال نشان دادن بافت کلمات و معنایی هستند که آنها می رسانند. سپس کاربران می توانند با استفاده از زبان طبیعی و همان مدل پرس و جو کنند تا نتایج مرتبط را بدون نیاز به دانستن کلمات کلیدی خاص بیابند.
  • جستجوی شباهت برای صدا، ویدئو، تصاویر و انواع دیگر داده‌های بدون ساختار. توصیف این نوع داده‌ها با داده‌های ساختاریافته سازگار با پایگاه‌های داده سنتی دشوار است. یک کاربر نهایی ممکن است برای دانستن اینکه داده‌ها چگونه سازماندهی شده‌اند یا چه ویژگی‌هایی می‌تواند به آنها در شناسایی موارد کمک کند، مشکل داشته باشد. کاربران می توانند پایگاه داده را با استفاده از اشیاء مشابه و مدل یادگیری ماشینی یکسان برای مقایسه و یافتن موارد مشابه جستجو کنند.
  • Deduplication و مطابقت رکورد. برنامه ای را در نظر بگیرید که موارد تکراری را از کاتالوگ حذف می کند و کاتالوگ را قابل استفاده تر و مرتبط تر می کند. پایگاه داده های سنتی می توانند این کار را انجام دهند اگر موارد تکراری به طور مشابه سازماندهی شوند و به عنوان یک تطابق ثبت شوند. اما همیشه اینطور نیست. یک پایگاه داده برداری به فرد امکان می دهد از یک مدل یادگیری ماشین برای تعیین شباهت استفاده کند، که اغلب می تواند از تلاش های طبقه بندی نادرست یا دستی جلوگیری کند.
  • موتورهای توصیه و رتبه‌بندی. موارد مشابه اغلب توصیه‌های خوبی را ارائه می‌کنند. برای مثال، مصرف‌کنندگان اغلب دیدن محصولات، محتوا یا خدمات مشابه یا پیشنهادی را برای مقایسه مفید می‌دانند. ممکن است به مصرف کننده کمک کند محصول جدیدی را که در غیر این صورت آن را پیدا نمی کرد یا در نظر نمی گرفت، کشف کند.
  • تشخیص ناهنجاری. پایگاه‌های اطلاعاتی برداری می‌توانند نقاط پرت را پیدا کنند که بسیار متفاوت از سایر اشیاء هستند. یک نفر ممکن است یک میلیون الگوی متنوع اما مورد انتظار داشته باشد، در حالی که یک ناهنجاری ممکن است به اندازه کافی متفاوت از هر یک از آن میلیون ها الگوی مورد انتظار باشد. چنین ناهنجاری‌هایی می‌توانند برای عملیات فناوری اطلاعات، ارزیابی تهدیدات امنیتی و کشف تقلب بسیار ارزشمند باشند.
نحوه ورژن حداقل API ها در ASP.NET Core 6

قابلیت های کلیدی پایگاه های داده برداری

نمایه سازی برداری و جستجوی تشابه

پایگاه های داده برداری از الگوریتم هایی استفاده می کنند که به طور خاص برای فهرست بندی و بازیابی بردارها به طور موثر طراحی شده اند. آنها از الگوریتم‌های «نزدیک‌ترین همسایه» برای ارزیابی نزدیکی اشیاء مشابه به یکدیگر یا یک عبارت جستجو استفاده می‌کنند. شما می توانید فاصله بین یک بردار پرس و جو و ۱۰۰ بردار دیگر را به راحتی محاسبه کنید. محاسبه فواصل برای بردارهای ۱۰۰M داستان دیگری است.

جستجوی تقریبی نزدیکترین همسایه (ANN) مشکل تأخیر را با تقریب و بازیابی بهترین حدس از بردارهای مشابه حل می کند. ANN مجموعه دقیقی از بهترین تطابق ها را تضمین نمی کند، اما دقت بسیار خوب را با عملکرد بسیار سریع تر متعادل می کند. برخی از پرکاربردترین تکنیک‌ها برای ایجاد نمایه‌های ANN عبارتند از جهان‌های کوچک قابل پیمایش سلسله مراتبی (HNSW) ، کوانتیزه کردن محصول (PQ)، و شاخص فایل معکوس (IVF). اکثر پایگاه های داده برداری از ترکیبی از اینها برای تولید یک شاخص ترکیبی بهینه شده برای عملکرد استفاده می کنند.

فیلتر تک مرحله ای

فیلتر کردن یک تکنیک مفید برای محدود کردن نتایج جستجو بر اساس فراداده انتخابی برای افزایش ارتباط است. این معمولاً قبل یا بعد از جستجوی نزدیکترین همسایه انجام می شود. پیش فیلتر کردن ابتدا مجموعه داده را قبل از جستجوی ANN کوچک می کند، اما این معمولاً با الگوریتم های ANN پیشرو ناسازگار است. یکی از راه‌حل‌ها این است که ابتدا مجموعه داده را کوچک کنید و سپس یک جستجوی دقیق brute-force انجام دهید. پس از فیلتر کردن نتایج پس از جستجوی ANN در کل مجموعه داده کوچک می شود. پس از فیلتر کردن، از سرعت الگوریتم‌های ANN استفاده می‌کند، اما ممکن است نتایج کافی را به همراه نداشته باشد. موردی را در نظر بگیرید که فیلتر فقط تعداد کمی از نامزدها را که بعید است از جستجو در کل مجموعه داده بازگردانده شوند، پایین انتخاب می کند.

بهینه سازی عملکرد ابرداده برای برنامه های کاربردی در مقیاس وب

فیلتر تک مرحله ای دقت و ارتباط پیش فیلتر کردن را با سرعت ANN تقریباً به همان سرعت پس از فیلتر کردن ترکیب می کند. با ادغام نمایه های برداری و فراداده در یک شاخص واحد، فیلتر تک مرحله ای بهترین هر دو روش را ارائه می دهد.

API

مانند بسیاری از سرویس‌های مدیریت‌شده، شما و برنامه‌هایتان معمولاً توسط API با پایگاه داده برداری تعامل دارید. این به سازمان شما اجازه می‌دهد تا بدون نگرانی در مورد عملکرد، امنیت و چالش‌های در دسترس بودن مدیریت پایگاه داده برداری خود، روی برنامه‌های کاربردی خود تمرکز کند.

تماس‌های API آپلود داده‌ها، جستجو، واکشی نتایج یا حذف داده‌ها را برای توسعه‌دهندگان و برنامه‌ها آسان می‌کند.

ذخیره سازی ترکیبی

پایگاه داده های برداری معمولاً تمام داده های برداری را برای پرس و جو و بازیابی سریع در حافظه ذخیره می کنند. اما برای برنامه هایی با بیش از یک میلیارد مورد جستجو، هزینه های حافظه به تنهایی بسیاری از پروژه های پایگاه داده برداری را متوقف می کند. در عوض می‌توانید بردارها را روی دیسک ذخیره کنید، اما این معمولاً به قیمت تأخیرهای بالای جستجو تمام می‌شود.

با ذخیره سازی ترکیبی، یک نمایه برداری فشرده در حافظه ذخیره می شود و نمایه برداری کامل روی دیسک ذخیره می شود. شاخص درون حافظه می تواند فضای جستجو را به مجموعه کوچکی از نامزدها در فهرست با وضوح کامل روی دیسک محدود کند. ذخیره سازی ترکیبی به شما امکان می دهد بردارهای بیشتری را در یک ردپای داده ذخیره کنید، و با بهبود ظرفیت کلی ذخیره سازی، بدون تأثیر منفی بر عملکرد پایگاه داده، هزینه عملیات پایگاه داده برداری را کاهش دهید.

اطلاعات آماری در مورد داده های پیچیده

چشم انداز داده ها همیشه در حال تغییر است. داده های پیچیده به سرعت در حال رشد هستند و اکثر سازمان ها برای تجزیه و تحلیل آن ها مجهز نیستند. پایگاه‌های داده سنتی که اکثر شرکت‌ها در حال حاضر دارند، برای مدیریت این نوع داده‌ها مناسب نیستند، و بنابراین نیاز روزافزونی به روش‌های جدید برای سازمان‌دهی، ذخیره و تجزیه و تحلیل داده‌های بدون ساختار وجود دارد. حل مسائل پیچیده نیازمند توانایی جستجو و تجزیه و تحلیل داده های پیچیده است.

و کلید باز کردن بینش داده های پیچیده، پایگاه داده برداری است.

Dave Bergstein مدیر محصول در Pinecone است. دیو قبلاً نقش‌های ارشد محصول را در Tesseract Health و MathWorks بر عهده داشت، جایی که عمیقاً درگیر تولید هوش مصنوعی بود. دیو دارای مدرک دکترای مهندسی برق از دانشگاه بوستون است که در رشته فوتونیک تحصیل می کند. وقتی به مشتریان در حل چالش‌های هوش مصنوعی کمک نمی‌کند، دیو از پیاده‌روی با سگ خود زئوس و کراس فیت لذت می‌برد.

New Tech Forum مکانی برای کاوش و بحث در مورد فناوری سازمانی نوظهور در عمق و وسعت بی سابقه ای فراهم می کند. انتخاب ذهنی است، بر اساس انتخاب ما از فناوری هایی که معتقدیم مهم هستند و برای خوانندگان InfoWorld بیشترین علاقه را دارند. InfoWorld وثیقه بازاریابی را برای انتشار نمی پذیرد و حق ویرایش تمام محتوای ارائه شده را برای خود محفوظ می دارد. همه سوالات را به newtechforum@infoworld.com ارسال کنید.