پایگاههای داده برداری، بینشهای مدفون در دادههای پیچیده از جمله اسناد، فیلمها، تصاویر، فایلهای صوتی، گردش کار، و هشدارهای تولید شده توسط سیستم را باز میکنند. در اینجا نحوه
دنیای دادهها به سرعت در اطراف ما در حال تغییر است، با این حال بسیاری از شرکتها به آرامی به روندها واکنش نشان میدهند. کارشناسان پیش بینی می کنند که تا سال ۲۰۲۵، ۸۰٪ یا بیشتر از همه داده ها بدون ساختار خواهند بود، اما نظرسنجی Deloitte نشان میدهد که تنها ۱۸ درصد از سازمانها برای تجزیه و تحلیل دادههای بدون ساختار آماده هستند. این بدان معناست که اکثریت قریب به اتفاق شرکتها نمیتوانند از بخش بهتری از دادههای در اختیارشان استفاده کنند و همه اینها به داشتن ابزار مناسب برمیگردد.
بسیاری از این داده ها نسبتاً ساده هستند. کلمات کلیدی، معیارها، رشته ها و اشیاء ساختار یافته مانند JSON نسبتا ساده هستند. پایگاه های داده سنتی می توانند این نوع داده ها را سازماندهی کنند و بسیاری از موتورهای جستجوی اولیه می توانند به شما در جستجوی آنها کمک کنند. آنها به شما کمک می کنند تا به سوالات نسبتا ساده پاسخ دهید:
- کدام اسناد حاوی این مجموعه کلمات هستند؟
- چه مواردی این معیارهای فیلترینگ هدف را دارند؟
تفسیر دادههای پیچیدهتر بهطور قابلتوجهی دشوارتر است، اما جالبتر نیز هستند و ممکن است با پاسخ دادن به سؤالات پیچیدهتر مانند:
- چه آهنگ هایی شبیه به نمونه آهنگ های “پسندیده” هستند؟
- چه اسنادی در مورد یک موضوع خاص موجود است؟
- کدام هشدارهای امنیتی نیاز به توجه دارند و کدامیک را می توان نادیده گرفت؟
- کدام موارد با توضیحات زبان طبیعی مطابقت دارند؟
پاسخ دادن به سوالاتی از این دست اغلب به دادههای پیچیدهتر و ساختارمندتر از جمله اسناد، متنهای ساده، ویدیوها، تصاویر، فایلهای صوتی، گردش کار و هشدارهای سیستمی نیاز دارد. این اشکال داده به راحتی در پایگاه داده های سنتی به سبک SQL قرار نمی گیرند و ممکن است توسط موتورهای جستجوی ساده قابل کشف نباشند. برای سازماندهی و جستجو در میان این نوع دادهها، باید دادهها را به قالبهایی تبدیل کنیم که رایانهها بتوانند پردازش کنند.
قدرت بردارها
خوشبختانه، مدلهای یادگیری ماشینی به ما امکان میدهند تا نمایشهای عددی متن، صدا، تصاویر و سایر اشکال دادههای پیچیده را ایجاد کنیم. این نمایشهای عددی، یا جاسازیهای برداری، به گونهای طراحی شدهاند که موارد مشابه از نظر معنایی به نمایشهای مجاور نگاشت میشوند. دو نمایش نزدیک یا دور بسته به زاویه یا فاصله بین آنها، زمانی که به عنوان نقاط در فضای با ابعاد بالا مشاهده می شود، نزدیک یا دور هستند.
مدلهای یادگیری ماشینی به ما این امکان را میدهند که با ماشینها تعامل بیشتری داشته باشیم تا نحوه تعامل ما با انسانها. برای متن، این بدان معناست که کاربران میتوانند سوالات زبان طبیعی بپرسند – پرس و جو با استفاده از همان مدل جاسازی که همه موارد جستجو را به بردار تبدیل میکند، به بردار تبدیل میشود. سپس بردار پرس و جو با همه بردارهای شی مقایسه می شود تا نزدیکترین موارد مطابقت را پیدا کند. به همین ترتیب، فایلهای تصویری یا صوتی را میتوان به بردارهایی تبدیل کرد که به ما امکان میدهد مطابق نزدیکی (یا شباهت ریاضی) بردارهای آنها را جستجو کنیم.
امروزه، به لطف چندین مدل ترانسفورماتور بردار موجود که عملکرد خوبی دارند و اغلب همانطور که هستند کار می کنند، می توانید داده های خود را راحت تر از چند سال پیش به بردار تبدیل کنید. مدلهای مبدل جمله و متن مانند Word2Vec، GLoVE، و BERT جاسازیکنندههای برداری عالی برای همه منظوره هستند. تصاویر را می توان با استفاده از مدل هایی مانند VGG و شروع. ضبط های صوتی را می توان با استفاده از تبدیل های جاسازی تصویر بر روی نمایش بصری فرکانس صوتی به بردار تبدیل کرد. همه این مدلها به خوبی تثبیت شدهاند و میتوانند برای کاربردهای خاص و حوزههای دانش بهخوبی تنظیم شوند.
با مدلهای ترانسفورماتور برداری که به آسانی در دسترس هستند، این سوال از نحوه تبدیل دادههای پیچیده به بردار، به نحوه سازماندهی و جستجوی آنها تغییر میکند؟
پایگاه داده های برداری را وارد کنید. پایگاه داده های برداری به طور خاص برای کار با ویژگی های منحصر به فرد جاسازی های برداری طراحی شده اند. آنها داده ها را به گونه ای فهرست بندی می کنند که جستجو و بازیابی اشیا را بر اساس مقادیر عددی آنها آسان می کند.
پایگاه داده برداری چیست؟
در Pinecone، ما یک پایگاه داده برداری را به عنوان ابزاری تعریف میکنیم که جاسازیهای برداری را برای بازیابی سریع و جستجوی مشابه، با قابلیتهایی مانند فیلتر کردن ابرداده و مقیاس افقی فهرستبندی و ذخیره میکند. همانطور که قبلاً اشاره کردیم، جاسازی های برداری یا بردارها، نمایش عددی اشیاء داده هستند. پایگاه داده برداری، بردارها را طوری سازماندهی می کند که بتوان آنها را به سرعت با یکدیگر یا با نمایش برداری یک عبارت جستجو مقایسه کرد.
پایگاه داده های برداری به طور خاص برای داده های بدون ساختار طراحی شده اند و در عین حال برخی از عملکردهایی را که از یک پایگاه داده رابطه ای سنتی انتظار دارید را ارائه می دهند. آنها میتوانند عملیات CRUD (ایجاد، خواندن، بهروزرسانی و حذف) را روی بردارهایی که ذخیره میکنند، اجرا کنند، پایداری دادهها را فراهم کنند، و درخواستها را بر اساس ابرداده فیلتر کنند. هنگامی که جستجوی برداری را با عملیات پایگاه داده ترکیب می کنید، یک ابزار قدرتمند با برنامه های کاربردی زیادی دریافت می کنید.
در حالی که این فناوری هنوز در حال ظهور است، پایگاههای داده برداری برخی از بزرگترین پلتفرمهای فناوری در جهان را تامین میکنند. Spotify بر اساس آهنگهای دوستداشتنی، سابقه گوش دادن و نمایههای موسیقی مشابه، توصیههای موسیقی شخصیسازی شده ارائه میدهد. آمازون از بردارها برای توصیه محصولاتی استفاده می کند که مکمل موارد در حال مرور هستند. یوتیوب Google با ارائه محتوای جدید مرتبط بر اساس شباهت به ویدیوی فعلی و سابقه مشاهده، بینندگان را در پلتفرم خود به جریان میاندازد. فناوری پایگاه داده برداری به بهبود خود ادامه داده است و عملکرد بهتر و تجربیات کاربری شخصی تری را برای مشتریان ارائه می دهد.
امروزه، وعده پایگاه داده های برداری برای هر سازمانی در دسترس است. پروژه های منبع باز به سازمان هایی کمک می کند که می خواهند پایگاه داده برداری خود را بسازند و نگهداری کنند. و خدمات مدیریت شده به شرکت هایی کمک می کند که به دنبال برون سپاری این کار هستند و توجه خود را به جای دیگری متمرکز کنند. در این مقاله، ویژگیهای مهم پایگاههای داده برداری و بهترین راههای استفاده از آنها را بررسی خواهیم کرد.
برنامه های رایج برای پایگاه های داده برداری
جستجوی شباهت یا “جستجوی برداری” رایج ترین مورد استفاده برای پایگاه های داده برداری است. جستجوی برداری نزدیکی چندین بردار در فهرست را با یک عبارت جستجو یا مورد موضوع مقایسه می کند. برای یافتن موارد مشابه، با استفاده از همان مدل جاسازی یادگیری ماشینی که برای ایجاد جاسازیهای برداری خود استفاده میشود، مورد موضوع یا پرس و جو را به بردار تبدیل میکنید. پایگاه داده برداری، مجاورت این بردارها را برای یافتن نزدیکترین مطابقت ها مقایسه می کند و نتایج جستجوی مرتبط را ارائه می دهد. چند نمونه از برنامه های کاربردی پایگاه داده برداری:
- جستجوی معنایی. معمولاً هنگام جستجوی متن و اسناد دو گزینه دارید: جستجوی لغوی یا معنایی. جستجوی واژگانی به دنبال تطبیق رشتههای کلمات، کلمات دقیق یا بخشهای کلمه میگردد. از سوی دیگر، جستجوی معنایی از معنای یک عبارت جستجو برای مقایسه آن با اشیاء کاندید استفاده می کند. مدلهای پردازش زبان طبیعی (NLP) متن و کل اسناد را به جاسازیهای برداری تبدیل میکنند. این مدل ها به دنبال نشان دادن بافت کلمات و معنایی هستند که آنها می رسانند. سپس کاربران می توانند با استفاده از زبان طبیعی و همان مدل پرس و جو کنند تا نتایج مرتبط را بدون نیاز به دانستن کلمات کلیدی خاص بیابند.
- جستجوی شباهت برای صدا، ویدئو، تصاویر و انواع دیگر دادههای بدون ساختار. توصیف این نوع دادهها با دادههای ساختاریافته سازگار با پایگاههای داده سنتی دشوار است. یک کاربر نهایی ممکن است برای دانستن اینکه دادهها چگونه سازماندهی شدهاند یا چه ویژگیهایی میتواند به آنها در شناسایی موارد کمک کند، مشکل داشته باشد. کاربران می توانند پایگاه داده را با استفاده از اشیاء مشابه و مدل یادگیری ماشینی یکسان برای مقایسه و یافتن موارد مشابه جستجو کنند.
- Deduplication و مطابقت رکورد. برنامه ای را در نظر بگیرید که موارد تکراری را از کاتالوگ حذف می کند و کاتالوگ را قابل استفاده تر و مرتبط تر می کند. پایگاه داده های سنتی می توانند این کار را انجام دهند اگر موارد تکراری به طور مشابه سازماندهی شوند و به عنوان یک تطابق ثبت شوند. اما همیشه اینطور نیست. یک پایگاه داده برداری به فرد امکان می دهد از یک مدل یادگیری ماشین برای تعیین شباهت استفاده کند، که اغلب می تواند از تلاش های طبقه بندی نادرست یا دستی جلوگیری کند.
- موتورهای توصیه و رتبهبندی. موارد مشابه اغلب توصیههای خوبی را ارائه میکنند. برای مثال، مصرفکنندگان اغلب دیدن محصولات، محتوا یا خدمات مشابه یا پیشنهادی را برای مقایسه مفید میدانند. ممکن است به مصرف کننده کمک کند محصول جدیدی را که در غیر این صورت آن را پیدا نمی کرد یا در نظر نمی گرفت، کشف کند.
- تشخیص ناهنجاری. پایگاههای اطلاعاتی برداری میتوانند نقاط پرت را پیدا کنند که بسیار متفاوت از سایر اشیاء هستند. یک نفر ممکن است یک میلیون الگوی متنوع اما مورد انتظار داشته باشد، در حالی که یک ناهنجاری ممکن است به اندازه کافی متفاوت از هر یک از آن میلیون ها الگوی مورد انتظار باشد. چنین ناهنجاریهایی میتوانند برای عملیات فناوری اطلاعات، ارزیابی تهدیدات امنیتی و کشف تقلب بسیار ارزشمند باشند.
قابلیت های کلیدی پایگاه های داده برداری
نمایه سازی برداری و جستجوی تشابه
پایگاه های داده برداری از الگوریتم هایی استفاده می کنند که به طور خاص برای فهرست بندی و بازیابی بردارها به طور موثر طراحی شده اند. آنها از الگوریتمهای «نزدیکترین همسایه» برای ارزیابی نزدیکی اشیاء مشابه به یکدیگر یا یک عبارت جستجو استفاده میکنند. شما می توانید فاصله بین یک بردار پرس و جو و ۱۰۰ بردار دیگر را به راحتی محاسبه کنید. محاسبه فواصل برای بردارهای ۱۰۰M داستان دیگری است.
جستجوی تقریبی نزدیکترین همسایه (ANN) مشکل تأخیر را با تقریب و بازیابی بهترین حدس از بردارهای مشابه حل می کند. ANN مجموعه دقیقی از بهترین تطابق ها را تضمین نمی کند، اما دقت بسیار خوب را با عملکرد بسیار سریع تر متعادل می کند. برخی از پرکاربردترین تکنیکها برای ایجاد نمایههای ANN عبارتند از جهانهای کوچک قابل پیمایش سلسله مراتبی (HNSW) ، کوانتیزه کردن محصول (PQ)، و شاخص فایل معکوس (IVF). اکثر پایگاه های داده برداری از ترکیبی از اینها برای تولید یک شاخص ترکیبی بهینه شده برای عملکرد استفاده می کنند.
فیلتر تک مرحله ای
فیلتر کردن یک تکنیک مفید برای محدود کردن نتایج جستجو بر اساس فراداده انتخابی برای افزایش ارتباط است. این معمولاً قبل یا بعد از جستجوی نزدیکترین همسایه انجام می شود. پیش فیلتر کردن ابتدا مجموعه داده را قبل از جستجوی ANN کوچک می کند، اما این معمولاً با الگوریتم های ANN پیشرو ناسازگار است. یکی از راهحلها این است که ابتدا مجموعه داده را کوچک کنید و سپس یک جستجوی دقیق brute-force انجام دهید. پس از فیلتر کردن نتایج پس از جستجوی ANN در کل مجموعه داده کوچک می شود. پس از فیلتر کردن، از سرعت الگوریتمهای ANN استفاده میکند، اما ممکن است نتایج کافی را به همراه نداشته باشد. موردی را در نظر بگیرید که فیلتر فقط تعداد کمی از نامزدها را که بعید است از جستجو در کل مجموعه داده بازگردانده شوند، پایین انتخاب می کند.
فیلتر تک مرحله ای دقت و ارتباط پیش فیلتر کردن را با سرعت ANN تقریباً به همان سرعت پس از فیلتر کردن ترکیب می کند. با ادغام نمایه های برداری و فراداده در یک شاخص واحد، فیلتر تک مرحله ای بهترین هر دو روش را ارائه می دهد.
API
مانند بسیاری از سرویسهای مدیریتشده، شما و برنامههایتان معمولاً توسط API با پایگاه داده برداری تعامل دارید. این به سازمان شما اجازه میدهد تا بدون نگرانی در مورد عملکرد، امنیت و چالشهای در دسترس بودن مدیریت پایگاه داده برداری خود، روی برنامههای کاربردی خود تمرکز کند.
تماسهای API آپلود دادهها، جستجو، واکشی نتایج یا حذف دادهها را برای توسعهدهندگان و برنامهها آسان میکند.
ذخیره سازی ترکیبی
پایگاه داده های برداری معمولاً تمام داده های برداری را برای پرس و جو و بازیابی سریع در حافظه ذخیره می کنند. اما برای برنامه هایی با بیش از یک میلیارد مورد جستجو، هزینه های حافظه به تنهایی بسیاری از پروژه های پایگاه داده برداری را متوقف می کند. در عوض میتوانید بردارها را روی دیسک ذخیره کنید، اما این معمولاً به قیمت تأخیرهای بالای جستجو تمام میشود.
با ذخیره سازی ترکیبی، یک نمایه برداری فشرده در حافظه ذخیره می شود و نمایه برداری کامل روی دیسک ذخیره می شود. شاخص درون حافظه می تواند فضای جستجو را به مجموعه کوچکی از نامزدها در فهرست با وضوح کامل روی دیسک محدود کند. ذخیره سازی ترکیبی به شما امکان می دهد بردارهای بیشتری را در یک ردپای داده ذخیره کنید، و با بهبود ظرفیت کلی ذخیره سازی، بدون تأثیر منفی بر عملکرد پایگاه داده، هزینه عملیات پایگاه داده برداری را کاهش دهید.
اطلاعات آماری در مورد داده های پیچیده
چشم انداز داده ها همیشه در حال تغییر است. داده های پیچیده به سرعت در حال رشد هستند و اکثر سازمان ها برای تجزیه و تحلیل آن ها مجهز نیستند. پایگاههای داده سنتی که اکثر شرکتها در حال حاضر دارند، برای مدیریت این نوع دادهها مناسب نیستند، و بنابراین نیاز روزافزونی به روشهای جدید برای سازماندهی، ذخیره و تجزیه و تحلیل دادههای بدون ساختار وجود دارد. حل مسائل پیچیده نیازمند توانایی جستجو و تجزیه و تحلیل داده های پیچیده است.
و کلید باز کردن بینش داده های پیچیده، پایگاه داده برداری است.
Dave Bergstein مدیر محصول در Pinecone است. دیو قبلاً نقشهای ارشد محصول را در Tesseract Health و MathWorks بر عهده داشت، جایی که عمیقاً درگیر تولید هوش مصنوعی بود. دیو دارای مدرک دکترای مهندسی برق از دانشگاه بوستون است که در رشته فوتونیک تحصیل می کند. وقتی به مشتریان در حل چالشهای هوش مصنوعی کمک نمیکند، دیو از پیادهروی با سگ خود زئوس و کراس فیت لذت میبرد.
—
New Tech Forum مکانی برای کاوش و بحث در مورد فناوری سازمانی نوظهور در عمق و وسعت بی سابقه ای فراهم می کند. انتخاب ذهنی است، بر اساس انتخاب ما از فناوری هایی که معتقدیم مهم هستند و برای خوانندگان InfoWorld بیشترین علاقه را دارند. InfoWorld وثیقه بازاریابی را برای انتشار نمی پذیرد و حق ویرایش تمام محتوای ارائه شده را برای خود محفوظ می دارد. همه سوالات را به newtechforum@infoworld.com ارسال کنید.
پست های مرتبط
حل مسائل پیچیده با پایگاه داده برداری
حل مسائل پیچیده با پایگاه داده برداری
حل مسائل پیچیده با پایگاه داده برداری