۲۹ شهریور ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

نحوه ارزیابی پایگاه داده برداری

هیچ پایگاه داده برداری جهانی "بهترین" وجود ندارد - انتخاب بستگی به نیاز شما دارد. ارزیابی مقیاس پذیری، عملکرد، عملکرد و سازگاری با موارد استفاده شما حیاتی است.

هیچ پایگاه داده برداری جهانی “بهترین” وجود ندارد – انتخاب بستگی به نیاز شما دارد. ارزیابی مقیاس پذیری، عملکرد، عملکرد و سازگاری با موارد استفاده شما حیاتی است.

در دنیای امروزی مبتنی بر داده، رشد تصاعدی داده‌های بدون ساختار پدیده‌ای است که توجه ما را می‌طلبد. ظهور هوش مصنوعی مولد و مدل‌های زبان بزرگ (LLM) سوخت بیشتری به این انفجار داده‌ها اضافه کرده است و تمرکز ما را به سمت یک فناوری پیشگامانه سوق داده است: پایگاه های اطلاعاتی برداری. به عنوان یک زیرساخت حیاتی در عصر هوش مصنوعی، پایگاه های داده برداری ابزار قدرتمندی برای ذخیره، نمایه سازی و جستجوی داده های بدون ساختار هستند.

با توجه جدی جهان به پایگاه های داده برداری، یک سوال مبرم مطرح می شود: چگونه یک مورد مناسب را برای نیازهای کسب و کار خود انتخاب می کنید؟ فاکتورهای کلیدی که باید در هنگام مقایسه و ارزیابی پایگاه های داده برداری در نظر گرفت چیست؟ این پست به بررسی این سوالات می‌پردازد و بینش‌هایی از مقیاس‌پذیری، عملکرد، و دیدگاه‌های عملکرد ارائه می‌کند و به شما کمک می‌کند در این چشم‌انداز پویا تصمیم‌گیری آگاهانه بگیرید.

پایگاه داده برداری چیست؟

سیستم های پایگاه داده رابطه ای مرسوم، داده ها را در جداول ساختاریافته با فرمت های از پیش تعریف شده مدیریت می کنند و در اجرای عملیات جستجوی دقیق عالی هستند. در مقابل، پایگاه‌های داده برداری در ذخیره و بازیابی داده‌های بدون ساختار، مانند تصاویر، تخصص دارند. صدا، ویدئو و متن، از طریق نمایش‌های عددی با ابعاد بالا که به عنوان جاسازی‌های برداری شناخته می‌شوند.

پایگاه‌های اطلاعاتی بردار به دلیل جستجوهای مشابه معروف هستند و از تکنیک‌هایی مانند الگوریتم نزدیک‌ترین همسایه تقریبی (ANN) استفاده می‌کنند. الگوریتم ANN داده ها را بر اساس روابط مکانی مرتب می کند و به سرعت نزدیکترین نقطه داده به یک پرس و جو را در مجموعه داده های گسترده شناسایی می کند.

توسعه‌دهندگان از پایگاه‌های داده برداری برای ساختن سیستم‌های توصیه‌کننده، ربات‌های گفتگو، و برنامه‌های کاربردی برای جستجوی تصاویر، ویدیوهای مشابه، استفاده می‌کنند. و صوتی با ظهور ChatGPT، پایگاه های داده برداری در < مفید شده اند. یک href="https://zilliz.com/use-cases/llm-retrieval-augmented-generation" rel="nofollow">بررسی مسائل توهم مدل‌های زبانی بزرگ.

پایگاه های داده برداری در مقابل سایر فناوری های جستجوی برداری

تکنولوژی های مختلفی برای جستجوی برداری فراتر از پایگاه های داده برداری در دسترس هستند. در سال ۲۰۱۷، Meta منبع باز FAISS، به طور قابل توجهی هزینه ها و موانع مرتبط با جستجوی برداری را کاهش می دهد. در سال ۲۰۱۹، Zilliz Milvus را معرفی کرد، یک پایگاه داده منبع باز وکتوری هدفمند که پیشرو در صنعت است. از آن زمان، بسیاری از پایگاه های داده برداری دیگر پدید آمدند. روند پایگاه های داده برداری در سال ۲۰۲۲ با ورود بسیاری از محصولات جستجوی سنتی مانند Elasticsearch و Redis و استفاده گسترده از LLM مانند GPT.

JDK چیست؟ مقدمه ای بر کیت توسعه جاوا

شباهت‌ها و تفاوت‌های بین همه این محصولات جستجوی برداری چیست؟ من آنها را تقریباً به انواع زیر دسته بندی می کنم:

  • کتابخانه های جستجوی برداری. اینها مجموعه‌ای از الگوریتم‌ها بدون عملکردهای پایه پایگاه داده مانند درج، حذف، به‌روزرسانی، جستجو، ماندگاری داده و مقیاس‌پذیری هستند. FAISS یک مثال اصلی است.
  • پایگاه های اطلاعاتی برداری سبک. این‌ها بر اساس کتابخانه‌های جستجوی برداری ساخته شده‌اند، که آنها را در استقرار سبک، اما مقیاس‌پذیری و عملکرد ضعیفی دارند. Chroma یکی از این نمونه ها است.
  • افزونه های جستجوی برداری. اینها افزونه های جستجوی برداری هستند که بر پایگاه داده های سنتی متکی هستند. با این حال، معماری آنها برای بارهای کاری معمولی است که می تواند بر عملکرد و مقیاس پذیری آنها تأثیر منفی بگذارد. Elasticsearch و Pgvector نمونه‌های اصلی هستند.
  • پایگاه‌های اطلاعاتی بردار هدفمند. این پایگاه‌های اطلاعاتی برای جستجوی برداری ساخته شده‌اند و مزایای قابل توجهی نسبت به سایر فناوری‌های جستجوی برداری دارند. به عنوان مثال، پایگاه‌های داده برداری اختصاصی ویژگی‌هایی مانند محاسبات و ذخیره‌سازی توزیع‌شده، بازیابی فاجعه، و پایداری داده‌ها را ارائه می‌کنند. میلووس یک مثال اولیه.

چگونه یک پایگاه داده برداری را ارزیابی کنیم؟

هنگام ارزیابی یک پایگاه داده برداری، مقیاس پذیری، عملکرد و عملکرد سه معیار مهم هستند.

مقیاس پذیری

مقیاس‌پذیری برای تعیین اینکه آیا یک پایگاه داده برداری می‌تواند داده‌های در حال رشد را به طور موثر اداره کند یا خیر ضروری است. هنگام ارزیابی مقیاس پذیری، باید مقیاس پذیری افقی در مقابل عمودی، تعادل بار و تکرارهای متعدد را در نظر بگیریم.

پایگاه داده‌های برداری مختلف از تکنیک‌های مقیاس‌بندی متنوعی برای برآوردن نیازهای رشد کسب‌وکار استفاده می‌کنند. به عنوان مثال، Pinecone و Qdrant مقیاس بندی عمودی را انتخاب می کنند، در حالی که Milvus مقیاس بندی افقی را اتخاذ می کند. مقیاس‌پذیری افقی، انعطاف‌پذیری و عملکرد بیشتری نسبت به مقیاس عمودی، با محدودیت‌های بالایی کمتر ارائه می‌دهد.

برنامه ریزی برای یک سیستم توزیع شده بسیار مهم است. سرعت، دانه بندی و دقت آن مستقیماً بر مدیریت بار و عملکرد سیستم تأثیر می گذارد و در صورت عدم بهینه سازی صحیح، مقیاس پذیری را کاهش می دهد.

تکثیرهای متعدد، پاسخ‌های متفاوت به پرسش‌های مختلف را فعال می‌کنند و سرعت سیستم (اندازه‌گیری شده در کوئری‌ها در ثانیه، QPS) و مقیاس‌پذیری کلی را افزایش می‌دهند.

پایگاه های داده برداری مختلف برای انواع مختلفی از کاربران ارائه می شود، بنابراین استراتژی های مقیاس پذیری آنها متفاوت است. به عنوان مثال، Milvus روی سناریوهایی با حجم داده به سرعت در حال افزایش تمرکز می کند و از یک معماری مقیاس پذیر افقی با جداسازی محاسبات ذخیره سازی استفاده می کند. Pinecone و Qdrant برای کاربرانی طراحی شده‌اند که حجم داده‌ها و مقیاس‌بندی متوسط‌تری دارند. LanceDB و Chroma استقرارهای سبک را به مقیاس پذیری اولویت می دهند.

کارکرد

من عملکرد پایگاه‌های داده برداری را به دو دسته اصلی، ویژگی‌های پایگاه‌محور و ویژگی‌های بردار طبقه‌بندی می‌کنم.

پایگاه‌های اطلاعاتی برداری از موارد استفاده بسیاری سود می‌برند، مانند نسل تقویت‌شده بازیابی (RAG) ، سیستم‌های توصیه‌گر، و جستجوی شباهت معنایی با استفاده از نمایه‌های مختلف. بنابراین، توانایی پشتیبانی از انواع شاخص‌های متعدد، عاملی حیاتی در ارزیابی پایگاه داده برداری است.

در حال حاضر، اکثر پایگاه‌های داده برداری از HNSW (جهان کوچک قابل پیمایش سلسله مراتبی) ایندکس‌ها، با برخی از ایندکس‌های IVF (فایل معکوس). این شاخص ها برای عملیات درون حافظه مناسب هستند و برای محیط هایی با منابع فراوان مناسب هستند. با این حال، برخی از پایگاه های داده برداری راه حل های مبتنی بر mmap را برای موقعیت هایی با منابع سخت افزاری محدود انتخاب می کنند. در حالی که پیاده‌سازی آسان‌تر است، راه‌حل‌های مبتنی بر mmap هزینه عملکرد را به همراه دارند.

Milvus، یکی از قدیمی‌ترین پایگاه‌های داده برداری، از ۱۱ نوع فهرست از جمله مبتنی بر دیسک و مبتنی بر GPU پشتیبانی می‌کند. شاخص ها این رویکرد سازگاری با طیف گسترده ای از سناریوهای کاربردی را تضمین می کند.

بسیاری از ویژگی‌های مفید برای پایگاه‌های داده سنتی برای پایگاه‌های داده برداری نیز اعمال می‌شود، مانند تغییر ضبط داده (CDC)، پشتیبانی چند اجاره‌ای، گروه‌های منابع، و کنترل دسترسی مبتنی بر نقش (RBAC). Milvus و چند پایگاه داده سنتی مجهز به افزونه های برداری به طور موثر از این ویژگی های پایگاه داده گرا پشتیبانی می کنند.

عملکرد

عملکرد حیاتی ترین معیار برای ارزیابی پایگاه داده برداری است. برخلاف پایگاه‌های داده معمولی، پایگاه‌های داده برداری جستجوهای تقریبی را انجام می‌دهند، به این معنی که k نتایج برتر بازیابی شده نمی‌توانند دقت ۱۰۰% را تضمین کنند. بنابراین، علاوه بر معیارهای سنتی مانند پرس و جو در ثانیه (QPS) و تأخیر، «نرخ فراخوان» یکی دیگر از معیارهای عملکرد ضروری برای پایگاه های داده برداری است که دقت بازیابی را کمیت می کند.

من برای ارزیابی معیارهای مختلف، دو ابزار معیار باز و شناخته شده را توصیه می کنم: ANN-Benchmark و VectorDBBench. افشای کامل: VectorDBBench توسط Zilliz ایجاد شده است، همانطور که در زیر توضیح داده شده است.

نمایه‌گذاری برداری یک جنبه حیاتی و پرمصرف از یک پایگاه داده برداری است. عملکرد آن به طور مستقیم بر عملکرد کلی پایگاه داده تأثیر می گذارد. ANN-Benchmark یک ابزار معیار پیشرو است که توسط Martin Aumueller، Erik Bernhardsson، Alec Faitfull، و چندین مشارکت کننده دیگر برای ارزیابی عملکرد الگوریتم های شاخص برداری متنوع در طیف وسیعی از مجموعه داده های واقعی.

ANN-Benchmark به شما امکان می‌دهد نتایج آزمایش فراخوان/پرس‌وجوها در هر ثانیه الگوریتم‌های مختلف را بر اساس هر یک از تعدادی از مجموعه داده‌های از پیش محاسبه‌شده نمودار کنید. این نمودار نرخ فراخوان را در محور x در مقابل QPS در محور y ترسیم می‌کند و عملکرد هر الگوریتم را در سطوح مختلف دقت بازیابی نشان می‌دهد.

برای نتایج محک زدن، به وب‌سایت ANN-Benchmark مراجعه کنید.

نیمکت DB برداری

اگرچه ANN-Benchmark برای انتخاب و مقایسه الگوریتم های مختلف جستجوی برداری بسیار مفید است، اما دید کلی جامعی از پایگاه های داده برداری ارائه نمی دهد. ما همچنین باید عواملی مانند مصرف منابع، ظرفیت بارگیری داده ها و ثبات سیستم را در نظر بگیریم. علاوه بر این، ANN-Benchmark بسیاری از سناریوهای رایج مانند جستجوی برداری فیلتر شده را از دست می دهد.

VectorDBBench یک ابزار محک‌گذاری منبع باز است که ما در Zilliz ایجاد کردیم و می‌تواند محدودیت‌های ذکر شده در بالا را برطرف کند. . این برای پایگاه‌های داده برداری منبع باز مانند Milvus و Weaviate و خدمات کاملاً مدیریت شده مانند Zilliz Cloud و Pinecone طراحی شده است. از آنجایی که بسیاری از سرویس‌های جستجوی برداری کاملاً مدیریت شده، پارامترهای خود را برای تنظیم کاربر نشان نمی‌دهند، VectorDBBench QPS و نرخ‌های فراخوان را جداگانه نمایش می‌دهد.

برای نتایج محک زدن، به وب‌سایت VectorDBBench مراجعه کنید.

در قلمرو پویا پایگاه‌های داده برداری، محصولات متعددی تاکیدات و نقاط قوت منحصر به فردی را نشان می‌دهند. هیچ پایگاه داده برداری جهانی “بهترین” وجود ندارد. انتخاب بستگی به نیاز شما دارد بنابراین، ارزیابی مقیاس پذیری، عملکرد، عملکرد و سازگاری یک پایگاه داده برداری با موارد استفاده خاص شما، حیاتی است.

لی لیو مهندس اصلی در Zilliz، پیشرو در تحقیق و توسعه جستجوی برداری. قبل از پیوستن به Zilliz، لیو یک مهندس ارشد در Meta بود و چندین چارچوب داده جریان تبلیغاتی را طراحی و شکل داد. او با مدرک کارشناسی ارشد از دانشگاه کارنگی ملون، دارای تجربه گسترده ای در پایگاه داده ها و داده های بزرگ است. تخصص لی لیو در فناوری و نوآوری همچنان باعث پیشرفت در جستجوی برداری می شود و تأثیری ماندگار در این زمینه بر جای می گذارد.

Generative AI Insights مکانی را برای رهبران فناوری – از جمله فروشندگان و سایر مشارکت‌کنندگان خارجی – فراهم می‌کند تا چالش‌ها و فرصت‌های هوش مصنوعی مولد را بررسی و بحث کنند. این انتخاب گسترده است، از غواصی عمیق فناوری گرفته تا مطالعات موردی گرفته تا نظرات متخصص، اما همچنین ذهنی است، بر اساس قضاوت ما در مورد اینکه کدام موضوعات و درمان‌ها به بهترین وجه به مخاطبان فنی پیشرفته InfoWorld خدمت می‌کنند. InfoWorld وثیقه بازاریابی را برای انتشار نمی پذیرد و حق ویرایش تمام محتوای ارائه شده را برای خود محفوظ می دارد. تماس با doug_dineley@foundryco.com.