پایگاه داده های برداری و جستجو چیز جدیدی نیستند، اما برداری برای هوش مصنوعی مولد و کار با LLM ضروری است. در اینجا چیزی است که شما باید بدانید.
- نحوه کار پایگاه داده برداری
- استفاده از موارد برای پایگاههای داده برداری
- استفاده از پایگاه های داده برداری در LLM
- انتخاب پایگاه داده برداری
- پایگاههای اطلاعاتی برداری و خطرات هوش مصنوعی مولد
- نتیجهگیری
یکی از اولین پروژه های من به عنوان یک توسعه دهنده نرم افزار توسعه الگوریتم های تجزیه و تحلیل ژنتیک بود. ما نرمافزاری ساختیم تا نمونههای الکتروفورزیس را در پایگاه داده و شغل من اسکن کنیم. تبدیل تصویر هر الگوی DNA به داده های قابل نمایش بود. من این کار را با تبدیل تصویر به یک بردار انجام دادم که هر نقطه نشان دهنده ویژگی های نمونه است. هنگامی که بردار شد، میتوانیم اطلاعات را به طور موثر ذخیره کنیم و شباهت بین نمونههای DNA را محاسبه کنیم.
تبدیل اطلاعات بدون ساختار به بردار امروزه رایج است و در مدلهای زبان بزرگ (LLM)، تشخیص تصویر، پردازش زبان طبیعی، موتورهای توصیه و سایر استفاده میشود. یادگیری ماشین موارد استفاده.
پایگاههای اطلاعاتی برداری و جستجوی برداری دو پلتفرم اصلی هستند که توسعهدهندگان از آن برای تبدیل اطلاعات بدون ساختار به بردارها استفاده میکنند که امروزه بیشتر به آن جاسازی میگویند. هنگامی که اطلاعات به عنوان یک جاسازی کدگذاری می شوند، ذخیره می شوند، جستجو، و مقایسه اطلاعات آسانتر، سریعتر و مقیاسپذیرتر برای مجموعههای داده بزرگ.
چارلز زی، مدیر عامل زیلیز. “گنجینه واقعی پایگاه های داده برداری توانایی آنها برای کاوش عمیق در استخر عظیم داده های بدون ساختار و آزاد کردن ارزش آن است. درک این نکته مهم است که نقش آنها به ذخیره سازی حافظه برای LLM ها محدود نمی شود، و آنها دارای ظرفیت های دگرگون کننده ای هستند که بسیاری هنوز از خواب بیدار می شوند.”
نحوه کار پایگاه داده های برداری
تصور کنید که در حال ایجاد قابلیت جستجو برای دوربین های دیجیتال هستید. دوربین های دیجیتال ده ها ویژگی از جمله اندازه، برند، قیمت، نوع لنز، نوع سنسور، وضوح تصویر و سایر ویژگی ها را دارند. یک موتور جستجوی دوربین دیجیتال دارای ۵۰ ویژگی برای جستجوی بیش از ۲۵۰۰ دوربین است. راههای زیادی برای پیادهسازی جستجو و مقایسه وجود دارد، اما یک رویکرد تبدیل هر ویژگی به یک یا چند نقطه داده در یک جاسازی است. هنگامی که ویژگی ها بردار شدند، فرمول های فاصله برداری می توانند شباهت ها و جستجوهای محصول را محاسبه کنند.
دوربینها مشکلی با ابعاد کم هستند، اما تصور کنید مشکل شما نیاز به جستجوی صدها هزار مقاله سفید علمی یا ارائه توصیه های موسیقی برای بیش از ۱۰۰ میلیون آهنگ. مکانیسمهای جستجوی مرسوم در این مقیاس خراب میشوند، اما جستجوی برداری پیچیدگی اطلاعات را کاهش میدهد و محاسبات سریعتر را امکانپذیر میکند.
استفاده از موارد برای پایگاه داده های برداری
یکی از عملکردهای پایگاه داده برداری ساده کردن اطلاعات است، اما قدرت واقعی آن ایجاد برنامه هایی برای پشتیبانی از طیف گسترده ای از جستارهای زبان طبیعی است. جستجوی کلمه کلیدی و فرمهای جستجوی پیشرفته، ترجمه آنچه را که افراد جستجو میکنند به یک عبارت جستجو ساده میکنند، اما پردازش یک سؤال زبان طبیعی انعطافپذیری بیشتری را ارائه میدهد. با پایگاه داده برداری، سوال به یک جاسازی تبدیل می شود و برای انجام جستجو استفاده می شود.
برای مثال، ممکن است بگویم، “یک دوربین SLR با قیمت متوسط برای من پیدا کنید که در بازار جدید باشد، فیلمبرداری عالی داشته باشد و در نور کم به خوبی کار کند.” یک ترانسفورماتور این سوال را به یک جاسازی تبدیل می کند. پایگاههای داده برداری معمولاً از ترانسفورماتورهای رمزگذار استفاده میکنند . ابتدا، توسعهدهنده سؤال را به کلمات تبدیل میکند، سپس از یک ترانسفورماتور برای رمزگذاری موقعیتهای کلمات، اضافه کردن وزنهای مرتبط، و سپس ایجاد نمایشهای انتزاعی با استفاده از یک شبکه عصبی پیشخور استفاده میکند. سپس توسعهدهنده از تعبیه نهایی سؤال برای جستجو در پایگاه داده برداری استفاده میکند.
پایگاههای اطلاعاتی برداری به حل مشکل پشتیبانی از طیف وسیعی از گزینههای جستجو در برابر یک منبع اطلاعاتی پیچیده با ویژگیها و موارد استفاده بسیار کمک میکنند. LLM ها تطبیق پذیری پایگاه های داده برداری را مورد توجه قرار داده اند و اکنون توسعه دهندگان آنها را در زبان و سایر حوزه های غنی از اطلاعات به کار می برند.
ونکات ونکاتارامانی میگوید: «جستجوی بردار با استفاده از یادگیری ماشینی و هوش مصنوعی برای تقویت دستیارهای صوتی، رباتهای گفتگو، تشخیص ناهنجاری، توصیهها و موتورهای شخصیسازی، که همگی بر اساس جاسازیهای برداری در هستهی خود هستند، سرعت بیشتری به دست آورده است.» ، مدیر عامل Rockset. با گسترش قابلیتهای جستجو و تجزیهوتحلیل در زمان واقعی به جستجوی برداری، توسعهدهندگان میتوانند فرادادهها و جاسازیهای برداری را در زمان واقعی فهرستبندی و بهروزرسانی کنند، یک جزء حیاتی برای تقویت جستجوهای مشابه، موتورهای توصیه، پرسش و پاسخ هوش مصنوعی و چترباتها.» /p>
استفاده از پایگاه های داده برداری در LLM
پایگاههای اطلاعاتی برداری، توسعهدهندگان را قادر میسازد تا مدلهای زبان تخصصی بسازند، و درجه بالایی از کنترل را بر نحوه بردار کردن اطلاعات ارائه میدهند. برای مثال، توسعهدهندگان میتوانند جاسازیهای عمومی بسازند تا به افراد کمک کنند همه انواع کتابها را در یک وبسایت تجارت الکترونیک جستجو کنند. از طرف دیگر، آنها میتوانند جاسازیهای تخصصی برای کتابهای تاریخی، علمی یا دیگر دستهبندیهای خاص با جاسازیهای دامنه خاص بسازند، و به کاربران قدرتمند و متخصصان موضوع امکان میدهند تا سؤالات دقیقی درباره آنچه در کتابهای مورد علاقه وجود دارد بپرسند.
مایک فینلی، مدیر ارشد فناوری AnswerRocket. تیمهای توسعه دادهها و برنامهها باید یک پایگاه داده برداری را به عنوان یک فرهنگ لغت یا فهرست دانش، با فهرستی طولانی از کلیدها (افکار یا مفاهیم) و یک بار (متن مرتبط با کلید) برای هر یک از آنها در نظر بگیرند. برای مثال، ممکن است کلید «روندهای مصرفکننده در سال ۲۰۲۳» را داشته باشید که حاوی متنی از یک تحلیل نظرسنجی شرکت تحلیلگر یا یک مطالعه داخلی از یک شرکت محصولات مصرفی است.
انتخاب پایگاه داده برداری
توسعهدهندگان در هنگام تبدیل اطلاعات به جاسازیها و ساختن جستجوی برداری، مقایسههای شباهت و عملکردهای پاسخگویی به سؤال، چندین گزینه فناوری دارند.
پیتر زایتسف، موسس پرکونا. یکی از انتخابهایی که توسعهدهندگان با آن روبرو هستند این است که آیا پایگاههای داده جدید را که ممکن است ویژگیها و عملکرد بیشتری ارائه میدهند، بپذیرند یا به استفاده از پایگاههای داده با اهداف عمومی با برنامههای افزودنی ادامه دهند. اگر قرار است تاریخ قضاوت کند، هیچ پاسخ درست واحدی وجود ندارد، و بسته به برنامه در حال ساخت و تجربه تیم، هر دو رویکرد امتیازات خود را دارند.”
راجش آبهیانکار، رئیس Gen AI COE در Systems Persistent، میگوید: «پایگاههای اطلاعاتی برداری که معمولاً برای موتورهای جستجو، رباتهای گفتگو و پردازش زبان طبیعی شامل Pinecone، FAISS و Mivus هستند. او ادامه میدهد، “Pinecone برای سیستمهای توصیه و تشخیص تقلب، FAISS برای جستجوی تصویر و توصیههای محصول، و Milvus برای جستجو و توصیههای بلادرنگ با کارایی بالا مناسب است.”
دیگر پایگاه های داده برداری شامل Chroma، LanceDB، Marqo، Qdrant، Vespa و Weaviate هستند. پایگاههای داده و موتورهایی که از قابلیتهای جستجوی برداری پشتیبانی میکنند عبارتند از Cassandra، Coveo، Elasticsearch OpenSearch، PostgreSQL، Redis، Rockset و Zilliz. جستجوی برداری قابلیت جستجوی شناختی Azure است، و Azure دارای اتصال برای بسیاری از پایگاههای داده برداری دیگر است. AWS از چندین گزینه های پایگاه داده برداری پشتیبانی می کند، در حالی که Google Cloud دارای جستجوی برداری بردار هوش مصنوعی و اتصال دهنده به سایر فناوری های پایگاه داده برداری.
پایگاههای اطلاعاتی برداری و خطرات هوش مصنوعی مولد
استفاده از پایگاههای داده برداری و جستجو، چند خطر رایج تولید کننده هوش مصنوعی را به همراه دارد. مانند کیفیت داده ها، مشکلات مدل سازی و موارد دیگر. مسائل جدید عبارتند از توهم و confabulations. چند راه برای توهمات و سردرگمی ها شامل بهبود داده های آموزشی و دسترسی به اطلاعات در زمان واقعی است.
Joe Regensburger، معاون تحقیق در Immuta. از منظر تصمیم گیری امنیتی، مخدوش کردن خطر بیشتری نسبت به توهم دارد، زیرا LLM ها پاسخ های قابل قبولی ایجاد می کنند.
Regensburger دو توصیه در مورد مراحل کاهش نادرستی مدل به اشتراک گذاشت. “به دست آوردن نتایج خوب از یک LLM مستلزم داشتن داده های خوب، نظارت شده و کنترل شده است، صرف نظر از اینکه داده ها در کجا ذخیره می شوند.” او همچنین خاطرنشان می کند که “جاسازی اساسی ترین مورد برای حل است.” او میگوید برای ایجاد جاسازیهایی که حاوی مهمترین اطلاعات هستند و از جستجوی انعطافپذیر پشتیبانی میکنند، علمی وجود دارد.
راهول پرادهان، معاون محصول و استراتژی در Couchbase، نحوه کمک پایگاههای اطلاعاتی برداری به رفع مشکلات توهم را به اشتراک میگذارد. او میگوید: «در زمینه LLMها، پایگاههای داده برداری ذخیرهسازی طولانیمدت را برای کاهش توهمات هوش مصنوعی فراهم میکنند تا اطمینان حاصل شود که دانش مدل منسجم و مستقر است و خطر پاسخهای نادرست را به حداقل میرساند.
نتیجه گیری
وقتی پایگاههای اطلاعاتی SQL شروع به فراگیر شدن کردند، دههها نوآوری را در مورد اطلاعات ساختاریافته سازماندهیشده در ردیفها و ستونها رهبری کردند. NoSQL، پایگاههای داده ستونی، ذخیرههای کلید-مقدار، پایگاههای داده اسناد و ذخیرهسازی دادههای شی به توسعهدهندگان اجازه میدهد تا مجموعههای داده نیمهساختارمند و بدون ساختار مختلف را ذخیره، مدیریت و پرسوجو کنند. فناوری برداری به طور مشابه برای هوش مصنوعی مولد، با اثرات موج دار بالقوه مانند آنچه در SQL دیده ایم، اساسی است. درک برداری و آشنایی با پایگاه داده های برداری یک مجموعه مهارت ضروری برای توسعه دهندگان است.
پست های مرتبط
پایگاه های داده برداری در LLM و جستجو
پایگاه های داده برداری در LLM و جستجو
پایگاه های داده برداری در LLM و جستجو