۳۰ آذر ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

پایگاه های داده برداری در LLM و جستجو

پایگاه داده های برداری و جستجو چیز جدیدی نیستند، اما برداری برای هوش مصنوعی مولد و کار با LLM ضروری است. در اینجا چیزی است که شما باید بدانید.

پایگاه داده های برداری و جستجو چیز جدیدی نیستند، اما برداری برای هوش مصنوعی مولد و کار با LLM ضروری است. در اینجا چیزی است که شما باید بدانید.

یکی از اولین پروژه های من به عنوان یک توسعه دهنده نرم افزار توسعه الگوریتم های تجزیه و تحلیل ژنتیک بود. ما نرم‌افزاری ساختیم تا نمونه‌های الکتروفورزیس را در پایگاه داده و شغل من اسکن کنیم. تبدیل تصویر هر الگوی DNA به داده های قابل نمایش بود. من این کار را با تبدیل تصویر به یک بردار انجام دادم که هر نقطه نشان دهنده ویژگی های نمونه است. هنگامی که بردار شد، می‌توانیم اطلاعات را به طور موثر ذخیره کنیم و شباهت بین نمونه‌های DNA را محاسبه کنیم.

تبدیل اطلاعات بدون ساختار به بردار امروزه رایج است و در مدل‌های زبان بزرگ (LLM)، تشخیص تصویر، پردازش زبان طبیعی، موتورهای توصیه و سایر استفاده می‌شود. یادگیری ماشین موارد استفاده.

پایگاه‌های اطلاعاتی برداری و جستجوی برداری دو پلتفرم اصلی هستند که توسعه‌دهندگان از آن برای تبدیل اطلاعات بدون ساختار به بردارها استفاده می‌کنند که امروزه بیشتر به آن جاسازی می‌گویند. هنگامی که اطلاعات به عنوان یک جاسازی کدگذاری می شوند، ذخیره می شوند، جستجو، و مقایسه اطلاعات آسان‌تر، سریع‌تر و مقیاس‌پذیرتر برای مجموعه‌های داده بزرگ.

چارلز زی، مدیر عامل زیلیز. “گنجینه واقعی پایگاه های داده برداری توانایی آنها برای کاوش عمیق در استخر عظیم داده های بدون ساختار و آزاد کردن ارزش آن است. درک این نکته مهم است که نقش آنها به ذخیره سازی حافظه برای LLM ها محدود نمی شود، و آنها دارای ظرفیت های دگرگون کننده ای هستند که بسیاری هنوز از خواب بیدار می شوند.”

نحوه کار پایگاه داده های برداری

تصور کنید که در حال ایجاد قابلیت جستجو برای دوربین های دیجیتال هستید. دوربین های دیجیتال ده ها ویژگی از جمله اندازه، برند، قیمت، نوع لنز، نوع سنسور، وضوح تصویر و سایر ویژگی ها را دارند. یک موتور جستجوی دوربین دیجیتال دارای ۵۰ ویژگی برای جستجوی بیش از ۲۵۰۰ دوربین است. راه‌های زیادی برای پیاده‌سازی جستجو و مقایسه وجود دارد، اما یک رویکرد تبدیل هر ویژگی به یک یا چند نقطه داده در یک جاسازی است. هنگامی که ویژگی ها بردار شدند، فرمول های فاصله برداری می توانند شباهت ها و جستجوهای محصول را محاسبه کنند.

هوش مصنوعی مولد ممکن است جایگزین توسعه ابر سنتی شود

دوربین‌ها مشکلی با ابعاد کم هستند، اما تصور کنید مشکل شما نیاز به جستجوی صدها هزار مقاله سفید علمی یا ارائه توصیه های موسیقی برای بیش از ۱۰۰ میلیون آهنگ. مکانیسم‌های جستجوی مرسوم در این مقیاس خراب می‌شوند، اما جستجوی برداری پیچیدگی اطلاعات را کاهش می‌دهد و محاسبات سریع‌تر را امکان‌پذیر می‌کند.

جاش میرامانت، مدیر عامل BlueOrange می‌گوید: «یک پایگاه داده برداری اطلاعات را در یک نمایش ریاضی که برای درک ماشینی مناسب است، رمزگذاری می‌کند. /a>. این نمایش‌های ریاضی یا بردارها می‌توانند شباهت‌ها و تفاوت‌های بین داده‌های مختلف را رمزگذاری کنند، مانند دو رنگ که نمایش برداری نزدیک‌تری هستند. فاصله‌ها یا معیارهای شباهت، چیزی است که بسیاری از مدل‌ها برای تعیین بهترین یا بدترین نتیجه یک سؤال از آن استفاده می‌کنند.”

استفاده از موارد برای پایگاه داده های برداری

یکی از عملکردهای پایگاه داده برداری ساده کردن اطلاعات است، اما قدرت واقعی آن ایجاد برنامه هایی برای پشتیبانی از طیف گسترده ای از جستارهای زبان طبیعی است. جستجوی کلمه کلیدی و فرم‌های جستجوی پیشرفته، ترجمه آنچه را که افراد جستجو می‌کنند به یک عبارت جستجو ساده می‌کنند، اما پردازش یک سؤال زبان طبیعی انعطاف‌پذیری بیشتری را ارائه می‌دهد. با پایگاه داده برداری، سوال به یک جاسازی تبدیل می شود و برای انجام جستجو استفاده می شود.

برای مثال، ممکن است بگویم، “یک دوربین SLR با قیمت متوسط ​​برای من پیدا کنید که در بازار جدید باشد، فیلمبرداری عالی داشته باشد و در نور کم به خوبی کار کند.” یک ترانسفورماتور این سوال را به یک جاسازی تبدیل می کند. پایگاه‌های داده برداری معمولاً از ترانسفورماتورهای رمزگذار استفاده می‌کنند . ابتدا، توسعه‌دهنده سؤال را به کلمات تبدیل می‌کند، سپس از یک ترانسفورماتور برای رمزگذاری موقعیت‌های کلمات، اضافه کردن وزن‌های مرتبط، و سپس ایجاد نمایش‌های انتزاعی با استفاده از یک شبکه عصبی پیش‌خور استفاده می‌کند. سپس توسعه‌دهنده از تعبیه نهایی سؤال برای جستجو در پایگاه داده برداری استفاده می‌کند.

پایگاه‌های اطلاعاتی برداری به حل مشکل پشتیبانی از طیف وسیعی از گزینه‌های جستجو در برابر یک منبع اطلاعاتی پیچیده با ویژگی‌ها و موارد استفاده بسیار کمک می‌کنند. LLM ها تطبیق پذیری پایگاه های داده برداری را مورد توجه قرار داده اند و اکنون توسعه دهندگان آنها را در زبان و سایر حوزه های غنی از اطلاعات به کار می برند.

ونکات ونکاتارامانی می‌گوید: «جستجوی بردار با استفاده از یادگیری ماشینی و هوش مصنوعی برای تقویت دستیارهای صوتی، ربات‌های گفتگو، تشخیص ناهنجاری، توصیه‌ها و موتورهای شخصی‌سازی، که همگی بر اساس جاسازی‌های برداری در هسته‌ی خود هستند، سرعت بیشتری به دست آورده است.» ، مدیر عامل Rockset. با گسترش قابلیت‌های جستجو و تجزیه‌وتحلیل در زمان واقعی به جستجوی برداری، توسعه‌دهندگان می‌توانند فراداده‌ها و جاسازی‌های برداری را در زمان واقعی فهرست‌بندی و به‌روزرسانی کنند، یک جزء حیاتی برای تقویت جستجوهای مشابه، موتورهای توصیه، پرسش و پاسخ هوش مصنوعی و چت‌ربات‌ها.» /p>

GitHub پیش نمایش کد اسکن خودکار مبتنی بر هوش مصنوعی را انجام می دهد

استفاده از پایگاه های داده برداری در LLM

پایگاه‌های اطلاعاتی برداری، توسعه‌دهندگان را قادر می‌سازد تا مدل‌های زبان تخصصی بسازند، و درجه بالایی از کنترل را بر نحوه بردار کردن اطلاعات ارائه می‌دهند. برای مثال، توسعه‌دهندگان می‌توانند جاسازی‌های عمومی بسازند تا به افراد کمک کنند همه انواع کتاب‌ها را در یک وب‌سایت تجارت الکترونیک جستجو کنند. از طرف دیگر، آن‌ها می‌توانند جاسازی‌های تخصصی برای کتاب‌های تاریخی، علمی یا دیگر دسته‌بندی‌های خاص با جاسازی‌های دامنه خاص بسازند، و به کاربران قدرتمند و متخصصان موضوع امکان می‌دهند تا سؤالات دقیقی درباره آنچه در کتاب‌های مورد علاقه وجود دارد بپرسند.

مایک فینلی، مدیر ارشد فناوری AnswerRocket. تیم‌های توسعه داده‌ها و برنامه‌ها باید یک پایگاه داده برداری را به عنوان یک فرهنگ لغت یا فهرست دانش، با فهرستی طولانی از کلیدها (افکار یا مفاهیم) و یک بار (متن مرتبط با کلید) برای هر یک از آنها در نظر بگیرند. برای مثال، ممکن است کلید «روندهای مصرف‌کننده در سال ۲۰۲۳» را داشته باشید که حاوی متنی از یک تحلیل نظرسنجی شرکت تحلیلگر یا یک مطالعه داخلی از یک شرکت محصولات مصرفی است.

انتخاب پایگاه داده برداری

توسعه‌دهندگان در هنگام تبدیل اطلاعات به جاسازی‌ها و ساختن جستجوی برداری، مقایسه‌های شباهت و عملکردهای پاسخ‌گویی به سؤال، چندین گزینه فناوری دارند.

پیتر زایتسف، موسس پرکونا. یکی از انتخاب‌هایی که توسعه‌دهندگان با آن روبرو هستند این است که آیا پایگاه‌های داده جدید را که ممکن است ویژگی‌ها و عملکرد بیشتری ارائه می‌دهند، بپذیرند یا به استفاده از پایگاه‌های داده با اهداف عمومی با برنامه‌های افزودنی ادامه دهند. اگر قرار است تاریخ قضاوت کند، هیچ پاسخ درست واحدی وجود ندارد، و بسته به برنامه در حال ساخت و تجربه تیم، هر دو رویکرد امتیازات خود را دارند.”

راجش آبهیانکار، رئیس Gen AI COE در Systems Persistent، می‌گوید: «پایگاه‌های اطلاعاتی برداری که معمولاً برای موتورهای جستجو، ربات‌های گفتگو و پردازش زبان طبیعی شامل Pinecone، FAISS و Mivus هستند. او ادامه می‌دهد، “Pinecone برای سیستم‌های توصیه و تشخیص تقلب، FAISS برای جستجوی تصویر و توصیه‌های محصول، و Milvus برای جستجو و توصیه‌های بلادرنگ با کارایی بالا مناسب است.”

دیگر پایگاه های داده برداری شامل Chroma، LanceDB، Marqo، Qdrant، Vespa و Weaviate هستند. پایگاه‌های داده و موتورهایی که از قابلیت‌های جستجوی برداری پشتیبانی می‌کنند عبارتند از Cassandra، Coveo، Elasticsearch OpenSearch، PostgreSQL، Redis، Rockset و Zilliz. جستجوی برداری قابلیت جستجوی شناختی Azure است، و Azure دارای اتصال برای بسیاری از پایگاه‌های داده برداری دیگر است. AWS از چندین گزینه های پایگاه داده برداری پشتیبانی می کند، در حالی که Google Cloud دارای جستجوی برداری بردار هوش مصنوعی و اتصال دهنده به سایر فناوری های پایگاه داده برداری.

5 راه آسان برای اجرای LLM به صورت محلی

پایگاه‌های اطلاعاتی برداری و خطرات هوش مصنوعی مولد

استفاده از پایگاه‌های داده برداری و جستجو، چند خطر رایج تولید کننده هوش مصنوعی را به همراه دارد. مانند کیفیت داده ها، مشکلات مدل سازی و موارد دیگر. مسائل جدید عبارتند از توهم و confabulations. چند راه برای توهمات و سردرگمی ها شامل بهبود داده های آموزشی و دسترسی به اطلاعات در زمان واقعی است.

Joe Regensburger، معاون تحقیق در Immuta. از منظر تصمیم گیری امنیتی، مخدوش کردن خطر بیشتری نسبت به توهم دارد، زیرا LLM ها پاسخ های قابل قبولی ایجاد می کنند.

Regensburger دو توصیه در مورد مراحل کاهش نادرستی مدل به اشتراک گذاشت. “به دست آوردن نتایج خوب از یک LLM مستلزم داشتن داده های خوب، نظارت شده و کنترل شده است، صرف نظر از اینکه داده ها در کجا ذخیره می شوند.” او همچنین خاطرنشان می کند که “جاسازی اساسی ترین مورد برای حل است.” او می‌گوید برای ایجاد جاسازی‌هایی که حاوی مهم‌ترین اطلاعات هستند و از جستجوی انعطاف‌پذیر پشتیبانی می‌کنند، علمی وجود دارد.

راهول پرادهان، معاون محصول و استراتژی در Couchbase، نحوه کمک پایگاه‌های اطلاعاتی برداری به رفع مشکلات توهم را به اشتراک می‌گذارد. او می‌گوید: «در زمینه LLM‌ها، پایگاه‌های داده برداری ذخیره‌سازی طولانی‌مدت را برای کاهش توهمات هوش مصنوعی فراهم می‌کنند تا اطمینان حاصل شود که دانش مدل منسجم و مستقر است و خطر پاسخ‌های نادرست را به حداقل می‌رساند.

نتیجه گیری

وقتی پایگاه‌های اطلاعاتی SQL شروع به فراگیر شدن کردند، دهه‌ها نوآوری را در مورد اطلاعات ساختاریافته سازمان‌دهی‌شده در ردیف‌ها و ستون‌ها رهبری کردند. NoSQL، پایگاه‌های داده ستونی، ذخیره‌های کلید-مقدار، پایگاه‌های داده اسناد و ذخیره‌سازی داده‌های شی به توسعه‌دهندگان اجازه می‌دهد تا مجموعه‌های داده نیمه‌ساختارمند و بدون ساختار مختلف را ذخیره، مدیریت و پرس‌وجو کنند. فناوری برداری به طور مشابه برای هوش مصنوعی مولد، با اثرات موج دار بالقوه مانند آنچه در SQL دیده ایم، اساسی است. درک برداری و آشنایی با پایگاه داده های برداری یک مجموعه مهارت ضروری برای توسعه دهندگان است.