پایگاه دادهی فروتن کلید ارائه زمینه و سازگاری به هوش مصنوعی را فراهم میکند و دسترسی به دادههایی فراتر از نقطه قطع آموزش آن را میسر میسازد.
سیستمهای هوش مصنوعی نهایت فراموشی را دارند. علیرغم توانایی چشمگیر در تولید متن، کد، موسیقی و غیره، آنها توسط درخواست مستقیم پیشروی آنها محدود میشوند. از ChatGPT دربارهٔ دستوری که هفتهٔ گذشته پیشنهاد کرده بود بپرسید و احتمالاً پاسخ گیجکنندهای یا حتی توهمی دریافت خواهید کرد. مدلهای زبانی بزرگ (LLMs) بهصورت بنیادی بدون وضعیت هستند: آنها هر پرسش را گویی تازه دریافت میکنند، بدون یادگیری یا شخصیسازی انباشته.
با این حال، این در حال تغییر است. تمام ارائهدهندگان پیشرو LLM در حال بررسی راههایی برای افزودن حافظه به هوش مصنوعی هستند که قول میدهد تأثیر هوش مصنوعی را بهطرز چشمگیری تغییر دهد. طبق گفته ریچموند الاک، یک صدای پیشرو توسعهدهنده در هوش مصنوعی (و همکار پیشین من در MongoDB)، «حافظه در هوش مصنوعی کاملاً جدید نیست … اما کاربرد آن در عوامل مدرن هوش مصنوعی … انقلابی است.» چرا؟ زیرا «شخصیسازی واقعی و سودآوری بلندمدت وابسته به توانایی عامل در یادآوری، یادگیری و سازگاری است.» به عبارت دیگر، هوش واقعی تنها به پردازش میلیاردها کلمه در یک شبکه عصبی محدود نمیشود؛ بلکه شامل بهخاطر سپردن اطلاعات مرتبط در زمان مناسب نیز میشود.
به این ترتیب، حافظه بهعنوان قطعهٔ مفقود برای هوش مصنوعی ظاهر میشود، عاملی که میتواند رباتهای فراموشکار امروز را به همراهان سازگار تبدیل کند. سؤال بزرگ اکنون این است که چگونه به سیستمهای هوش مصنوعی خود این حافظهٔ ضروری را بدهیم. بهنظر میرسد راه حل خیلی چشمنواز نیست: پایگاههای داده.
پایگاههای داده حافظهٔ خارجی هوش مصنوعی را تغذیه میکنند
بله، پایگاههای داده. درست است که پایگاههای داده در فهرستهای واژگان برتر که گفتوگوهای صنعتیمان را دربارهٔ هوش مصنوعی امروز تقویت میکنند، ظاهر نمیشوند. سرورهای MCP! GANها! ما قبلاً از تولید افزوده با بازیابی (RAG) (پس ۲۰۲۴!) عبور کردهایم و در سیستمهای عاملی عمیقاً غوطهور شدهایم. «به گفته سانتیاگو والداراما»، «هیچکس واقعاً نمیداند عامل چیست». اما زیر جذابیت براق همهٔ این روندهای سرعتپذیر هوش مصنوعی، داده وجود دارد. و پایگاههای داده همان داده را نگه میدارند.
در نرمافزارهای سنتی، پایگاههای داده همواره منبع حقیقت، ذخیرهساز بلندمدت وضعیت و دادهها بودهاند. اکنون، در عصر هوش مصنوعی مولد، پایگاههای داده نقش جدیدی بهعنوان لایهٔ حافظهٔ پشتهٔ هوش مصنوعی بر عهده گرفتهاند. در واقع، پایگاههای داده برداری بهجزء اساسی فناوری genAI تبدیل شدهاند زیرا محدودیتهای کلیدی LLMها مانند توهمات و عدم وجود حافظهٔ دائم را برطرف میکنند. با ذخیره دانش در یک پایگاه داده که هوش مصنوعی میتواند از آن پرسوجو کند، به این مدلها دماغی خارجی میدهیم تا هوش ذاتی خود را تکمیل کنند.
همانطور که الاک در یک فیلمآموزشی برجسته میگوید، چندین روش کلیدی برای فکر کردن (و استفاده) از حافظه برای هوش مصنوعی وجود دارد:
- حافظهٔ شخصیت هویت، ویژگیهای شخصیتی، نقشها، تخصص و سبک ارتباطی عامل را ذخیره میکند.
- حافظهٔ جعبهابزار تعاریف ابزار، فراداده، طرحهای پارامتر و تعبیههای مربوط به تواناییهای عامل را در بر دارد.
- حافظهٔ گفتگو تاریخچهٔ تبادلات بین کاربر و عامل را ذخیره میکند.
- حافظهٔ گردشکار وضعیت فرآیندهای چندمرحلهای را پیگیری میکند.
- حافظهٔ دورهای رویدادها یا تجربیات خاصی را که عامل با آنها مواجه شده ذخیره میکند.
- حافظهٔ بلندمدت (پایگاه دانش) مخزن دائمی دانش پسزمینه را برای عامل فراهم میکند.
- ثبتنام عامل مخزنی برای حقایق و اطلاعات دربارهٔ موجودیتهایی است که عامل با آنها تعامل دارد، مانند انسانها، عوامل دیگر یا APIها.
- حافظهٔ موجودیت حقایق و دادههای مرتبط با موجودیتهای مختلفی که عامل در حین عملیات با آنها در ارتباط است را ذخیره میکند.
- حافظهٔ کاری بهعنوان فضای پردازش موقت و فعال عمل میکند که از طریق پنجرهٔ زمینهٔ مدل زبان بزرگ پیادهسازی میشود.
این مقدار «حافظه» زیاد است، اما چگونه آنها را به زندگی میآوریم؟ صنعت هنوز در حال یافتن راهحل است، اما برای اکثر سازمانها امروز، RAG رایجترین روش برای بهبود حافظهٔ یک برنامهٔ هوش مصنوعی است. در RAG، هوش مصنوعی حقایق مرتبط را از یک پایگاه دانش (پایگاه داده) میکشد تا پاسخهای خود را پایهگذاری کند. بهجای اتکا صرف به آنچه در آموزش مدل تعبیه شده (که ممکن است منسوخ یا کلی باشد)، هوش مصنوعی جستجویی در یک ذخیرهٔ خارجی، اغلب یک پایگاه دادهٔ برداری، انجام میدهد تا اطلاعات بهروز یا جزئیتری را بازیابی کند. این امکان را میدهد که سیستم «به خاطر بسپارد» چیزهایی که بهطور صریح آموزش ندیده است، برای مثال اسناد داخلی یک شرکت یا تاریخچهٔ خاص یک کاربر که سپس میتواند در پاسخ گنجانده شود.
با افزودن دادههای استخراجشده از یک پایگاه داده به درخواستها، سیستمهای هوش مصنوعی میتوانند گفتوگوهای پیوستهای را در طول زمان حفظ کرده و بهدقت به سوالات حوزهای پاسخ دهند؛ در واقع، وضعیت و حافظهٔ بلندمدت فراتر از پارامترهای ثابت مدل خود بهدست میآورند. این روشی است برای اطمینان از اینکه هوش مصنوعی هر بار از صفر شروع نمیکند؛ میتواند آنچه قبلاً گفته شده را به یاد بیاورد و به حقایق فراتر از نقطهٔ قطع آموزش خود دسترسی پیدا کند. بهطور خلاصه، پایگاههای داده (بهویژه مخازن برداری) برای حافظهٔ بلندمدت هوش مصنوعی اساسی هستند.
بردارها، گرافها و حافظههای ترکیبی
طبیعتاً همهٔ حافظهها یکسان نیستند و تمام پایگاههای داده نیز به یک شکل عمل نمیکنند. بهعنوان صنعتی، ما در حال آزمایش فناوریهای مختلف پایگاه داده برای خدمت به عنوان حافظهٔ هوش مصنوعی هستیم، هر کدام با قوتها و محدودیتهای خود. همانطور که گفته شد، پایگاههای دادهٔ برداری کودک نمایندهٔ حافظهٔ هوش مصنوعی هستند. آنها در جستجوی شباهت معنایی برترند، قطعات اطلاعاتی که از نظر معنا مرتبط هستند را مییابند، نه فقط از طریق کلیدواژهها. این ویژگی آنها را برای دادههای بدون ساختار مانند متنهای بزرگ ایدهآل میکند: سؤالی بپرسید و قطعهای را که بهترین پاسخ را میدهد پیدا کنید.
همانطور که در هوش مصنوعی معمول است، ما یک آزمون کوتاه با پایگاههای دادهٔ برداری مستقل (مانند Weaviate، Pinecone و غیره) داشتیم. این آزمون طولانی نشد، زیرا هر عرضهکنندهٔ بزرگ پایگاه داده (از جمله کارفرمایان پیشین و کنونی من، MongoDB و Oracle) قابلیت جستجوی برداری را به هستهٔ پایگاه داده خود اضافه کردند. در سال ۲۰۲۳، AWS برنامهای را اعلام کرد تا «قابلیتهای برداری را به تمام سرویسهای پایگاه دادهمان اضافه کند». امروز، اکثر سرویسهای پایگاه دادهٔ این شرکتها شامل قابلیتهای برداری هستند. در AWS، Oracle، MongoDB و دیگران، افزودن بردار به توسعهدهندگان این امکان را میدهد تا تعبیههای برداری را همراه با دادههای عملیاتی ذخیره کنند.
بهعبارت دیگر، مرز بین پایگاه دادهٔ برنامهای و مخزن حافظهٔ هوش مصنوعی در حال محو شدن است.
با این حال، جستجوی برداری بهتنهایی راهحلی جادویی برای تمام مشکلات حافظه نیست. یکی از محدودیتها این است که شباهت صرفاً معنایی میتواند زمینهای مانند زمانبندی یا روابط را از دست بدهد. یک پرسوجوی برداری ممکن است یک حقیقت چند ماههٔ مشابه را نشان دهد که از نظر زمینهای منسوخ یا قدیمی باشد. اینجاست که مخازن دادهای دیگر مانند پایگاههای دادهٔ گراف وارد صحنه میشوند. تکنیکهای گراف دانش اطلاعات را بهصورت گرهها و یالها ذخیره میکنند؛ همانند وبی از حقایق که با روابط لینک شدهاند (چه کسی مدیرعامل چه شرکتی است، چه زمانی سندی ایجاد شده و غیره). چنین حافظهٔ ساختاری میتواند به هوش مصنوعی کمک کند تا زمان وقوع یا چگونگی اتصال حقایق را تشخیص دهد. برای مثال، اگر بپرسید «امروز چه رستورانی را دیروز به من پیشنهاد دادید؟»، حافظهٔ گرافی میتواند نتایج را بر اساس تاریخ دقیق توصیه فیلتر کند، نه فقط بر اساس شباهت معنایی. گرافها بنابراین میتوانند آگاهی زمانی و زمینهای را فراهم کنند که جستجوی برداری به تنهایی قادر به آن نیست.
آنها همچنین قابلیت ردیابی را ارائه میدهند. میتوانید علت بازیابی یک حقیقت توسط هوش مصنوعی را از طریق روابط ردیابی کنید، که برای دیباگ و اعتماد مفید است. استارتاپهایی مانند Zep در حال بررسی رویکردهای ترکیبی هستند که بردارها را با پیوندهای گرافی ترکیب میکنند تا بهترینهای هر دو جهان را بهدست آورند. معایب؟ حافظهٔ گرافی نیاز به تعریف یک طرحواره و نگهداری دادههای ساختاری دارد که میتواند پیچیده باشد و ممکن است تمام نکات متن بدون ساختار را بهخوبی بهدست آورد. برای بسیاری از برنامهها، یک مخزن برداری ساده (یا یک پایگاه داده مستنداتی با قابلیت برداری) میانپیری خوشایندی بین سادگی و کارآمدی فراهم میکند.
ما همچنین رویکردهای جستجوی ترکیبی را میبینیم: ترکیب پرسوجوهای کلیدواژهای سنتی با شباهت برداری. این میتواند نتایج را بر اساس فراداده (محدودههای زمانی، شناسهٔ کاربر یا برچسبها) قبل از تطبیق معنایی فیلتر کند، بهطوری که آنچه هوش مصنوعی «بهخاطر میآورد» نه تنها از نظر معنا بلکه از نظر زمینه نیز مرتبط باشد. در عمل، توسعهدهندگان هوش مصنوعی اغلب ترکیبی از تکنیکها را استفاده میکنند: یک بافر حافظهٔ کوتاهمدت برای تعاملات اخیر، یک پایگاه دادهٔ برداری برای یادآوری معنایی بلندمدت، و گاهی یک پایگاه دادهٔ رابطهای یا مستنداتی برای حقایق صریح و دادههای خاص کاربر. این اجزاء با هم یک سلسلهمراتب حافظهٔ ابتدایی را شکل میدهند: حافظهٔ موقت سریع (پنجرهٔ زمینه) بهعلاوهٔ حافظهٔ جستجوپذیر دائم (پایگاه داده). پایگاه داده بهطور اساسی نقش هیپوکامپوس هوش مصنوعی را ایفا میکند، تجارب و دانش را ذخیره میکند که هنگام نیاز میتوان آنها را برای استدلالهای آینده فراخوانی کرد.
پایان فراموشی هوش مصنوعی
بهجز همهٔ هیاهوی شبکههای عصبی و اندازهٔ مدلها، پایگاه دادهٔ متواضع—فنآوری ثبت و تراکنشها—بهطور ساکتباریکی در حال بازتعریف قابلیتهای هوش مصنوعی است. با وصل کردن یک پایگاه داده، به هوش مصنوعی حافظهٔ کاری و حافظهٔ بلندمدت میدهیم. حال میتواند وضعیت را حفظ کند، بهصورت آنی اطلاعات جدید بیاموزد و دانش گذشته را برای تصمیمگیریهای آینده بازیابی کند. این کار جذاب نیست، اما حیاتی است.
چالشها همچنان باقی هستند، البته. مهندسان در حال کشف چگونگی مدیریت حافظهٔ هوش مصنوعی در مقیاس، تصمیمگیری دربارهٔ آنچه ذخیره یا فراموش شود تا از اشباع اطلاعات جلوگیری کنند، اطمینان از اینکه حقایق مرتبط بر دادههای منسوخ غالب شوند، و محافظت در برابر «مسمومیت حافظه» که دادههای خراب میتوانند دانش هوش مصنوعی را آلوده کنند، هستند. اینها مسایل کلاسیک مدیریت داده هستند که با یک لباس جدید هوش مصنوعی پوشیده شدهاند. راهحلها بیتردید از علم پایگاه داده (تراکنشها، ایندکسگذاری، کش) و تکنیکهای نوین (بهینهسازی هوشمند زمینه و مدلهای تعبیه) بهره میبرند. پشتهٔ هوش مصنوعی بهسمت اینکه مدلها، دادهها و حافظه باید بههمپیوسته کار کنند، همراستا میشود. همه اینها به این معنی است که دفعهٔ بعدی که یک دستیار هوش مصنوعی بهخاطره میآورد آخرین گفتوگوی شما یا پاسخهای خود را بر اساس نکتهای که هفتهها پیش ذکر کردهاید، یک پایگاه داده پشت صحنه بهعنوان بانک حافظه برای ذهن مصنوعی ماشین در حال کار است.
پست های مرتبط
اهمیت حافظه برای هوش مصنوعی
اهمیت حافظه برای هوش مصنوعی
اهمیت حافظه برای هوش مصنوعی