متن و داده های بدون ساختار مانند طلا برای برنامه های تجاری و نتیجه شرکت هستند، اما از کجا باید شروع کرد؟ در اینجا سه ابزار وجود دارد که ارزش دیدن دارند.
توسعهدهندگان و دانشمندان داده از هوش مصنوعی و مدلهای زبان بزرگ (LLM) برای جستجو در حجم اسناد و دادههای بدون ساختار استفاده میکنند. LLMهای منبع باز، از جمله Dolly 2.0، EleutherAI Pythia، Meta AI LLaMa، StabilityLM، و دیگران، همگی نقطه شروعی برای آزمایش هوش مصنوعی هستند که درخواستهای زبان طبیعی را میپذیرد و پاسخهای خلاصهشده را ایجاد میکند.
برایان پلاتز، مدیرعامل و یکی از بنیانگذاران Fluree. “در حالی که بیشتر سازمانها دادههای ساختاریافته یا نیمهساختار یافته را در یک پلتفرم داده متمرکز کردهاند، دادههای بدون ساختار فراموش شده و تحت تاثیر قرار میگیرند.” p>
اگر سازمان و تیم شما قابلیتهای پردازش زبان طبیعی (NLP) را آزمایش نمیکنند، احتمالاً از رقبای صنعت خود عقب ماندهاید. در گزارش نظرسنجی متخصص NLP 2023، ۷۷٪ از سازمان ها گفتند که قصد دارند هزینههای NLP را افزایش دهند و ۵۴٪ گفتند که زمان تولید آنها یک معیار اصلی بازگشت سرمایه (ROI) برای پروژههای موفق NLP است.
استفاده از موارد برای NLP
اگر مجموعه ای از داده ها و متن بدون ساختار دارید، برخی از رایج ترین نیازهای تجاری عبارتند از
- استخراج موجودیت با شناسایی نام، تاریخ، مکان و محصولات
- تشخیص الگو برای کشف ارز و مقادیر دیگر
- دستهبندی به اصطلاحات، موضوعات و طبقهبندیهای تجاری
- تحلیل احساسات، از جمله مثبت بودن، نفی و کنایه
- خلاصه کردن نکات کلیدی سند
- ترجمه ماشینی به زبان های دیگر
- گرافهای وابستگی که متن را به نمایشهای نیمه ساختاریافته قابل خواندن توسط ماشین ترجمه میکنند
گاهی اوقات، داشتن قابلیت های NLP در یک پلتفرم یا برنامه کاربردی مطلوب است. برای مثال، LLM ها از پرسیدن سوال پشتیبانی می کنند. موتورهای جستجوی هوش مصنوعی جستجوها و توصیهها را فعال میکنند. و چت بات ها از تعاملات پشتیبانی می کنند. در مواقع دیگر، استفاده از ابزار NLP برای استخراج اطلاعات و غنیسازی اسناد و متن بدون ساختار بهتر است.
بیایید به سه ابزار منبع باز NLP محبوب که توسعه دهندگان و دانشمندان داده برای انجام اکتشاف بر روی اسناد بدون ساختار و توسعه موتورهای پردازش NLP آماده تولید استفاده می کنند نگاه کنیم.
ابزار زبان طبیعی
The Natural Language Toolkit (NLTK) که در سال ۲۰۰۱ منتشر شد، یکی از قدیمیترین و کتابخانه های محبوب NLP پایتون. NLTK دارای بیش از ۱۱.۸ هزار ستاره در GitHub است و فهرستی بیش از ۱۰۰ مدل آموزش دیده.
استیون دیوو، مدیر داده و تجزیه و تحلیل در SPR. «در تمام پروژههای علم داده، پردازش و پاکسازی دادههایی که باید توسط الگوریتمها استفاده شود، بخش عظیمی از زمان و تلاش است، که بهویژه در مورد پردازش زبان طبیعی صادق است. NLTK بسیاری از این کارها را تسریع میکند، مانند ریشهبندی، واژهسازی، برچسبگذاری، حذف کلمات توقف، و جاسازی بردارهای کلمه در چندین زبان نوشتاری برای تفسیر آسانتر متن توسط الگوریتمها.»
مزایای NLTK از استقامت آن ناشی میشود، با مثالهای زیادی برای توسعهدهندگان تازهکار NLP، مانند این راهنمای عملی مبتدیان و این نمای کلی جامع. هر کسی که تکنیکهای NLP را یاد میگیرد، ممکن است بخواهد ابتدا این کتابخانه را امتحان کند، زیرا راههای سادهای برای آزمایش تکنیکهای اساسی مانند توکنسازی، ریشهسازی و تکهشدن ارائه میدهد.
spaCy
spaCy یک کتابخانه جدیدتر است، با نسخه ۱.۰ منتشر شده در سال ۲۰۱۶. spaCy از بیش از ۷۲ زبان پشتیبانی می کند و معیارهای عملکرد خود را منتشر می کند و بیش از ۲۵۰۰۰ ستاره در GitHub.
نیکولای مانچف، رئیس علوم داده، EMEA، در آزمایشگاه داده دومینو. با spaCy، کاربر میتواند مدلها و برنامههای تولیدی بسازد که زیربنای تجزیه و تحلیل اسناد، قابلیتهای چت بات و سایر اشکال تجزیه و تحلیل متن هستند. امروزه چارچوب spaCy یکی از محبوبترین کتابخانههای زبان طبیعی پایتون برای موارد استفاده صنعتی مانند استخراج کلمات کلیدی، موجودیتها و دانش از متن است.”
آموزشهای spaCy قابلیتهای مشابه NLTK را نشان میدهند، از جمله شناسایی موجودیت نامگذاری شده و برچسب گذاری قسمتی از گفتار (POS). یک مزیت این است که spaCy اشیاء سند را برمیگرداند و از بردارهای کلمه پشتیبانی میکند، که میتواند به توسعهدهندگان انعطافپذیری بیشتری برای اجرا بدهد. پردازش داده های اضافی پس از NLP و تجزیه و تحلیل متن.
Spark NLP
اگر قبلاً از Apache Spark استفاده میکنید و زیرساخت آن را پیکربندی کردهاید، Spark NLP ممکن است یکی از مسیرهای سریعتر برای شروع آزمایش با پردازش زبان طبیعی باشد. Spark NLP چندین گزینههای نصب دارد، از جمله AWS، Azure Databricks و Docker.
دیوید تالبی، مدیر ارشد فناوری آزمایشگاه های جان اسنو. “این کار همه چیز را از استخراج اطلاعات مربوط به سلامتی که فقط در یادداشتهای بالینی وجود دارد، تا شناسایی سخنان مشوق عداوت و تنفر یا اخبار جعلی در رسانههای اجتماعی، تا خلاصه قراردادهای قانونی و اخبار مالی را امکانپذیر میسازد.
متمایزکننده Spark NLP ممکن است مدلهای زبان حوزه مراقبتهای بهداشتی، مالی و قانونی آن باشد. این محصولات تجاری با مدلهای از پیش آموزشدیدهشده برای شناسایی نامها و دوزهای دارو در مراقبتهای بهداشتی، شناسایی نهادهای مالی مانند علامتهای سهام، و نمودارهای دانش حقوقی نام شرکتها و افسران ارائه میشوند.
تالبی میگوید Spark NLP میتواند به سازمانها کمک کند تا آموزش اولیه در توسعه مدلها را به حداقل برسانند. او میگوید: «کتابخانه رایگان و منبع باز با بیش از ۱۱۰۰۰ مدل از پیش آموزشدیده بهعلاوه امکان استفاده مجدد، آموزش، تنظیم و مقیاسبندی آسان آنها ارائه میشود.
بهترین روشها برای آزمایش NLP
در اوایل کارم، این فرصت را داشتم که بر توسعه چندین محصول SaaS که با استفاده از قابلیتهای NLP ساخته شده بودند نظارت کنم. اولین NLP من یک پلت فرم SaaS برای جستجوی آگهی های طبقه بندی شده روزنامه، از جمله جستجوی اتومبیل، شغل، و املاک بود. سپس توسعه NLP ها را برای استخراج اطلاعات از اسناد تجاری ساخت و ساز، از جمله مشخصات ساختمان و نقشه ها، هدایت کردم.
هنگام شروع NLP در یک منطقه جدید، موارد زیر را توصیه می کنم:
- با یک مثال کوچک اما قابل نمایش از اسناد یا متن شروع کنید.
- شخصیت های کاربر نهایی مورد نظر را شناسایی کنید و اطلاعات استخراج شده چگونه گردش کار آنها را بهبود می بخشد.
- استخراج اطلاعات مورد نیاز و معیارهای دقت هدف را مشخص کنید.
- چند رویکرد را آزمایش کنید و از معیارهای سرعت و دقت برای معیار استفاده کنید.
- دقت را به طور مکرر بهبود بخشید، به خصوص هنگام افزایش مقیاس و وسعت اسناد.
- انتظار ارائه ابزارهای مدیریت داده برای رسیدگی به کیفیت داده ها و رسیدگی به استثنائات.
ممکن است متوجه شوید که ابزارهای NLP که برای کشف و آزمایش انواع اسناد جدید استفاده میشوند، به تعریف نیازمندیها کمک میکنند. سپس، بررسی فناوریهای NLP را گسترش دهید تا گزینههای منبع باز و تجاری را شامل شود، زیرا ساخت و پشتیبانی از خطوط لوله داده NLP آماده تولید میتواند گران شود. با توجه به LLM ها در اخبار و جلب علاقه، سرمایه گذاری کم روی قابلیت های NLP یکی از راه های عقب ماندن از رقبا است. خوشبختانه، می توانید با یکی از ابزارهای منبع باز معرفی شده در اینجا شروع کنید و خط لوله داده NLP خود را متناسب با بودجه و نیازهای خود بسازید.
پست های مرتبط
۳ ابزار منبع باز NLP برای استخراج داده ها
۳ ابزار منبع باز NLP برای استخراج داده ها
۳ ابزار منبع باز NLP برای استخراج داده ها