۱ دی ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

۳ ابزار منبع باز NLP برای استخراج داده ها

متن و داده های بدون ساختار مانند طلا برای برنامه های تجاری و نتیجه شرکت هستند، اما از کجا باید شروع کرد؟ در اینجا سه ​​ابزار وجود دارد که ارزش دیدن دارند.

متن و داده های بدون ساختار مانند طلا برای برنامه های تجاری و نتیجه شرکت هستند، اما از کجا باید شروع کرد؟ در اینجا سه ​​ابزار وجود دارد که ارزش دیدن دارند.

توسعه‌دهندگان و دانشمندان داده از هوش مصنوعی و مدل‌های زبان بزرگ (LLM) برای جستجو در حجم اسناد و داده‌های بدون ساختار استفاده می‌کنند. LLMهای منبع باز، از جمله Dolly 2.0، EleutherAI Pythia، Meta AI LLaMa، StabilityLM، و دیگران، همگی نقطه شروعی برای آزمایش هوش مصنوعی هستند که درخواست‌های زبان طبیعی را می‌پذیرد و پاسخ‌های خلاصه‌شده را ایجاد می‌کند.

برایان پلاتز، مدیرعامل و یکی از بنیانگذاران Fluree. “در حالی که بیشتر سازمان‌ها داده‌های ساختاریافته یا نیمه‌ساختار یافته را در یک پلت‌فرم داده متمرکز کرده‌اند، داده‌های بدون ساختار فراموش شده و تحت تاثیر قرار می‌گیرند.”

اگر سازمان و تیم شما قابلیت‌های پردازش زبان طبیعی (NLP) را آزمایش نمی‌کنند، احتمالاً از رقبای صنعت خود عقب مانده‌اید. در گزارش نظرسنجی متخصص NLP 2023، ۷۷٪ از سازمان ها گفتند که قصد دارند هزینه‌های NLP را افزایش دهند و ۵۴٪ گفتند که زمان تولید آنها یک معیار اصلی بازگشت سرمایه (ROI) برای پروژه‌های موفق NLP است.

استفاده از موارد برای NLP

اگر مجموعه ای از داده ها و متن بدون ساختار دارید، برخی از رایج ترین نیازهای تجاری عبارتند از

  • استخراج موجودیت با شناسایی نام، تاریخ، مکان و محصولات
  • تشخیص الگو برای کشف ارز و مقادیر دیگر
  • دسته‌بندی به اصطلاحات، موضوعات و طبقه‌بندی‌های تجاری
  • تحلیل احساسات، از جمله مثبت بودن، نفی و کنایه
  • خلاصه کردن نکات کلیدی سند
  • ترجمه ماشینی به زبان های دیگر
  • گراف‌های وابستگی که متن را به نمایش‌های نیمه ساختاریافته قابل خواندن توسط ماشین ترجمه می‌کنند

گاهی اوقات، داشتن قابلیت های NLP در یک پلتفرم یا برنامه کاربردی مطلوب است. برای مثال، LLM ها از پرسیدن سوال پشتیبانی می کنند. موتورهای جستجوی هوش مصنوعی جستجوها و توصیه‌ها را فعال می‌کنند. و چت بات ها از تعاملات پشتیبانی می کنند. در مواقع دیگر، استفاده از ابزار NLP برای استخراج اطلاعات و غنی‌سازی اسناد و متن بدون ساختار بهتر است.

چارچوب وب Astro قوانین ممیزی دسترسی را اضافه می کند

بیایید به سه ابزار منبع باز NLP محبوب که توسعه دهندگان و دانشمندان داده برای انجام اکتشاف بر روی اسناد بدون ساختار و توسعه موتورهای پردازش NLP آماده تولید استفاده می کنند نگاه کنیم.

ابزار زبان طبیعی

The Natural Language Toolkit (NLTK) که در سال ۲۰۰۱ منتشر شد، یکی از قدیمی‌ترین و کتابخانه های محبوب NLP پایتون. NLTK دارای بیش از ۱۱.۸ هزار ستاره در GitHub است و فهرستی بیش از ۱۰۰ مدل آموزش دیده.

استیون دیوو، مدیر داده و تجزیه و تحلیل در SPR. «در تمام پروژه‌های علم داده، پردازش و پاکسازی داده‌هایی که باید توسط الگوریتم‌ها استفاده شود، بخش عظیمی از زمان و تلاش است، که به‌ویژه در مورد پردازش زبان طبیعی صادق است. NLTK بسیاری از این کارها را تسریع می‌کند، مانند ریشه‌بندی، واژه‌سازی، برچسب‌گذاری، حذف کلمات توقف، و جاسازی بردارهای کلمه در چندین زبان نوشتاری برای تفسیر آسان‌تر متن توسط الگوریتم‌ها.»

مزایای NLTK از استقامت آن ناشی می‌شود، با مثال‌های زیادی برای توسعه‌دهندگان تازه‌کار NLP، مانند این راهنمای عملی مبتدیان و این نمای کلی جامع. هر کسی که تکنیک‌های NLP را یاد می‌گیرد، ممکن است بخواهد ابتدا این کتابخانه را امتحان کند، زیرا راه‌های ساده‌ای برای آزمایش تکنیک‌های اساسی مانند توکن‌سازی، ریشه‌سازی و تکه‌شدن ارائه می‌دهد.

spaCy

spaCy یک کتابخانه جدیدتر است، با نسخه ۱.۰ منتشر شده در سال ۲۰۱۶. spaCy از بیش از ۷۲ زبان پشتیبانی می کند و معیارهای عملکرد خود را منتشر می کند و بیش از ۲۵۰۰۰ ستاره در GitHub.

نیکولای مانچف، رئیس علوم داده، EMEA، در آزمایشگاه داده دومینو. با spaCy، کاربر می‌تواند مدل‌ها و برنامه‌های تولیدی بسازد که زیربنای تجزیه و تحلیل اسناد، قابلیت‌های چت بات و سایر اشکال تجزیه و تحلیل متن هستند. امروزه چارچوب spaCy یکی از محبوب‌ترین کتابخانه‌های زبان طبیعی پایتون برای موارد استفاده صنعتی مانند استخراج کلمات کلیدی، موجودیت‌ها و دانش از متن است.”

DataStax جریان داده در زمان واقعی را به سرویس مدیریت شده AstraDB اضافه می کند

آموزش‌های spaCy قابلیت‌های مشابه NLTK را نشان می‌دهند، از جمله شناسایی موجودیت نام‌گذاری شده و برچسب گذاری قسمتی از گفتار (POS). یک مزیت این است که spaCy اشیاء سند را برمی‌گرداند و از بردارهای کلمه پشتیبانی می‌کند، که می‌تواند به توسعه‌دهندگان انعطاف‌پذیری بیشتری برای اجرا بدهد. پردازش داده های اضافی پس از NLP و تجزیه و تحلیل متن.

Spark NLP

اگر قبلاً از Apache Spark استفاده می‌کنید و زیرساخت آن را پیکربندی کرده‌اید، Spark NLP ممکن است یکی از مسیرهای سریع‌تر برای شروع آزمایش با پردازش زبان طبیعی باشد. Spark NLP چندین گزینه‌های نصب دارد، از جمله AWS، Azure Databricks و Docker.

دیوید تالبی، مدیر ارشد فناوری آزمایشگاه های جان اسنو. “این کار همه چیز را از استخراج اطلاعات مربوط به سلامتی که فقط در یادداشت‌های بالینی وجود دارد، تا شناسایی سخنان مشوق عداوت و تنفر یا اخبار جعلی در رسانه‌های اجتماعی، تا خلاصه قراردادهای قانونی و اخبار مالی را امکان‌پذیر می‌سازد.

متمایزکننده Spark NLP ممکن است مدل‌های زبان حوزه مراقبت‌های بهداشتی، مالی و قانونی آن باشد. این محصولات تجاری با مدل‌های از پیش آموزش‌دیده‌شده برای شناسایی نام‌ها و دوزهای دارو در مراقبت‌های بهداشتی، شناسایی نهادهای مالی مانند علامت‌های سهام، و نمودارهای دانش حقوقی نام شرکت‌ها و افسران ارائه می‌شوند.

تالبی می‌گوید Spark NLP می‌تواند به سازمان‌ها کمک کند تا آموزش اولیه در توسعه مدل‌ها را به حداقل برسانند. او می‌گوید: «کتابخانه رایگان و منبع باز با بیش از ۱۱۰۰۰ مدل از پیش آموزش‌دیده به‌علاوه امکان استفاده مجدد، آموزش، تنظیم و مقیاس‌بندی آسان آنها ارائه می‌شود.

گوگل خط لوله حریم خصوصی متفاوتی را برای پایتون منتشر کرد

بهترین روش‌ها برای آزمایش NLP

در اوایل کارم، این فرصت را داشتم که بر توسعه چندین محصول SaaS که با استفاده از قابلیت‌های NLP ساخته شده بودند نظارت کنم. اولین NLP من یک پلت فرم SaaS برای جستجوی آگهی های طبقه بندی شده روزنامه، از جمله جستجوی اتومبیل، شغل، و املاک بود. سپس توسعه NLP ها را برای استخراج اطلاعات از اسناد تجاری ساخت و ساز، از جمله مشخصات ساختمان و نقشه ها، هدایت کردم.

هنگام شروع NLP در یک منطقه جدید، موارد زیر را توصیه می کنم:

  • با یک مثال کوچک اما قابل نمایش از اسناد یا متن شروع کنید.
  • شخصیت های کاربر نهایی مورد نظر را شناسایی کنید و اطلاعات استخراج شده چگونه گردش کار آنها را بهبود می بخشد.
  • استخراج اطلاعات مورد نیاز و معیارهای دقت هدف را مشخص کنید.
  • چند رویکرد را آزمایش کنید و از معیارهای سرعت و دقت برای معیار استفاده کنید.
  • دقت را به طور مکرر بهبود بخشید، به خصوص هنگام افزایش مقیاس و وسعت اسناد.
  • انتظار ارائه ابزارهای مدیریت داده برای رسیدگی به کیفیت داده ها و رسیدگی به استثنائات.

ممکن است متوجه شوید که ابزارهای NLP که برای کشف و آزمایش انواع اسناد جدید استفاده می‌شوند، به تعریف نیازمندی‌ها کمک می‌کنند. سپس، بررسی فناوری‌های NLP را گسترش دهید تا گزینه‌های منبع باز و تجاری را شامل شود، زیرا ساخت و پشتیبانی از خطوط لوله داده NLP آماده تولید می‌تواند گران شود. با توجه به LLM ها در اخبار و جلب علاقه، سرمایه گذاری کم روی قابلیت های NLP یکی از راه های عقب ماندن از رقبا است. خوشبختانه، می توانید با یکی از ابزارهای منبع باز معرفی شده در اینجا شروع کنید و خط لوله داده NLP خود را متناسب با بودجه و نیازهای خود بسازید.