۲۹ شهریور ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

برای یادگیری ماشین عجله نکنید

یک رویکرد ساده‌تر - داده‌های خوب، پرسش‌های SQL، دستورات if/then- اغلب کار را انجام می‌دهد.

یک رویکرد ساده‌تر – داده‌های خوب، پرسش‌های SQL، دستورات if/then- اغلب کار را انجام می‌دهد.

به‌نظر می‌رسد بهترین راه برای انجام یادگیری ماشینی (ML) گاهی اوقات این است که اصلاً یادگیری ماشینی انجام ندهید. در واقع، به گفته یوجین یان، دانشمند کاربردی آمازون، “اولین قانون یادگیری ماشینی [این است که] بدون یادگیری ماشین شروع شود. ”

چی؟

بله، استفاده از مدل‌های ML که در طول ماه‌ها تلاش طاقت‌فرسا به سختی ساخته شده‌اند، جالب است. همچنین لزوما موثرترین رویکرد نیست. نه زمانی که روش‌های ساده‌تر و در دسترس‌تری وجود دارد.

ممکن است گفتن بیش از حد ساده باشد، به عنوان دانشمند داده، نوح لورانگ سال‌ها پیش این کار را کرد، که «دانشمندان داده عمدتاً فقط محاسبات انجام می‌دهند». اما او خیلی دور نیست، و مطمئناً او و یان درست می‌گویند که هر چقدر هم که بخواهیم فرآیند به کار انداختن داده‌ها را پیچیده کنیم، در بیشتر مواقع بهتر است از کوچک شروع کنیم.

پیچیدگی بیش از حد

دانشمندان داده دستمزد زیادی می گیرند. بنابراین شاید وسوسه انگیز باشد که سعی کنیم آن چک حقوق را با قرار دادن چیزهایی مانند تجزیه و تحلیل پیش بینی در اصطلاحات پیچیده و مدل های پیچیده توجیه کنیم. نکن بینش لورانگ در علم داده امروز به اندازه زمانی که چند سال پیش آن را بیان کرد صادق است: «زیر مجموعه بسیار کوچکی از مشکلات تجاری وجود دارد که به بهترین وجه با یادگیری ماشینی حل می شوند. بیشتر آنها فقط به داده های خوب و درک معنای آن نیاز دارند.” لورانگ روش‌های ساده‌تری را توصیه می‌کند، مانند «پرس و جوهای SQL برای دریافت داده‌ها، … محاسبات پایه روی آن داده‌ها (محاسبات تفاوت‌ها، صدک‌ها و غیره)، ترسیم نمودار نتایج، و [نوشتن] پاراگراف‌های توضیح یا توصیه». >

پروژه genAI شما شکست خواهد خورد

من پیشنهاد نمی‌کنم که آسان باشد. من می گویم که یادگیری ماشین جایی نیست که هنگام تلاش برای جمع آوری بینش از داده ها شروع کنید. همچنین اینطور نیست که لزوماً به مقادیر زیادی داده نیاز باشد. در واقع، همانطور که مدیر عامل واجد شرایط، کاتلین گلیسون استدلال می‌کند، مهم است که «با داده‌های کوچک شروع کنید [زیرا ] این ناهنجاری های چشم است که مرا به برخی از بهترین یافته هایم رسانده است.» گاهی اوقات ممکن است برای بررسی الگوهای واضح نمودار توزیع ها کافی باشد.

بله، درست است: داده‌ها می‌توانند «آنقدر کوچک» باشند که انسان بتواند الگوها را تشخیص دهد و بینش‌ها را کشف کند.

جای تعجب نیست که دانشمند داده iRobot، براندون رورر، با وقاحت پیشنهاد می کند: “وقتی مشکلی دارید ، دو راه حل بسازید – یک ترانسفورماتور بیزی عمیق که روی چند ابری Kubernetes اجرا می شود و یک پرس و جوی SQL که بر روی پشته ای از فرضیات بسیار ساده سازی شده است. یکی را در رزومه خود قرار دهید، دیگری را در مرحله تولید قرار دهید. همه خوشحال به خانه می روند.”

باز هم، این به این معنی نیست که شما هرگز نباید از ML استفاده کنید، و قطعاً دلیلی بر این نیست که ML ارزش واقعی ارائه نمی دهد. دور از آن. این فقط یک استدلال علیه شروع با ML است. برای کاوش عمیق‌تر در مورد علت، ارزش بررسی مقاله یان در مورد این موضوع را دارد.< /p>

چرا توسعه دهندگان از Confluent برای مدیریت آپاچی کافکا استفاده می کنند؟

آشنایی انسان با داده ها

اول، یان خاطرنشان می‌کند، مهم است که تشخیص دهیم با توجه به اجزای حیاتی، استخراج معنا از داده‌ها چقدر سخت است: «شما به داده نیاز دارید. شما به یک خط لوله قوی برای پشتیبانی از جریان داده های خود نیاز دارید. و مهمتر از همه، به برچسب های باکیفیت نیاز دارید.”

به عبارت دیگر، ورودی‌ها به اندازه‌ای پیچیده هستند که ممکن است شروع کردن با مدل‌های ML برای حل مشکل مفید نباشد. در آن مرحله، شما فقط با داده های خود آشنا می شوید. سعی کنید مشکل را به صورت دستی یا با روش های اکتشافی (روش های عملی یا میانبرها) حل کنید. یان این استدلال را از Hamel Hussain، مهندس یادگیری ماشین در GitHub برجسته می کند: “این شما را وادار می کند تا از نزدیک با مشکل و داده ها آشنا شوید که مهمترین قدم اول است.”

با فرض اینکه با داده‌های جدولی سروکار دارید، یان می‌گوید شروع با نمونه‌ای از داده‌ها برای اجرای آمار، شروع با همبستگی‌های ساده و تجسم داده‌ها، شاید با استفاده از نمودارهای پراکنده، سودمند است. به‌عنوان مثال، به‌جای ساختن یک مدل یادگیری ماشینی پیچیده برای توصیه‌ها، می‌توانید به سادگی «اقلام با عملکرد برتر دوره قبل را توصیه کنید»، یان استدلال می‌کند، سپس به دنبال الگوهایی در نتایج بگردید. این به پزشک ML کمک می‌کند تا با داده‌های خود بیشتر آشنا شود که به نوبه خود به او کمک می‌کند تا مدل‌های بهتری بسازد — در صورت لزوم.

گوگل خط لوله حریم خصوصی متفاوتی را برای پایتون منتشر کرد

چه زمانی یادگیری ماشین ضروری یا حداقل توصیه می شود؟

طبق گفته Yan، یادگیری ماشین زمانی معنا پیدا می کند که حفظ سیستم اکتشافی غیر ML شما بیش از حد دست و پا گیر شود. به عبارت دیگر، «بعد از اینکه یک خط پایه غیر ML دارید که عملکرد معقولی دارد، و تلاش برای حفظ و بهبود آن خط پایه بر تلاش برای ایجاد و استقرار یک سیستم مبتنی بر ML می‌چرخد».

البته هیچ علم سختی در مورد اینکه چه زمانی این اتفاق می افتد وجود ندارد، اما اگر اکتشافات شما دیگر میانبرهای عملی نیستند و در عوض به شکستن ادامه می دهند، زمان آن رسیده است که یادگیری ماشین را در نظر بگیرید، به خصوص اگر خطوط لوله داده محکم و برچسب های داده با کیفیت بالا دارید. ، نشان دهنده داده های خوب است.

بله، شروع با مدل‌های پیچیده ML وسوسه‌انگیز است، اما مسلماً یکی از مهم‌ترین مهارت‌هایی که یک دانشمند داده می‌تواند داشته باشد، عقل سلیم است، دانستن اینکه چه زمانی باید به تحلیل رگرسیون یا چند عبارت if/then تکیه کرد تا ML.