یک رویکرد سادهتر – دادههای خوب، پرسشهای SQL، دستورات if/then- اغلب کار را انجام میدهد.
بهنظر میرسد بهترین راه برای انجام یادگیری ماشینی (ML) گاهی اوقات این است که اصلاً یادگیری ماشینی انجام ندهید. در واقع، به گفته یوجین یان، دانشمند کاربردی آمازون، “اولین قانون یادگیری ماشینی [این است که] بدون یادگیری ماشین شروع شود. ”
چی؟
بله، استفاده از مدلهای ML که در طول ماهها تلاش طاقتفرسا به سختی ساخته شدهاند، جالب است. همچنین لزوما موثرترین رویکرد نیست. نه زمانی که روشهای سادهتر و در دسترستری وجود دارد.
ممکن است گفتن بیش از حد ساده باشد، به عنوان دانشمند داده، نوح لورانگ سالها پیش این کار را کرد، که «دانشمندان داده عمدتاً فقط محاسبات انجام میدهند». اما او خیلی دور نیست، و مطمئناً او و یان درست میگویند که هر چقدر هم که بخواهیم فرآیند به کار انداختن دادهها را پیچیده کنیم، در بیشتر مواقع بهتر است از کوچک شروع کنیم.
پیچیدگی بیش از حد
دانشمندان داده دستمزد زیادی می گیرند. بنابراین شاید وسوسه انگیز باشد که سعی کنیم آن چک حقوق را با قرار دادن چیزهایی مانند تجزیه و تحلیل پیش بینی در اصطلاحات پیچیده و مدل های پیچیده توجیه کنیم. نکن بینش لورانگ در علم داده امروز به اندازه زمانی که چند سال پیش آن را بیان کرد صادق است: «زیر مجموعه بسیار کوچکی از مشکلات تجاری وجود دارد که به بهترین وجه با یادگیری ماشینی حل می شوند. بیشتر آنها فقط به داده های خوب و درک معنای آن نیاز دارند.” لورانگ روشهای سادهتری را توصیه میکند، مانند «پرس و جوهای SQL برای دریافت دادهها، … محاسبات پایه روی آن دادهها (محاسبات تفاوتها، صدکها و غیره)، ترسیم نمودار نتایج، و [نوشتن] پاراگرافهای توضیح یا توصیه». >
من پیشنهاد نمیکنم که آسان باشد. من می گویم که یادگیری ماشین جایی نیست که هنگام تلاش برای جمع آوری بینش از داده ها شروع کنید. همچنین اینطور نیست که لزوماً به مقادیر زیادی داده نیاز باشد. در واقع، همانطور که مدیر عامل واجد شرایط، کاتلین گلیسون استدلال میکند، مهم است که «با دادههای کوچک شروع کنید [زیرا ] این ناهنجاری های چشم است که مرا به برخی از بهترین یافته هایم رسانده است.» گاهی اوقات ممکن است برای بررسی الگوهای واضح نمودار توزیع ها کافی باشد.
بله، درست است: دادهها میتوانند «آنقدر کوچک» باشند که انسان بتواند الگوها را تشخیص دهد و بینشها را کشف کند.
جای تعجب نیست که دانشمند داده iRobot، براندون رورر، با وقاحت پیشنهاد می کند: “وقتی مشکلی دارید ، دو راه حل بسازید – یک ترانسفورماتور بیزی عمیق که روی چند ابری Kubernetes اجرا می شود و یک پرس و جوی SQL که بر روی پشته ای از فرضیات بسیار ساده سازی شده است. یکی را در رزومه خود قرار دهید، دیگری را در مرحله تولید قرار دهید. همه خوشحال به خانه می روند.”
باز هم، این به این معنی نیست که شما هرگز نباید از ML استفاده کنید، و قطعاً دلیلی بر این نیست که ML ارزش واقعی ارائه نمی دهد. دور از آن. این فقط یک استدلال علیه شروع با ML است. برای کاوش عمیقتر در مورد علت، ارزش بررسی مقاله یان در مورد این موضوع را دارد.< /p>
آشنایی انسان با داده ها
اول، یان خاطرنشان میکند، مهم است که تشخیص دهیم با توجه به اجزای حیاتی، استخراج معنا از دادهها چقدر سخت است: «شما به داده نیاز دارید. شما به یک خط لوله قوی برای پشتیبانی از جریان داده های خود نیاز دارید. و مهمتر از همه، به برچسب های باکیفیت نیاز دارید.”
به عبارت دیگر، ورودیها به اندازهای پیچیده هستند که ممکن است شروع کردن با مدلهای ML برای حل مشکل مفید نباشد. در آن مرحله، شما فقط با داده های خود آشنا می شوید. سعی کنید مشکل را به صورت دستی یا با روش های اکتشافی (روش های عملی یا میانبرها) حل کنید. یان این استدلال را از Hamel Hussain، مهندس یادگیری ماشین در GitHub برجسته می کند: “این شما را وادار می کند تا از نزدیک با مشکل و داده ها آشنا شوید که مهمترین قدم اول است.”
با فرض اینکه با دادههای جدولی سروکار دارید، یان میگوید شروع با نمونهای از دادهها برای اجرای آمار، شروع با همبستگیهای ساده و تجسم دادهها، شاید با استفاده از نمودارهای پراکنده، سودمند است. بهعنوان مثال، بهجای ساختن یک مدل یادگیری ماشینی پیچیده برای توصیهها، میتوانید به سادگی «اقلام با عملکرد برتر دوره قبل را توصیه کنید»، یان استدلال میکند، سپس به دنبال الگوهایی در نتایج بگردید. این به پزشک ML کمک میکند تا با دادههای خود بیشتر آشنا شود که به نوبه خود به او کمک میکند تا مدلهای بهتری بسازد — در صورت لزوم.
چه زمانی یادگیری ماشین ضروری یا حداقل توصیه می شود؟
طبق گفته Yan، یادگیری ماشین زمانی معنا پیدا می کند که حفظ سیستم اکتشافی غیر ML شما بیش از حد دست و پا گیر شود. به عبارت دیگر، «بعد از اینکه یک خط پایه غیر ML دارید که عملکرد معقولی دارد، و تلاش برای حفظ و بهبود آن خط پایه بر تلاش برای ایجاد و استقرار یک سیستم مبتنی بر ML میچرخد».
البته هیچ علم سختی در مورد اینکه چه زمانی این اتفاق می افتد وجود ندارد، اما اگر اکتشافات شما دیگر میانبرهای عملی نیستند و در عوض به شکستن ادامه می دهند، زمان آن رسیده است که یادگیری ماشین را در نظر بگیرید، به خصوص اگر خطوط لوله داده محکم و برچسب های داده با کیفیت بالا دارید. ، نشان دهنده داده های خوب است.
بله، شروع با مدلهای پیچیده ML وسوسهانگیز است، اما مسلماً یکی از مهمترین مهارتهایی که یک دانشمند داده میتواند داشته باشد، عقل سلیم است، دانستن اینکه چه زمانی باید به تحلیل رگرسیون یا چند عبارت if/then تکیه کرد تا ML.
پست های مرتبط
برای یادگیری ماشین عجله نکنید
برای یادگیری ماشین عجله نکنید
برای یادگیری ماشین عجله نکنید