داده ها ممکن است در طول زمان تغییر کنند. این موضوع می‌تواند منجر به پیش‌بینی ضعیف در مدل‌های یادگیری ماشین پیش‌بینی‌کننده‌ای شود که یک رابطه ثابت بین متغیرهای ورودی و خروجی فرض می‌کنند. درصورتی که در برخی موارد، روابط بین داده های ورودی و خروجی می تواند در طول زمان تغییر کند که به آن رانش مفهوم میگویند.

علاوه بر این، مدل های یادگیری ماشین معمولاً نیازمند تنظیمات و بهینه سازی هایی هستند که در برابر تغییرات طبیعی و شرایط نامطلوب مقاوم باشند. این به معنی این است که مدل ها باید به شکل مداوم بررسی و بهینه سازی شوند تا بهترین کارایی را ارائه دهند.

با وجود تلاش های تیم مهندسی داده‌ها و رعایت نکات مدیریت داده، هیچ مدل یادگیری ماشینی برای همیشه درست عمل نمی‌کند. در حقیقت، گاهی اوقات حتی با داشتن داده های مناسب، مدل ممکن است شروع به کاهش کیفیت کند. این موضوع نشان می‌دهد که تنها وجود داده‌های درست کافی نیست و لازم است تا از معیارهای دقیق تری برای ارزیابی مدل استفاده کنیم. بنابراین، ما باید همیشه از آخرین روش ها و الگوریتم های یادگیری ماشین استفاده کنیم تا به حداکثر دقت ممکن دست یابیم.

کاهش کیفیت مدل یادگیری ماشین (model decay) فرآیندی را توصیف می کند که طی آن عملکرد یک مدل بر‌روی داده های جدید و ناشناخته کاهش می‌یابد و یا فرضیات اساسی درباره داده‌ها تغییر می‌کنند. اینها معیارهای مهمی برای ردیابی مدل ها پس از تولید هستند. به طور کلی، کاهش کیفیت مدل به دو دلیل ممکن است رخ دهد؛ رانش داده ها  یا رانش مفهوم.

رانش مفهوم (concept drift)

رانش مفهوم یا Concept drift به این معنا است که شرایط و پیشامدهای موجود در داده‌های آموزشی با شرایط و پیشامدهای واقعی مورد استفاده در دنیای واقعی متفاوت است. به عنوان مثال، در صورتی که شما یک مدل یادگیری ماشین برای تشخیص انواع گوشی همراه با استفاده از داده های تصویری آموزش دهید، اگر یک تغییر در پیشرفت تکنولوژی یا طراحی صورت گیرد، مدل شما ممکن است در تشخیص گوشی های جدید دچار مشکل شود.

رانش مفهوم به وضعیتی اشاره دارد که الگوهایی که مدل یادگیری ماشین در حین آموزش یاد گرفته بود، دیگر صادق نباشند. برخلاف رانش داده که معمولاً با تغییر توزیع داده‌ها همراه است، در رانش مفهوم توزیع داده‌ها ثابت باقی می‌ماند ولی روابط بین ورودی و خروجی مدل تغییر می‌کند که به موجب آن دقت پیش‌بینی مدل یادگیری ماشین کاهش پیدا می‌کند. در مقیاس بزرگتر، هنگامی که رابطه بین ورودی و خروجی دچار تغییرات شدید شده باشد، باعث منسوخی کامل مدل خواهد شد.

رانش مفهوم را می‌توان به دو دسته‌ی زیر تقسیم کرد:

رانش مفهوم تدریجی: از آن جا که جهان پیرامونی ما به تدریج در حال تغییر است، لذا انتظار داریم که مدل یادگیری ماشین ما نیز به تدریج قدیمی شده و کیفیت آن کاهش یابد.

رانش مفهوم ناگهانی: این نوع رانش باعث ایجاد شوک در مدل می‌شود. چنانچه مدل با یک مجموعه‌ی داده‌ی جدید مواجه شود که در آن ویژگی‌های متفاوتی وجود دارد، ممکن است قابل استفاده نباشد.

تغییر در رابطه بین یک ویژگی داده‌شده و هدف پیش‌بینی

رانش مفهوم تدریجی:

مثال‌ها:

  • رقبا محصولات جدید تولید می‌کنند و در نتیجه آن، مشتریان گزینه‌های انتخابی بیشتری دارند که باعث تغییر در رفتارشان می‌شود. در این موارد، مدل‌های پیش‌بینی فروش نیز باید با تغییرات جدید سازگار شوند.
  • شرایط اقتصادی کلان تغییر می‌کنند. هنگامی که برخی قرض‌دهندگان به پرداخت بدهی خود نمی‌پردازند، ریسک اعتباری بازتعریف شده و مدل‌های امتیازدهی باید دوباره یاد گرفته شوند.
  • سایش مکانیکی تجهیزات باعث تغییر الگوهای پارامترهای فرآیند می‌شود که در نتیجه کیفیت مدل‌های پیش‌بینی تحت تأثیر قرار می‌گیرند.

هیچ تغییری به تنهایی چشمگیر نیست و هر تغییر ممکن است تنها یک بخش کوچک را تحت تأثیر قرار دهد. اما در نهایت، تغییرات بزرگی به وجود می‌آید. گاهی اوقات می توان تغییر را در سطحی از ویژگی های فردی مشاهده کرد. به عنوان مثال، در پیش‌بینی ریزش مشتریان یک سرویس، توزیع یک ویژگی خاص پایدار است اما سهم کلاس هدف در محدوده خاص در طول زمان افزایش می‌یابد که باعث به وجود آمدن یک الگوی پیش‌بینی جدید می‌شود. اما این تنها یک ویژگی است و تأثیر اولیه آن بر عملکرد مدل یادگیری ماشین کم است.

سرعت پیر شدن مدل‌های یادگیری ماشین چقدر است؟

مدت زمان پیر شدن یک مدل به عوامل مختلفی بستگی دارد، اما غالباً می‌توان آن را تخمین زد. در صورت ساخت یک مدل پیش‌بینی با نظارت، می‌توانیم مدل یادگیری ماشین را روی داده‌های قدیمی آموزش دهیم و در دوره‌های بعدی آن را اجرا کنیم. سپس با فرکانس‌های آموزش مختلف، تأثیر بازآموزی مدل را بر روی کیفیت آن اندازه‌گیری کنیم. این آزمون به ما نشان می‌دهد که چه زمانی نیاز به بازآموزی مدل یادگیری ماشین خود داریم. در این شرایط، سوالی که باید پرسید این است که آیا بهینه سازی مدل با داده‌های جمع آوری شده در هر هفته باعث بهبود عملکرد مدل می شود؟ آیا مدلی که سه ماه بهینه‌سازی مجدد نشده است هنوز به خوبی عمل می‌کند؟ برای پاسخ به این دسته از سوالات، می‌توانیم نرخ به‌روزرسانی و بهینه‌سازی مدل یادگیری ماشین را براساس داده‌های جدید در یک فاصله زمانی مناسب برنامه‌ریزی کنیم.

رانش مفهوم ناگهانی:

تغییرات خارجی ممکن است ناگهانی و شدید باشند و به راحتی قابل چشم‌پوشی نباشند. به طور مثال، در پاندمی ویروس کووید-۱۹ تقریباً در یک شب، الگوهای حرکتی و خرید جامعه تغییر کرد. این تغییرات شدید بر تمامی مدل‌های یادگیری ماشین، حتی مدل‌های پایدار، تأثیر گذاشت. به عبارت دیگر، مدل‌های پیش‌بینی تقاضا قادر به پیش‌بینی افزایش 350 درصدی فروش لباس یوگا ( مانند اتفاقی که برای برند Stitch Fix افتاد) و یا کنسل شدن پروازها به دلیل بسته شدن مرزها نیستند. در نتیجه، بهتر است همیشه در نظر داشته باشید که تغییرات ناگهانی ممکن است همیشه در مدل‌های یادگیری ماشین پیش بیاید و بهتر است آنها را به‌روز‌رسانی کنید.

رانش مفهوم ناگهانی باعث کاهش کیفیت مدل یادگیری ماشین می‌شود.

تغییرات خارجی ممکن است ناگهانی و شدید باشند و به راحتی قابل چشم‌پوشی نباشند. به طور مثال، در پاندمی ویروس کووید-۱۹ تقریباً در یک شب، الگوهای حرکتی و خرید جامعه تغییر کرد. این تغییرات شدید بر تمامی مدل‌های یادگیری ماشین، حتی مدل‌های پایدار، تأثیر گذاشت. به عبارت دیگر، مدل‌های پیش‌بینی تقاضا قادر به پیش‌بینی افزایش 350 درصدی فروش لباس یوگا ( مانند اتفاقی که برای برند Stitch Fix افتاد) و یا کنسل شدن پروازها به دلیل بسته شدن مرزها نیستند. در نتیجه، بهتر است همیشه در نظر داشته باشید که تغییرات ناگهانی ممکن است همیشه در مدل‌های یادگیری ماشین پیش بیاید و بهتر است آنها را به‌روز‌رسانی کنید.

تغییرات ناگهانی همیشه به یک پاندمی یا بحران بازار سهام نیاز ندارند. در موارد معمول، ممکن است شما با چنین مواردی مواجه شوید:

  • تغییر نرخ بهره توسط بانک مرکزی، که باعث تحت تأثیر قرار گرفتن رفتارهای مالی و سرمایه‌گذاری می‌شود و مدل‌ها ناتوان در سازگاری با الگوهای ناشناخته هستند.
  • بعد از به‌روزرسانی تجهیزات فنی خط تولید، به دلیل حالت‌های جدید ایجاد شده، ممکن است مدل یادگیری ماشین به درستی کار نکند.
  • به‌روزرسانی اساسی رابط کاربری نرم افزار، که باعث تغییر مسیر کاربری و عدم اهمیت اطلاعات قبلی درباره کلیک‌ها و تغییر‌ها می‌شود.
تغییر ناگهانی پاندمی ویروس کووید-۱۹  بر تمامی مدل‌های یادگیری ماشین، مانند پیش‌بینی تقاضای مصرف‌کنندگان  تأثیر گذاشت.