در یادگیری نظارتی دادههای برچسبخورده برای آموزش مدل استفاده میشود، اما در یادگیری تقویتی مدل از بازخورد محیط یاد میگیرد. در صنعت، دادههای برچسبخورده همیشه موجود نیستند، بنابراین RL گزینهای مناسبتر است. RL میتواند در شرایط پویا عملکرد بهتری داشته باشد. این تفاوت باعث میشود RL برای کنترل فرآیندها کاربرد گستردهتری پیدا کند.
برای مشاهدهٔ ادامه، خرید کنید
دسترسی سریع و فوری
