چطور پاداش مناسب طراحی کنیم؟

AUتحریریه
۱۴۰۴/۰۷/۱۲
6 دقیقه مطالعه
پاداش باید طوری طراحی شود که عامل را به سمت هدف مطلوب هدایت کند. مثلاً در کنترل دما، حفظ دما در محدوده مطلوب باید پاداش مثبت و انحراف از آن پاداش منفی داشته باشد. طراحی نادرست پاداش می‌تواند منجر به رفتار اشتباه عامل شود. آزمون چندین نسخه از تابع پاداش معمول است. پاداش دقیق به بهبود یادگیری کمک زیادی می‌کند.
برای مشاهدهٔ ادامه، خرید کنید
دسترسی سریع و فوری
راهنمای استفاده از یادگیری تقویتی در کنترل فرآیند
مقدمه
در این کتابچه با اصول و کاربرد یادگیری تقویتی (Reinforcement Learning) در کنترل خودکار فرآیندهای صنعتی آشنا می‌شوید و یاد می‌گیرید چگونه عملکرد سیستم‌ها را با تصمیم‌گیری هوشمند بهبود دهید.
دسترسی سریع پس از خرید

دسترسی سریع پس از خرید