پاداش باید طوری طراحی شود که عامل را به سمت هدف مطلوب هدایت کند. مثلاً در کنترل دما، حفظ دما در محدوده مطلوب باید پاداش مثبت و انحراف از آن پاداش منفی داشته باشد. طراحی نادرست پاداش میتواند منجر به رفتار اشتباه عامل شود. آزمون چندین نسخه از تابع پاداش معمول است. پاداش دقیق به بهبود یادگیری کمک زیادی میکند.
برای مشاهدهٔ ادامه، خرید کنید
دسترسی سریع و فوری
