در شبکههای عمیق، گاهی گرادیانها در لایههای اولیه خیلی کوچک میشوند و آموزش متوقف میشود. این پدیده vanishing gradient نام دارد. استفاده از توابع فعالسازی ReLU و نرمالسازی batch normalization کمک زیادی میکند.
برای مشاهدهٔ ادامه، خرید کنید
دسترسی سریع و فوری
