دسته | گوناگون |
---|---|
حجم | 33/57 کیلوبایت |
صفحه | 32 |
فرمت | pptx |
قیمت | 21000 تومان |
پاورپوینت یادگیری تقویتی
يادگيري تقويتي فوري، به يادگيري يك نگاشت رابطه اي : X → A گفته مي شود، كه توسط يك ارزيابي كننده امتياز داده مي شود.
براي يادگيري، سيستم يادگيرنده، در يك حلقه بسته، با محيط در تراكنش قرار مي گيرد. در هر گام زماني، محيط يك xXرا انتخاب مي كند و سيستم يادگيري، از تابع تقريب زننده ^(.;w)، براي انتخاب يك عمل استفاده مي كند ؛ يعني
a = ^ (x;w).
بر اساس a و x محيط يك ارزيابي يا امتياز r (x,a) R باز مي گرداند. به صورت ايده آل سيستم فراگيرنده بايد wطوري را تنظيم نمايد كه به ازاي هر x بزرگترين مقدار ممكن r فراهم شود : به عبارت ديگر، براي حل مسأله بهينه سازي سراسري پارامتري، از ^ استفاده مي كنيم.
سياست نيز, همانگونه كه مي دانيم, روشي است كه عامل, يك عمل را بر اساس آن بر مي گزيند.
هدف عمل تصميم گيري, يافتن يك سياست بهينه, مطابق با يك حالت شناخته و تعريف شده, است. در حالت كلي, عملي كه از طريق سياست عامل, انتخاب مي شود, مي تواند به كل گذشته سيستم وابسته باشد .
در اينجا توجه خود را محدود به مواردي مي كنيم كه در آنها, انتخاب يك عمل, فقط به وضعيت جاري سيستم وابسته است .
يك سياست اتفاقي براي هرxX , يك توزيع احتمال بر روي مجموعه اعمال ممكن در وضعيت x تعريف مي كند ؛ به اين ترتيب كه مقادير Prob{(x) = a} را به ازاي هر aA(x) نسبت مي دهد.
يك سياست قطعي براي هر xX يك عمل (x)A(x) را تعريف مي كند .