Ինչպես քաղաքականության գնահատումը, արժեքների կրկնությունը պաշտոնապես պահանջում է անսահման թվով կրկնություններ՝ ճշգրիտ -ին համընկնելու համար: Գործնականում մենք կանգ ենք առնում, երբ արժեքային ֆունկցիան փոխվում է միայն մի փոքր քանակությամբ ավլելու ընթացքում: … Այս բոլոր ալգորիթմները համընկնում են զեղչված վերջավոր MDP-ների օպտիմալ քաղաքականության հետ:
Արդյո՞ք արժեքի կրկնությունը որոշիչ է:
Այնուամենայնիվ, արժեքի կրկնությունը դետերմինիստական դեպքի ուղղակի ընդհանրացում է: Այն կարող է ավելի ամուր լինել դինամիկ խնդիրներում, ավելի բարձր անորոշության կամ ուժեղ պատահականության համար: Եթե քաղաքականության մեջ փոփոխություն չկա, վերադարձրեք այն որպես օպտիմալ քաղաքականություն, ՄԼԼՍ գնացեք 1:
Արդյո՞ք արժեքի կրկնությունը օպտիմալ է:
3 Արժեքի կրկնություն: Արժեքների կրկնությունը մեթոդ է՝ հաշվարկելու օպտիմալ MDP քաղաքականությունը և դրա արժեքըV զանգվածի պահպանումը հանգեցնում է ավելի քիչ պահեստավորման, բայց ավելի դժվար է որոշել օպտիմալ գործողությունը, և անհրաժեշտ է ևս մեկ կրկնություն՝ որոշելու համար, թե որ գործողությունն է հանգեցնում ամենամեծ արժեքին: …
Ո՞րն է տարբերությունը քաղաքականության կրկնության և արժեքի կրկնության միջև:
Քաղաքականության կրկնության մեջ մենք սկսում ենք ֆիքսված քաղաքականությունից: Ընդհակառակը, արժեքի կրկնության մեջ մենք սկսում ենք ընտրելով արժեքի ֆունկցիան: Այնուհետև երկու ալգորիթմներում մենք հերթականորեն բարելավում ենք մինչև հասնենք կոնվերգենցիային:
Ի՞նչ է կրկնության արժեքը:
Հիմնականում, Value Iteration ալգորիթմը հաշվում է օպտիմալ վիճակի արժեքի ֆունկցիան՝ կրկնվող կերպով բարելավելով V (s)-ի գնահատումը: Ալգորիթմը սկզբնավորում է V(s) կամայական պատահական արժեքները: Այն բազմիցս թարմացնում է Q(s, a) և V(s) արժեքները, մինչև դրանք միանան: