Արժեքի կրկնությունը միշտ համընկնում է:

Բովանդակություն:

Արժեքի կրկնությունը միշտ համընկնում է:
Արժեքի կրկնությունը միշտ համընկնում է:

Video: Արժեքի կրկնությունը միշտ համընկնում է:

Video: Արժեքի կրկնությունը միշտ համընկնում է:
Video: Ահա, թե ինչու են գիշերվա կեսին ձգվում ոտքի մկանները. ընդամենը 2 բաղադրիչ, և 2024, Նոյեմբեր
Anonim

Ինչպես քաղաքականության գնահատումը, արժեքների կրկնությունը պաշտոնապես պահանջում է անսահման թվով կրկնություններ՝ ճշգրիտ -ին համընկնելու համար: Գործնականում մենք կանգ ենք առնում, երբ արժեքային ֆունկցիան փոխվում է միայն մի փոքր քանակությամբ ավլելու ընթացքում: … Այս բոլոր ալգորիթմները համընկնում են զեղչված վերջավոր MDP-ների օպտիմալ քաղաքականության հետ:

Արդյո՞ք արժեքի կրկնությունը որոշիչ է:

Այնուամենայնիվ, արժեքի կրկնությունը դետերմինիստական դեպքի ուղղակի ընդհանրացում է: Այն կարող է ավելի ամուր լինել դինամիկ խնդիրներում, ավելի բարձր անորոշության կամ ուժեղ պատահականության համար: Եթե քաղաքականության մեջ փոփոխություն չկա, վերադարձրեք այն որպես օպտիմալ քաղաքականություն, ՄԼԼՍ գնացեք 1:

Արդյո՞ք արժեքի կրկնությունը օպտիմալ է:

3 Արժեքի կրկնություն: Արժեքների կրկնությունը մեթոդ է՝ հաշվարկելու օպտիմալ MDP քաղաքականությունը և դրա արժեքըV զանգվածի պահպանումը հանգեցնում է ավելի քիչ պահեստավորման, բայց ավելի դժվար է որոշել օպտիմալ գործողությունը, և անհրաժեշտ է ևս մեկ կրկնություն՝ որոշելու համար, թե որ գործողությունն է հանգեցնում ամենամեծ արժեքին: …

Ո՞րն է տարբերությունը քաղաքականության կրկնության և արժեքի կրկնության միջև:

Քաղաքականության կրկնության մեջ մենք սկսում ենք ֆիքսված քաղաքականությունից: Ընդհակառակը, արժեքի կրկնության մեջ մենք սկսում ենք ընտրելով արժեքի ֆունկցիան: Այնուհետև երկու ալգորիթմներում մենք հերթականորեն բարելավում ենք մինչև հասնենք կոնվերգենցիային:

Ի՞նչ է կրկնության արժեքը:

Հիմնականում, Value Iteration ալգորիթմը հաշվում է օպտիմալ վիճակի արժեքի ֆունկցիան՝ կրկնվող կերպով բարելավելով V (s)-ի գնահատումը: Ալգորիթմը սկզբնավորում է V(s) կամայական պատահական արժեքները: Այն բազմիցս թարմացնում է Q(s, a) և V(s) արժեքները, մինչև դրանք միանան:

Խորհուրդ ենք տալիս: