LSTM-ները լուծում են խնդիրը՝ օգտագործելով եզակի հավելման գրադիենտ կառուցվածք, որը ներառում է ուղղակի մուտք դեպի մոռացության դարպասի ակտիվացումներ՝ հնարավորություն տալով ցանցին խրախուսել ցանկալի վարքը սխալի գրադիենտից՝ օգտագործելով դարպասների հաճախակի թարմացումները: ուսումնական գործընթացի յուրաքանչյուր ժամանակային քայլի վրա։
Ինչպե՞ս է LSTM լուծում պայթող գրադիենտը:
Շատ կարճ պատասխան. LSTM-ն անջատում է բջիջի վիճակը (սովորաբար նշվում է c-ով) և թաքնված շերտը/ելքը (սովորաբար նշվում է h-ով), և կատարում է միայն հավելումային թարմացումներ c-ի համար, ինչը c-ի հիշողություններն ավելի կայուն է դարձնում: Այսպիսով, գրադիենտը, որը հոսում է c-ով, պահպանվում է և դժվար է անհետանալ (հետևաբար ընդհանուր գրադիենտը դժվար է անհետանալ):
Ինչպե՞ս կարող է լուծվել անհետացող գրադիենտ խնդիրը:
Լուծումներ. Ամենապարզ լուծումը օգտագործել ակտիվացման այլ ֆունկցիաներ, ինչպես օրինակ ReLU-ն, որը փոքր ածանցյալ չի առաջացնում: Մնացորդային ցանցերը ևս մեկ լուծում են, քանի որ դրանք ապահովում են մնացորդային կապեր ուղիղ ավելի վաղ շերտերի հետ:
Ի՞նչ խնդիր է լուծում LSTM-ը:
LSTMs. LSTM-ը (կարճ երկարաժամկետ հիշողության համար) հիմնականում լուծում է անհետացող գրադիենտ խնդիրը հետտարածման մեջ: LSTM-ները օգտագործում են դարպասի մեխանիզմ, որը վերահսկում է հիշողության գործընթացը: LSTM-ներում տեղեկատվությունը կարող է պահվել, գրվել կամ կարդալ բացվող և փակվող դարպասների միջոցով:
Ինչու՞ LSTM-ները խանգարում են ձեր գրադիենտներին վերացնել հետընթաց անցուղու տեսարանը:
Սրա պատճառն այն է, որ այս մշտական սխալի հոսքը գործադրելու համար գրադիենտի հաշվարկը կրճատվել է, որպեսզի հետ չհոսի դեպի մուտքային կամ թեկնածու դարպասներ::