Reinforement Learning (RL) сыйлыктар жана жазалар системасы берилет. Кошумча окутуу максатка жетүү же айлана-чөйрө менен байланышта болгон стимулдардан жана жазалардан гана алуу үчүн көзөмөлгө алынган же көзөмөлсүз үйрөнүүгө караганда кененирээк.
Сыйлыктардын жана жазалардын кайсы түрүндө пикир билдирүү катары берилет?
Биринчиси, баалоочу пикирди бекемдөө, мында сыйлыктар жана жазалар окуучулардын жүрүм-турумун бекемдөө механизмдери аркылуу калыптандыруу үчүн колдонулат.
Сыйлыктын жана жазанын кандай түрлөрү бар?
Эми бул төрт терминди бириктирели: позитивдүү бекемдөө, терс күчөтүү, оң жаза жана терс жаза (1-таблица). Бир нерсе жүрүм-турум ыктымалдыгын жогорулатуу үчүн кошулат. Жүрүм-турум ыктымалдыгын азайтуу үчүн бир нерсе кошулду.
Окутуунун кайсы түрү сыйлык жана жазалоо ыкмасына негизделген?
Акыл-эстүү түрдө иштетилбестен, адамдар ар бир контексттин жана иш-аракеттин сыйлык жана жаза маанисин билишет. Бул ассоциативдик үйрөнүү процесстери өз кезегинде адамдардын мындай иш-аракеттерге кайра киришүү же ошол контекстти издөө ыктымалдыгына таасирин тийгизет.
Сыйлык жана жаза окууга кандай таасир этет?
Жалпысынан, биз сыйлыктын окууга же сактап калууга анчалык деле таасирин тийгизбедик. Жаза чеберчиликти сактоого эч кандай таасир тийгизген эмес, бирококууга милдеттен көз каранды. SRTT жазасында тактыкка минималдуу таасир тийгизген ылдамдык жакшыртылды. Тескерисинче, жаза FTT'деги аткарууну начарлатты.