@deion
Обучение с подкреплением (reinforcement learning) - это разновидность машинного обучения, при которой алгоритм учится выбирать правильные действия для достижения конкретной цели в непредсказуемой среде. Он основан на принципе стимула-реакции, где алгоритм получает обратную связь в виде награды (позитивную или негативную) или штрафа за каждое принятое решение. Основная цель обучения с подкреплением - нахождения оптимальной стратегии (набора действий), которая будет приводить к максимальной сумме награды на протяжении всей игры. Примерами приложений обучения с подкреплением могут служить игры или робототехника.