Publication: Explorations on inverse reinforcement learning for the analysis of motor control and cognitive decision making mechanisms of the brain
Institution Authors
Authors
Journal Title
Journal ISSN
Volume Title
Type
Master's thesis
Access
restrictedAccess
Publication Status
Unpublished
Abstract
Reinforcement Learning is a framework for generating optimal policies given a task and a reward/punishment structure. Likewise, Inverse Reinforcement Learning, as the name suggests, is used for recovering the reasoning behind an optimal policy based on demonstrations from an expert. We set out to explore whether recent Reinforcement Learning and Inverse Reinforcement Learning methods can serve as a computational tool for investigating optimality principles of motor control and cognitive decision-making mechanisms of the brain. For this purpose, we have targeted several different tasks involved with different parts of the sensorimotor learning mechanism of the brain. We aim to recover the optimality principles employed by the brain for various control and decision-making tasks. If this is achieved, we can analyze, understand, mimic and improve demonstrated behavior with less bias, which we hope is a step forward in understanding the process of learning in both human-based and artificial systems. For the scope of this thesis, we have evaluated two tasks. The first task was investigating the applicability of perceptual development for Reinforcement Learning. For this task, we have proposed a perceptual development based learning regime for a Reinforcement Learning agent, and the results obtained suggest that a suitable perceptual development regime may improve the learning progress and yield better-performing agents. The second task was to predict reward function parameters of a provided trajectory in a standing up under perturbation scenario. For this task, we have proposed two different Inverse Reinforcement Learning approaches. Our results indicate that we were able to infer valid reward parameters on synthetic data.
Pekiştirmeli öğrenme, farklı ortamlarda, verilen ödül ceza yapısına göre en uygun politikaları bulma sistemidir. Benzer şekilde, Tersine Pekiştirmeli Öğrenme de, adından anlaşılabileceği gibi, bir uzmandan alınan en uygun politikanın arkasındaki sebepleri bulmak için kullanılır. Bu araştırmada, güncel Pekiştirmeli Öğrenme ve Tersine Pekiştirmeli Öğrenme metotlarının, beynin motor kontrol ve bilişsel karar alma mekanizmalarının arkasındaki eniyileme prensiplerini modelleyen araçlar olarak kullanılabilmesini keşfetmeyi amaçlıyoruz. Bu amaç için, beynin farklı duyusal motor özelliklerini hedefleyen farklı görevleri hedefledik. Niyetimiz, beyin tarafından farklı alanlar için oluşturulan en iyileme kriterlerini keşfedebilmek. Bu başarılabildiği takdirde, varolan veya yeni bir metot ile, insan davranışlarını daha düşük bir yanlılık ile analiz edebilir, anlayabilir ve taklit edebiliriz. Bu tezin kapsamı doğrultusunda, iki tane görevi hedefledik. İlk görev, algısal gelişimin Pekiştirmeli Öğrenme'ye uygulanabilirliğinin araştırılmasıdır. Bu görev için, bir Pekiştirmeli Öğrenme ajanı, kendi önerdiğimiz bir algısal gelişim tabanlı gelişimsel rejim ile eğittik. Sonuçlarımız, uygun bir algısal gelişim rejiminin, Pekiştirmeli Öğrenme'nin öğrenme ilerlemesini geliştirebileceğini ve daha iyi ajanlar üretebileceğini önerdi. İkinci görev ise, Tersine Pekiştirmeli Öğrenme ile, uzmanların ödül fonksiyonu parametrelerini keşfetmekti. Bunun için, iki tane farklı Tersine Pekiştirmeli Öğrenme mekanizması oluşturduk ve sonuçlarımız geçerli ödül fonksiyonu parametreleri keşfettiğimizi önermektedir.
Pekiştirmeli öğrenme, farklı ortamlarda, verilen ödül ceza yapısına göre en uygun politikaları bulma sistemidir. Benzer şekilde, Tersine Pekiştirmeli Öğrenme de, adından anlaşılabileceği gibi, bir uzmandan alınan en uygun politikanın arkasındaki sebepleri bulmak için kullanılır. Bu araştırmada, güncel Pekiştirmeli Öğrenme ve Tersine Pekiştirmeli Öğrenme metotlarının, beynin motor kontrol ve bilişsel karar alma mekanizmalarının arkasındaki eniyileme prensiplerini modelleyen araçlar olarak kullanılabilmesini keşfetmeyi amaçlıyoruz. Bu amaç için, beynin farklı duyusal motor özelliklerini hedefleyen farklı görevleri hedefledik. Niyetimiz, beyin tarafından farklı alanlar için oluşturulan en iyileme kriterlerini keşfedebilmek. Bu başarılabildiği takdirde, varolan veya yeni bir metot ile, insan davranışlarını daha düşük bir yanlılık ile analiz edebilir, anlayabilir ve taklit edebiliriz. Bu tezin kapsamı doğrultusunda, iki tane görevi hedefledik. İlk görev, algısal gelişimin Pekiştirmeli Öğrenme'ye uygulanabilirliğinin araştırılmasıdır. Bu görev için, bir Pekiştirmeli Öğrenme ajanı, kendi önerdiğimiz bir algısal gelişim tabanlı gelişimsel rejim ile eğittik. Sonuçlarımız, uygun bir algısal gelişim rejiminin, Pekiştirmeli Öğrenme'nin öğrenme ilerlemesini geliştirebileceğini ve daha iyi ajanlar üretebileceğini önerdi. İkinci görev ise, Tersine Pekiştirmeli Öğrenme ile, uzmanların ödül fonksiyonu parametrelerini keşfetmekti. Bunun için, iki tane farklı Tersine Pekiştirmeli Öğrenme mekanizması oluşturduk ve sonuçlarımız geçerli ödül fonksiyonu parametreleri keşfettiğimizi önermektedir.