Publication: An actor-critic reinforcement learning approach for bilateral negotiation
Institution Authors
Authors
Journal Title
Journal ISSN
Volume Title
Type
Master's thesis
Access
info:eu-repo/semantics/restrictedAccess
Publication Status
Unpublished
Abstract
Designing an effective and intelligent bidding strategy is one of the most compelling research challenges in automated negotiation, where software agents negotiate with each other to find a mutual agreement when there is a conflict of interests. Instead of designing a hand-crafted decision-making module, this thesis proposes a novel bidding strategy adopting an actor-critic reinforcement learning approach, which learns what to offer in a bilateral negotiation. An entropy reinforcement learning framework called \acrfull{sac} is applied to the bidding problem, and a self-play approach is employed to train the model determining the target utility of the coming offer based on previous offer exchanges and remaining time. Furthermore, an imitation learning approach called behavior cloning is adopted to speed up the learning process. Also, a novel reward function is introduced that does not only take the agent's own utility, but also the opponent's utility at the end of the negotiation. The developed agent is empirically evaluated. Thus, a large number of negotiation sessions are run against a variety of opponents selected in different domains varying in size and opposition. The agent's performance is compared with its opponents and the performance of the baseline agents negotiating with the same opponents. The empirical results show that our agent successfully negotiates against challenging opponents in different negotiation scenarios without requiring any former information about the opponent or domain in advance. Furthermore, it achieves better results than the baseline agents regarding the received utility at the end of the successful negotiations.
Bir çıkar çatışması olduğunda yazılım aracılarının karşılıklı bir anlaşma bulmak amacıyla birbirleriyle yaptığı pazarlık için etkili ve akıllı bir teklif stratejisi tasarlamak otomatik müzakeredeki en zorlayıcı araştırma zorluklarından biridir. Bu tez de, elle hazırlanmış bir karar verme modülü tasarlamak yerine, ikili bir müzakerede hangi teklifi sunulacağını öğrenen bir aktör-eleştirmen takviyeli öğrenme yaklaşımını benimseyen yeni bir teklif stratejisi önerilmiştir. Teklif verme yaklaşımı için Soft Actor-Critic (SAC) adı verilen bir entropi pekiştirmeli öğrenme yaklaşımı kullanılmıştır. Önceki teklif değişimlerine ve kalan süreye dayalı olarak gelecek teklifin hedef değerini belirleyen SAC modeli eğitmek için bir kendi kendine oynama yaklaşımı kullanılır. Ayrıca, öğrenme sürecini hızlandırmak için davranış klonlama adı verilen bir taklit öğrenme yaklaşımı benimsenmiştir. Bunlara ek olarak, müzakerenin sonunda yalnızca temsilcinin aldığı teklif değerini değil, aynı zamanda rakibin teklif değerinide kullanan yeni bir ödül işlevi tanıtıldı. Bu tez kapsamında geliştirilen SAC ajanı ampirik olarak değerlendirildi. Bu amaçla, büyüklük ve zorluk bakımından farklı alanlarda seçilen çeşitli muhaliflere karşı çok sayıda pazarlık oturumları yürütüldü. Ajanın performansı rakipleriyle ve aynı rakiplerle pazarlık eden temel ajanların performansıyla karşılaştırıldı. Ampirik sonuçlar, temsilcimizin, rakip veya alan hakkında önceden herhangi bir bilgi gerektirmeden farklı pazarlık senaryolarında zorlu rakiplere karşı başarılı bir şekilde pazarlık ettiğini göstermektedir. Ayrıca, başarılı pazarlık sonunda alınan teklif değeri göz önünde bulundurulduğunda temel aracılardan daha iyi sonuçlar elde etmektedir.
Bir çıkar çatışması olduğunda yazılım aracılarının karşılıklı bir anlaşma bulmak amacıyla birbirleriyle yaptığı pazarlık için etkili ve akıllı bir teklif stratejisi tasarlamak otomatik müzakeredeki en zorlayıcı araştırma zorluklarından biridir. Bu tez de, elle hazırlanmış bir karar verme modülü tasarlamak yerine, ikili bir müzakerede hangi teklifi sunulacağını öğrenen bir aktör-eleştirmen takviyeli öğrenme yaklaşımını benimseyen yeni bir teklif stratejisi önerilmiştir. Teklif verme yaklaşımı için Soft Actor-Critic (SAC) adı verilen bir entropi pekiştirmeli öğrenme yaklaşımı kullanılmıştır. Önceki teklif değişimlerine ve kalan süreye dayalı olarak gelecek teklifin hedef değerini belirleyen SAC modeli eğitmek için bir kendi kendine oynama yaklaşımı kullanılır. Ayrıca, öğrenme sürecini hızlandırmak için davranış klonlama adı verilen bir taklit öğrenme yaklaşımı benimsenmiştir. Bunlara ek olarak, müzakerenin sonunda yalnızca temsilcinin aldığı teklif değerini değil, aynı zamanda rakibin teklif değerinide kullanan yeni bir ödül işlevi tanıtıldı. Bu tez kapsamında geliştirilen SAC ajanı ampirik olarak değerlendirildi. Bu amaçla, büyüklük ve zorluk bakımından farklı alanlarda seçilen çeşitli muhaliflere karşı çok sayıda pazarlık oturumları yürütüldü. Ajanın performansı rakipleriyle ve aynı rakiplerle pazarlık eden temel ajanların performansıyla karşılaştırıldı. Ampirik sonuçlar, temsilcimizin, rakip veya alan hakkında önceden herhangi bir bilgi gerektirmeden farklı pazarlık senaryolarında zorlu rakiplere karşı başarılı bir şekilde pazarlık ettiğini göstermektedir. Ayrıca, başarılı pazarlık sonunda alınan teklif değeri göz önünde bulundurulduğunda temel aracılardan daha iyi sonuçlar elde etmektedir.