موضوع : متن کامل پایان نامه انگلیسی : مقایسه یادگیری تقویتی عمیق Q و DDPG برای هواپیمای بدون سرنشین در محیط شبیه سازی
رشته : کامپیوتر و برنامه نویسی – نرم افزار و سخت افزار – هوش مصنوعی – رباتیک و مکاترونیک – هوافضا
سال انتشار : 2021
زبان : انگلیسی
مقطع : کارشناسی
چکیده (ترجمه ماشینی ) :
این پایان نامه به بررسی نحوه عملکرد بین شبکه عمیق Q (DQN) با ترتیب وضعیت مداوم و گسسته و فضای عمل و گرادیان سیاست عمیق تعیین کننده (DDPG) با حالت مداوم و حالت عمل در زمانی که در محیطی با یک فضای مداوم حالت و عمل محیط شبیه سازی بود که وظیفه الگوریتم ها کنترل یک هواپیمای بدون سرنشین از موقعیت اولیه تا محل هدف بود. هدف از این تحقیق این است که بینشی را در نظر بگیرید که در نظر گرفتن الگوریتم یادگیری تقویتی ، در نظر گرفتن فضای عمل محیط چگونه اهمیت دارد. با محدود کردن تعداد اقدامات احتمالی به 6 مورد ، فضای عمل محیط برای Deep Q-Network مشخص نمی شود. یک آزمایش شبیه سازی انجام شد که در آن الگوریتم ها در محیط آموزش دیده بودند. آزمایشات به شش آزمون تقسیم شد ، که در آن هر الگوریتم برای 5000 ، 10000 یا 35000 مرحله و با دو مکان هدف مختلف آموزش داده شده بود. این آزمایش با تجزیه و تحلیل اکتشافی داده های جمع آوری شده دنبال شد. چهار معیار مختلف برای تعیین عملکرد استفاده شد. تجزیه و تحلیل من نشان داد که DQN نسبت به DDPG به تجربه کمتری برای یادگیری یک سیاست موفق نیاز دارد. همچنین ، DQN در همه آزمایشها به جز یک عملکرد بهتر از DDPG داشت. این نتایج نشان می دهد که هنگام انتخاب یک الگوریتم یادگیری تقویتی برای یک کار ، الگوریتمی با همان نوع موقعیت و فضای محیط ، لزوماً م mostثرترین الگوریتم نیست.
