DDAF

< Projeler Sayfası

Proje Adı
RL (Reinforcement Learning) Tabanlı Otopilot

Şirket Adı
Titra Teknoloji A.Ş.

Şirket Mentoru
Mehmet Enes Avcu

Akademik Mentor
Asst. Prof. Muhammed Ömer Sayın

Asistan
Tevfik Bülent Kanmaz

Takım Üyeleri
Mert Cemri, Efe Eren Ceyani, Şeref Taha Kiremitçi, Yiğit Uz, Onur Ünlü

Özet
Bu projede, sabit kanatlı bir insansız hava aracının (SKİHA) durum kontrolü için pekiştirmeli ögrenme tabanlı bir kontrolör geliştirdik. Pekiştirmeli ögrenme, dinamik sistemlerin sağlam kontrolünü uygulamak için yapay zekada verimli ve etkili bir araştırma alanıdır. İlk olarak, bir çeşit pekiştirmeli öğrenme yöntemi olan Proximal Policy Optimization (PPO), bu projede FWUAV'ın gerekli eğim, dönüş ve sapma açısal hızlarını doğrudan tahmin etmek için kullanıldı. İkinci bir yaklaşım olarak, yapay sinir ağlarını kullanarak optimizasyonu daha kolay olan daha basit bir yöntem geliştirdik. Bu yapay sinir ağı, anlık doğrusal ivmeyi, açısal ivmeyi, SKİHA'nın anlık açılarını, bir sonraki iterasyonda istenen açıları ve geleneksel PID denetleyicilerinin tahminlerini, gerekli eğim, yuvarlanma ve sapma açısal hızlarının bir tahminini üretmek için dikkate alır. Her iki yöntemi de uyguladıktan sonra, sonuçlar bilgisayar simülasyonları ile karşılaştırıldı. Bilgisayar simülasyonlarındaki performansına göre iyi işleyen bir sistem seçildi ve ardından donanımda uygulandı. Fizik motor ve simülasyon ortamı olarak sırasıyla Gazebo, QGround, MAVSDK, ROS, PyTorch, TensorFlow ve Gym yazılımları kullandı. Geliştirilen algoritmalar, çeşitli ortam koşulları ile oluşturulan test metrikleri ile test edilmiş ve aynı test senaryosunda geleneksel PID denetleyici ile karşılaştırılmıştır. Proje, FWUAV'ımızın otopilotunu düzenlemek ve belirli gereksinimleri karşılayarak geleneksel denetleyicinin performansından daha iyi performans göstermek için istikrarlı bir öğenme tabanlı yöntem geliştirmeyi amaçlamaktadır.



Abstract
In this project, we developed a reinforcement learning-based controller for the attitude control of a fixed-wing unmanned aerial vehicle (FWUAV). Reinforcement learning is a fruitful research area in artificial intelligence for implementing robust control of dynamic systems. Initially, the Proximal Policy Optimization (PPO) method of reinforcement learning is used in this project to constitute the integral part of the controllers, where we used this algorithm to directly to estimate the necessary pitch, roll, and yaw angular velocities of the FWUAV, removing the traditional PID controller altogether. As a second approach, we developed a simpler method using neural networks, which was easier to optimize. This neural network considers the momentary linear acceleration, angular acceleration, current angle, the desired angle at the next iteration, and the estimates of the traditional PID controllers for producing an estimate of the necessary pitch, roll and yaw angular velocities. After implementing both methods, the results are compared with computer simulations. A well-functioning system is chosen based on its performance in computer simulations and then implemented in hardware. Gazebo, QGround, MAVSDK, ROS, PyTorch, TensorFlow, and Gym are used as the physics motor and simulation environment, path and current angle monitoring, synchronized communication, deep learning libraries, and reinforcement library, respectively. The developed algorithms are tested with test metrics created with various environmental conditions and compared with the traditional PID controller in the same test scenario. The project aims to develop a stable learning based method to regulate the autopilot of our FWUAV, and to outperform the performance of the traditional controller, meeting specific requirements.