Publication: Adapting bilateral networks to monocular depth estimation for real-time inference
Institution Authors
Authors
Journal Title
Journal ISSN
Volume Title
Type
Master's thesis
Sub Type
Access
restrictedAccess
Publication Status
Unpublished
Abstract
Monocular Depth Estimation (MDE) is a fundamental computer vision application area for many industry-related advances. Due to its deployment needs, the inference time of the depth estimation algorithm also plays a crucial role among other accuracy metrics. With the recent advances in Convolutional Neural Networks (CNNs) on other time-constrained computer vision tasks, many efficient feature extractors have been studied and adopted from MDE models as the backbone. Although those feature extractors have shown significant improvement in throughput, the widely-used encoder-decoder architecture used by Real-time MDE models also relies on a decoder network for upsampling. Following a similar approach, stacking multi-channel convolutional layers on a decoder hinders the inference time. This study investigates the benefits of Bilateral Networks in Real-time MDE tasks. During our research, we first manipulate the structure of a recently introduced real-time segmentation model (STDC-Seg) for the MDE problem. Once we attain real-time inference speed, we tailor the backbone structure and attention modules of the model for the needs of MDE to improve prediction accuracy. Finally, we train the models on the well-known KITTI dataset and compare our results with the models of the KITTI Eigen Split MDE Benchmark along with the previous real-time models. Our experimental results show that our real-time method achieves on-par metric performance with state-of-the-art models that are not subject to any time-constraint.
Monoküler Derinlik Tahmini (MDT), endüstri ile ilgili birçok gelişme için önemli bir bilgisayarlı görü uygulama alanıdır. Kullanım ihtiyaçları nedeniyle, derinlik tahmin algoritmasının çıkarım süresi de diğer doğruluk ölçütleri ile birlikte çok önemli bir rol oynar. Evrişimsel Sinir Ağlarının (ESA) diğer zaman kısıtlamalı bilgisayar görme görevlerinde kullanımındaki son gelişmelerle birlikte, birçok kodlayıcı incelendi ve MDT modellerinde omurga olarak kullanıldı. Bu kodlayıcılar verimde büyük gelişme göstermiş olsa da, gerçek zamanlı modeller tarafından kullanılan popüler kodlayıcı-kod çözücü mimarisi ayrıca çözünürlük yükseltebilmek için bir kod çözücü ağına dayanır. Benzer bir yaklaşımı izleyerek, çok kanallı evrişimli katmanları bir kod çözücü üzerinde istiflemek, hesaplama süresini önemli ölçüde yavaşlatır. Bu çalışmada, Gerçek Zamanlı MDT için İkili Ağların kullanımını araştırıyoruz. Bunu başarmak için, önce MDT problemi için yakın zamanda tanıtılan bir gerçek zamanlı segmentasyon modelini (STDC-Seg) manipüle ettik. Gerçek zamanlı çıkarım hızına ulaşıldığında, doğruluğu daha da geliştirmek için ağın omurga yapısını ve dikkat modüllerini MDT'nin ihtiyaçlarına göre uyarladık. Son olarak, modelleri KITTI veri seti üzerinde Eigen ayrımına bağlı kalarak eğittik ve sonuçlarımızı KITTI üzerinde çalışılan modellerle ve ayrıca gerçek zamanlı modellerle karşılaştırdık. Deneysel sonuçlarımız,metodumuzun gerçek zamanlı çıkarım elde ederken zaman kısıtlamasına tabi olmayan son teknoloji modellerle de yakın performansta sonuçlar elde ettiğini göstermektedir.
Monoküler Derinlik Tahmini (MDT), endüstri ile ilgili birçok gelişme için önemli bir bilgisayarlı görü uygulama alanıdır. Kullanım ihtiyaçları nedeniyle, derinlik tahmin algoritmasının çıkarım süresi de diğer doğruluk ölçütleri ile birlikte çok önemli bir rol oynar. Evrişimsel Sinir Ağlarının (ESA) diğer zaman kısıtlamalı bilgisayar görme görevlerinde kullanımındaki son gelişmelerle birlikte, birçok kodlayıcı incelendi ve MDT modellerinde omurga olarak kullanıldı. Bu kodlayıcılar verimde büyük gelişme göstermiş olsa da, gerçek zamanlı modeller tarafından kullanılan popüler kodlayıcı-kod çözücü mimarisi ayrıca çözünürlük yükseltebilmek için bir kod çözücü ağına dayanır. Benzer bir yaklaşımı izleyerek, çok kanallı evrişimli katmanları bir kod çözücü üzerinde istiflemek, hesaplama süresini önemli ölçüde yavaşlatır. Bu çalışmada, Gerçek Zamanlı MDT için İkili Ağların kullanımını araştırıyoruz. Bunu başarmak için, önce MDT problemi için yakın zamanda tanıtılan bir gerçek zamanlı segmentasyon modelini (STDC-Seg) manipüle ettik. Gerçek zamanlı çıkarım hızına ulaşıldığında, doğruluğu daha da geliştirmek için ağın omurga yapısını ve dikkat modüllerini MDT'nin ihtiyaçlarına göre uyarladık. Son olarak, modelleri KITTI veri seti üzerinde Eigen ayrımına bağlı kalarak eğittik ve sonuçlarımızı KITTI üzerinde çalışılan modellerle ve ayrıca gerçek zamanlı modellerle karşılaştırdık. Deneysel sonuçlarımız,metodumuzun gerçek zamanlı çıkarım elde ederken zaman kısıtlamasına tabi olmayan son teknoloji modellerle de yakın performansta sonuçlar elde ettiğini göstermektedir.