Publication: Generalization of deep neural networks totransformations through novel andhybrid architectures
Institution Authors
Authors
Journal Title
Journal ISSN
Volume Title
Type
PhD dissertation
Sub Type
Access
restrictedAccess
Publication Status
Unpublished
Abstract
Object recognition is a foundational pillar for many computer vision tasks such as searching, tracking, navigating, scene understanding or information retrieval that require some kind of category knowledge at various levels. Even with the major advances in these tasks with the data-driven deep learning methods such as convolutional neural networks (CNNs), generalization to geometric variations and embedding part-whole relationships are still yet to be achieved when compared to human-level recognition. CNNs particularly fail to generalize to unseen viewpoints of a learned object even with substantial samples and are easily confused as the pooling operations lose the relation between existing entities in the input. Recently emerged capsule networks outperform CNNs in novel viewpoint generalization tasks even with significantly fewer parameters. Capsule networks group the neuron activations for representing higher-level attributes and their interactions for achieving equivariance to visual transformations. Capsules are designed to represent the pose of an existing visual entity and learned transformations are essentially pose transformations which are matrices. However, capsule networks have a high computational cost for learning the interactions of capsules in consecutive layers via the, so-called, routing algorithm in addition to the training stability problems. In this thesis, we propose to represent the pose information and transformations with quaternions in Quaternion Capsule Networks (QCNs). Quaternions are immune to the gimbal lock, have straightforward regularization of the rotation representation for capsules, and require a smaller number of parameters than matrices. QCNs directly inherit the existing EM-Routing for a fair comparison of the benefits of using quaternions instead of matrices. Experimental results show that QCNs generalize better to novel viewpoints with fewer parameters, and achieve on-par or better performances with the state-of-the-art Capsule architectures on well-known benchmarking datasets. Building on this proposal, we aimed to reduce the computational burden and embed feature vectors to the capsules in addition to pose information. In this context we propose, Alleviated Pose Attentive Capsule Agreement (ALPACA) which is tailored for capsules that contain pose, feature and existence probability information together to enhance novel viewpoint generalization of capsules on 2D images. For this purpose, we have created a Novel ViewPoint Dataset (NVPD) a viewpoint-controlled texture-free dataset that has 8 different setups where training and test samples are formed by different viewpoints. In addition to NVPD, we have conducted experiments on the iLab2M dataset where the dataset is split in terms of the object instances. Experimental results show that ALPACA outperforms its capsule network counterparts and state-of-the-art CNNs on iLab2M and NVPD datasets. Moreover, ALPACA is 10 times faster when compared to routing-based capsule networks. It also outperforms attention-based routing algorithms of the domain while keeping the inference and training times comparable.
Nesne tanıma, arama, izleme, gezinme, sahne anlama veya bilgi alma gibi çeşitli seviyelerde bir tür kategori bilgisi gerektiren birçok bilgisayarla görü problemi için temel bir dayanaktır. Konvolüsyonel sinir ağları (CNN'ler) gibi veri odaklı derin öğrenme yöntemleriyle bu görevlerde büyük ilerlemeler kaydedilmiş olsa da, geometrik varyasyonlara genelleme ve parça bütün ilişkilerinin gömülmesi, insan seviyesinde tanımayla karşılaştırıldığında geri kalmaktadır. CNN'ler özellikle öğrenilen bir nesnenin görülmeyen bakış açılarına önemli örneklerle bile genelleme yapamamakta ve havuzlama işlemleri girdideki mevcut parçalar arasındaki ilişkiyi kaybettiğinden kolayca yanlış yönlendirilebilmektedir. Yakın zamanda ortaya çıkan kapsül ağları, çok daha az parametreyle bile yeni görüş açısına genelleme konusunda CNN'lerden daha iyi performans göstermektedir. Kapsül ağları, daha yüksek seviyeli öznitelikleri temsil etmek için nöron aktivasyonlarını ve görsel dönüşümlere eşdeğişkenlik sağlamak için etkileşimlerini gruplandırır. Kapsüller mevcut bir görsel varlığın pozunu temsil etmek üzere tasarlanmıştır ve öğrenilen dönüşümler esasen matrisler olan koordinat sistemi dönüşümleridir. Bununla birlikte, kapsül ağları, eğitim kararlılığı sorunlarına ek olarak, yönlendirme algoritması olarak adlandırılan algoritma aracılığıyla ardışık katmanlardaki kapsüllerin etkileşimlerini öğrenmek için yüksek bir hesaplama maliyetine sahiptir. Bu tezde, Kuaterniyon Kapsül Ağlarında (QCN) poz bilgisini ve dönüşümleri kuaterniyonlarla temsil etmeyi öneriyoruz. Kuaterniyonlar gimbal kilidine maruz kalmamaktadır, kapsüller için rotasyon temsilinin basit bir şekilde düzenlenmesi vardır ve matrislerden daha az sayıda parametre gerektirir. QCN'ler, matrisler yerine kuaterniyon kullanmanın faydalarının adil bir şekilde karşılaştırılması için mevcut EM-Routing'i doğrudan devralarak test edilmiştir. Deneysel sonuçlar, QCN'lerin daha az parametre ile yeni bakış açılarına daha iyi genelleme yaptığını ve ayrıca iyi bilinen kıyaslama veri kümelerinde en son teknoloji Kapsül mimarileriyle eşit veya daha iyi performanslar elde ettiğini göstermektedir. Bu öneriyi temel alarak, hesaplama yükünü azaltmayı ve poz bilgisine ek olarak kapsüllere özellik vektörleri yerleştirmeyi amaçladık. Bu bağlamda, kapsüllerin 2B görüntüler üzerinde yeni görüş açısı genelleştirmesini geliştirmek için poz, özellik ve var olma olasılığı bilgilerini birlikte içeren kapsüller için uyarlanmış Alleviated Pose Attentive Capsule Agreement (ALPACA) geliştirdik. Bu amaçla, eğitim ve test örneklerinin farklı bakış açıları tarafından oluşturulduğu 8 farklı düzeneğe sahip, bakış açısı kontrollü dokusuz bir veri kümesi olan Novel ViewPoint Dataset (NVPD) oluşturduk. NVPD'ye ek olarak, veri kümesinin nesne örnekleri açısından bölündüğü iLab2M veri kümesi üzerinde de deneyler gerçekleştirdik. Deneysel sonuçlar, ALPACA'nın iLab2M ve NVPD veri kümelerinde kapsül ağ muadillerinden ve son teknoloji CNN'lerden daha iyi performans gösterdiğini ortaya koymaktadır. Dahası, ALPACA yönlendirme tabanlı kapsül ağlarına kıyasla 10 kat daha hızlıdır. Ayrıca, çıkarım ve eğitim sürelerini karşılaştırılabilir tutarken, alanın dikkat tabanlı yönlendirme algoritmalarından daha iyi performans gösterir.
Nesne tanıma, arama, izleme, gezinme, sahne anlama veya bilgi alma gibi çeşitli seviyelerde bir tür kategori bilgisi gerektiren birçok bilgisayarla görü problemi için temel bir dayanaktır. Konvolüsyonel sinir ağları (CNN'ler) gibi veri odaklı derin öğrenme yöntemleriyle bu görevlerde büyük ilerlemeler kaydedilmiş olsa da, geometrik varyasyonlara genelleme ve parça bütün ilişkilerinin gömülmesi, insan seviyesinde tanımayla karşılaştırıldığında geri kalmaktadır. CNN'ler özellikle öğrenilen bir nesnenin görülmeyen bakış açılarına önemli örneklerle bile genelleme yapamamakta ve havuzlama işlemleri girdideki mevcut parçalar arasındaki ilişkiyi kaybettiğinden kolayca yanlış yönlendirilebilmektedir. Yakın zamanda ortaya çıkan kapsül ağları, çok daha az parametreyle bile yeni görüş açısına genelleme konusunda CNN'lerden daha iyi performans göstermektedir. Kapsül ağları, daha yüksek seviyeli öznitelikleri temsil etmek için nöron aktivasyonlarını ve görsel dönüşümlere eşdeğişkenlik sağlamak için etkileşimlerini gruplandırır. Kapsüller mevcut bir görsel varlığın pozunu temsil etmek üzere tasarlanmıştır ve öğrenilen dönüşümler esasen matrisler olan koordinat sistemi dönüşümleridir. Bununla birlikte, kapsül ağları, eğitim kararlılığı sorunlarına ek olarak, yönlendirme algoritması olarak adlandırılan algoritma aracılığıyla ardışık katmanlardaki kapsüllerin etkileşimlerini öğrenmek için yüksek bir hesaplama maliyetine sahiptir. Bu tezde, Kuaterniyon Kapsül Ağlarında (QCN) poz bilgisini ve dönüşümleri kuaterniyonlarla temsil etmeyi öneriyoruz. Kuaterniyonlar gimbal kilidine maruz kalmamaktadır, kapsüller için rotasyon temsilinin basit bir şekilde düzenlenmesi vardır ve matrislerden daha az sayıda parametre gerektirir. QCN'ler, matrisler yerine kuaterniyon kullanmanın faydalarının adil bir şekilde karşılaştırılması için mevcut EM-Routing'i doğrudan devralarak test edilmiştir. Deneysel sonuçlar, QCN'lerin daha az parametre ile yeni bakış açılarına daha iyi genelleme yaptığını ve ayrıca iyi bilinen kıyaslama veri kümelerinde en son teknoloji Kapsül mimarileriyle eşit veya daha iyi performanslar elde ettiğini göstermektedir. Bu öneriyi temel alarak, hesaplama yükünü azaltmayı ve poz bilgisine ek olarak kapsüllere özellik vektörleri yerleştirmeyi amaçladık. Bu bağlamda, kapsüllerin 2B görüntüler üzerinde yeni görüş açısı genelleştirmesini geliştirmek için poz, özellik ve var olma olasılığı bilgilerini birlikte içeren kapsüller için uyarlanmış Alleviated Pose Attentive Capsule Agreement (ALPACA) geliştirdik. Bu amaçla, eğitim ve test örneklerinin farklı bakış açıları tarafından oluşturulduğu 8 farklı düzeneğe sahip, bakış açısı kontrollü dokusuz bir veri kümesi olan Novel ViewPoint Dataset (NVPD) oluşturduk. NVPD'ye ek olarak, veri kümesinin nesne örnekleri açısından bölündüğü iLab2M veri kümesi üzerinde de deneyler gerçekleştirdik. Deneysel sonuçlar, ALPACA'nın iLab2M ve NVPD veri kümelerinde kapsül ağ muadillerinden ve son teknoloji CNN'lerden daha iyi performans gösterdiğini ortaya koymaktadır. Dahası, ALPACA yönlendirme tabanlı kapsül ağlarına kıyasla 10 kat daha hızlıdır. Ayrıca, çıkarım ve eğitim sürelerini karşılaştırılabilir tutarken, alanın dikkat tabanlı yönlendirme algoritmalarından daha iyi performans gösterir.