Publication: A novel sampling technique and gradient boosting tree-based approach for cross-channel fraud detection
Institution Authors
Authors
Journal Title
Journal ISSN
Volume Title
Type
Master's thesis
Sub Type
Access
restrictedAccess
Publication Status
Unpublished
Abstract
The most recent research on hundreds of financial institutions uncovered that only 26% of them have a team assigned to detect cross-channel fraud. Due to the developing technologies, various fraud techniques have emerged and increased in digital environments. Fraud directly affects customer satisfaction. For instance, only in the UK, the total loss of fraud transactions was £1.26 billion in 2020. In this study, we come up with a Gradient Boosting Tree (GBT)-based approach to efficiently detect cross-channel frauds. As a part of our proposed approach, we developed an algorithm able to generate an optimized training set to train the model and overcome imbalanced data problems. This solution made it easier for the model to understand the concept drift, another major problem arising from changing customer behavior. We boost the performance of our GBT model by integrating additional demographic, economic, and behavioral features as a part of feature engineering. Hyperparameter tuning methods find the best parameters for the model. The cross-channel fraud detection performance of the model is evaluated on a real banking dataset which is highly imbalanced in terms of fraud which is another challenge in the fraud detection problem. We use our trained model to score real-time cross-channel transactions by a leading private bank in Turkey. As a result, our approach can catch almost 75% of total fraud loss in a month with a low false-positive rate and acceptable call count.
Yüzlerce finans kurumu üzerinde yapılan en son araştırmalara göre, bu kurumların sadece %26'sının kanallar arası dolandırıcılığı tespit etmek için atanmış bir ekibe sahip olduğu ortaya çıktı. Gelişen teknolojiler neticesinde dijital ortamlarda çeşitli dolandırıcılık yöntemleri ortaya çıkmıştır ve var olan yöntemler gelişmiştir. Sahte işlemler, direkt olarak müşteri memnuniyetine etki eder. Örneğin, 2020 yılında sadece Birleşik Krallıkta dolandırıcılık işlemlerinden ortaya çıkan toplam kayıp 1.26 milyar £'du. Bu çalışmada, kanallar arası sahtekarlıkları verimli bir şekilde tespit etmek için Gradient Boosting Tree (GBT) tabanlı bir yaklaşım uygulandı. Çalışmada önerilen yaklaşımın bir parçası olarak, modeli eğitmek ve dengesiz veri sorunlarının üstesinden gelmek için optimize edilmiş bir eğitim seti oluşturabilen bir algoritma geliştirdik. Bu çözüm, modelin değişen müşteri davranışından kaynaklanan bir diğer önemli sorun olan kavram kaymasını anlamasını kolaylaştırdı. Öznitelik mühendisliğinin bir parçası olarak var olan özniteliklere ek demografik, ekonomik ve davranışsal öznitelikleri entegre ederek GBT modelinin performansı arttırıldı. Hiper parametre optimizasyon yöntemleri, model i ̧cin en iyi parametrelerin bulunmasında kullanıldı. Dolandırıcılık tespit problemindeki bir diğer zorluk olan, dolandırıcılık açısından oldukça dengesiz olan gerçek bir bankacılık veri seti u ̈zerinde bu çalışmada geliştirilen kanallar arası dolandırıcılık tespit yönteminin performansı ölçüldü. Türkiye'nin önde gelen özel bankalarından birinin gerçek zamanlı ve tarihsel çapraz kanal işlemlerini puanlamak için eğitimli modelimizi kullanıyoruz. Bu çalışmanın sonucunda uygulanan yaklaşım, düşük bir yanlış pozitif oranıyla dolandırıcılık işlemleri nedeniyle bir ayda gerçekle ̧sen toplam kaybın neredeyse %75'ini yakalayabilir.
Yüzlerce finans kurumu üzerinde yapılan en son araştırmalara göre, bu kurumların sadece %26'sının kanallar arası dolandırıcılığı tespit etmek için atanmış bir ekibe sahip olduğu ortaya çıktı. Gelişen teknolojiler neticesinde dijital ortamlarda çeşitli dolandırıcılık yöntemleri ortaya çıkmıştır ve var olan yöntemler gelişmiştir. Sahte işlemler, direkt olarak müşteri memnuniyetine etki eder. Örneğin, 2020 yılında sadece Birleşik Krallıkta dolandırıcılık işlemlerinden ortaya çıkan toplam kayıp 1.26 milyar £'du. Bu çalışmada, kanallar arası sahtekarlıkları verimli bir şekilde tespit etmek için Gradient Boosting Tree (GBT) tabanlı bir yaklaşım uygulandı. Çalışmada önerilen yaklaşımın bir parçası olarak, modeli eğitmek ve dengesiz veri sorunlarının üstesinden gelmek için optimize edilmiş bir eğitim seti oluşturabilen bir algoritma geliştirdik. Bu çözüm, modelin değişen müşteri davranışından kaynaklanan bir diğer önemli sorun olan kavram kaymasını anlamasını kolaylaştırdı. Öznitelik mühendisliğinin bir parçası olarak var olan özniteliklere ek demografik, ekonomik ve davranışsal öznitelikleri entegre ederek GBT modelinin performansı arttırıldı. Hiper parametre optimizasyon yöntemleri, model i ̧cin en iyi parametrelerin bulunmasında kullanıldı. Dolandırıcılık tespit problemindeki bir diğer zorluk olan, dolandırıcılık açısından oldukça dengesiz olan gerçek bir bankacılık veri seti u ̈zerinde bu çalışmada geliştirilen kanallar arası dolandırıcılık tespit yönteminin performansı ölçüldü. Türkiye'nin önde gelen özel bankalarından birinin gerçek zamanlı ve tarihsel çapraz kanal işlemlerini puanlamak için eğitimli modelimizi kullanıyoruz. Bu çalışmanın sonucunda uygulanan yaklaşım, düşük bir yanlış pozitif oranıyla dolandırıcılık işlemleri nedeniyle bir ayda gerçekle ̧sen toplam kaybın neredeyse %75'ini yakalayabilir.