MULTIMEDIA STEGANALYSIS USING HYBRID CNN AND TRANSFORMER

Aroob Mukhtar; Farhan Hassan; M. Madni; Umar Daraz

Authors

Aroob Mukhtar
Farhan Hassan
M. Madni
Umar Daraz

Keywords:

Multimedia Steganalysis, Hybrid CNN–Transformer, Deep Learning, Cybersecurity, Image Steganalysis, Audio Steganalysis, Video Steganalysis, Transformer Networks, Multimedia Forensics, Hidden Information Detection

Abstract

Steganography enables covert communication by concealing secret information within digital multimedia content such as images, audio, and video files. The increasing misuse of steganographic techniques in cybercrime and covert communication underscores the urgent need for effective multimedia steganalysis systems. This study introduces a unified multimedia steganalysis framework utilizing a Hybrid CNN–Transformer architecture to detect hidden information across diverse multimedia modalities. The framework integrates the local feature extraction strengths of Convolutional Neural Networks (CNNs) with the global contextual learning capabilities of Transformer encoders to identify spatial, spectral, and temporal steganographic artifacts. Publicly available datasets, such as BOWSBASE, BOWS2, TIMIT, ESC-50, LibriSpeech, HMDB51, UCF-101, and Kinetics-400, are employed for experimental evaluation. The model is assessed using various embedding techniques and multimodal late fusion for final classification. Results indicate that the proposed framework outperforms standalone CNN and Transformer models, achieving an overall accuracy of 96.4%, and demonstrating enhanced robustness and generalization across multimedia modalities.