background image

 

Abstract

 

With the rapid development of networks and Internet services, network security has gained 
increased momentum in the past few years. Consequently, Intrusion Detection Systems (IDS) 
must adapt to the increased need for a sufficient first line of defence against the ever-evolving 
threats landscape. By utilizing deep and machine learning techniques, IDSs have been focusing 
on  anomaly  detection,  but  there  are  still  challenges  in  detecting  attacks,  especially  rare  or 
novel  ones,  due  to  the  unavailability  and  imbalance  of  data.  Furthermore,  there  are  many 
attacks that have not yet been discovered and analysed, and they continue to evolve every 
day. In this thesis, the NSL-KDD dataset, one of the most popular benchmark datasets available, 
is analysed and used in five common supervised learning classification algorithms. Despite the 
simplicity of the models, they show a good performance that is almost on par with state-of-
the-art deep learning and unsupervised models, thus providing us with a coherent review of 
how machine learning is used for anomaly detection and where it can go from there. 

 

Περίληψη 

Mε την ραγδαία ανάπτυξη των δικτύων και των υπηρεσιών μέσω Διαδικτύου, η ασφάλεια έχει 
αποκτήσει μεγάλη ώθηση τα τελευταία χρόνια. Συνεπώς, τα Συστήματα Ανίχνευσης Εισβολών 
(ΣΑΕ)  πρέπει  να  προσαρμοστούν  στην  αυξημένη  ανάγκη  για  μια  επαρκή  πρώτη  γραμμή 
άμυνας  του  δικτύου  ενάντια  στις  συνεχώς  εξελισσόμενες  απειλές.  Με  τη  χρήση  τεχνικών 
βαθιάς  και  μηχανικής  μάθησης,  τα  ΣΑΕ  έχουν  επικεντρωθεί  σε  λειτουργίες  ανίχνευσης 
ανωμαλιών,  όμως  υπάρχουν  ακόμα  προκλήσεις  στην  αναγνώριση  επιθέσεων,  ειδικά  όταν 
είναι  πιο  σπάνιες  ή  καινούριες,  λόγω  της  μη  διαθεσιμότητας  δεδομένων,  και  την  άνιση 
κατανομή  των  δεδομένων.  Επιπλέον,  υπάρχουν  πολλές  επιθέσεις  που  ακόμα  δεν  έχουν 
ανακαλυφθεί  και  αναλυθεί,  οι  οποίες  εξελίσσονται  καθημερινά.  Σε  αυτή  την  εργασία  το 
πακέτο δεδομένων NSL-KDD, ένα από τα πιο διαδεδομένα διαθέσιμα πακέτα, αναλύεται και 
έπειτα  χρησιμοποιείται  για  την  αξιολόγηση  πέντε  μοντέλων  ταξινόμησης  επιβλεπόμενης 
μηχανικής μάθησης. Παρόλη την απλότητα των μοντέλων, καταφέρνουν να φτάσουν σε καλή  
απόδοση,  συγκρίσιμη  με  state-of-the-art  μεθόδων  βαθιάς  και  μη  επιβλεπόμενης  μάθησης, 
προσφέροντας  έτσι  μια  συνοπτική  συγκεντρωτική  επισκόπηση  του  πώς  χρησιμοποιείται  η 
μηχανική  μάθηση  στην  ανίχνευση  ανωμαλιών,  και  πώς  μπορεί  να  εξελιχθεί  ακόμα 
περισσότερο.