3
Abstract
With the rapid development of networks and Internet services, network security has gained
increased momentum in the past few years. Consequently, Intrusion Detection Systems (IDS)
must adapt to the increased need for a sufficient first line of defence against the ever-evolving
threats landscape. By utilizing deep and machine learning techniques, IDSs have been focusing
on anomaly detection, but there are still challenges in detecting attacks, especially rare or
novel ones, due to the unavailability and imbalance of data. Furthermore, there are many
attacks that have not yet been discovered and analysed, and they continue to evolve every
day. In this thesis, the NSL-KDD dataset, one of the most popular benchmark datasets available,
is analysed and used in five common supervised learning classification algorithms. Despite the
simplicity of the models, they show a good performance that is almost on par with state-of-
the-art deep learning and unsupervised models, thus providing us with a coherent review of
how machine learning is used for anomaly detection and where it can go from there.
Περίληψη
Mε την ραγδαία ανάπτυξη των δικτύων και των υπηρεσιών μέσω Διαδικτύου, η ασφάλεια έχει
αποκτήσει μεγάλη ώθηση τα τελευταία χρόνια. Συνεπώς, τα Συστήματα Ανίχνευσης Εισβολών
(ΣΑΕ) πρέπει να προσαρμοστούν στην αυξημένη ανάγκη για μια επαρκή πρώτη γραμμή
άμυνας του δικτύου ενάντια στις συνεχώς εξελισσόμενες απειλές. Με τη χρήση τεχνικών
βαθιάς και μηχανικής μάθησης, τα ΣΑΕ έχουν επικεντρωθεί σε λειτουργίες ανίχνευσης
ανωμαλιών, όμως υπάρχουν ακόμα προκλήσεις στην αναγνώριση επιθέσεων, ειδικά όταν
είναι πιο σπάνιες ή καινούριες, λόγω της μη διαθεσιμότητας δεδομένων, και την άνιση
κατανομή των δεδομένων. Επιπλέον, υπάρχουν πολλές επιθέσεις που ακόμα δεν έχουν
ανακαλυφθεί και αναλυθεί, οι οποίες εξελίσσονται καθημερινά. Σε αυτή την εργασία το
πακέτο δεδομένων NSL-KDD, ένα από τα πιο διαδεδομένα διαθέσιμα πακέτα, αναλύεται και
έπειτα χρησιμοποιείται για την αξιολόγηση πέντε μοντέλων ταξινόμησης επιβλεπόμενης
μηχανικής μάθησης. Παρόλη την απλότητα των μοντέλων, καταφέρνουν να φτάσουν σε καλή
απόδοση, συγκρίσιμη με state-of-the-art μεθόδων βαθιάς και μη επιβλεπόμενης μάθησης,
προσφέροντας έτσι μια συνοπτική συγκεντρωτική επισκόπηση του πώς χρησιμοποιείται η
μηχανική μάθηση στην ανίχνευση ανωμαλιών, και πώς μπορεί να εξελιχθεί ακόμα
περισσότερο.