background image

 

Εκτεταμένη περίληψη 

Οι  περισσότερες  διαδικασίες  και  υπηρεσίες  σήμερα  γίνονται  μέσω  του  Διαδικτύου.  Η 
δικτύωση έχει αναπτυχθεί πολύ τα τελευταία χρόνια, και θα συνεχίσει να εξελίσσεται, χάρη 
στην  ευρεία  εφαρμογή  του  5G  δικτύου  και  την  έρευνα  που  ήδη  γίνεται  στο  6G.  Λόγω  του 
σημαντικού  ρόλου  που  παίζουν  τα  δίκτυα  και  το  διαδίκτυο  στην  κοινωνία  μας,  η 
κυβερνοασφάλεια  έχει  γίνει  ζωτικής  σημασίας  για  την  προστασία  των  δεδομένων  και  των 
συσκευών μας. Τα Συστήματα Ανίχνευσης Εισβολών (ΣΑΕ) αποτελούν σημαντικό κομμάτι τόσο 
της ασφάλειας, όσο και της ίδιας της δομής του δικτύου, καθώς μπορούν να ανιχνεύσουν και 
να αποτρέψουν κακόβουλα προγράμματα και χρήστες από το να παραβιάσουν το δίκτυο, και 
να σταματήσουν διάφορα είδη επιθέσεων προτού αποδειχθούν επικίνδυνες. Με τη ραγδαία 
εξέλιξη της μηχανικής μάθησης και της τεχνητής νοημοσύνης, η δομή των ΣΑΕ αλλάζει από 
τεχνικές  βασισμένες  σε  «υπογραφές»,  δηλαδή  που  αναγνωρίζουν  συγκεκριμένα  μοτίβα 
γνωστών  επιθέσεων,  σε  πιο  αφηρημένες/γενικευμένες  μορφές  λειτουργίας  βασισμένης  σε 
αναγνώριση ανωμαλιών, οι οποίες ταξινομούν την κίνηση ως φυσιολογική ή επικίνδυνη. 

Οι  ανωμαλίες  ενός  δικτύου  μπορεί  να  προέρχονται  από  κακόβουλες  δραστηριότητες  που 
εκμεταλλεύονται  υπηρεσίες  δικτύου,  υπερφόρτωση  από  δεδομένα,  δυσλειτουργικές 
συσκευές και υπονόμευση διαφόρων παραμέτρων του δικτύου [1], και μπορεί να σχετίζονται 
είτε  με  τις  επιδόσεις  του  (π.χ.  υπερχείλιση  δεδομένων  λόγω  κάποιας  υπολειτουργικής 
μονάδας του δικτύου) είτε με την ασφάλεια (π.χ. εκ προθέσεως υπερχείλιση του δικτύου ώστε 
οι  χρήστες  να  μην  έχουν  πρόσβαση  στις  υπηρεσίες).  Τα  ΣΑΕ  μπορούν  να  ανιχνεύσουν 
οποιαδήποτε απόκλιση από την φυσιολογική συμπεριφορά, για αυτό είναι καλύτερα από τα 
κλασσικά συστήματα υπογραφών στο να ανιχνεύουν καινούριες ή άγνωστες επιθέσεις, αυτό 
όμως έρχεται με το κόστος ότι δίνουν περισσότερες λανθάνουσες ειδοποιήσεις. 

Το  NSL-KDD  πακέτο  δεδομένων  είναι  ένα  από  τα  πιο  συχνά  χρησιμοποιούμενα  πακέτα 
δεδομένων δικτύου, από όταν δημιουργήθηκε το 2009 [2][3][4]. Συνεχίζει μέχρι σήμερα να 
χρησιμοποιείται στην έρευνα σαν benchmark για μοντέλα ανίχνευσης ανωμαλιών στα δίκτυα, 
όπως στα παραπάνω άρθρα. Για αυτό, επρόκειτο για ένα εξαιρετικό πακέτο δεδομένων για τη 
σύγκριση των διαφόρων μοντέλων που δοκιμάστηκαν σε αυτήν την εργασία, για μια αξιόπιστη 
πηγή διαφόρων ειδών επιθέσεων και επιπέδων δυσκολίας ανίχνευσης, τόσο στο πακέτο της 
εκπαίδευσης όσο και του ελέγχου των μοντέλων. Επιπρόσθετα, οι διαφορές μεταξύ των δύο 
αυτών  πακέτων  παρείχαν  μια  πιο  ρεαλιστική  εικόνα  της  δυνατότητας  των  μοντέλων  να 
ταξινομήσουν σωστά την κίνηση του δικτύου. 

Σε αυτή την εργασία, σκοπός είναι να χρησιμοποιηθεί το NSL-KDD για τη σύγκριση πέντε από 
τις  πιο  διαδεδομένες  μεθόδους  μηχανικής  μάθησης  σε  εφαρμογές  ταξινόμησης,  οι  οποίες 
είναι:  logistic  regression,  k  nearest  neighbours,  decision  tree,  Gaussian  Naive  Bayes  και 
multilayer perceptron. Έτσι, στην ενότητα 2 βρίσκεται μια συνοπτική εισαγωγή στη μηχανική 
μάθηση  για  ανίχνευση  ανωμαλιών,  όπως  και  συναφής  έρευνα  που  γίνεται  τα  τελευταία 
χρόνια. Επίσης, αναφέρονται τα προτερήματα του NSL-KDD. Η ενότητα 3 παρέχει πληροφορίες 
για τους πέντε αλγορίθμους που χρησιμοποιήθηκαν στην εργασία. Στην ενότητα 4, μετά τη 
δημιουργία  τριών  εκφάνσεων  του  πακέτου  δεδομένων,  έτσι  ώστε  να  συγκριθούν  τα