Περιεχόμενα Άρθρου
Ο γίγαντας ασφάλειας Διαδικτύου Cloudflare ανακοίνωσε ότι έχασε το 55% όλων των αρχείων καταγραφής που προωθήθηκαν στους πελάτες σε διάστημα 3,5 ωρών λόγω ενός σφάλματος στην υπηρεσία συλλογής αρχείων καταγραφής στις 14 Νοεμβρίου 2024.
Το Cloudflare προσφέρει ένα εκτεταμένη υπηρεσία υλοτομίας σε πελάτες που τους επιτρέπει να παρακολουθούν την επισκεψιμότητα στον ιστότοπό τους και να φιλτράρουν αυτήν την επισκεψιμότητα με βάση ορισμένα κριτήρια.
Αυτά τα αρχεία καταγραφής επιτρέπουν στους πελάτες να αναλύουν την επισκεψιμότητα προς τους οικοδεσπότες τους για να παρακολουθούν και να διερευνούν συμβάντα ασφαλείας, αντιμετώπιση προβλημάτων, επιθέσεις DDoS, μοτίβα κυκλοφορίας ή για να πραγματοποιούν βελτιστοποιήσεις ιστότοπου.
Για πελάτες που επιθυμούν να αναλύσουν αυτά τα αρχεία καταγραφής χρησιμοποιώντας εξωτερικά εργαλεία, το Cloudflare προσφέρει μια υπηρεσία “logpush” που συλλέγει αρχεία καταγραφής από τα διάφορα τελικά σημεία του και τα ωθεί σε υπηρεσίες εξωτερικής αποθήκευσηςόπως Amazon S3, Elastic, Microsoft Azure, Splunk, Google Cloud Storage κ.λπ.
Αυτά τα αρχεία καταγραφής δημιουργούνται σε τεράστια κλίμακα, καθώς το Cloudflare επεξεργάζεται πάνω από 50 τρισεκατομμύρια αρχεία καταγραφής συμβάντων πελατών καθημερινά, από τα οποία περίπου 4,5 τρισεκατομμύρια αρχεία καταγραφής αποστέλλονται σε πελάτες.
Ένας καταρράκτης αστοχιών με ασφάλεια
Το Cloudflare λέει ότι ένα σφάλμα στην υπηρεσία logpush προκάλεσε την απώλεια αρχείων καταγραφής πελατών για 3,5 ώρες στις 14 Νοεμβρίου.
«Στις 14 Νοεμβρίου 2024, το Cloudflare αντιμετώπισε ένα περιστατικό που επηρέασε την πλειοψηφία των πελατών που χρησιμοποιούν Καταγραφή Cloudflare», εξηγεί το Cloudflare.
“Κατά τη διάρκεια των περίπου 3,5 ωρών που επηρεάστηκαν αυτές οι υπηρεσίες, περίπου το 55% των αρχείων καταγραφής που συνήθως στέλνουμε στους πελάτες δεν στάλθηκαν και χάθηκαν.”
Το περιστατικό προκλήθηκε από μια εσφαλμένη διαμόρφωση στο Logfwdr, ένα βασικό στοιχείο στον αγωγό καταγραφής του Cloudflare που είναι υπεύθυνος για την προώθηση αρχείων καταγραφής συμβάντων από το δίκτυο της εταιρείας σε συστήματα κατάντη.
Συγκεκριμένα, μια ενημέρωση διαμόρφωσης εισήγαγε ένα σφάλμα που εξέδωσε μια «κενή διαμόρφωση», λέγοντας λανθασμένα στο σύστημα ότι δεν υπήρχαν πελάτες των οποίων τα αρχεία καταγραφής είχαν ρυθμιστεί για προώθηση, και έτσι τα αρχεία καταγραφής απορρίφθηκαν.
Το Logfwdr έχει σχεδιαστεί με ένα failsafe που προκαθορίζει την προώθηση όλων των αρχείων καταγραφής σε περίπτωση “κενού” ή μη έγκυρων διαμορφώσεων για την αποφυγή απώλειας δεδομένων.
Ωστόσο, αυτό το ασφαλές σύστημα προκάλεσε μια τεράστια αύξηση στον όγκο των αρχείων καταγραφής που επεξεργάζονταν καθώς προσπαθούσε να προωθήσει αρχεία καταγραφής για όλους τους πελάτες.
Κατέκλυσε το Buftee, ένα κατανεμημένο σύστημα προσωρινής αποθήκευσης που κρατά αρχεία καταγραφής προσωρινά όταν τα κατάντη συστήματα δεν μπορούν να τα επεξεργαστούν σε πραγματικό χρόνο, το οποίο κλήθηκε να χειριστεί 40 φορές περισσότερα αρχεία καταγραφής από την προβλεπόμενη χωρητικότητά του.
Το Buftee διαθέτει το δικό του σύνολο διασφαλίσεων υπερφόρτωσης buffer, όπως ανώτατα όρια πόρων και στραγγαλισμό, αλλά αυτά απέτυχαν λόγω ακατάλληλης διαμόρφωσης και έλλειψης προηγούμενων δοκιμών.
Ως αποτέλεσμα, μέσα σε μόλις πέντε λεπτά από την εσφαλμένη διαμόρφωση στο Logfwdr, το Buftee τερματίστηκε και χρειάστηκε πλήρης επανεκκίνηση, καθυστερώντας περαιτέρω την ανάκτηση και με αποτέλεσμα την απώλεια ακόμη περισσότερων αρχείων καταγραφής.
Ισχυρότερα μέτρα
Ως απάντηση στο περιστατικό, η Cloudflare έχει εφαρμόσει διάφορα μέτρα για να αποτρέψει μελλοντικά περιστατικά.
Αυτό περιλαμβάνει την εισαγωγή ενός αποκλειστικού συστήματος ανίχνευσης λανθασμένης διαμόρφωσης και ειδοποίησης για να ειδοποιεί αμέσως τις ομάδες όταν εντοπίζονται ανωμαλίες στις διαμορφώσεις προώθησης αρχείων καταγραφής.
Επιπλέον, η Cloudflare λέει ότι έχει πλέον διαμορφώσει σωστά το Buftee ώστε να αποτρέπει τις αιχμές στους τόμους αρχείων καταγραφής από το να προκαλούν πλήρεις διακοπές λειτουργίας του συστήματος.
Τέλος, η εταιρεία σχεδιάζει να διεξάγει τακτικά δοκιμές υπερφόρτωσης προσομοιώνοντας απροσδόκητες αυξήσεις στους όγκους δεδομένων, διασφαλίζοντας ότι όλα τα βήματα των μηχανισμών ασφαλείας είναι αρκετά ισχυρά για να χειριστούν αυτά τα συμβάντα.
VIA: bleepingcomputer.com