Τα μεγάλα γλωσσικά μοντέλα απειλούν την ιδιωτικότητα στο Διαδίκτυο.

Η τεχνητή νοημοσύνη έχει κάνει πολύ πιο εύκολο για κακόβουλους χάκερ να εντοπίζουν την πραγματική ταυτότητα ανώνυμων λογαριασμών στα κοινωνικά δίκτυα προειδοποιεί μια νέα μελέτη.

Στα περισσότερα σενάρια δοκιμών τα μεγάλα γλωσσικά μοντέλα (LLMs), η τεχνολογία πίσω από πλατφόρμες όπως το ChatGPT, κατάφεραν να αντιστοιχίσουν ανώνυμους χρήστες του Διαδικτύου με τις πραγματικές τους ταυτότητες σε άλλες πλατφόρμες βασιζόμενα στις πληροφορίες που είχαν δημοσιεύσει.

Οι ερευνητές τεχνητής νοημοσύνης Σάιμον Λέρμεν και Ντάνιελ Παλέκα δήλωσαν ότι τα LLMs καθιστούν οικονομικά εφικτές πολύπλοκες επιθέσεις κατά της ιδιωτικότητας, αναγκάζοντας σε μια «θεμελιώδη επανεξέταση του τι μπορεί να θεωρείται ιδιωτικό στο Διαδίκτυο».

Στο πείραμα τους οι ερευνητές έδωσαν σε ένα σύστημα AI ανώνυμους λογαριασμούς και το άφησαν να συλλέξει όσες περισσότερες πληροφορίες μπορούσε. Έδωσαν ένα υποθετικό παράδειγμα ενός χρήστη που μιλούσε για τις δυσκολίες του στο σχολείο και για το ότι βγάζει βόλτα τον σκύλο του, τον Biscuit, στο «Dolores Park». Σε αυτή την υποθετική περίπτωση, η AI έψαξε αλλού στο Διαδίκτυο για αυτές τις λεπτομέρειες και ταύτισε τον λογαριασμό @anon_user42 με μια γνωστή ταυτότητα με υψηλό βαθμό βεβαιότητας.

Παρόλο που το παράδειγμα ήταν φανταστικό οι συγγραφείς της μελέτης επισήμαναν πιθανά σενάρια όπου κυβερνήσεις θα μπορούσαν να χρησιμοποιούν την AI για να παρακολουθούν αντιφρονούντες και ακτιβιστές που δημοσιεύουν ανώνυμα ή όπου χάκερ θα μπορούσαν να εξαπολύουν εξαιρετικά προσωποποιημένες απάτες.

Η παρακολούθηση μέσω τεχνητής νοημοσύνης είναι ένας ταχέως αναπτυσσόμενος τομέας που προκαλεί ανησυχία σε επιστήμονες υπολογιστών και ειδικούς στην ιδιωτικότητα. Χρησιμοποιεί LLMs για να συνθέτει πληροφορίες για ένα άτομο από το Διαδίκτυο κάτι που θα ήταν πρακτικά αδύνατο για τους περισσότερους ανθρώπους να κάνουν χειροκίνητα.

Πληροφορίες για απλούς πολίτες που είναι ήδη διαθέσιμες στο Διαδίκτυο μπορούν εύκολα να χρησιμοποιηθούν καταχρηστικά για απάτες δήλωσε ο Λέρμεν. Αυτό περιλαμβάνει και το spear-phishing, όπου ένας χάκερ προσποιείται έναν έμπιστο φίλο για να πείσει το θύμα να πατήσει έναν κακόβουλο σύνδεσμο στο email του.

Καθώς πλέον απαιτείται πολύ λιγότερη εξειδίκευση για τέτοιες επιθέσεις, οι χάκερ χρειάζονται μόνο πρόσβαση σε δημόσια διαθέσιμα μοντέλα γλώσσας και σύνδεση στο Διαδίκτυο.

Οι ανησυχίες

Ο καθηγητής πληροφορικής Πίτερ Μπέντλει από το University College London δήλωσε ότι υπάρχουν ανησυχίες για εμπορικές χρήσεις της τεχνολογίας «αν και όταν εμφανιστούν προϊόντα που θα αποκαλύπτουν την ταυτότητα ανώνυμων χρηστών». Ένα πρόβλημα είναι ότι τα LLMs συχνά κάνουν λάθη στη σύνδεση λογαριασμών. «Οι άνθρωποι θα κατηγορούνται για πράγματα που δεν έχουν κάνει» προειδοποίησε ο Μπέντλει.

Μια άλλη ανησυχία, που ανέφερε ο καθηγητής κυβερνοασφάλειας Μαρκ Χουάρεζ από το Πανεπιστήμιο του Εδιμβούργου, είναι ότι τα LLMs μπορούν να χρησιμοποιούν δημόσια δεδομένα πέρα από τα κοινωνικά δίκτυα: αρχεία νοσοκομείων, δεδομένα εισαγωγών ή άλλες στατιστικές δημοσιεύσεις μπορεί να μην πληρούν πλέον τα υψηλά πρότυπα ανωνυμοποίησης που απαιτούνται στην εποχή της AI. «Είναι αρκετά ανησυχητικό. Νομίζω ότι αυτή η μελέτη δείχνει ότι πρέπει να επανεξετάσουμε τις πρακτικές μας» λέει ο Χουάρεζ.

Τα δεδομένα

Η τεχνητή νοημοσύνη όμως δεν είναι ένα «μαγικό όπλο» ενάντια στην ανωνυμία στο Διαδίκτυο. Παρότι τα LLMs μπορούν να αποκαλύψουν ταυτότητες σε πολλές περιπτώσεις μερικές φορές δεν υπάρχουν αρκετές πληροφορίες για ασφαλή συμπεράσματα. Σε πολλές περιπτώσεις ο αριθμός των πιθανών ταυτοποιήσεων είναι πολύ μεγάλος για να περιοριστεί.

«Μπορούν να συνδέσουν λογαριασμούς μόνο όταν κάποιος μοιράζεται σταθερά τα ίδια κομμάτια πληροφοριών σε διαφορετικές πλατφόρμες» δήλωσε η καθηγήτρια Μάρτι Χιρστ στο Πανεπιστήμιο της Καλιφόρνια Μπέρκλι. Παρόλο που η τεχνολογία δεν είναι τέλεια, οι επιστήμονες ζητούν πλέον από οργανισμούς και ιδιώτες να επανεξετάσουν τον τρόπο με τον οποίο ανωνυμοποιούν δεδομένα στην εποχή της τεχνητής νοημοσύνης.

Ο Λέρμεν προτείνει ως πρώτο βήμα οι πλατφόρμες να περιορίσουν την πρόσβαση στα δεδομένα επιβολή ορίων στη λήψη δεδομένων χρηστών, στον εντοπισμό αυτοματοποιημένης συλλογής δεδομένων (scraping) και στον περιορισμό μαζικών εξαγωγών δεδομένων. Τόνισε επίσης ότι και οι ίδιοι οι χρήστες μπορούν να λάβουν περισσότερες προφυλάξεις σχετικά με τις πληροφορίες που μοιράζονται στο Διαδίκτυο.

naftemporiki.gr