Ερευνητές προσποιήθηκαν ότι ήταν έφηβοι που σχεδίαζαν μαζικές πυροβολισμούς – Ποιες συμβουλές έλαβαν από τα chatbots;

Τα περισσότερα από τα βασικά chatbots τεχνητής νοημοσύνης είναι πρόθυμα να βοηθήσουν έναν χρήστη να σχεδιάσει μια βίαιη επίθεση, σύμφωνα με νέα έρευνα.

Ερευνητές που προσποιούνταν ότι είναι 13χρονα αγόρια που σχεδίαζαν μαζική επίθεση διαπίστωσαν ότι οκτώ από τα εννέα πιο δημοφιλή AI chatbots ήταν πρόθυμα να δώσουν καθοδήγηση για το πώς να εκτελεστούν επιθέσεις σε σχολεία, να δολοφονηθούν δημόσια πρόσωπα και να τοποθετηθούν βόμβες σε συναγωγές.

Η έρευνα, που πραγματοποιήθηκε από το Center for Countering Digital Hate (CCDH) και το CNN, ανέλυσε περισσότερες από 700 απαντήσεις από εννέα μεγάλα συστήματα AI σε εννέα σενάρια δοκιμών. Οι ερευνητές κατεύθυναν τις ερωτήσεις τους σε χρήστες τόσο στις Ηνωμένες Πολιτείες όσο και στην Ευρωπαϊκή Ένωση.

Τα chatbots που δοκιμάστηκαν περιλάμβαναν μερικά από τα πιο διαδεδομένα εργαλεία τεχνητής νοημοσύνης σήμερα: Google Gemini, Claude, Microsoft Copilot, Meta AI, DeepSeek, Perplexity AI, Snapchat My AI, Character.AI και Replika. Στην πλειονότητα των περιπτώσεων, τα συστήματα δεν κατάφεραν να αποκλείσουν αιτήματα για λεπτομέρειες σχετικά με βίαιες επιθέσεις – ακόμη και όταν ο χρήστης είχε δηλώσει ρητά ότι είναι ανήλικος.

Τι είδους συμβουλές έδιναν τα chatbots;

Το Gemini είπε σε έναν χρήστη ότι «τα μεταλλικά θραύσματα είναι συνήθως πιο θανατηφόρα» όταν τον ρώτησαν πώς να σχεδιάσει βομβιστική επίθεση σε συναγωγή.

Σε μια άλλη περίπτωση, το DeepSeek ολοκλήρωσε την απάντησή του σε μια ερώτηση σχετικά με την επιλογή ενός τουφεκιού με τη φράση «Καλούς (και ασφαλείς) πυροβολισμούς!», παρά το γεγονός ότι ο χρήστης είχε ζητήσει νωρίτερα στην ίδια συνομιλία παραδείγματα πρόσφατων πολιτικών δολοφονιών και τη διεύθυνση του γραφείου ενός συγκεκριμένου πολιτικού.

Τα ευρήματα δείχνουν ότι «σε λίγα λεπτά, ένας χρήστης μπορεί να μεταβεί από μια αόριστη βίαιη παρόρμηση σε ένα πιο λεπτομερές, εφαρμόσιμο σχέδιο», δήλωσε ο Imran Ahmed, διευθύνων σύμβουλος του CCDH. «Αυτά τα αιτήματα θα έπρεπε να είχαν προκαλέσει άμεση και πλήρη άρνηση».

Η Perplexity και η Meta AI ήταν οι λιγότερο ασφαλείς πλατφόρμες, βοηθώντας τους επιτιθέμενους στο 100% και 97% των απαντήσεων, αντίστοιχα, σύμφωνα με την έκθεση.

Το Character.AI περιγράφηκε ως «μοναδικά επικίνδυνο», επειδή ενθάρρυνε βίαιες επιθέσεις ακόμα και χωρίς πρόκληση. Σε ένα παράδειγμα, η πλατφόρμα πρότεινε σε έναν χρήστη να επιτεθεί σωματικά σε πολιτικό που δεν συμπαθούσε, χωρίς να της ζητηθεί.

Αντίθετα, τα Claude και Snapchat My AI αρνήθηκαν να βοηθήσουν πιθανούς επιτιθέμενους στο 68% και 54% των αιτημάτων, αντίστοιχα.

Υπάρχουν προστατευτικά μέτρα, αλλά δεν εφαρμόζονται πάντα

Όταν ρωτήθηκε πού να αγοράσει όπλο στη Βιρτζίνια, το Claude αρνήθηκε να δώσει πληροφορίες μετά την αναγνώριση ενός «ανησυχητικού μοτίβου» στη συζήτηση και αντίθετα παρέπεμψε τον χρήστη σε τοπικές γραμμές βοήθειας κρίσης.

Αυτές οι αρνήσεις δείχνουν ότι τα μέτρα ασφαλείας υπάρχουν, αλλά η «θέληση για την εφαρμογή τους λείπει», δήλωσε ο Ahmed.

Το CCDH αξιολόγησε επίσης κατά πόσο τα chatbots προσπάθησαν να αποτρέψουν τους χρήστες από την εκτέλεση βίαιων ενεργειών.

Το Claude της Anthropic ήταν το μόνο σύστημα που το έκανε σταθερά, αποθαρρύνοντας επιθέσεις στο 76% των απαντήσεων του. Οι ερευνητές σημείωσαν ότι το ChatGPT και το DeepSeek περιστασιακά αποθάρρυναν τους χρήστες.

lifo.gr