Η «μαύρη αγορά» της μηχανικής μάθησης

Η τεχνητή νοημοσύνη υπόσχεται τον εκδημοκρατισμό της γνώσης. Το οικοδόμημά της, όμως, στηρίζεται σε βιβλιοθήκες χωρίς άδεια, εικόνες δίχως αναφορά και φωνές που δεν επέλεξαν να μιλήσουν. Στο βάθος, η μηχανή δεν μαθαίνει απλώς να μιλά. Μαθαίνει να αποσιωπά τους δημιουργούς

ΞΕΚΙΝΑ όπως πλείστες όσες ψηφιακές παρανομίες· με ένα torrent. Κάπου μέσα σε ένα σύμπλεγμα διακομιστών της Meta στο Menlo Park, ένας μηχανικός πληκτρολογεί ένα αίτημα. Λίγα δευτερόλεπτα αργότερα, ένας συμπιεσμένος φάκελος –πολλά terabytes πειρατικών βιβλίων από τη Library Genesis– εμφανίζεται στα logs.

Ολόκληρες βιβλιοθήκες εισέρχονται στο σύστημα: φιλοσοφία, βιολογία, σύγχρονη μυθοπλασία, σπάνια ακαδημαϊκά περιοδικά, πραγματείες για τη γλώσσα. Τα πάντα: από τη Βιρτζίνια Γουλφ μέχρι την ιολογία και από τον Ζακ Ντεριντά ώς τις σπάνιες γαίες. Τα πάντα με δυνατότητα download· όλα κατ’ ουσίαν παράνομα. Δίχως κανένα ηθικό ερώτημα· ένα ηθικό κόμπιασμα έστω.

Αργότερα, ο μηχανικός περνάει στο επόμενο στάδιο, την ενσωμάτωση. Μέσα σε λίγες εβδομάδες, οι κλεμμένες λέξεις θα μετατραπούν σε νευρώνες, βελτιστοποιημένους για να προβλέψουν την επόμενη πρόταση του μεγάλου γλωσσικού μοντέλου (LLM). Σε λίγους μήνες, η Meta θα παρουσιάσει το LLaMA 3, ένα υπερσύγχρονο μοντέλο τεχνητής νοημοσύνης που «εκδημοκρατίζει την τεχνητή νοημοσύνη και ενθαρρύνει τη δημιουργικότητα της βιομηχανίας». Αυτό που δεν θα αναφερθεί στα δελτία Τύπου είναι ότι χιλιάδες από τα βιβλία που το έμαθαν να μιλάει δεν έπρεπε, κατά τεκμήριο, να λειτουργήσουν ως «εκπαιδευτές» του μοντέλου.

Αυτό, ασφαλώς, δεν είναι ένα μεμονωμένο περιστατικό. Δεν είναι ένα ατύχημα. Είναι το θεμέλιο όλων· τα ερείσματα της «εξόρυξης» της πνευματικής ιδιοκτησίας.

Τα τελευταία πέντε χρόνια, σχεδόν κάθε σημαντική ανακάλυψη στην παραγωγική τεχνητή νοημοσύνη –από τη σύνθεση εικόνων έως τα LLM– έχει οικοδομηθεί πάνω σε τεράστιους, ανεξέλεγκτους όγκους δεδομένων που έχουν αποσπαστεί από το διαδίκτυο χωρίς τη συγκατάθεση ουδενός.

Ολόκληρες καριέρες, κουλτούρες και κληρονομιές έχουν διοχετευθεί αθόρυβα σε «αγωγούς» εκμάθησης των μηχανών της ΑΙ. Δημόσια, τα στελέχη της βιομηχανίας μιλούν για ευθυγράμμιση με τη ζήτηση της εποχής, η κλιμάκωση της οποίας λαμβάνει χώρα δίκαια και υπεύθυνα. Ιδιωτικά, τα μοντέλα τους εκπαιδεύονται στην «εξόρυξη».

Η κλοπή, όπως αποδεικνύεται, κλιμακώνεται υπέροχα.

MIA ΥΠΟΓΕΙΑ ΒΙΒΛΙΟΘΗΚΗ

Πριν γίνει επανάσταση, η τεχνητή νοημοσύνη ήταν ένας αρχειοθέτης με αποικιοκρατική λογική. Δεν οικοδομήθηκε μόνο με GPUs ή αλγορίθμους, αλλά με μια κρυφή, φρενήρη επιθυμία να απορροφήσει τον ανθρώπινο πολιτισμό. Να τον συλλέξει, να τον απογυμνώσει από τα συμφραζόμενά του και να τον μετατρέψει σε καύσιμο πρόβλεψης της επόμενης πρότασης του μοντέλου.

Πολύ πριν το ChatGPT μπει στις αίθουσες διδασκαλίας και στα emails, τα καλεντάρια και τα excel, προτού το LLaMA 2 καταστήσει τη Meta αξιοσέβαστη στους κύκλους της τεχνητής νοημοσύνης, το πιο κρίσιμο βήμα δεν ήταν αρχιτεκτονικό ή αλγοριθμικό· ήταν… αρχειακό. Αυτό που χρειάζονταν τα πιο ισχυρά μοντέλα, περισσότερο ακόμα από τις μονάδες επεξεργασίας γραφικών (GPU), ήταν η πρώτη ύλη: δισεκατομμύρια λέξεις, εικόνες, ήχοι, προτάσεις. Οχι από το μηδέν. Από εμάς.

Τις πρώτες ημέρες της επανάστασης στην ΑΙ, οι ερευνητές αντλούσαν δεδομένα από κάθε πρόσφορη πηγή: Reddit, Wikipedia, ιστολόγια. Καθώς όμως η λαχτάρα για δεδομένα και πωλήσεις έφτανε σε δυσθεώρητα ύψη –ειδικά για μοντέλα που είχαν σκοπό να μιμηθούν λογοτεχνικές αποχρώσεις, κειμενικούς ρυθμούς και συναισθηματικούς αντικατοπτρισμούς– είχαν ανάγκη από κάτι περισσότερο από αναρτήσεις σε φόρουμ. Χρειάζονταν βιβλία· χρειάζονταν τέχνη· χρειάζονταν τα πλήρως διαμορφωμένα προϊόντα της ανθρώπινης δημιουργίας.

Η LibGen ήταν ένα ανοιχτόκαρδο και μεγάθυμο χρυσωρυχείο. Ένα ανεξέλεγκτο εκπαιδευτικό υπέδαφος.

Τότε ήταν που στράφηκαν σε αυτό που θα μπορούσε να ονομαστεί «μαύρη αγορά της εκπαίδευσης» των μηχανών της ΑΙ. Η LibGen ήταν ένα ανοιχτόκαρδο και μεγάθυμο χρυσωρυχείο. Ενα ανεξέλεγκτο εκπαιδευτικό υπέδαφος. Μια υπόγεια βιβλιοθήκη μηχανικής μάθησης.

Το Library Genesis, ή LibGen, κινείτο πάντοτε σε μια γκρίζα ζώνη. Αποτελούσε, αφενός, ένα αχανές corpus παράνομων αρχείων και, αφετέρου, εκπαιδευτική σανίδα σωτηρίας. Για χρόνια, εξυπηρετούσε ερευνητές και φοιτητές που είχαν αποκλειστεί από τα paywalls των ακαδημαϊκών εκδόσεων, προσφέροντας πειρατικά PDFs επιστημονικών εργασιών, εγχειριδίων και πάσης φύσεως βιβλίων. Εντούτοις, η σιωπηλή και άναρχη αφθονία του το μετέτρεπε, μέσα σ’ όλα, σε μιαν εύκολη διέξοδο για τους ερευνητές που ήθελαν να κόψουν δρόμο στην ατέρμονα βιβλιογραφία.

Σύμφωνα με ρεπορτάζ του Atlantic, η Meta –και μαζί BloombergGPT του Bloomberg και το GPT-J της EleutherAI– χρησιμοποίησε ένα σύνολο δεδομένων γνωστό ως «Books3», το οποίο περιέχει δεκάδες χιλιάδες τίτλους που έχουν αντληθεί από το LibGen και το Z-Library. Η εταιρεία, όταν ρωτήθηκε, δεν το αρνήθηκε. Το σκεπτικό της; Τα δεδομένα ήταν διαθέσιμα στο διαδίκτυο. Κοντολογίς, απλώς χρησιμοποιούσαν αυτό που ήδη υπήρχε.

Τι ακριβώς υπήρχε όμως;

ΠΕΡΙ ΕΚΜΕΤΑΛΛΕΥΣΗΣ

Στο corpus του Books3 περιλαμβάνονται έργα των Τζορτζ Σόντερς, του Στέφεν Κινγκ, του Ζακ Ντεριντά – για να αναφερθούμε σε ελάχιστους δημιουργούς διεθνούς και διαχρονικού βεληνεκούς. Ολα αυτά, μαζί με κείμενα από πανεπιστημιακές και άλλες εκδόσεις, μεταφρασμένα έργα, τόμους θεωρίας, ρομαντικά μυθιστορήματα και μυθιστορήματα για παιδιά. Ορισμένα εξ αυτών φαίνεται να έχουν σκαναριστεί από φυσικά βιβλία. Πολλά από αυτά δεν προορίζονταν ποτέ να… επανασυσκευαστούν ως συνθετικό καύσιμο πρόβλεψης της επόμενης πρότασης ενός μοντέλου ΑΙ.

Οι Ελληνες της… LibGen

Σύμφωνα με ρεπορτάζ του Μανώλη Ανδριωτάκη στην κυριακάτικη «Κ» («Η μεγάλη κλοπή των βιβλίων», 30/3/2025), «εντοπίσαμε δεκάδες βιβλία Ελλήνων συγγραφέων, από το σύνολο σχεδόν της βιβλιογραφίας του Νίκου Καζαντζάκη ως τις συλλογές της Κικής Δημουλά, μεταφρασμένα βιβλία του Γιώργου Σεφέρη, αλλά και συγγραφέων όπως του Πέτρου Μάρκαρη, της Ζυράννας Ζατέλη, της Ερσης Σωτηροπούλου. Η LibGen ξεκίνησε, υποτίθεται, για να υπηρετεί φοιτητές χωρών του Τρίτου Κόσμου που δεν έχουν πρόσβαση σε πανεπιστημιακές βάσεις δεδομένων, κι εξελίχθηκε σ’ έναν πειρατικό χώρο διακίνησης έργων που προστατεύονται από πνευματικά δικαιώματα. Μέσα σε αυτήν μπορεί πραγματικά κάποιος να βρει τα πάντα. Όπως, για παράδειγμα, το ευπώλητο βιβλίο του Πέτρου Τατσόπουλου “Η καλοσύνη των ξένων”».

Σε κάθε περίπτωση, έτσι δεν λειτουργεί η συγκατάθεση· έτσι λειτουργεί η εκμετάλλευση.

Τζόζεφ Σαβέρι, δικηγόρος

«Καταθέσαμε ομαδική αγωγή κατά της OpenAI αμφισβητώντας τα μεγάλα γλωσσικά μοντέλα [της], τα οποία αναμειγνύουν τα έργα που προστατεύονται από πνευματικά δικαιώματα χιλιάδων συγγραφέων –και πολλών άλλων– χωρίς συγκατάθεση, αποζημίωση ή αναγνώριση.

Και η saga συνεχίζεται. Τον Ιούλιο του 2023, η stand-up comedian και συγγραφέας Σάρα Σίλβερμαν προσχώρησε σε μιαν ομαδική αγωγή κατά της OpenAI και της Meta, ισχυριζόμενη παραβίαση πνευματικών δικαιωμάτων. Η αγωγή περιελάμβανε στοιχεία που έδειχναν ότι η Meta εκπαίδευσε τα μοντέλα της σε τεράστιες ποσότητες πειρατικών βιβλίων. Σύμφωνα με την υπεράσπιση, «το υλικό τους που προστατεύεται από κατοχυρωμένα πνευματικά δικαιώματα αντιγράφηκε και εισήχθη ως μέρος της εκπαίδευσης των μοντέλων. Πολλά από τα βιβλία των εναγόντων εμφανίζονται στο σύνολο δεδομένων που η Meta παραδέχτηκε ότι χρησιμοποίησε».

Ορισμένοι συγγραφείς ανακάλυψαν πολύ πρόσφατα ότι το έργο τους χρησιμοποιήθηκε στην εκπαίδευση της ΑΙ – συνήθως όχι μέσω της αποκάλυψης, αλλά μέσω της νομικής έρευνας.

Παράνομο corpus εκμάθησης και στις εικόνες

Η λογική της μαύρης αγοράς για την εκπαίδευση της τεχνητής νοημοσύνης δεν περιορίζεται στη λογοτεχνία. Εκτείνεται σε όλες τις μορφές τέχνης. Oταν η Stability AI κυκλοφόρησε το Stable Diffusion το 2022, η εταιρεία ανακοίνωσε ότι το μοντέλο δημιουργίας εικόνων που είχε λανσάρει είχε εκπαιδευτεί με αδειοδοτημένο ή ελεύθερο στο διαδίκτυο υλικό. Σε άλλο σημείο, ωστόσο, είχε αναφέρει ότι είχε εκπαιδευτεί, μεταξύ άλλων, με τη βάση δεδομένων LAION, η οποία είναι αντιμέτωπη με τη Δικαιοσύνη.

Το σύνολο δεδομένων εικόνων LAION-5B –που χρησιμοποιήθηκε για την εκπαίδευση του Stable Diffusion, του Imagen της Google και πιθανώς άλλων μοντέλων– καταρτίστηκε με το σάρωμα του διαδικτύου. Οι καλλιτέχνες ανακάλυψαν γρήγορα ότι η ΑΙ μπορούσε να αναπαραγάγει το οπτικό τους στυλ με ανατριχιαστική πιστότητα. Ουδείς καλλιτέχνης ενημερώθηκε. Ουδείς αποζημιώθηκε. Οι curators των δεδομένων απλώς αναζήτησαν και ταξινόμησαν δισεκατομμύρια εικόνες. Αν μια εικόνα συνοδευόταν από αρκετό κείμενο, την επέλεγαν – τους εξυπηρετούσε πολυεπίπεδα. Το μοντέλο, όπως και η αγορά, απλώς έκανε αυτό που ήταν να κάνει.

Ούτε καν ο κόσμος της φαντασίας και της τέχνης των άνιμε δεν γλίτωσε· ένας κόσμος που διέπεται από κάποια… πρωτόκολλα. Το NovelAI, ένα εργαλείο για δημιουργία εικόνων και ιστοριών, άντλησε υλικό από το Danbooru, μια τεράστια βάση δεδομένων με εικόνες άνιμε που έχει επιμεληθεί η κοινότητα των φανατικών οπαδών και των δημιουργών. Αν και δημόσια, η ηθική του ιστοτόπου βασιζόταν στον αμοιβαίο σεβασμό και στον κοινό δημιουργικό χώρο. Ο χώρος αυτός… εξορύχθηκε –σαν αποικία– από ένα μοντέλο που εκπαιδεύτηκε να παράγει άπειρες συνθέσεις εικόνων.

Στη Meta του Μαρκ Ζούκερμπεργκ, πάντως, τα πράγματα περιεπλάκησαν έτι περαιτέρω στη μάχη κατά της OpenAI, την οποία ένιωθαν ότι τους είχε μακράν ξεπεράσει στον αγώνα της τεχνητής νοημοσύνης. Τουλάχιστον δύο υπάλληλοι εξέφρασαν ανησυχίες σχετικά με τη χρήση πνευματικής ιδιοκτησίας και τη μη δίκαιη ή καθόλου πληρωμή συγγραφέων και άλλων καλλιτεχνών. Ενας εργαζόμενος αφηγήθηκε μιαν άλλη συζήτηση με ανώτερα στελέχη σχετικά με δεδομένα που προστατεύονται από πνευματικά δικαιώματα, δηλώνοντας ότι κανείς στη συνάντηση αυτή δεν εξέτασε την ηθική της χρήσης των έργων των δημιουργών, όπως είχαν αποκαλύψει οι New York Times.

Βέβαια, το δημόσια διαθέσιμο δεν είναι το ίδιο με το δεοντολογικά αποκτημένο. Αλλωστε, η δημιουργικότητα κατέστη dataset. Η φωνή, prompt. Και το δικαίωμα, εξαίρεση.

Η δημιουργικότητα κατέστη dataset. Η φωνή, prompt. Και το δικαίωμα, εξαίρεση.

Νομικά, η πράξη αυτή δεν είναι ουδέτερη. Η εκπαίδευση της παραγωγικής ΑΙ, όπως προκύπτει από την κουβέντα που είχαμε με την Αννα Δεσποτίδου, επίκ. καθηγήτρια Δικαίου Πνευματικής Ιδιοκτησίας στη Νομική Σχολή του ΑΠΘ, προϋποθέτει την αναπαραγωγή –έστω και προσωρινή ή μερική– τεράστιου όγκου προστατευόμενων έργων, χωρίς άδεια και αμοιβή των δημιουργών, πράγμα που συνιστά ευθεία προσβολή της αντίστοιχης περιουσιακής εξουσίας των τελευταίων επί των κατ’ ιδίαν έργων τους. Πρόκειται, δηλαδή, για «χρήση» προστατευόμενων (από το δίκαιο της πνευματικής ιδιοκτησίας) έργων, η οποία συνιστά «αναπαραγωγή» με τη νομική έννοια του όρου· και όχι απλώς για ουδέτερη επεξεργασία πληροφοριών. 

Τι συμβαίνει στην Ε.Ε.

Στην Ε.Ε., οι εταιρείες ΑΙ επιχειρούν ματαίως να «κρυφτούν» πίσω από τη γενική εξαίρεση της εξόρυξης κειμένων και δεδομένων (text and data mining) για εμπορικούς σκοπούς. Οπως εξηγεί η Αννα Δεσποτίδου, όμως, «πρόκειται για ρύθμιση η οποία, κατά την ορθότερη άποψη, επιτρέπει μόνο την αναπαραγωγή έργων και άλλων αντικειμένων προστασίας μόνον προς τον σκοπό της αναζήτησης/εξόρυξης πληροφοριών, με στόχο τη δημιουργία νέων πληροφοριών και γνώσεων· και όχι για την εκπαίδευση εργαλείων και, ειδικότερα, συστημάτων παραγωγικής ΑΙ, που αποσκοπεί στη δημιουργία/παραγωγή έργων παρόμοιων (απομιμητικών). Εξάλλου, και αν ακόμη αυτό γινόταν δεκτό, δεν πρέπει να λησμονείται ότι οι δημιουργοί έχουν –σε κάθε περίπτωση– το δικαίωμα να εναντιωθούν (opt out) με μηχαναγνώσιμα μέσα στη χρήση/αναπαραγωγή των έργων τους προς τον σκοπό της εξόρυξης κειμένων και δεδομένων».

Η ΝΕΑ ΑΠΟΙΚΙΟΚΡΑΤΙΑ ΤΩΝ ΔΕΔΟΜΕΝΩΝ

Η Κέιτ Κρόφορντ, συγγραφέας του «Atlas of AI», πηγαίνει ένα βήμα παραπέρα. Περιγράφει την τρέχουσα φάση της ανάπτυξης της ΑΙ ως μια μορφή «εξόρυξης δεδομένων», μια μορφή που αντανακλά τη λογική της εξόρυξης και του αποικισμού.

Βέβαια, το δημόσια διαθέσιμο δεν είναι το ίδιο με το δεοντολογικά αποκτημένο. Άλλωστε, η δημιουργικότητα κατέστη dataset. Η φωνή, prompt. Και το δικαίωμα, εξαίρεση.

Η δημιουργικότητα κατέστη dataset. Η φωνή, prompt. Και το δικαίωμα, εξαίρεση.

Τι συμβαίνει στην Ε.Ε.

Η ΝΕΑ ΑΠΟΙΚΙΟΚΡΑΤΙΑ ΤΩΝ ΔΕΔΟΜΕΝΩΝ

Οπως οι αποικιοκρατικές αποστολές του 19ου αιώνα ξεκινούσαν με χάρτες και ονόματα, έτσι και οι πρώτες μεγάλες αποστολές των LLMs ξεκίνησαν με αρχεία (λίστες, μεταδεδομένα, πειρατικά PDFs). Η εξόρυξη δεν ήταν παρά μια μορφή ταξινόμησης χωρίς συναίνεση. Οπως κάποτε αποσπούσαν παγανιστικά ξόανα από τους ναούς της Συρίας για να τα εκθέσουν σε μουσεία του Λονδίνου, έτσι και τώρα η τεχνητή νοημοσύνη αποσπά «φωνές» από αρχεία, ποιήματα, pixels και μεταφράσεις. Ο πολιτισμός είναι το εκθέμα. Το μοντέλο είναι η νέα βιτρίνα.

Τα στελέχη της βιομηχανίας της ΑΙ μιλούν για την… απόξεση του διαδικτύου με τον τρόπο που οι παλιοί εξερευνητές μιλούσαν για τη χαρτογράφηση των ηπείρων. Χρησιμοποιούν λέξεις όπως «συγκομιδή», «εξόρυξη», «εκμετάλλευση». Συγκρίνουν σύνολα δεδομένων με φλέβες μεταλλεύματος, με κοιτάσματα πετρελαίου, με ανεξερεύνητες περιοχές. Δεν προσπαθούν να κρύψουν τη σύγκριση. Ενδέχεται, μάλιστα, να υπερηφανεύονται.

Οπως κάποτε αποσπούσαν παγανιστικά ξόανα από τους ναούς της Συρίας για να τα εκθέσουν σε μουσεία του Λονδίνου, έτσι και τώρα η ΑΙ αποσπά «φωνές» από αρχεία, ποιήματα, pixels και μεταφράσεις. Ο πολιτισμός είναι το έκθεμα. Το μοντέλο είναι η νέα βιτρίνα.

Σε αυτή τη νέα αυτοκρατορία, τα δεδομένα είναι γη· η εργασία, αόρατη· η εξόρυξη, αυτοματοποιημένη. Και αυτή η λογική της ιδιοποίησης είναι πιο ορατή στην αθόρυβη κατασκευή των ίδιων των συνόλων δεδομένων.

Σε αυτόν τον κόσμο, όπου τα δεδομένα κατάρτισης αντιμετωπίζονται ως κοινή ιδιοκτησία και η συγγραφή γίνεται υποχρέωση, το ζήτημα της δικαιοσύνης δεν είναι μόνο νομικό. Είναι οντολογικό. Ποιος μπορεί να είναι δημιουργός στην εποχή της μηχανικής συγγραφής; Ποιος πληρώνεται; Ποιος χάνει την αξία του και ποιος αποκτά μια νέα; Ποιος, εντέλει, εξαφανίζεται και ποιος αναδύεται;

Για πολλές εταιρείες, η απάντηση φαίνεται να είναι: μην το ψάχνετε πολύ – κανείς δεν χρειάζεται να το ξέρει.

Τα πολιτιστικά αγαθά –τα βιβλία, οι εικόνες, οι φωνές και τα στυλ των άλλων– έχουν γίνει κάτι πολύ παλιό με νέα ενδυμασία: μια αποικία προς λεηλασία. Η εικόνα αυτή δεν είναι μεταφορική. Είναι δομική.

Για τους μελετητές όπως η Κέιτ Κρόφορντ, η τρέχουσα φάση της τεχνητής νοημοσύνης δεν είναι απλώς τεχνολογική, είναι αυτοκρατορική. Σε άρθρο της, είχε από νωρίς χαρτογραφήσει την υποδομή της μηχανικής μάθησης μέσα από τη γλώσσα της κατάκτησης.

Αυτή η κοσμοθεωρία δεν προέκυψε από το πουθενά. Οπως όλα δείχνουν, είναι απλώς η τελευταία στροφή ενός ιστορικού τόξου – ενός τόξου στο οποίο η γνώση, όπως και η γη, διεκδικείται εδώ και καιρό χωρίς συγκατάθεση.

Εξάλλου, κάποιοι μιλούν ήδη για… εξάντληση των δεδομένων του διαδικτύου. Με την υποψία η ΑΙ θα δημιουργεί διαρκώς νέα.

ΤΟ ΨΗΦΙΑΚΟ ΠΕΡΙΒΛΗΜΑ

Από τη στιγμή που ένα σύνολο δεδομένων καθίσται θεμέλιος λίθος –ήγουν, από τη στιγμή που χρησιμοποιείται για την εκπαίδευση ενός σημαντικού μοντέλου– υποχωρεί από την ορατότητα. Δεν είναι πλέον ένα σώμα συγκεκριμένης συνεισφοράς· είναι μια μάζα, ένα βασικό στρώμα ή ένα ουδέτερο υπόστρωμα. Κάτι πάνω στο οποίο μπορεί να οικοδομηθεί ένα τεράστιο γλωσσικό μοντέλο. Δεν έχει πλέον σημασία ποιος έγραψε τη γραμμή, ζωγράφισε την εικόνα, μετέφρασε το σονέτο. Σημασία έχει μόνον ότι το μοντέλο μπορεί να τα μιμηθεί.

Μια και μόνο εκπαίδευση της ΑΙ μπορεί να απορροφήσει περισσότερο κείμενο απ’ ό,τι οι περισσότεροι άνθρωποι θα διαβάσουν σε όλη τους τη ζωή. Η προέλευση αυτού του κειμένου συχνά αποκρύπτεται. Μια παράγραφος ενός Βραζιλιάνου μεταφραστή γίνεται σύμβολο εκμάθησης. Ενα πορτρέτο από έναν Ουκρανό εικονογράφο γίνεται διάνυσμα. Ενα ποίημα ενός έφηβου από τη Μαλαισία γίνεται αναφορά σε στυλ, που αποσπάται από το Tumblr και αναβιώνει εντός μιας… θολούρας των ορίων.

Για τις εμπλεκόμενες εταιρείες, αυτό είναι ένα τεχνικό θαύμα. Για όλους τους υπόλοιπους, είναι μια απαλλοτρίωση μεταμφιεσμένη σε πρόοδο.

«Σχεδόν κάθε κοινωνική ανάγκη καλύπτεται πλέον με την ευκαιρία “σύνδεσης” μέσω ψηφιακών μέσων. Αλλά αυτή η ευκολία δεν είναι δωρεάν. Αγοράζεται με τεράστιες ποσότητες προσωπικών δεδομένων που μεταφέρονται μέσω σκοτεινών παρασκηνιακών καναλιών σε εταιρείες που τα χρησιμοποιούν για να παράγουν κέρδος», γράφουν ο Νικ Κόουλντρι και ο Γιούλισες Μεχίας στο βιβλίο τους «The Costs of Connection».

Οι δύο συγγραφείς το ονομάζουν αυτό «αποικιοκρατία των δεδομένων». Υποστηρίζουν ότι οι υποδομές του ψηφιακού καπιταλισμού λειτουργούν με βάση τις ίδιες αρχές με την αυτοκρατορική κατάκτηση: ιδιοποίηση, αφαίρεση, αποσυμβολισμός, κέρδος. Μόνο που τώρα αυτό που καταλαμβάνεται δεν είναι το καουτσούκ, το βαμβάκι ή ο χρυσός, αλλά η ταυτότητα, η δημιουργικότητα, η γλώσσα, η σκέψη. «H αποικιοκρατική νοοτροπία μάς λέει ότι τα δεδομένα, όπως η φύση και η εργασία πριν από αυτά, είναι φθηνός πόρος. Λέγεται ότι τα δεδομένα υπάρχουν σε αφθονία, είναι εκεί για να τα πάρουμε και δεν έχουν πραγματικό ιδιοκτήτη. Προκειμένου να υποστούν επεξεργασία, αυτό πρέπει να συμβεί με προηγμένες τεχνολογίες, όπως ακριβώς και οι προηγούμενοι αποικιακοί πόροι».

Το γεγονός ότι τα περισσότερα από αυτά συμβαίνουν κάτω από τη σημαία των «ανοικτών δεδομένων» επιτείνει την ειρωνεία. Στον κόσμο της τεχνητής νοημοσύνης, το «ανοικτό» είναι συχνά ευφημισμός για το ανεξέλεγκτο, το απροστάτευτο και το μη αμειβόμενο. Μια πολιτισμική ζώνη αδύναμων αμυντικών μηχανισμών. Ένας τόπος από τον οποίο μπορεί κανείς απλώς να πάρει, να εξορύξει, να εξαγάγει.

Η λέξη που χρησιμοποιεί συχνότερα η βιομηχανία της ΑΙ για να περιγράψει την αποστολή της δεν είναι το κέρδος, αλλά ο εκδημοκρατισμός.

Παρ’ όλα αυτά, η ρητορική παραμένει καλοπροαίρετη. Η λέξη που χρησιμοποιεί συχνότερα η βιομηχανία της ΑΙ για να περιγράψει την αποστολή της δεν είναι το κέρδος, αλλά ο εκδημοκρατισμός. Εντούτοις, υπάρχει, άραγε, διαφορά μεταξύ της πρόσβασης στα εργαλεία και της ιδιοκτησίας των μέσων δημιουργίας; Πού βρίσκονται τα όρια μεταξύ δημιουργίας και πνευματικής ιδιοκτησίας;

Στις δικαστικές αίθουσες των ΗΠΑ, οι εταιρείες ΑΙ επικαλούνται τον «εκδημοκρατιστικό» χαρακτήρα των μοντέλων τους και την αρχή της δίκαιης χρήσης. Ομως, το fair use δεν είναι αυτόματο διαβατήριο. Κρίνεται από τον δικαστή της ουσίας ad hoc, ενόψει των πραγματικών περιστατικών κάθε περίπτωσης, με βάση τέσσερα κριτήρια: τον σκοπό της χρήσης (λ.χ. εμπορικό ή μη) του επίδικου έργου, τη φύση του (λ.χ. έργο λόγου, τέχνης ή επιστήμης, έργο χαμηλού δημιουργικού ύψους ή «λειτουργικού»/τεχνολογικού χαρακτήρα κ.ο.κ.), την ποσότητα του αντιγραμμένου πρωτότυπου περιεχομένου και την επίδραση της εξεταζόμενης «χρήσης» του στη σχετική αγορά. Οπως επισημαίνει η Αννα Δεσποτίδου, «ορισμένα από τα παραπάνω κριτήρια δύσκολα θα πληρούνται στις περισσότερες περιπτώσεις εκπαίδευσης παραγωγικής ΑΙ, ιδίως όταν η νέα “δημιουργία”, που υπέχει θέση παράγωγου έργου, ανταγωνίζεται άμεσα το αρχικό, βλάπτοντας αδικαιολόγητα τα έννομα συμφέροντα του δημιουργού του».

ΚΑΙ Η ΣΥΓΚΑΤΑΘΕΣΗ;

Ως απάντηση στον αυξανόμενο έλεγχο, πολλές εταιρείες τεχνητής νοημοσύνης προβαίνουν πλέον σε χειρονομίες συγκατάθεσης. Προσφέρουν δυνατότητα εξαίρεσης, δημοσιεύουν εκθέσεις διαφάνειας και δηλώνουν ότι σέβονται τα πνευματικά δικαιώματα. Ωστόσο, αυτά τα μέτρα συχνά έρχονται εκ των υστέρων – αφού τα μοντέλα έχουν εκπαιδευτεί σε υπάρχοντα δεδομένα. Το παρελθόν, ως γνωστόν, έχει το κακό χούι να παραμένει αναλλοίωτο.

Τον Ιανουάριο του 2025, το Reuters μετέδωσε ότι η Meta είχε χρησιμοποιήσει σύνολα δεδομένων από τη LibGen για να εκπαιδεύσει τα μοντέλα τεχνητής νοημοσύνης της. Τα μηνύματα ηλεκτρονικού ταχυδρομείου μεταξύ των στελεχών της Meta συζητούσαν την αναγκαιότητα της χρήσης του LibGen για την επίτευξη κορυφαίων επιδόσεων, αναγνωρίζοντας την πειρατική φύση του συνόλου δεδομένων, αλλά θεωρώντας το απαραίτητο για να ανταγωνιστεί τους αντιπάλους όπως η OpenAI.

Αυτή η στρατηγική –η εκ των υστέρων συγκατάθεση– έχει γίνει κανόνας στον κόσμο της ΑΙ: πρώτα εξορύσσουμε, μετά μιλούμε για δικαιώματα. Το βάρος της αστυνόμευσης της χρήσης του έργου πέφτει στους ίδιους τους δημιουργούς, οι οποίοι συχνά δεν διαθέτουν τους πόρους για να «κυνηγήσουν» τις μεγάλες εταιρείες. Πώς, όμως, αμείβεις αυτόν που έγινε αλγόριθμος χωρίς να το ξέρει; Τι μένει από έναν συγγραφέα όταν έχει απομείνει μόνο το στυλ του;

Το βάρος της αστυνόμευσης της χρήσης του έργου πέφτει στους ίδιους τους δημιουργούς, οι οποίοι συχνά δεν διαθέτουν τους πόρους για να «κυνηγήσουν» τις μεγάλες εταιρείες.

Οι νομικές προκλήσεις έχουν εμφανιστεί σε παγκόσμιο επίπεδο. Τον Μάρτιο του 2025, οι κορυφαίες ενώσεις εκδοτών και συγγραφέων της Γαλλίας κατέθεσαν αγωγή κατά της Meta, ισχυριζόμενες μη εξουσιοδοτημένη χρήση περιεχομένου που προστατεύεται από πνευματικά δικαιώματα για την εκπαίδευση των συστημάτων τεχνητής νοημοσύνης. Περιέγραψαν την κατάσταση ως «μνημειώδη λεηλασία», αναδεικνύοντας την ανισορροπία μεταξύ μεμονωμένων δημιουργών και τεχνολογικών κολοσσών.