Οι ακαδημαϊκοί εκδότες πωλούν πρόσβαση σε ερευνητικές εργασίες σε εταιρείες τεχνολογίας για την εκπαίδευση μοντέλων τεχνητής νοημοσύνης (AI). Ορισμένοι ερευνητές αντέδρασαν με απογοήτευση σε τέτοιες συμφωνίες, οι οποίες πραγματοποιούνται χωρίς τη διαβούλευση των συγγραφέων. Η τάση εγείρει ερωτήματα σχετικά με τη χρήση δημοσιευμένων και ενίοτε έργων που προστατεύονται από πνευματικά δικαιώματα για την εκπαίδευση του αυξανόμενου αριθμού chatbots AI στην ανάπτυξη.

Οι ειδικοί λένε ότι μια ερευνητική εργασία που δεν έχει ακόμη χρησιμοποιηθεί για την εκπαίδευση ενός μεγάλου γλωσσικού μοντέλου είναι πιθανό να χρησιμοποιηθεί σύντομα. Οι ερευνητές διερευνούν τεχνικές επιλογές για τους συγγραφείς για να προσδιορίσουν εάν το περιεχόμενό τους χρησιμοποιείται.

Τον περασμένο μήνα ανακοινώθηκε ότι ο Βρετανός εκδότης επιστημών Taylor & Francis, με έδρα το Milton Park, στο Ηνωμένο Βασίλειο, υπέγραψε συμφωνία 10 εκατομμυρίων δολαρίων με τη Microsoft, επιτρέποντας στην αμερικανική εταιρεία τεχνολογίας να έχει πρόσβαση στα δεδομένα του εκδότη για να βελτιώσει τα συστήματα AI. Τον Ιούνιο, μια ενημέρωση επενδυτών έδειξε ότι ο αμερικανός εκδότης Wiley κέρδισε 23 εκατομμύρια δολάρια επιτρέποντας σε μια ανώνυμη εταιρεία να εκπαιδεύσει μοντέλα τεχνητής νοημοσύνης που δημιουργούνται στο περιεχόμενό της.

Οτιδήποτε είναι διαθέσιμο στο διαδίκτυο – είτε σε αποθετήριο ανοιχτής πρόσβασης είτε όχι – έχει «πολύ πιθανό» να έχει ήδη τροφοδοτηθεί σε ένα μεγάλο γλωσσικό μοντέλο, λέει η Lucy Lu Wang, ερευνήτρια τεχνητής νοημοσύνης στο Πανεπιστήμιο της Ουάσιγκτον στο Σιάτλ. «Και αν ένα χαρτί έχει ήδη χρησιμοποιηθεί ως δεδομένα εκπαίδευσης σε ένα μοντέλο, δεν υπάρχει τρόπος να αφαιρέσετε αυτό το χαρτί μετά την εκπαίδευση του μοντέλου», προσθέτει.

Τεράστια σύνολα δεδομένων

Οι LLM εκπαιδεύονται σε τεράστιες ποσότητες δεδομένων, που συχνά συλλέγονται από το Διαδίκτυο. Εντοπίζουν μοτίβα μεταξύ των συχνά δισεκατομμυρίων αποσπασμάτων ομιλίας στα δεδομένα εκπαίδευσης, τα λεγόμενα tokens, τα οποία τους επιτρέπουν να δημιουργούν κείμενα με εκπληκτική ευχέρεια.

Τα μοντέλα παραγωγής τεχνητής νοημοσύνης βασίζονται στην πρόσληψη μοτίβων από αυτές τις μάζες δεδομένων για την παραγωγή κειμένου, εικόνων ή κώδικα υπολογιστή. Οι επιστημονικές εργασίες είναι πολύτιμες για τους προγραμματιστές LLM λόγω του μήκους και της «υψηλής πυκνότητας πληροφοριών» τους, λέει ο Stefan Baack, ο οποίος αναλύει σετ δεδομένων εκπαίδευσης AI στο Ίδρυμα Mozilla στο Σαν Φρανσίσκο της Καλιφόρνια.

Η τάση για αγορά συνόλων δεδομένων υψηλής ποιότητας αυξάνεται. Φέτος έχει τοFinancial Timesυλικό τους δημ Ο προγραμματιστής του ChatGPT OpenAI προσφέρεται σε μια προσοδοφόρα συμφωνία, όπως και το διαδικτυακό φόρουμ Reddit στην Google. Και δεδομένου ότι οι ακαδημαϊκοί εκδότες είναι πιθανό να βλέπουν την εναλλακτική λύση ως παράνομη παραβίαση της δουλειάς τους, "νομίζω ότι θα υπάρξουν περισσότερες προσφορές όπως αυτή", λέει ο Wang.

Μυστικά πληροφοριών

Ορισμένοι προγραμματιστές τεχνητής νοημοσύνης, όπως το Δίκτυο Τεχνητής Νοημοσύνης μεγάλης κλίμακας, διατηρούν σκόπιμα ανοιχτά τα σύνολα δεδομένων τους, αλλά πολλές εταιρείες που αναπτύσσουν παραγωγικά μοντέλα τεχνητής νοημοσύνης έχουν κρατήσει μυστικά πολλά από τα δεδομένα εκπαίδευσής τους, λέει ο Baack. «Δεν έχουμε ιδέα τι περιέχει», λέει. Τα αποθετήρια ανοιχτού κώδικα, όπως το arXiv και η επιστημονική βάση δεδομένων PubMed, θεωρούνται «πολύ δημοφιλείς» πηγές, αν και τα άρθρα περιοδικών με paywalled είναι πιθανό να αποσπαστούν από μεγάλες εταιρείες τεχνολογίας για περιλήψεις δωρεάν προς ανάγνωση. «Είναι πάντα στο κυνήγι αυτού του είδους πληροφοριών», προσθέτει.

Είναι δύσκολο να αποδειχθεί ότι ένα LLM χρησιμοποίησε ένα συγκεκριμένο χαρτί, λέει ο Yves-Alexandre de Montjoye, επιστήμονας υπολογιστών στο Imperial College του Λονδίνου. Μια επιλογή είναι να αντιμετωπίσετε το μοντέλο με μια ασυνήθιστη πρόταση από ένα κείμενο και να δείτε εάν η έξοδος ταιριάζει με τις επόμενες λέξεις στο πρωτότυπο. Εάν συμβαίνει αυτό, είναι καλό σημάδι ότι το χαρτί περιλαμβάνεται στο σετ εκπαίδευσης. Εάν όχι, αυτό δεν σημαίνει ότι το χαρτί δεν χρησιμοποιήθηκε - κυρίως επειδή οι προγραμματιστές μπορούν να προγραμματίσουν το LLM για να φιλτράρουν τις απαντήσεις για να διασφαλίσουν ότι δεν ταιριάζουν πολύ με τα δεδομένα εκπαίδευσης. «Χρειάζονται πολλά για να λειτουργήσει αυτό», λέει.

Μια άλλη μέθοδος ελέγχου του εάν τα δεδομένα περιλαμβάνονται σε ένα σύνολο δεδομένων εκπαίδευσης ονομάζεται επίθεση συμπεράσματος μέλους. Αυτό βασίζεται στην ιδέα ότι ένα μοντέλο θα είναι πιο σίγουρο για την παραγωγή του όταν δει κάτι που έχει δει στο παρελθόν. Η ομάδα του De Montjoye έχει αναπτύξει μια εκδοχή αυτού, που ονομάζεται παγίδα πνευματικών δικαιωμάτων, για LLM.

Για να ορίσει την παγίδα, η ομάδα δημιουργεί εύλογες αλλά παράλογες προτάσεις και τις κρύβει μέσα σε ένα έργο, όπως λευκό κείμενο σε λευκό φόντο ή σε ένα πεδίο που εμφανίζεται ως μηδενικό πλάτος σε μια ιστοσελίδα. Εάν ένας LLM «έκπληξη» από μια αχρησιμοποίητη πρόταση ελέγχου - ένα μέτρο της σύγχυσής του - περισσότερο από την πρόταση που κρύβεται στο κείμενο, «αυτά είναι στατιστικά στοιχεία ότι οι παγίδες έχουν δει στο παρελθόν», λέει.

Ζητήματα πνευματικών δικαιωμάτων

Ακόμα κι αν ήταν δυνατό να αποδειχθεί ότι ένα LLM εκπαιδεύτηκε σε ένα συγκεκριμένο κείμενο, δεν είναι σαφές τι θα συμβεί στη συνέχεια. Οι εκδότες ισχυρίζονται ότι η χρήση κειμένων που προστατεύονται από πνευματικά δικαιώματα στην εκπαίδευση χωρίς άδεια θεωρείται παραβίαση. Αλλά ένα νομικό αντεπιχείρημα λέει ότι οι LLM δεν αντιγράφουν τίποτα - εξάγουν περιεχόμενο πληροφοριών από τα δεδομένα εκπαίδευσης, το θρυμματίζουν και χρησιμοποιούν τις γνώσεις τους που έχουν μάθει για να δημιουργήσουν νέο κείμενο.

Ίσως μια δικαστική υπόθεση θα μπορούσε να βοηθήσει να διευκρινιστεί αυτό. Μήνυση σε μια εν εξελίξει υπόθεση πνευματικών δικαιωμάτων στις ΗΠΑ που θα μπορούσε να είναι πρωτοποριακήΟι New York TimesΗ Microsoft και ο προγραμματιστής του ChatGPT, OpenAI, στο Σαν Φρανσίσκο της Καλιφόρνια. Η εφημερίδα κατηγορεί τις εταιρείες ότι χρησιμοποιούν το δημοσιογραφικό τους περιεχόμενο για να εκπαιδεύσουν τα μοντέλα τους χωρίς άδεια.

Πολλοί ακαδημαϊκοί χαίρονται που η εργασία τους περιλαμβάνεται στα δεδομένα εκπαίδευσης των LLMs - ειδικά καθώς τα μοντέλα γίνονται πιο ακριβή. «Προσωπικά, δεν με πειράζει αν ένα chatbot γράφει με το δικό μου στυλ», λέει ο Baack. Αλλά παραδέχεται ότι το επάγγελμά του δεν απειλείται από τα έξοδα των LLM όπως αυτά άλλων επαγγελμάτων, όπως οι καλλιτέχνες και οι συγγραφείς.

Οι μεμονωμένοι ακαδημαϊκοί συγγραφείς έχουν επί του παρόντος μικρή μόχλευση όταν ο εκδότης της εργασίας τους πουλάει πρόσβαση στα έργα τους που προστατεύονται από πνευματικά δικαιώματα. Για άρθρα που είναι διαθέσιμα στο κοινό, δεν υπάρχει κανένας καθιερωμένος τρόπος εκχώρησης πιστώσεων ή γνώσης εάν έχει χρησιμοποιηθεί κείμενο.

Ορισμένοι ερευνητές, συμπεριλαμβανομένου του de Montjoye, είναι απογοητευμένοι. «Θέλουμε LLM, αλλά εξακολουθούμε να θέλουμε κάτι που είναι δίκαιο και δεν νομίζω ότι έχουμε εφεύρει ακόμα πώς μοιάζει», λέει.