DH t(r)ip της Παρασκευής_79 | Η επέλαση των μεγάλων γλωσσικών μοντέλων: Και μετά το GPT-4, τι;

*https://unsplash.com/photos/LIlsk-UFVxk*

Μα είναι τόσο έξυπνο; Αρχές Μαρτίου του 2023 ο ριζοσπάτης διανοητής και διεθνούς φήμης γλωσσολόγος Noam Chomsky έδινε τη δική του απάντηση σε άρθρο του στους New York Times. Αφορμή, η φρενίτιδα που προκάλεσε η κυκλοφορία του ChatGPΤ, του γλωσσικού μοντέλου και διεπαφής συνομιλίας της OpenAI: «Με δεδομένα την έλλειψη ηθικών αρχών, τα ψευδοεπιστημονικά θεμέλια και τη γλωσσολογική ανικανότητα αυτών των συστημάτων, μόνο να γελάμε ή να κλαίμε μπορούμε με τη δημοτικότητά τους».

Ωστόσο, λίγες μόνο μέρες αργότερα μετά τα επιτιμιτικά σχόλια του N. Chomsky, στις 14 Μαρτίου 2023, η ΟpenAI επανήλθε δριμύτερη παρουσιάζοντας την προαναγγελθείσα εξελιγμένη έκδοση του μοντέλου, το GPT-4. Kαι αν ο N. Chomsky έχει δίκιο καταδεικνύοντας τους περιορισμούς της τεχνητής νοημοσύνης, συγκρινόμενης με τον τρόπο που αναπτύσσει συλλογισμούς και παράγει γλώσσα ο άνθρωπος, τα υπερισχυρά γλωσσικά μοντέλα, όπως το GPT-4, μιμούνται τόσο πειστικά την ανθρώπινη ευφυΐα που σε αφήνουν ενεό.

Αλλά ας πάρουμε τα πράγματα από την αρχή.

Πού οφείλεται αυτή η πρόοδος;

Οι εξελίξεις τα τελευταία 10 χρόνια στον τομέα που αφορά εφαρμογές της τεχνητής νοημοσύνης στην επεξεργασία φυσικής γλώσσας είναι ιλιγγιώδεις. Ό,τι και να καταγραφεί σήμερα ως καινοτόμο και επαναστατικό αύριο θα είναι ήδη παρωχημένο.

Οι υπολογιστές αναγνωρίζουν τη φωνή μας και κατανοούν τις ερωτήσεις μας. Μεταφράζουν από το ένα γλωσσικό σύστημα στο άλλο με αξιοσημείωτα καλά αποτελέσματα, παράγουν κείμενα, συνθέτουν ποίηση, λογοτεχνία, διαλόγους που δύσκολα διακρίνεται η μηχανική αφετηρία τους, γράφουν κώδικα.

Σε αυτή την εξέλιξη συνέβαλαν καθοριστικά τα εξής: α) τα μεγάλα δεδομένα (big data), το τεράστιο ψηφιακό αποτύπωμα της ανθρωπότητας στο Διαδίκτυο, β) οι υπολογιστές με υψηλή επεξεργαστική ισχύ για τη διαχείριση αυτών των δεδομένων, γ) η αλλαγή στη φιλοσοφία δημιουργίας των αλγορίθμων, ειδικότερα σε τομείς όπως η γλώσσα που αποτελεί σε όλα τα επίπεδά της ένα ασαφώς ορισμένο πρόβλημα. Από τους αλγορίθμους οι οποίοι βασίζονταν σε κανόνες για την περιγραφή του προβλήματος που καλούνταν να επιλύσουν, όπως η κατανόηση και παραγωγή γλώσσας, περάσαμε σε αλγορίθμους μηχανικής μάθησης, οι οποίοι καλούνται να βρουν αυτοί τους αλγορίθμους που θα κατανοούν τη γλώσσα. Πώς; Αποκτώντας εκπαίδευση από τα τεράστια αποθέματα δεδομένων που έχουμε πλέον στη διάθεσή μας. Έτσι η υπολογιστική ανάλυση της γλώσσας άρχισε να συναντά την τεχνητή νοημοσύνη.

*Mike MacKenzie, Attribution 2,0 Generic (CC BY 2.0)*

Μεγάλα γλωσσικά μοντέλα. Τι είναι αυτά τα θαύματα της τεχνολογίας;

Τα σύγχρονα μεγάλα γλωσσικά μοντέλα (Large Language Models – LLMs), όπως αυτά της οικογένειας GPT (Generative Pre-training Transformers) της Οpen AΙ, είναι νευρωνικά δίκτυα (υπολογιστικές αρχιτεκτονικές), εμπνευσμένα από τον τρόπο που λειτουργεί το δίκτυο νευρώνων του ανθρώπινου εγκεφάλου, με εκατομμύρια ρυθμιζόμενες παραμέτρους, τα οποία μπορούν να παράγουν από κείμενα μέχρι κώδικα προγραμματισμού. Έχοντας προπονηθεί με τεράστια δεδομένα από το Διαδίκτυο, αυτά τα μοντέλα μηχανικής μάθησης αναζητούν μοτίβα και γίνονται όλο και πιο ικανά στο να παράγουν στατιστικά πιθανά αποτελέσματα – όπως φαινομενικά ανθρώπινη γλώσσα και σκέψη. Ένα μεγάλο γλωσσικό μοντέλο, όπως αυτά της οικογένειας GPT, εκπαιδεύεται συνήθως σε δύο στάδια. Στο πρώτο στάδιο προεκπαιδεύεται για να προβλέπει την επόμενη λέξη (token) σε ένα κείμενο. Κατά τη διάρκεια της μετεκπαίδευσής του με επιπλέον δεδομένα, το μοντέλο προσαρμόζει/ρυθμίζει τις παραμέτρους του για να επιτελέσει μια συγκεκριμένη εργασία.

Τα μοντέλα αυτά, τα οποία αναδύθηκαν το 2018, έχουν τη δυνατότητα να χρησιμοποιηθούν σε μια ευρεία κλίμακα εφαρμογών επεξεργασίας φυσικής γλώσσας, όπως σε συστήματα διαλόγου, παραγωγή και περίληψη κειμένων, αυτόματη μετάφραση κ.α. Για τον λόγο αυτό τα τελευταία χρόνια όλοι οι τεχνολογικοί γίγαντες, όπως η Alphabet, η Amazon, η Nvidia, έχουν επιδοθεί σε έναν αγώνα δρόμου για να εκπαιδεύσουν τα δικά τους μεγάλα γλωσσικά μοντέλα.

Aπό το ChatGPT στο GPT-4

Το ChatGPT της ΟpenAΙ είναι ένα μεγάλο γλωσσικό μοντέλο και προηγμένο chatbot (διεπαφή συνομιλίας), το οποίο δόθηκε για χρήση στο ευρύ κοινό, σε έκδοση beta, τον Νοέμβριο του 2022. Τι ακολούθησε; Μέσα σε μία εβδομάδα από την κυκλοφορία του έγινε το απόλυτο viral παγκοσμίως, συγκεντρώνοντας πάνω από 100 εκατομμύρια ενεργούς χρήστες μηνιαίως. Είχαν προηγηθεί οι εκδόσεις GPT -1 (2018), GPT-2 (2019) και GPT-3 (2020), με εντυπωσιακά αποτελέσματα, ωστόσο πλέον οι επιδόσεις του συστήματος ήταν πρωτοφανείς. Πιο συγκεκριμένα, το μοντέλο μπορούσε να απαντήσει ερωτήσεις σχετικά με μια τεράστια ποικιλία θεμάτων, να μεταφράσει, να συζητήσει, να κάνει περίληψη κειμένου, να παραγάγει κείμενο υψηλής ποιότητας, να γράψει κώδικα.

Μέχρι τον Φεβρουάριο του 2023, δηλαδή τρεις μήνες μετά την κυκλοφορία του, υπήρχαν ήδη περίπου 200 e-books στο Κindle store της Αmazon, τα οποία ανέφεραν ως συγγραφέα ή συν-συγγραφέα το ChatGPT.

Και πριν καλά καλά καταλαγιάσει ο θόρυβος και η έκπληξη από το τι μπορεί να κάνει μια μηχανή, τον Μάρτιο του 2023 η OpenAI παρουσιάζει το GPT-4, την τελευταία (μέχρι στιγμής) εξελιγμένη έκδοση των μεγάλων γλωσσικών μοντέλων της οικογένειας GPT. Η εταιρεία το ονομάζει «πολυτροπικό», καθώς μπορεί να δεχτεί ως προτροπή (prompt) κείμενο ή εικόνα και να απαντά με κείμενο.

H νέα έκδοση[1] μπορεί να αναπτύξει πολύ πιο σύνθετους συλλογισμούς, να επεξεργαστεί μεγάλα κείμενα, έως και 20.000 λέξεων, μπορεί δηλαδή να δεχθεί ως προτροπή ένα ολόκληρο μυθιστόρημα, να ακολουθήσει σύνθετες οδηγίες, μπορεί να γράψει σενάρια, τραγούδια, κώδικα προγραμματισμού. Για να έχουμε ένα μέτρο των δυνατοτήτων του συστήματος, πέρασε τις εξετάσεις για άδεια άσκησης επαγγέλματος στις οποίες υποβάλλονται οι δικηγόροι στις ΗΠΑ, με πολύ καλή επίδοση, ενώ η προηγούμενη έκδοση του μοντέλου είχε αποτύχει.

Αποσβολωμένοι, πλέον, προσπαθούμε να παρακολουθήσουμε ασθμαίνοντας το τι συμβαίνει. Να χαρούμε; Να φοβηθούμε; Να σταματήσουμε για λίγο και να σκεφτούμε;

[1] Το GPT-4 είναι προς το παρόν διαθέσιμο σε περιορισμένη μορφή στο ChatGPT Plus, μια επί πληρωμή έκδοση του chatbot της εταιρείας.

*https://unsplash.com/photos/nGwyaWKFRVI*

Μοντέλα ικανά για το καλύτερο και το χειρότερο

Η μεγάλη ανταπόκριση που είχε η κυκλοφορία του chatbot της Open AI επέτεινε τον ανταγωνισμό στον χώρο, δίνοντας κίνητρο για τη δημιουργία του Bard της Google και του LLaMA της Meta τον περασμένο Φεβρουάριο. Ωστόσο, oι ίδιοι οι ερευνητές της ΟpenAI στην έκθεσή τους μετά την κυκλοφορία του GPT-4 εφιστούν την προσοχή στις προκλήσεις ασφαλείας που προκύπτουν από τη χρήση τόσο εξελιγμένων γλωσσικών μοντέλων.

Αντί επιλόγου, ας αφήσουμε το GPT-4 να εκφράσει τον προβληματισμό του σχετικά με τους κινδύνους που εγκυμονεί η χρήση ενός εργαλείου που μιμείται τόσο καλά την ανθρώπινη ευφυΐα:

Χρήστης: Είσαι δημοσιογράφος που έχεις το θάρρος της γνώμης σου. Θέλω να καταγράψεις σε 100 λέξεις τους κινδύνους που προκύπτουν από τη χρήση του GPT-4.
GPT-4: Το GPT-4, παρά την εντυπωσιακή τεχνολογία, εγκυμονεί κινδύνους. Η υπερβολική εξάρτηση από αυτό μπορεί να υπονομεύσει την κριτική σκέψη, να επιτρέψει την εξάπλωση παραπλανητικών ειδήσεων, να θέσει σε κίνδυνο την ιδιωτικότητα και την ασφάλεια των δεδομένων, να ενθαρρύνει τη δημιουργία deepfakes και να επιταχύνει την απώλεια θέσεων εργασίας. Είναι απαραίτητο να εξετάσουμε κριτικά τη χρήση του GPT-4 και να θεσπίσουμε κατάλληλες πολιτικές πρόληψης για την αντιμετώπιση των κινδύνων που συνεπάγεται.

Για πιο αναλυτική καταγραφή (από ανθρώπινο χέρι) των κινδύνων και των προκλήσεων που αφορούν την ασφάλεια βλ. και την έκθεση του Tech Watch Flash της Europol, που δημοσιεύτηκε στις 27/03/2023, με τίτλο «ChatGPT- ο αντίκτυπος των μεγάλων γλωσσικών μοντέλων στην επιβολή του νόμου».

Συγγραφή: Πατρίτσια Καλαφατά
Επιμέλεια: Γεράσιμος Χρυσοβιτσάνος

Χώρος διαλόγου για τις Ψηφιακές Ανθρωπιστικές Σπουδές