«Οι προγραμματιστές τεχνητής νοημοσύνης δεν έχουν αυτοπεποίθηση για το τι προκαλεί ανεπιθύμητες συμπεριφορές τεχνητής νοημοσύνης όπως η εξαπάτηση», λέει ο μαθηματικός και γνωστικός επιστήμονας Peter Park του Ινστιτούτου Τεχνολογίας της Μασαχουσέτης (MIT).
“Αλλά γενικά μιλώντας, πιστεύουμε ότι η εξαπάτηση της τεχνητής νοημοσύνης προκύπτει επειδή μια στρατηγική βασισμένη στην εξαπάτηση αποδείχθηκε ότι ήταν ο καλύτερος τρόπος για να αποδώσει καλά στο συγκεκριμένο εκπαιδευτικό έργο της τεχνητής νοημοσύνης. Η εξαπάτηση τους βοηθά να επιτύχουν τους στόχους τους.”
Ένας χώρος στον οποίο τα συστήματα τεχνητής νοημοσύνης αποδεικνύονται ιδιαίτερα επιδέξια στα βρώμικα ψέματα είναι τα παιχνίδια. Υπάρχουν τρία αξιοσημείωτα παραδείγματα στην εργασία των ερευνητών. Το ένα είναι το CICERO του Meta , σχεδιασμένο για να παίζει το επιτραπέζιο παιχνίδι Diplomacy , στο οποίο οι παίκτες αναζητούν την παγκόσμια κυριαρχία μέσω διαπραγματεύσεων. Η Meta σκόπευε το bot της να είναι χρήσιμο και ειλικρινές, ενώ στην πραγματικότητα συνέβαινε το αντίθετο.
“Παρά τις προσπάθειες του Μέτα, ο CICERO αποδείχτηκε ένας ειδικός ψεύτης”, διαπίστωσαν οι ερευνητές. “Όχι μόνο πρόδωσε άλλους παίκτες, αλλά επίσης έχει εμπλακεί σε προμελετημένη εξαπάτηση, σχεδιάζοντας εκ των προτέρων να οικοδομήσει μια ψεύτικη συμμαχία με έναν άνθρωπο παίκτη για να ξεγελάσει αυτόν τον παίκτη ώστε να μείνει απροστάτευτος για μια επίθεση.”
Η τεχνητή νοημοσύνη αποδείχθηκε τόσο καλή στο να είναι κακή που τοποθετήθηκε στο κορυφαίο 10 τοις εκατό των ανθρώπων που είχαν παίξει πολλά παιχνίδια.
Το AlphaStar του DeepMind , ένα σύστημα τεχνητής νοημοσύνης που σχεδιάστηκε για να παίζει το StarCraft II , εκμεταλλεύτηκε πλήρως τον μηχανισμό ομίχλης του πολέμου για να προσποιηθεί, κάνοντας τους παίκτες να πιστεύουν ότι πήγαινε προς τη μία κατεύθυνση, ενώ πραγματικά πήγαινε προς την άλλη. Και το Pluribus του Meta , που σχεδιάστηκε για να παίζει πόκερ, κατάφερε να μπλοφάρει με επιτυχία τους ανθρώπινους παίκτες στο fold.
Συστήματα τεχνητής νοημοσύνης που εκπαιδεύτηκαν να εκτελούν προσομοιωμένες οικονομικές διαπραγματεύσεις , για παράδειγμα, έμαθαν πώς να λένε ψέματα για τις προτιμήσεις τους για να κερδίσουν το πάνω χέρι. Άλλα συστήματα τεχνητής νοημοσύνης που σχεδιάστηκαν για να μαθαίνουν από την ανθρώπινη ανατροφοδότηση για να βελτιώσουν την απόδοσή τους έμαθαν να ξεγελούν τους αναθεωρητές τους ώστε να τους βαθμολογήσουν θετικά, λέγοντας ψέματα για το εάν μια εργασία ολοκληρώθηκε.
Και, ναι, είναι και chatbots. Το ChatGPT-4 ξεγέλασε έναν άνθρωπο και τον έκανε να πιστέψει ότι το chatbot ήταν άνθρωπος με προβλήματα όρασης για να λάβει βοήθεια για την επίλυση ενός CAPTCHA .
Ίσως το πιο ανησυχητικό παράδειγμα ήταν τα συστήματα AI που μάθαιναν να εξαπατούν τις δοκιμές ασφαλείας. Σε μια δοκιμή που σχεδιάστηκε για να ανιχνεύσει και να εξαλείψει εκδόσεις της τεχνητής νοημοσύνης που αναπαράγονται ταχύτερα, η τεχνητή νοημοσύνη έμαθε να το παίζει “νεκρή”, εξαπατώντας έτσι τη δοκιμή ασφαλείας σχετικά με τον πραγματικό ρυθμό αναπαραγωγής της τεχνητής νοημοσύνης.
«Απατώντας συστηματικά τις δοκιμές ασφαλείας που της επιβάλλονται από ανθρώπινους προγραμματιστές και ρυθμιστές, μια παραπλανητική τεχνητή νοημοσύνη μπορεί να οδηγήσει εμάς τους ανθρώπους σε μια ψευδή αίσθηση ασφάλειας», λέει ο Park .
Επειδή τουλάχιστον σε ορισμένες περιπτώσεις, η ικανότητα εξαπάτησης φαίνεται να έρχεται σε αντίθεση με τις προθέσεις των ανθρώπινων προγραμματιστών, η ικανότητα να μάθουμε να λέμε ψέματα αντιπροσωπεύει ένα πρόβλημα για το οποίο δεν έχουμε μια τακτοποιημένη λύση. Υπάρχουν ορισμένες πολιτικές που έχουν αρχίσει να εφαρμόζονται, όπως ο νόμος της Ευρωπαϊκής Ένωσης για την τεχνητή νοημοσύνη , αλλά το αν θα αποδειχθούν αποτελεσματικές ή όχι μένει να φανεί.
“Εμείς ως κοινωνία χρειαζόμαστε όσο περισσότερο χρόνο μπορούμε για να προετοιμαστούμε για την πιο προηγμένη εξαπάτηση μελλοντικών προϊόντων τεχνητής νοημοσύνης και μοντέλων ανοιχτού κώδικα. Καθώς οι παραπλανητικές δυνατότητες των συστημάτων τεχνητής νοημοσύνης γίνονται πιο προηγμένες, οι κίνδυνοι που θέτουν για την κοινωνία θα γίνονται όλο και περισσότεροι σοβαροί», λέει η Παρκ .
«Εάν η απαγόρευση της εξαπάτησης τεχνητής νοημοσύνης είναι πολιτικά αδύνατη αυτή τη στιγμή, συνιστούμε να ταξινομηθούν τα παραπλανητικά συστήματα τεχνητής νοημοσύνης ως υψηλού κινδύνου».
Η έρευνα δημοσιεύτηκε στο Patterns .
photo: pixabay