Μια νέα φωνή AI από την startup Sesame έχει προκαλέσει σάλο στο διαδίκτυο, με τους χρήστες να θαυμάζουν ταυτόχρονα τον ρεαλισμό της και να νιώθουν άβολα με τον τρόπο επικοινωνίας που μοιάζει πολύ με τον άνθρωπο. Η εταιρεία κυκλοφόρησε μια επίδειξη του “μοντέλου συνομιλίας ” της (CSM) τον Φεβρουάριο και θολώνει τη γραμμή μεταξύ τεχνητής και ανθρώπινης, προσθέτοντας έκφραση, γέλιο, παύσεις και ακόμη και διόρθωση σφαλμάτων σε πραγματικό χρόνο, αναφέρει η ArsTechnica.
Ένας νέος φωνητικός βοηθός με τεχνητή νοημοσύνη από την Sesame AI ωθεί τα όρια της ανθρώπινης αλληλεπίδρασης, χρησιμοποιώντας προηγμένη τεχνολογία ομιλίας για να δημιουργήσει πιο φυσικές και συναισθηματικά συνειδητοποιημένες συνομιλίες.
Η Sesame προσφέρει δύο φωνές: μια αρσενική (“Miles”) και μια γυναίκα (“Maya”) και ορισμένοι χρήστες έχουν ήδη αναφέρει ότι αισθάνονται συναισθηματική σύνδεση με τα μοντέλα φωνής. Ένας γονέας είπε ότι η 4χρονη κόρη του ξέσπασε σε κλάματα όταν δεν της επετράπη να συνεχίσει να μιλάει με την AI.
Η εταιρεία επικεντρώνεται σε αυτό που αποκαλεί «φωνητική παρουσία», ένα μείγμα συναισθηματικής νοημοσύνης και επίγνωσης του πλαισίου που κάνει τις συνομιλίες να αισθάνονται προσωπικές.
Η Μάγια, για παράδειγμα, μπορεί να αναγνωρίσει και να προσαρμόσει τον τόνο της με βάση την κατάσταση, προσθέτοντας παύσεις, προσαρμόζοντας την ένταση και ακόμη και αλλάζοντας τον ρυθμό της για να δημιουργήσει μια πιο φυσική, συναρπαστική συνομιλία.
Οι πρώτοι χρήστες αναφέρουν μεγάλες συνομιλίες διάρκειας έως και 30 λεπτών, με την τεχνητή νοημοσύνη να υποστηρίζει συζητήσεις σχετικά με τη φιλοσοφία, την ηθική και τα προσωπικά συναισθήματα. Το μοντέλο φωνής είναι εντυπωσιακά φυσικό, αναπαράγει αναπνοή, γέλιο, διακοπές και παύσεις.
Αλλά δεν αρέσει σε όλους. Ο Mark Hachman, ανώτερος συντάκτης στο PCWorld, είπε ότι νιώθει μια πραγματική ταλαιπωρία όταν αλληλεπιδρά με το σύστημα, καθώς ο τόνος και το στυλ του θύμιζαν μια παλιά φίλη.
Η Sesame έχει επίσης συγκριθεί με την Advanced Voice Mode της OpenAI για το ChatGPT. Μερικοί χρήστες βρίσκουν ότι ακούγεται ακόμα πιο φυσική και μπορούν επίσης να εκτελέσουν σενάρια ρόλων, συμπεριλαμβανομένων θυμωμένων συζητήσεων, κάτι που η OpenAI επί του παρόντος δεν επιτρέπει.
Ένα βίντεο στο Reddit δείχνει μια τεχνητή νοημοσύνη να μαλώνει με έναν χρήστη που παίζει το ρόλο του καταχραστή και υποτίθεται ότι μαλώνει με το αφεντικό του. Είναι τόσο δυναμικό που είναι δύσκολο να πούμε πού βρίσκεται ο άνθρωπος και πού είναι η τεχνητή νοημοσύνη.
Η Sesame έχει φέρει επανάσταση στον τρόπο με τον οποίο παράγεται η ομιλία χρησιμοποιώντας ένα ενιαίο, ολοκληρωμένο νευρωνικό δίκτυο που επεξεργάζεται κείμενο και ήχο ταυτόχρονα.
Σε τυφλά τεστ, οι ακροατές δεν μπόρεσαν να διακρίνουν ξεκάθαρα τη φωνή της τεχνητής νοημοσύνης από τις πραγματικές ανθρώπινες ηχογραφήσεις όταν ήταν μια σύντομη φράση. Ωστόσο, σε μεγαλύτερες συνομιλίες, οι άνθρωποι εξακολουθούσαν να προτιμούν την πραγματική φωνή, υποδεικνύοντας ότι η τεχνητή νοημοσύνη δεν είχε επίγνωση των συμφραζομένων.
Ο Brendan Iribe, συνιδρυτής της Sesame, αναγνώρισε ότι το μοντέλο εξακολουθεί να έχει ελαττώματα.
«Είναι ακόμα πολύ πρόθυμο και συχνά ακατάλληλο στον τόνο, την προσωδία και τον ρυθμό του», είπε.
Παρά την τεχνολογική ανακάλυψη, οι ειδικοί προειδοποιούν ότι η ρεαλιστική φωνητική τεχνητή νοημοσύνη θα μπορούσε να αυξήσει τον κίνδυνο απάτης. Το Voice phishing (vishing) έχει ήδη γίνει ένα ισχυρό εργαλείο για απατεώνες που μιμούνται τις φωνές της οικογένειας, των συναδέλφων ή των κρατικών αξιωματούχων.
Η Sesame δεν υποστηρίζει προς το παρόν αντιγραφή φωνής, αλλά στο μέλλον, η ανοιχτή πρόσβαση σε τέτοια τεχνολογία θα μπορούσε να επιτρέψει στους εισβολείς να δημιουργήσουν ακόμη πιο εξελιγμένες επιθέσεις. Η OpenAI καθυστέρησε ακόμη και την κυκλοφορία του συστήματος φωνής, φοβούμενη ότι θα μπορούσε να γίνει κατάχρηση.
photo: pixabay