Ένα μοντέλο τεχνητής νοημοσύνης (AI) προσομοίωσε μισό δισεκατομμύριο χρόνια μοριακής εξέλιξης για να δημιουργήσει τον κώδικα για μια άγνωστη στο παρελθόν πρωτεΐνη, σύμφωνα με μια νέα μελέτη. Η φθορίζουσα πρωτεΐνη, η οποία είναι παρόμοια με αυτές που βρίσκονται στις μέδουσες και τα κοράλλια, μπορεί να βοηθήσει στην ανάπτυξη νέων φαρμάκων, λένε οι ερευνητές.
Οι πρωτεΐνες είναι ένα από τα δομικά στοιχεία της ζωής και επιτελούν διάφορες λειτουργίες στο σώμα, όπως το χτίσιμο των μυών και την καταπολέμηση ασθενειών. Η προσομοιωμένη πρωτεΐνη, που ονομάζεται esmGFP, υπάρχει μόνο ως κώδικας υπολογιστή, αλλά περιέχει το σχέδιο για έναν προηγουμένως άγνωστο τύπο πράσινης φθορίζουσας πρωτεΐνης. Στη φύση, οι πράσινες φθορίζουσες πρωτεΐνες δίνουν στις φθορίζουσες μέδουσες και στα κοράλλια τη λάμψη τους.
Η αλληλουχία για την παρασκευή του esmGFP είναι μόλις 58% παρόμοια με την πλησιέστερη γνωστή φθορίζουσα πρωτεΐνη, η οποία είναι μια τροποποιημένη από τον άνθρωπο εκδοχή μιας πρωτεΐνης που βρίσκεται στις θαλάσσιες ανεμώνες με φυσαλίδες ( Entacmaea quadricolor ) — πολύχρωμα θαλάσσια πλάσματα που μοιάζουν σαν να έχουν φυσαλίδες στα άκρα των πλοκαμιών τους. Η υπόλοιπη αλληλουχία είναι μοναδική και θα απαιτούσε συνολικά 96 διαφορετικές γενετικές μεταλλάξεις για να εξελιχθεί. Αυτές οι αλλαγές θα χρειάζονταν περισσότερα από 500 εκατομμύρια χρόνια για να εξελιχθούν φυσικά, σύμφωνα με τη μελέτη.
Ερευνητές σε μια εταιρεία που ονομάζεται EvolutionaryScale αποκάλυψαν το esmGFP και το μοντέλο AI που χρησιμοποιήθηκε για τη δημιουργία της, το ESM3, σε μια μελέτη πέρυσι. Ανεξάρτητοι επιστήμονες έχουν τώρα αξιολογήσει από ομοτίμους αυτά τα ευρήματα, τα οποία δημοσιεύτηκαν στις 16 Ιανουαρίου στο περιοδικό Science .
Το ESM3 δεν σχεδιάζει πρωτεΐνες εντός των συνηθισμένων περιορισμών της εξέλιξης. Αντίθετα, συμπληρώνει τα κενά του ατελούς πρωτεϊνικού κώδικα που παρέχεται από τους ερευνητές, και με αυτόν τον τρόπο σχεδιάζει κάτι που θα μπορούσε να υπάρχει με βάση όλα τα πιθανά μονοπάτια που θα μπορούσε να ακολουθήσει η εξέλιξη.
«Διαπιστώσαμε ότι το ESM3 μαθαίνει θεμελιώδη βιολογία και μπορεί να δημιουργήσει λειτουργικές πρωτεΐνες έξω από το χώρο που εξερευνά η εξέλιξη», δήλωσε στο Live Science ο συν-συγγραφέας της μελέτης Alex Rives , συνιδρυτής και επικεφαλής επιστήμονας της EvolutionaryScale.
Η νέα μελέτη βασίζεται στην έρευνα που ο Rives και οι συνεργάτες του ξεκίνησαν στη Meta , τη μητρική εταιρεία του Facebook και του Instagram, πριν ξεκινήσουν το EvolutionaryScale το 2024. Το ESM3 είναι η τελευταία έκδοση ενός μοντέλου γενετικής γλώσσας παρόμοιου με το GPT-4 του OpenAI, το οποίο τρέχει το ChatGPT αλλά βασίζεται στη βιολογία.
Για να κατανοήσει το ESM3 τις πρωτεΐνες, οι ερευνητές τροφοδότησαν τα δεδομένα του μοντέλου σχετικά με τις κύριες ιδιότητες μιας πρωτεΐνης – αλληλουχία αμινοξέων, δομή και λειτουργία.
Η ομάδα εκπαίδευσε το ESM3 σε δεδομένα από 2,78 δισεκατομμύρια πρωτεΐνες που βρέθηκαν στη φύση. Στη συνέχεια, οι ερευνητές έκρυψαν τυχαία τμήματα ενός πρωτεϊνικού σχεδίου και έβαλαν το ESM3 στα κενά για να συμπληρώσουν τον κώδικα με βάση αυτά που είχαν μάθει.
Οι επιστήμονες ήδη τροποποιούν φυσικές πρωτεΐνες και κατασκευάζουν νέες για διάφορους σκοπούς. Για παράδειγμα, οι πράσινες φθορίζουσες πρωτεΐνες χρησιμοποιούνται ευρέως σε ερευνητικά εργαστήρια. Ο γενετικός τους κώδικας προστίθεται συχνά στα άκρα άλλων αλληλουχιών DNA για να γίνουν πράσινες οι πρωτεΐνες που κωδικοποιούν. Αυτό επιτρέπει στους επιστήμονες να παρακολουθούν εύκολα πρωτεΐνες και κυτταρικές διεργασίες. Ο Rives σημείωσε ότι οι δυνατότητες του ESM3 μπορούν να επιταχύνουν ένα ευρύ φάσμα εφαρμογών για τη μηχανική πρωτεϊνών, συμπεριλαμβανομένης της βοήθειας στο σχεδιασμό νέων φαρμάκων.
Η Tiffany Taylor , μια εξελικτική βιολόγος στο Πανεπιστήμιο του Bath στο Ηνωμένο Βασίλειο που δεν συμμετείχε στην έρευνα, ανέφερε ότι ο ισχυρισμός των ερευνητών για προσομοίωση 500 εκατομμυρίων ετών εξέλιξης επικεντρώνεται μόνο σε μεμονωμένες πρωτεΐνες και δεν λαμβάνει υπόψη τα πολλά στάδια της φυσικής επιλογής που τελικά δημιουργούν ζωή.
«Η μηχανική πρωτεϊνών που βασίζεται στην τεχνητή νοημοσύνη είναι ενδιαφέρουσα, αλλά δεν μπορώ να μην νιώθω ότι μπορεί να έχουμε υπερβολική αυτοπεποίθηση υποθέτοντας ότι μπορούμε να ξεπεράσουμε τις περίπλοκες διαδικασίες που ακονίζονται από εκατομμύρια χρόνια φυσικής επιλογής», είπε ο Taylor.
We're thrilled to present ESM3 in @ScienceMagazine. ESM3 is a generative language model that reasons over the three fundamental properties of proteins: sequence, structure, and function. Today we're making ESM3 available free to researchers worldwide via the public beta of an API… pic.twitter.com/BY4Glad59x
— Alex Rives (@alexrives) January 16, 2025
photo: pixabay