Google, e il suo settore specializzato in IA, DeepMind, ha dimostrato l’utilità dell’intelligenza artificiale per aiutare il complesso compito di prevedere strutture tridimensionali di proteine basate esclusivamente sulla loro sequenza genetica.
Comprendere le strutture proteiche è estremamente importante nella diagnosi e nel trattamento delle malattie, perché potrebbe migliorare la comprensione del corpo umano da parte degli scienziati, oltre a poter sostenere la progettazione delle proteine utilizzando la bioingegneria.
In un post ufficiale sul progetto per usare l’intelligenza artificiale per prevedere come le proteine si piegano, è stato scritto: “I modelli 3D di proteine che AlphaFold [DeepMind’s AI] genera sono molto più accurati di quelli che sono venuti prima, rendendo progressi significativi su una delle principali sfide della biologia”.
Esistono vari metodi scientifici per predire lo stato nativo 3D delle molecole proteiche (cioè come la catena proteica si piega per arrivare allo stato nativo) dagli amminoacidi residui nel DNA.
Ma modellare la struttura 3D è un compito molto complesso, dato il numero di permutazioni che possono esserci, anche a causa del fatto che il ripiegamento delle proteine dipende da fattori come le interazioni tra gli amminoacidi.
Predire le strutture proteiche
DeepMind afferma che il suo approccio si basa su anni di ricerche precedenti sull’uso dei big data per cercare di predire le strutture proteiche.
Nello specifico, applica approcci di deep learning ai dati genomici.
“Fortunatamente, il campo della genomica è piuttosto ricco di dati grazie alla rapida riduzione del costo del sequenziamento genetico. Di conseguenza, gli approcci di deep learning al problema di predizione che si basano su dati genomici sono diventati sempre più popolari negli ultimi anni. Il lavoro di DeepMind su questo problema ha portato ad AlphaFold, che abbiamo presentato a CASP [ Community Wide Experiment on the Critical Assessment of Techniques for Protein Structure Prediction ] quest’anno “. Queste le parole ufficiali del blog.
“Siamo orgogliosi di far parte di ciò che gli organizzatori CASP hanno definito come progressi senza precedenti nella capacità dei metodi computazionali di predire la struttura delle proteine. Il nostro team si è concentrato in particolare sul difficile problema della modellazione di forme partendo da zero, senza utilizzare proteine precedentemente risolte come modelli. Abbiamo raggiunto un alto grado di accuratezza nel predire le proprietà fisiche di una struttura proteica, e poi abbiamo usato due metodi distinti per costruire previsioni di strutture proteiche complete”.
DeepMind dice che i due metodi usati si basavano sull’uso di reti neurali profonde, addestrate a predire le proprietà della proteina dalla sua sequenza genetica.
“Le proprietà che le nostre reti prevedono sono: (a) le distanze tra le coppie di amminoacidi e (b) gli angoli tra i legami chimici che collegano quegli amminoacidi. Il primo sviluppo è un progresso sulle tecniche comunemente usate che stimano se coppie di amminoacidi sono vicine l’una all’altra.
Abbiamo addestrato una rete neurale per prevedere una distribuzione separata delle distanze tra ogni coppia di residui in una proteina. Queste probabilità sono state quindi combinate in un punteggio che stima quanto sia accurata una struttura proteica proposta. Abbiamo anche addestrato una rete neurale separata che utilizza tutte le distanze in aggregato per stimare quanto vicina sia la struttura proposta alla risposta giusta”.
L’AI al servizio della biologia strutturale
Quindi ha usato nuovi metodi per provare a costruire previsioni di strutture proteiche, cercando strutture note che corrispondessero alle sue previsioni.
“Il nostro primo metodo si basava su tecniche comunemente usate nella biologia strutturale e sostituiva ripetutamente pezzi di una struttura proteica con nuovi frammenti proteici. Abbiamo addestrato una rete neurale generativa per inventare nuovi frammenti, che sono stati usati per migliorare continuamente il punteggio della struttura proteica proposta. Invece il secondo metodo ha ottimizzato i punteggi attraverso la discesa del gradiente – una tecnica matematica comunemente utilizzata nell’apprendimento automatico per apportare piccoli miglioramenti incrementali – che ha portato a strutture estremamente accurate. Questa tecnica è stata applicata ad intere catene proteiche piuttosto che a pezzi che devono essere piegati separatamente prima di essere assemblati, riducendo la complessità del processo di predizione“.
DeepMind descrive i risultati ottenuti fino ad ora come i primi segni di progresso nel ripiegamento delle proteine, usando appunto metodi computazionali e affermando che dimostrano l’utilità dell’intelligenza artificiale per la scoperta scientifica.
“Anche se c’è molto più lavoro da fare prima di poter avere un impatto quantificabile sul trattamento delle malattie, sulla gestione dell’ambiente e altro, sappiamo che il potenziale è enorme. Con un team dedicato incentrato sull’approfondimento su come l’apprendimento automatico può far progredire il mondo della scienza, non vediamo l’ora di vedere i molti modi in cui la nostra tecnologia può fare la differenza“.