august 1, 2021

Nettnord.no

Næringsnett Nord-Troms

Google lanserer AlphaFold over det menneskelige genom

Google lanserer AlphaFold over det menneskelige genom

Bare en uke etter at Googles DeepMind-gruppe for kunstig intelligens endelig skisserte sin biologiinnsats i detalj, publiserer selskapet et papir som forklarer hvordan det analyserte nesten alle kodede proteiner i det menneskelige genomet og forutsa den sannsynlige tredimensjonale strukturen, en som kan være kritisk. å forstå sykdommen og designe behandlinger. I den nærmeste fremtiden vil alle disse strukturene bli frigitt under en Creative Commons-lisens gjennom European Institute of Bioinformatics, som allerede huser en stor database med proteinstrukturer.

På en pressekonferanse i forbindelse med utgivelsen av dokumentet, gjorde DeepMinds Demis Hassabis det klart at selskapet ikke stopper der. I tillegg til arbeidet som er beskrevet i avisen, vil selskapet frigjøre strukturelle spådommer for genomene til 20 store forskningsorganismer, fra gjær til fruktfluer og mus. Totalt vil databaseutgivelsen omfatte omtrent 350 000 proteinstrukturer.

Hva er i en struktur?

OSS nettopp beskrev DeepMind-programvaren i forrige uke, så vi vil ikke gå så mye i detaljer her. Innsatsen er et kunstig intelligensbasert system trent på strukturen til eksisterende proteiner som har blitt bestemt (ofte arbeidskrevende) gjennom laboratorieeksperimenter. Systemet bruker den treningen, pluss informasjonen den får fra familier av proteiner relatert til evolusjon, for å forutsi hvordan et proteinkjede av aminosyrer bretter seg i et tredimensjonalt rom.

Den resulterende tredimensjonale strukturen kan gi oss kritisk informasjon om proteinet, for eksempel hvordan det samhandler med andre proteiner og kjemikalier og hvor i proteinet kjemiske reaksjoner oppstår. Ved å bruke strukturen kan forskere lære hvordan spesifikke mutasjoner, som de som forårsaker genetiske sykdommer, endrer funksjonen til proteinet. Forskere kan også bruke strukturen til å designe kjemikalier som kan samhandle med proteinet og endre dets funksjon, noe som har ført til terapier for ulike kreftformer og HIV.

Vanligvis bestemmes disse strukturene ved å isolere proteinet, forberede det for bildebehandling og bombardere det med elektroner. Disse teknikkene er vanskelige, tidkrevende og mislykkes ofte. Artikkelen anslår at flere tiår med laboratoriearbeid har gitt oss strukturell informasjon for bare 17 prosent av det komplette settet med humane proteiner.

Det forklarer hvorfor forskere også har brukt tiår på å lete etter måter å forutsi proteinstrukturer ved å bruke ingenting mer enn aminosyresekvensen som utgjør dem. Men før AlphaFold var nøyaktigheten av programvaren ikke høy nok til å være gjennomgående nyttig.

Samlingen av humane proteiner

DeepMind forsøkte ikke å forutsi strukturen til hvert protein i det menneskelige genomet; noen er rett og slett for store til å håndtere dem komfortabelt. (Selskapet satte størrelsesgrensen på 2700 aminosyrer, som dessverre er mindre enn et gen jeg brukte en del av min postdoktorale kloning på.) Men de fleste proteiner er mye mindre enn det, så det endelige antallet er 98,5 prosent av det som forventes. proteiner i genomet. Noen av disse proteinene antas bare å eksistere basert på egenskapene til DNA-sekvensene i det menneskelige genomet.

Like viktig inkluderer AlphaFold et tillitsestimat som registrerer sannsynligheten for at spådommene er nøyaktige. Totalt sett er programvaren trygg på plasseringen av omtrent 60 prosent av aminosyrene den har spådd, og er veldig trygg på litt over en tredjedel. Med andre ord har forskerne en sikker spådom på det meste av strukturen til 40 prosent av humane proteiner. Åpenbart betyr det at det er mye arbeid som skal gjøres før vi kan si at vi har et godt håndtak på hele settet med humane proteiner. Men det er fortsatt en mye mer enn 18 prosent som vi har faktiske strukturer for.

Det er også en stor samling proteiner som ikke er godt representert av eksisterende strukturer. De som er innebygd i membranen til en celle er vanskelige å isolere og jobbe med, så forskere har ikke løst mange strukturer av disse membranproteinene. Men til tross for at færre eksempler er i treningsdataene, ser AlphaFold ut til å håndtere strukturer rimelig bra.

Hvor er systemet i trøbbel? Mange proteiner rett og slett ikke danne en bestemt struktur—Faktisk synes funksjonen å avhenge av å ha en helt fleksibel struktur for å fungere. Åpenbart er det vanskelig å lage nøyaktige forutsigelser av en struktur her, da disse proteinene (mer typisk proteinseksjoner) ikke har noen. Det er også mange proteiner som bare får strukturen når de er i kontakt med et annet protein eller et kjemikalie. Siden AlphaFold ikke har den informasjonen, er det ikke mye den kan gjøre.

Samlet sett fant DeepMind-teamet at AlphaFold hadde veldig liten tillit til deres spådommer for uordnede regioner, og de kunne bruke denne informasjonen til å identifisere områder med proteiner som sannsynligvis er ustrukturerte.

Alt blir offentliggjort

På et tidspunkt i nær fremtid (muligens når du leser dette) vil all denne informasjonen være tilgjengelig på et dedikert nettsted vert for European Institute of Bioinformatics, en EU-finansiert organisasjon som delvis beskriver seg selv som følger: “Vi gjør verdens offentlige biologiske data fritt tilgjengelig for det vitenskapelige samfunnet gjennom en rekke tjenester og verktøy”. AlphaFold-data vil ikke være et unntak; Når lenken ovenfor er aktiv, kan alle bruke den til å laste ned informasjon om det humane proteinet du ønsker.

Eller, som nevnt ovenfor, musen, gjæren eller fruktflueversjonen. De 20 byråene som vil se dataene dine er bare en start. Demis Hassabis fra DeepMind sa at teamet i løpet av de neste månedene vil fokusere på alle gensekvensene som er tilgjengelige i DNA-databaser. Når dette arbeidet er gjort, burde mer enn 100 millioner proteiner ha forutsagt strukturer. Hassabis avsluttet sin del av kunngjøringen med å si: “Vi tror dette er det viktigste bidraget AI har gitt til vitenskapen til dags dato.” Det ville være vanskelig å argumentere for noe annet.

Når det er sagt, er det fortsatt noen problemer som skal løses. Utvilsomt vil forbedringer av algoritmen bli gjort over tid, så et system vil være nødvendig for å håndtere oppdateringen og versjonskontrollen i hoveddatabasen. DeepMind har også laget AlphaFold åpen kildekode, så det er mulighet for bifurkasjoner og andre komplikasjoner.

Men disse problemene er bekymringer for fremtiden. For nå kan vi alle lene oss tilbake og se serverne gå ut av deres måte å imøtekomme nesten alle biologer på planeten som er nysgjerrige på å se om et protein de er interessert i har en struktur av høy kvalitet.

(Med unntak av den ydmyke forfatteren, da proteinet jeg valgte var for stort.)

Natur, 2021. DOI: 10.1038 / s41586-021-03828-1 (Om DOI).

READ  SpaceX legger til laserkoblinger til Starlink-satellitter for å betjene jordens polarområder