Pseudo aminokiselinska kompozicija

Izvor: testwiki
Prijeđi na navigaciju Prijeđi na pretragu

Pseudo aminokiselinska kompozicija, ili PseAA kompozicija, je reprezentacija proteinskih uzoraka. Definisao ju je Kuo-Chen Chou 2001. da bi poboljšao predviđanje proteinske subcelularne lokalizacije, kao i predviđanje tipa membranskih proteina.[1]

Uvod

Da bi se predvidela subcelularna lokalizacija proteina i drugih atributa na osnovu njihove sekvence, dva tipa modela se generalno koriste za reprezentaciju proteinskih uzoraka: (1) sekvencioni model, i (2) diskretni model.

Najtipičnija sekvenciona reprezentacija proteinskog uzorka je njegova celokupna aminokiselinska (AA) sekvenca, koja sadrži najkompletniju informaciju. To je jedna od očiglednih prednosti sekvencionih modela. Da bi se dobili željeni rezultati, obično se koriste alati za pretragu sličnosti sekvenci u formiranju predikcija. Međutim, ta vrsta pristupa nije efektivna kad upitni protein ne poseduje značajnu homologiju sa proteinima da poznatim atributima. Iz tog razloga, razni diskretni modeli su bili predloženi.

Najjednostavniji diskretni model je upotreba aminokiselinske kompozicije (AAC) za reprezentaciju proteinskih uzoraka, koji su formulisani na sledeći način. Data proteinska sekvenca P sa L aminokiselinskih ostataka, i.e.,

  • 𝐏=[R1R2R3R4R5R6R7RL](1)

gde R1 označava prvi ostatak proteina P, R2 drugi ostatak, itd., u saglasnošću sa modelom aminokiselinske kompozicije (AAC), protein P jednačine 1 može biti izražen kao

  • 𝐏=[f1f2f20]𝐓(2)

gde su fu(u=1,2,,20) normalizovane frekvencije pojavljivanja 20 prirodnih aminokiselina u P, i T je transpozicioni operator. U skladu s tim, aminokiselinski sastav proteina se može lako izvesti kad je proteinska sekvenca poznata.

Zbog svoje jednostavnosti, model aminokiselinskog sastava (AAC) je bio široko korišten u mnogim ranijim statističkim metodama za predviđanje proteinskih atribute. Međutim, celokupna informacija o sekventnom redosledu se gubi upotrebom AA kompozicije za reprezentaciju proteina. To je glavni nedostatak ovog metoda.

Koncept

Koncept PseAA (pseudo aminokiselinske) kompozicije je predložen da bi se izbeglo potpuno gubljenje informacije o redosledu.[1] U kontrastu sa konvencionalnom aminokiselinskom kompozicijom koja sadrži 20 komponenti koje reflektuju frekvenciju zastupljenosti 20 prirodnih aminokiselina proteina, PseAA kompozicija sadrži više od 20 diskretnih faktora, gde prvih 20 reprezentuju komponente konvencionalne AA kompozicije, dok dodatni faktori inkorporiraju deo informacije o redu sekvence putem raznih modova.

Dodatni faktori su serije korelacionih faktora različitih rangova duž proteinskog lanca. Oni su takođe mogu da budu kombinacije drugih faktora, dokle god ti faktori reflektuju na neki način red sekvence. Rani načini kojima se može formulisati PseAA kompozicija su razvijeni.[2] Dakle, suština PseAA kompozicije je da dok ona sadrži AA kompoziciju, ona takođe sadrži informaciju izvan AA kompozicije, i iz tog razloga bolje reflektuje osobine proteinske sekvence u diskretnim modelima.

Algoritam

Na osnovu PseAA kompozicionog modela, protein P iz jednačine 1 se može formulisati kao

  • 𝐏=[p1,p2,,p20,p20+1,,p20+λ]𝐓,(λ<L)(3)

gde su (20+λ) komponente date se

  • pu={fui=120fi+wk=1λτk,(1u20)wτu20i=120fi+wk=1λτk,(20+1u20+λ)(4)

gde je w faktor težine, i τk je k-ti korelacioni faktor koji odražava red sekvence u korelaciji između svih k-tih najbližih ostataka, kao što je formulisano sa

  • τk=1Lki=1LkJi,i+k,(k<L)(5)

sa

  • Ji,i+k=1Γq=1Γ[Φq(Ri+k)Φq(Ri)]2(6)

gde je Φq(Ri) q-ta funkcija aminokiseline Ri, i Γ je totalni broj funkcija uzetih u obzir.

Primene

Od uvođenja PseAA kompozicije, ona je bila široko korišćena za predviđanje raznih osobina proteina, kao što su strukturne klase proteina,[3][4][5][6] klasa i podklasa enzimskih familija,[7][8] subcelularne lokacije proteina,[9][10][11][12][13] pod-nukleinske lokacije proteina,[14][15][16] apoptozne proteinske subcelularne lokalizacije,[17][18] pod-mitohondrjske lokalizacije,[19][20] proteinske kvaternarne strukture,[21][22] klasifikaciju konotoksinske superfamilije i familije,[23][24] tipova proteaza,[25] tipova G protein-spregnutih receptora,[26][27] ljudskih papilomavirusa,[28] proteina spoljašnje membrane,[29] transmembranskih regiona proteina,[30] proteinskog sekundarnog strukturnog kontenta,[31] subcelularne lokalizacije mikobakterijskih proteina,[32] tipova lipaza,[33] DNK-vezujućih proteina,[34] litičkih enzima ćelijskog zida,[35] kofaktora oksidoreduktaza,[36] kao i drugih proteinskih atributima i osobina[37].

Otkako je pojam PseAA kompozicija uveden, on se naširoko koristi za predviđanje različitih proteinskih atributa. Takođe je bio korišten da se uključe proteinski domeni i GO (Ontologija gena) informacije za poboljšanje kvaliteta predviđanja subcelularne lokalizacije proteina[38] kao i njihovi drugi atributi.

U međuvremenu, koncept PseAA kompozicije je takođe podstakao stvaranje pseudo topoloških indeksa savijanja.[39][40][41]

Reference

Šablon:Reflist

Literatura

Šablon:Refbegin

Šablon:Refend