trzeci_beamer.pdf

(299 KB) Pobierz
Bioinformatyka Wyklad I
Bioinformatyka
III.Dopasowania(alignment’y)sekwencji.
dr Marcin Goł¦biewski
Zakład Biotechnologii,
Wydział Biologii i Nauk o Ziemi,
Uniwersytet Mikołaja Kopernika,
Toru«
MarcinGoł¦biewskiPh.D. BioinformatykaWykładI
27611116.003.png 27611116.004.png
Wst¦p
Najprostszy rodzaj analizy sekwencji polega na stwierdzeniu, czy
dwie sekwencje s¡ do siebie podobne. Na ogół analiza taka
rozbijana jest na dwa etapy:
dopasowanie do siebie sekwencji ( konstrukcja alignment’u )
ocena, czy alignment jest wynikiem rzeczywistego
podobie«stwa, czy przypadku
Ten rodzaj analizy jest obecnie jednym z kluczowych zada«
bioinformatyki - na tym polega przeszukiwanie baz sekwencji.
Dla stwierdzenia podobie«stwa sekwencji kluczowe s¡
1 dobór typu alignmentu
2 wybór parametrów (macierzy wagowej i kar za przerwy)
3 algorytm konstruuj¡cy alignment
4 metoda oceny statystycznej istotno±ci dopasowania
MarcinGoł¦biewskiPh.D. BioinformatykaWykładI
27611116.005.png
Cotojestalignment?
Niech A b¦dzie alfabetem (np. A = { A , T , G , C } dla sekwencji
nukleotydowej) z którego pochodz¡ symbole w dwóch zbiorach X i
Y o liczno±ciach odpowiednio n i m ( i = 0 , 1 ... n , x i 2A i
j = 0 , 1 ... m , y j 2A ).
Zbiory te nazywamy sekwencjami .
Alignment’em sekwencji X i Y nazywamy uporz¡dkowany
zbiór par P l =( x i l , y j l ) , takich, »e 8 li l > i l 1 ^ j l > j l 1 .
i=01234g 5(g=2)
x=ATGCA--A
y=A-GCATTA
j=0g123456(g=1)
P l =( x 0 , y 0 ) , ( x 2 , y 1 ) , ( x 3 , y 2 ) , ( x 4 , y 3 ) , ( x 5 , y 6 )
MarcinGoł¦biewskiPh.D. BioinformatykaWykładI
27611116.006.png
Scorealignmentu
Ocen¡ ( score ) alignment’u nazywamy liczb¦
S = P l W ( P l )+ P g GP ( g ) , gdzie W ( P l ) jest tzw. macierz¡
wagow¡ weight matrix ), natomiast GP ( g ) jest funkcj¡
wa»¡c¡ przerwy w zale»no±ci od ich długo±ci ( gap penalty ).
Alignment o najwy»szym mo»liwym score (przy danej
macierzy wagowej i funkcji wa»¡cej przerwy) nazywamy
alignment’em optymalnym .
MarcinGoł¦biewskiPh.D. BioinformatykaWykładI
27611116.001.png
Alignmentznacz¡cyvsnieznacz¡cy
Je»eli zało»ymy, »e alignment jest biologicznie znacz¡cy,
odpowiada to stwierdzeniu, »e poszczególne dopasowane
pozycje w sekwencjach powstały na drodze ewolucji z
jednej sekwencji “przodka”. Niestety, nie ka»dy
alignment optymalny w sensie najwy»szego score jest
alignment’em znacz¡cym biologicznie .
Traktowanie score jako wielko±ci addytywnej zakłada, »e
poszczególne pozycje w alignment’cie s¡ od siebie
niezale»ne - czyli ewoluowały niezale»nie. Zało»enie to jest
fałszywe, jednak z dobrym przybli»eniem mo»e by¢ stosowane
w przypadku DNA i białek, nie daje si¦ natomiast stosowa¢ do
RNA.
MarcinGoł¦biewskiPh.D. BioinformatykaWykładI
27611116.002.png
Zgłoś jeśli naruszono regulamin