trzeci_beamer.pdf
(
299 KB
)
Pobierz
Bioinformatyka Wyklad I
Bioinformatyka
III.Dopasowania(alignment’y)sekwencji.
dr Marcin Goł¦biewski
Zakład Biotechnologii,
Wydział Biologii i Nauk o Ziemi,
Uniwersytet Mikołaja Kopernika,
Toru«
MarcinGoł¦biewskiPh.D. BioinformatykaWykładI
Wst¦p
Najprostszy rodzaj analizy sekwencji polega na stwierdzeniu, czy
dwie sekwencje s¡ do siebie podobne. Na ogół analiza taka
rozbijana jest na dwa etapy:
dopasowanie do siebie sekwencji (
konstrukcja alignment’u
)
ocena, czy alignment jest wynikiem rzeczywistego
podobie«stwa, czy przypadku
Ten rodzaj analizy jest obecnie jednym z kluczowych zada«
bioinformatyki - na tym polega przeszukiwanie baz sekwencji.
Dla stwierdzenia podobie«stwa sekwencji kluczowe s¡
1
dobór typu alignmentu
2
wybór parametrów (macierzy wagowej i kar za przerwy)
3
algorytm konstruuj¡cy alignment
4
metoda oceny statystycznej istotno±ci dopasowania
MarcinGoł¦biewskiPh.D. BioinformatykaWykładI
Cotojestalignment?
Niech
A
b¦dzie alfabetem (np.
A
=
{
A
,
T
,
G
,
C
}
dla sekwencji
nukleotydowej) z którego pochodz¡ symbole w dwóch zbiorach X i
Y o liczno±ciach odpowiednio
n
i
m
(
i
=
0
,
1
...
n
,
x
i
2A
i
j
=
0
,
1
...
m
,
y
j
2A
).
Zbiory te nazywamy sekwencjami
.
Alignment’em sekwencji X i Y nazywamy uporz¡dkowany
zbiór par
P
l
=(
x
i
l
,
y
j
l
)
, takich, »e
8
li
l
>
i
l
−
1
^
j
l
>
j
l
−
1
.
i=01234g 5(g=2)
x=ATGCA--A
y=A-GCATTA
j=0g123456(g=1)
P
l
=(
x
0
,
y
0
)
,
(
x
2
,
y
1
)
,
(
x
3
,
y
2
)
,
(
x
4
,
y
3
)
,
(
x
5
,
y
6
)
MarcinGoł¦biewskiPh.D. BioinformatykaWykładI
Scorealignmentu
Ocen¡ (
score
) alignment’u nazywamy liczb¦
S
=
P
l
W
(
P
l
)+
P
g
GP
(
g
)
, gdzie
W
(
P
l
)
jest tzw. macierz¡
wagow¡
weight matrix
), natomiast
GP
(
g
)
jest funkcj¡
wa»¡c¡ przerwy w zale»no±ci od ich długo±ci (
gap penalty
).
Alignment o najwy»szym mo»liwym score (przy danej
macierzy wagowej i funkcji wa»¡cej przerwy) nazywamy
alignment’em optymalnym
.
MarcinGoł¦biewskiPh.D. BioinformatykaWykładI
Alignmentznacz¡cyvsnieznacz¡cy
Je»eli zało»ymy, »e alignment jest biologicznie znacz¡cy,
odpowiada to stwierdzeniu, »e poszczególne dopasowane
pozycje w sekwencjach powstały na drodze ewolucji z
jednej sekwencji “przodka”. Niestety, nie ka»dy
alignment optymalny w sensie najwy»szego score jest
alignment’em znacz¡cym biologicznie
.
Traktowanie score jako wielko±ci addytywnej zakłada, »e
poszczególne pozycje w alignment’cie s¡ od siebie
niezale»ne - czyli ewoluowały niezale»nie.
Zało»enie to jest
fałszywe, jednak z dobrym przybli»eniem mo»e by¢ stosowane
w przypadku DNA i białek, nie daje si¦ natomiast stosowa¢ do
RNA.
MarcinGoł¦biewskiPh.D. BioinformatykaWykładI
Plik z chomika:
xyzgeo
Inne pliki z tego folderu:
pierwszy_beamer.pdf
(591 KB)
drugi_beamer.pdf
(669 KB)
trzeci_beamer.pdf
(299 KB)
czwarty_beamer.pdf
(289 KB)
Inne foldery tego chomika:
0
algorytmika
artykuly
Bioinformatyka (patryska89)
bIOINFORMATYKA (waldiguzek)
Zgłoś jeśli
naruszono regulamin