Mikromacierze DNA – analiza danych.pdf

(3047 KB) Pobierz
untitled
PRACE PRZEGL¥DOWE
Mikromacierze DNA – analiza
danych
Piotr Stêpniak 1 , Luiza Handschuh 1,2 , Marek Figlerowicz 1
1 Centrum Doskona³oœci CENAT, Instytut Chemii Bioorganicznej,
Polska Akademia Nauk, Poznañ
2 Katedra i Klinika Hematologii i Chorób Rozrostowych Krwi,
Uniwersytet Medyczny im. K. Marcinkowskiego, Poznañ
DNA microarray data anlysis
Summary
The paper gives an overview of common methods applied in microarray
data analysis. High density oligonucleotide and low density home made
microarray types are being considered. Presented exploration procedures fol-
low preprocessing and higher analysis steps, including example methods. De-
scribing higher analysis algorithms we focus on implementation of pattern
search and machine learning approaches.
Key words:
DNA microarrays, microarray data analysis, background correction, normal-
ization, summarization, filtration, clustering, support vector machines.
1. Wstêp
Adres do korespondencji
Piotr Stêpniak,
Instytut Chemii
Bioorganicznej,
Polska Akademia Nauk,
ul. Noskowskiego 12/14,
61-704 Poznañ;
e-mail:
piotrek.stepniak@gmail.com
Mikromacierze stanowi¹ szczególnie interesuj¹ce narzêdzie
wspó³czesnej biologii molekularnej, nie tylko ze wzglêdu na sze-
rokie spektrum zastosowañ (analiza struktury genomu, profilu
ekspresji genów, genotypowanie, sekwencjonowanie), aleizuwagi
na mo¿liwoœæ badania du¿ej liczby obiektów w jednym ekspery-
mencie. Jednak¿e wy³onienie istotnych informacji z ogromnej
iloœci danych uzyskiwanych przy u¿yciu mikromacierzy wymaga
zastosowania wyrafinowanych metod bioinformatycznych. W ar-
tykule zaprezentowano próbê przybli¿enia podstaw tego zagad-
nienia i omówiono wybrane metody analityczne.
4 (83) 68–87 2008
274148115.001.png 274148115.002.png
Mikromacierze DNA – analiza danych
G³ówne etapy eksperymentu mikromacierzowego zaprezentowane zosta³y na ry-
sunku 1. Na tej podstawie mo¿na stwierdziæ, ¿e wynikiem koñcowym tzw. „mokrej”
czêœci eksperymentu jest mikromacierz, z któr¹ zwi¹zana zosta³a wyznakowana flu-
orescencyjnie próba. Nastêpnie p³ytkê tak¹ poddaje siê skanowaniu za pomoc¹
czytnika laserowego i uzyskuje obraz ukazuj¹cy, z jak¹ intensywnoœci¹ œwiec¹ punk-
ty (ang. spots ) zawieraj¹ce sondy specyficzne dla poszczególnych genów. W kolej-
nym etapie ka¿demu punktowi przyporz¹dkowana zostaje liczba okreœlaj¹ca natê-
¿enie fluorescencji. Uzyskane w ten sposób „surowe” dane liczbowe poddawane s¹
najpierw normalizacji lokalnej (w obrêbie pojedynczej p³ytki), a nastêpnie globalnej
(w obrêbie wszystkich mikromacierzy sk³adaj¹cych siê na eksperyment). Na ka¿dym
z etapów sprawdza siê jakoœæ mikromacierzy wykluczaj¹c takie, które maj¹ powa¿-
ne defekty techniczne. Nastêpny etap zwany jest filtrowaniem genów i ma na celu
wybranie tzw. genów ró¿nicuj¹cych, których ekspresja zmienia siê istotnie w bada-
nych warunkach, oraz odrzucenie tych, które nie daj¹ ¿adnego sygna³u. Na podsta-
wie tak zredukowanego zestawu genów prowadzi siê analizy wy¿szego rzêdu, po-
szukuj¹c grup genów o podobnym/odmiennym profilu ekspresji. Na zakoñczenie
uzyskane wyniki poddawane s¹ interpretacji biologicznej, polegaj¹cej na powi¹za-
Rys. 1. Schematyczny opis eksperymentu mikromacierzowego.
BIOTECHNOLOGIA 4 (83) 68-87 2008
69
274148115.003.png
Piotr Stêpniak, Luiza Handschuh, Marek Figlerowicz
Rys. 2. Schematyczny opis procesu analizy danych.
niu obserwowanych zmian w poziomie ekspresji genów z fizjologicznymi b¹dŸ pa-
tologicznymi procesami zachodz¹cymi w badanym organizmie. Przebieg analizy
przedstawiono schematycznie na rysunku 2.
2. Iloœciowa analiza obrazu
W przypadku produkowanych komercyjnie mikromacierzy, np. wysokiej gêstoœci
chipów firmy Affymetrix, etapowi odczytu obrazu poœwiêca siê ma³o uwagi, gdy¿
sprowadza siê on do zliczenia intensywnoœci obserwowanych punktów w sektorze
zawieraj¹cym konkretn¹ sondê. Proces ten przebiega w pe³ni automatycznie. Tro-
chê wiêcej uwagi wymagaj¹ mikromacierze drukowane, gdy¿ czêsto konieczne jest
dopasowanie siatki rozmieszczenia punktów do ich rzeczywistego po³o¿enia na
szkie³ku. Istnieje kilka algorytmów stosowanych do odczytu obrazu. Podstawowe
algorytmy to: niezmiennego ko³a (ang. fixed circle ), dopasowanego ko³a (ang. adap-
tive circle ) i histogramu, przy czym ostatnie dwa uwzglêdniaj¹ ró¿nice w wielkoœci
punktów. Interesuj¹cym rozwi¹zaniem jest te¿ algorytm seed region growing , który
obrysowuje ka¿dy punkt z osobna. Niestety ¿aden nie jest odporny na b³êdy, które
trzeba usuwaæ manualnie. Ka¿dej kropce przypisywany jest status (ang. good, bad,
absent, found, not found ) zakodowany w formie cyfrowej. Ten proces nosi nazwê fla-
gowania. Po zakoñczeniu iloœciowej analizy obrazu (ang. quantitation ) otrzymujemy
plik tekstowy z szeregiem informacji zawartych w tabeli, w której w wierszach znaj-
duj¹ siê informacje dla poszczególnych sond, a w kolumnach odpowiednie wartoœci.
70
PRACE PRZEGL¥DOWE
274148115.004.png
Mikromacierze DNA – analiza danych
Intensywnoœæ sygna³u jest zwykle podawana jako mediana lub œrednia z punktów
dla danej sondy. Wœród pozosta³ych danych znajduj¹ siê m.in. po³o¿enie i identyfi-
kator (nazwa sondy), ID punktu, intensywnoœæ t³a (w postaci mediany i/lub œredniej),
wartoœci odchyleñ standardowych intensywnoœci punktów w obrêbie sondy i status
kropki. Po wykonaniu korekty t³a mo¿na przyst¹piæ do analizy ni¿szego rzêdu, czyli
normalizacji danych. Czêœæ algorytmów normalizacyjnych dodatkowo wstêpnie do-
konuje korekty t³a korzystaj¹c z surowych danych (ang. probe-level data ).
3. Wstêpna obróbka danych
Normalizacja danych umo¿liwia porównanie wyników zarówno w obrêbie jednej
mikromacierzy, jaki i pomiêdzy mikromacierzami. G³ównym celem normalizacji jest
niwelacja tej czêœci sygna³u, która jest efektem niedoskona³oœci technicznych takich
jak nierównomierne odmycie poszczególnych regionów macierzy, ró¿nice w natê¿e-
niu sygna³u emitowanego przez zastosowane barwniki fluorescencyjne czy ró¿nice
w wydajnoœci znakowania kolejnych próbek. Wykrywanie b³êdów technicznych u³at-
wia sama konstrukcja mikromacierzy, zak³adaj¹ca umieszczenie kilku–kilkunastu
powtórzeñ tej samej sondy w ró¿nych miejscach oraz zastosowanie zestawu spe-
cjalnych sond kontrolnych (ang. spikes ), które nie powinny hybrydyzowaæ z badanym
materia³em, a jedynie z komplementarnymi sekwencjami dodanymi w odpowiedniej
iloœci na etapie znakowania (kontrole zewnêtrzne). Sondy te s¹ bardzo u¿yteczne
podczas normalizacji w obrêbie wielu mikromacierzy, maj¹c przewagê nad sondami
specyficznymi dla genów o ekspresji konstytutywnej (ang. housekeeping genes ), które
jak dowiedziono nie wykazuj¹ absolutnie sta³ego poziomu transkrypcji (1).
Zabiegi przygotowuj¹ce dane z mikromacierzy do w³aœciwej analizy bioinforma-
tycznej, nazywa siê wstêpn¹ obróbk¹ danych (ang. preprocessing ). Jej przebieg zale¿y
w g³ównej mierze od sposobu, w jaki analizowana macierz zosta³a skonstruowana,
tzn. czy jest to macierz o wysokiej gêstoœci czy drukowana.
3.1. Wstêpna obróbka danych uzyskiwanych przy zastosowaniu oligonukleoty-
dowych mikromacierzy DNA o wysokiej gêstoœci
Ze wzglêdu na fakt, ¿e mikromacierze wysokiej gêstoœci ciesz¹ siê wci¹¿ najwiêk-
sz¹ popularnoœci¹, dostêpnych jest wiele gotowych programów przeznaczonych do
obróbki wstêpnej danych. Zwykle sk³ada siê ona z trzech etapów: korekty t³a (ang.
background adjustment ), normalizacji i sumaryzacji (ang. summarisation ). Korzystaj¹c
z poszczególnych metod pamiêtaæ nale¿y, ¿e czêsto w znacz¹cy sposób wp³ywaj¹
one na ostateczny rezultat analizy.
Mikromacierze firmy Affymetrix (2) z³o¿one s¹ z krótkich, 25-merowowych sond
oligonukleotydowych, zorganizowanych w zespo³y 11-20 par komplementarnych do
BIOTECHNOLOGIA 4 (83) 68-87 2008
71
Piotr Stêpniak, Luiza Handschuh, Marek Figlerowicz
ró¿nych regionów tego samego transkryptu, co zapewnia wy¿sz¹ czu³oœæ detekcji
sygna³u. Ka¿da para sk³ada siê z sondy w pe³ni komplementarnej (PM, ang. perfect
match ) oraz posiadaj¹cej 1 niekomplementarny nukleotyd w pozycji 13 (MM, ang.
mismatch ), co ma s³u¿yæ podwy¿szeniu specyficznoœci sygna³u po hybrydyzacji oraz
okreœleniu wartoœci t³a. Ze wzglêdu na gêste upakowanie sond na chipie bezpoœred-
ni pomiar intensywnoœci t³a p³ytki jest niemo¿liwy. Teoretycznie w³aœciwy sygna³
powinno siê zatem otrzymaæ po odjêciu wartoœci sygna³u MM od wartoœci PM. Jed-
nak ju¿ przy wprowadzaniu korekty t³a pojawia siê problem, poniewa¿ w praktyce
ok. 30% sond MM ma wy¿sz¹ wartoœæ sygna³u ni¿ odpowiadaj¹ca im sonda PM (3).
W efekcie generowane s¹ ujemne wartoœci intensywnoœci sygna³u, co nie tylko nie
ma sensu merytorycznego, ale równie¿ uniemo¿liwia stosowanie funkcji logaryt-
micznych w dalszej czêœci analizy.
Do najpopularniejszych metod korekty t³a nale¿¹ MAS 5.0 (nazwa pochodzi od
skrótu programu j¹ implementuj¹cego – Microarray Suite 5.0 , Affymetrix, 2002) oraz
RMA (ang. Robust Multi-array Analysis , (4)).
W przypadku MAS 5.0 chip dzielony jest na k regionów (domyœlnie 16), po czym
dla ka¿dego z nich 2% najni¿szej intensywnoœci sygna³u jest u¿ywane do wyliczenia
t³a. Nastêpnie do korekty sygna³u sondy u¿ywa siê œredniej wa¿onej wszystkich war-
toœci t³a, gdzie waga zale¿y od odleg³oœci sondy od centroidu regionu. Dodatkowo
algorytm zapobiega powstaniu ujemnych wartoœci intensywnoœci oraz w regionach
o niskiej intensywnoœci zmniejsza jej negatywny efekt w stosunku do ca³ej mikro-
macierzy.
W metodzie RMA korekta t³a odbywa siê jedynie na podstawie wartoœci inten-
sywnoœci przypisanych sondom PM, na bazie globalnego modelu rozk³adu ich inten-
sywnoœci. Wartoœæ intensywnoœci sygna³u jest modelowana jako suma sk³adnika t³a
(o przyjêtym rozk³adzie wg krzywej Gaussa), z uwzglêdnieniem jego œredniej i od-
chylenia standardowego oraz sk³adnika sygna³u w funkcji ekspotencjalnej z uwzglêd-
nieniem jego œredniej, a tak¿e z wykorzystaniem funkcji rozk³adu normalnego i gê-
stoœci. Aby unikn¹æ ujemnych wartoœci wykorzystywana jest tylko dodatnia czêœæ
rozk³adu normalnego.
Kolejnym etapem wstêpnej obróbki danych jest normalizacja, która polega na ta-
kim przekszta³ceniu danych, aby mo¿na by³o porównywaæ ich wartoœci pomiêdzy
eksperymentami (mikromacierzami). Podstawow¹ metod¹ proponowan¹ przez Affy-
metrix jest skalowanie. Spoœród wszystkich mikromacierzy wybiera siê jedn¹, która
pos³u¿y jako podstawa normalizacji (wzorzec). W przypadku pozosta³ych macierzy
intensywnoœæ wszystkich sygna³ów zostaje proporcjonalnie zwiêkszona/zmniejszo-
na tak, aby jej œrednia wartoœæ by³a identyczna z obliczon¹ dla wzorca. W modyfika-
cji metody podczas obliczania œredniej odrzuca siê po 2% najsilniejszych i najs³ab-
szych sygna³ów. Affymetrix zaleca przeprowadzaæ skalowanie po obliczeniu wartoœ-
ci ekspresji dla zestawu sond specyficznych dla danego genu (ang. expression values ),
czyli po etapie sumaryzacji, ale mo¿na tê procedurê zastosowaæ równie¿ na suro-
wych danych (ang. probe-level data ).
72
PRACE PRZEGL¥DOWE
Zgłoś jeśli naruszono regulamin