Mikromacierze DNA – analiza danych.pdf - Genetyka, DNA, biologia molekularna, techniki - Pix8

PRACE PRZEGL¥DOWE

Mikromacierze DNA – analiza

danych

Piotr Stêpniak 1 , Luiza Handschuh 1,2 , Marek Figlerowicz 1

1 Centrum Doskona³oœci CENAT, Instytut Chemii Bioorganicznej,

Polska Akademia Nauk, Poznañ

2 Katedra i Klinika Hematologii i Chorób Rozrostowych Krwi,

Uniwersytet Medyczny im. K. Marcinkowskiego, Poznañ

DNA microarray data anlysis

Summary

The paper gives an overview of common methods applied in microarray

data analysis. High density oligonucleotide and low density home made

microarray types are being considered. Presented exploration procedures fol-

low preprocessing and higher analysis steps, including example methods. De-

scribing higher analysis algorithms we focus on implementation of pattern

search and machine learning approaches.

Key words:

DNA microarrays, microarray data analysis, background correction, normal-

ization, summarization, filtration, clustering, support vector machines.

1. Wstêp

Adres do korespondencji

Piotr Stêpniak,

Instytut Chemii

Bioorganicznej,

Polska Akademia Nauk,

ul. Noskowskiego 12/14,

61-704 Poznañ;

e-mail:

piotrek.stepniak@gmail.com

Mikromacierze stanowi¹ szczególnie interesuj¹ce narzêdzie

wspó³czesnej biologii molekularnej, nie tylko ze wzglêdu na sze-

rokie spektrum zastosowañ (analiza struktury genomu, profilu

ekspresji genów, genotypowanie, sekwencjonowanie), aleizuwagi

na mo¿liwoœæ badania du¿ej liczby obiektów w jednym ekspery-

mencie. Jednak¿e wy³onienie istotnych informacji z ogromnej

iloœci danych uzyskiwanych przy u¿yciu mikromacierzy wymaga

zastosowania wyrafinowanych metod bioinformatycznych. W ar-

tykule zaprezentowano próbê przybli¿enia podstaw tego zagad-

nienia i omówiono wybrane metody analityczne.

4 (83) 68–87 2008

Mikromacierze DNA – analiza danych

G³ówne etapy eksperymentu mikromacierzowego zaprezentowane zosta³y na ry-

sunku 1. Na tej podstawie mo¿na stwierdziæ, ¿e wynikiem koñcowym tzw. „mokrej”

czêœci eksperymentu jest mikromacierz, z któr¹ zwi¹zana zosta³a wyznakowana flu-

orescencyjnie próba. Nastêpnie p³ytkê tak¹ poddaje siê skanowaniu za pomoc¹

czytnika laserowego i uzyskuje obraz ukazuj¹cy, z jak¹ intensywnoœci¹ œwiec¹ punk-

ty (ang. spots ) zawieraj¹ce sondy specyficzne dla poszczególnych genów. W kolej-

nym etapie ka¿demu punktowi przyporz¹dkowana zostaje liczba okreœlaj¹ca natê-

¿enie fluorescencji. Uzyskane w ten sposób „surowe” dane liczbowe poddawane s¹

najpierw normalizacji lokalnej (w obrêbie pojedynczej p³ytki), a nastêpnie globalnej

(w obrêbie wszystkich mikromacierzy sk³adaj¹cych siê na eksperyment). Na ka¿dym

z etapów sprawdza siê jakoœæ mikromacierzy wykluczaj¹c takie, które maj¹ powa¿-

ne defekty techniczne. Nastêpny etap zwany jest filtrowaniem genów i ma na celu

wybranie tzw. genów ró¿nicuj¹cych, których ekspresja zmienia siê istotnie w bada-

nych warunkach, oraz odrzucenie tych, które nie daj¹ ¿adnego sygna³u. Na podsta-

wie tak zredukowanego zestawu genów prowadzi siê analizy wy¿szego rzêdu, po-

szukuj¹c grup genów o podobnym/odmiennym profilu ekspresji. Na zakoñczenie

uzyskane wyniki poddawane s¹ interpretacji biologicznej, polegaj¹cej na powi¹za-

Rys. 1. Schematyczny opis eksperymentu mikromacierzowego.

BIOTECHNOLOGIA 4 (83) 68-87 2008

Piotr Stêpniak, Luiza Handschuh, Marek Figlerowicz

Rys. 2. Schematyczny opis procesu analizy danych.

niu obserwowanych zmian w poziomie ekspresji genów z fizjologicznymi b¹dŸ pa-

tologicznymi procesami zachodz¹cymi w badanym organizmie. Przebieg analizy

przedstawiono schematycznie na rysunku 2.

2. Iloœciowa analiza obrazu

W przypadku produkowanych komercyjnie mikromacierzy, np. wysokiej gêstoœci

chipów firmy Affymetrix, etapowi odczytu obrazu poœwiêca siê ma³o uwagi, gdy¿

sprowadza siê on do zliczenia intensywnoœci obserwowanych punktów w sektorze

zawieraj¹cym konkretn¹ sondê. Proces ten przebiega w pe³ni automatycznie. Tro-

chê wiêcej uwagi wymagaj¹ mikromacierze drukowane, gdy¿ czêsto konieczne jest

dopasowanie siatki rozmieszczenia punktów do ich rzeczywistego po³o¿enia na

szkie³ku. Istnieje kilka algorytmów stosowanych do odczytu obrazu. Podstawowe

algorytmy to: niezmiennego ko³a (ang. fixed circle ), dopasowanego ko³a (ang. adap-

tive circle ) i histogramu, przy czym ostatnie dwa uwzglêdniaj¹ ró¿nice w wielkoœci

punktów. Interesuj¹cym rozwi¹zaniem jest te¿ algorytm seed region growing , który

obrysowuje ka¿dy punkt z osobna. Niestety ¿aden nie jest odporny na b³êdy, które

trzeba usuwaæ manualnie. Ka¿dej kropce przypisywany jest status (ang. good, bad,

absent, found, not found ) zakodowany w formie cyfrowej. Ten proces nosi nazwê fla-

gowania. Po zakoñczeniu iloœciowej analizy obrazu (ang. quantitation ) otrzymujemy

plik tekstowy z szeregiem informacji zawartych w tabeli, w której w wierszach znaj-

duj¹ siê informacje dla poszczególnych sond, a w kolumnach odpowiednie wartoœci.

PRACE PRZEGL¥DOWE

Mikromacierze DNA – analiza danych

Intensywnoœæ sygna³u jest zwykle podawana jako mediana lub œrednia z punktów

dla danej sondy. Wœród pozosta³ych danych znajduj¹ siê m.in. po³o¿enie i identyfi-

kator (nazwa sondy), ID punktu, intensywnoœæ t³a (w postaci mediany i/lub œredniej),

wartoœci odchyleñ standardowych intensywnoœci punktów w obrêbie sondy i status

kropki. Po wykonaniu korekty t³a mo¿na przyst¹piæ do analizy ni¿szego rzêdu, czyli

normalizacji danych. Czêœæ algorytmów normalizacyjnych dodatkowo wstêpnie do-

konuje korekty t³a korzystaj¹c z surowych danych (ang. probe-level data ).

3. Wstêpna obróbka danych

Normalizacja danych umo¿liwia porównanie wyników zarówno w obrêbie jednej

mikromacierzy, jaki i pomiêdzy mikromacierzami. G³ównym celem normalizacji jest

niwelacja tej czêœci sygna³u, która jest efektem niedoskona³oœci technicznych takich

jak nierównomierne odmycie poszczególnych regionów macierzy, ró¿nice w natê¿e-

niu sygna³u emitowanego przez zastosowane barwniki fluorescencyjne czy ró¿nice

w wydajnoœci znakowania kolejnych próbek. Wykrywanie b³êdów technicznych u³at-

wia sama konstrukcja mikromacierzy, zak³adaj¹ca umieszczenie kilku–kilkunastu

powtórzeñ tej samej sondy w ró¿nych miejscach oraz zastosowanie zestawu spe-

cjalnych sond kontrolnych (ang. spikes ), które nie powinny hybrydyzowaæ z badanym

materia³em, a jedynie z komplementarnymi sekwencjami dodanymi w odpowiedniej

iloœci na etapie znakowania (kontrole zewnêtrzne). Sondy te s¹ bardzo u¿yteczne

podczas normalizacji w obrêbie wielu mikromacierzy, maj¹c przewagê nad sondami

specyficznymi dla genów o ekspresji konstytutywnej (ang. housekeeping genes ), które

jak dowiedziono nie wykazuj¹ absolutnie sta³ego poziomu transkrypcji (1).

Zabiegi przygotowuj¹ce dane z mikromacierzy do w³aœciwej analizy bioinforma-

tycznej, nazywa siê wstêpn¹ obróbk¹ danych (ang. preprocessing ). Jej przebieg zale¿y

w g³ównej mierze od sposobu, w jaki analizowana macierz zosta³a skonstruowana,

tzn. czy jest to macierz o wysokiej gêstoœci czy drukowana.

3.1. Wstêpna obróbka danych uzyskiwanych przy zastosowaniu oligonukleoty-

dowych mikromacierzy DNA o wysokiej gêstoœci

Ze wzglêdu na fakt, ¿e mikromacierze wysokiej gêstoœci ciesz¹ siê wci¹¿ najwiêk-

sz¹ popularnoœci¹, dostêpnych jest wiele gotowych programów przeznaczonych do

obróbki wstêpnej danych. Zwykle sk³ada siê ona z trzech etapów: korekty t³a (ang.

background adjustment ), normalizacji i sumaryzacji (ang. summarisation ). Korzystaj¹c

z poszczególnych metod pamiêtaæ nale¿y, ¿e czêsto w znacz¹cy sposób wp³ywaj¹

one na ostateczny rezultat analizy.

Mikromacierze firmy Affymetrix (2) z³o¿one s¹ z krótkich, 25-merowowych sond

oligonukleotydowych, zorganizowanych w zespo³y 11-20 par komplementarnych do

BIOTECHNOLOGIA 4 (83) 68-87 2008

Piotr Stêpniak, Luiza Handschuh, Marek Figlerowicz

ró¿nych regionów tego samego transkryptu, co zapewnia wy¿sz¹ czu³oœæ detekcji

sygna³u. Ka¿da para sk³ada siê z sondy w pe³ni komplementarnej (PM, ang. perfect

match ) oraz posiadaj¹cej 1 niekomplementarny nukleotyd w pozycji 13 (MM, ang.

mismatch ), co ma s³u¿yæ podwy¿szeniu specyficznoœci sygna³u po hybrydyzacji oraz

okreœleniu wartoœci t³a. Ze wzglêdu na gêste upakowanie sond na chipie bezpoœred-

ni pomiar intensywnoœci t³a p³ytki jest niemo¿liwy. Teoretycznie w³aœciwy sygna³

powinno siê zatem otrzymaæ po odjêciu wartoœci sygna³u MM od wartoœci PM. Jed-

nak ju¿ przy wprowadzaniu korekty t³a pojawia siê problem, poniewa¿ w praktyce

ok. 30% sond MM ma wy¿sz¹ wartoœæ sygna³u ni¿ odpowiadaj¹ca im sonda PM (3).

W efekcie generowane s¹ ujemne wartoœci intensywnoœci sygna³u, co nie tylko nie

ma sensu merytorycznego, ale równie¿ uniemo¿liwia stosowanie funkcji logaryt-

micznych w dalszej czêœci analizy.

Do najpopularniejszych metod korekty t³a nale¿¹ MAS 5.0 (nazwa pochodzi od

skrótu programu j¹ implementuj¹cego – Microarray Suite 5.0 , Affymetrix, 2002) oraz

RMA (ang. Robust Multi-array Analysis , (4)).

W przypadku MAS 5.0 chip dzielony jest na k regionów (domyœlnie 16), po czym

dla ka¿dego z nich 2% najni¿szej intensywnoœci sygna³u jest u¿ywane do wyliczenia

t³a. Nastêpnie do korekty sygna³u sondy u¿ywa siê œredniej wa¿onej wszystkich war-

toœci t³a, gdzie waga zale¿y od odleg³oœci sondy od centroidu regionu. Dodatkowo

algorytm zapobiega powstaniu ujemnych wartoœci intensywnoœci oraz w regionach

o niskiej intensywnoœci zmniejsza jej negatywny efekt w stosunku do ca³ej mikro-

macierzy.

W metodzie RMA korekta t³a odbywa siê jedynie na podstawie wartoœci inten-

sywnoœci przypisanych sondom PM, na bazie globalnego modelu rozk³adu ich inten-

sywnoœci. Wartoœæ intensywnoœci sygna³u jest modelowana jako suma sk³adnika t³a

(o przyjêtym rozk³adzie wg krzywej Gaussa), z uwzglêdnieniem jego œredniej i od-

chylenia standardowego oraz sk³adnika sygna³u w funkcji ekspotencjalnej z uwzglêd-

nieniem jego œredniej, a tak¿e z wykorzystaniem funkcji rozk³adu normalnego i gê-

stoœci. Aby unikn¹æ ujemnych wartoœci wykorzystywana jest tylko dodatnia czêœæ

rozk³adu normalnego.

Kolejnym etapem wstêpnej obróbki danych jest normalizacja, która polega na ta-

kim przekszta³ceniu danych, aby mo¿na by³o porównywaæ ich wartoœci pomiêdzy

eksperymentami (mikromacierzami). Podstawow¹ metod¹ proponowan¹ przez Affy-

metrix jest skalowanie. Spoœród wszystkich mikromacierzy wybiera siê jedn¹, która

pos³u¿y jako podstawa normalizacji (wzorzec). W przypadku pozosta³ych macierzy

intensywnoœæ wszystkich sygna³ów zostaje proporcjonalnie zwiêkszona/zmniejszo-

na tak, aby jej œrednia wartoœæ by³a identyczna z obliczon¹ dla wzorca. W modyfika-

cji metody podczas obliczania œredniej odrzuca siê po 2% najsilniejszych i najs³ab-

szych sygna³ów. Affymetrix zaleca przeprowadzaæ skalowanie po obliczeniu wartoœ-

ci ekspresji dla zestawu sond specyficznych dla danego genu (ang. expression values ),

czyli po etapie sumaryzacji, ale mo¿na tê procedurê zastosowaæ równie¿ na suro-

wych danych (ang. probe-level data ).

PRACE PRZEGL¥DOWE

Mikromacierze DNA – analiza danych.pdf

Plik z chomika:

Inne pliki z tego folderu:

Inne foldery tego chomika: