Wstęp do bioinformatyki.doc

(69 KB) Pobierz
Wstęp do bioinformatyki

Wstęp do bioinformatyki

 

http://srs.ebi.ac.uk

 

Ważne zakładki, z których będziemy korzystać:

         Library page

        EMBL à sekwencje nukleotydowe (DNA, RNA)

        Uniprot à sekwencje aminokwasowi (białka)

         Tools – bogaty wybór narzędzi

         Query form – tutaj budujemy zapytanie do wyszukiwania

         Results – zbiór wyników przeprowadzonych czynności w danej sesji przeglądarki, pozostałe wyniki wyszukiwania itd. dostępne są również spod linku „Job status

 

Cenralny dogmat biologii  molekularnej:

Centralny dogmat biologii molekularnej został sformułowany przez Francisa Cricka (Crick i Watson odkryli budowę DNA)  w 1958 roku. Zakłada on przepływ informacji z genomu komórki, czyli DNA do białek pełniących różnorakie funkcje w komórkach. Sekwencja DNA przepisywana jest na RNA w procesie transkrypcji. Podczas formowania  dojrzalego mRNA dochodzi do slipingu, czyli wycięcia sekwencji niekodujących (intronów) a pozostaja tylko sekwencje kodujące (eksony). Czyli sekwencja mRNA powstała na martycy DNA będzie się od niej różniła. Na martycy powstałego mRNA syntetyzowane jest białko w procesie translacji. W tym procesie każej trójce nukleotydów przypisywany jest jeden aminokwas lub kodon stop (w tym momencie następuje koniec translacji i tym samym koniec bialka). Jednakże wiele aminokwasów jest kodowane przez różne trójki nukleotydów. Czyli na podstawie sekwencji aminokwasowej białka nie możemy jednoznacznie określić jaka była sekwencja mRNA z jakiej ono powstało, ani tymbardziej jaka była sekwencja martycy DNA.

              Z drugiej strony istnieje pojęcie cDNA. cDNA jest sekwencją otrzymaną poprzez odwrotną transkrypcję z RNA. W dzisiejszym ćwiczeniu otrzymamy sekwencję cDNA (bez intronów, odpowiadająca sekwencji RNA z jakiej powstanie białko).

 

Celem ćwiczeń jest zapoznanie z wybranymi możliwościami narzędzi bioinformatycznych

         Translacja sekwencji cDNA na sekwencję białkową (Transeq)

         Identyfikacja białka i wyszukanie najbardziej podobnych białek do badanego (BlastP)

         Porównanie z wybranymi białkami (ClustaW, NeedleP)

         Określenie drugorzędowej struktury białka (Garnier)

         Zbadanie czy białko posiada helisy transbłonowe (Tmap)

         Przewidywanie lokalizacji białka (ProtComp)

         Struktura 3D białka (baza PDB, program Jmol)

         *Dokowanie ligandów do białka – dockingsever.com

 

Podana jest niezidentyfikowana sekwencja cDNA w formacie FASTA.

              Format FASTA jest formatem zapisu sekwencji kwasów nukleinowych oraz aminokwasowych stosowanym w bioinformatyce. Nukleotydy (dla DNA i RNA) oraz aminokwasy (dla białek) oznaczone są jednoliterowymi skrótami. Format FASTA pozwala także dodawać opisy i komentarze do sekwencji. Sekwencja w tym formacie poprzedzona jest symbolem „>„. Pierwsze słowo po tym znaku służy jako identyfikator sekwencji.               Dalej w tej samej linii umieszczany jest opis. W kolejnych liniach znajduje się ciąg znaków składający się na sekwencję. Zwykle formatowane do 60 znaków w linii. Puste linie w pliku FASTA są ignorowane lub traktowane jako zakończenie sekwencji, podobnie w przypadku kresek, podkreślenia, przecinków. W jednym pliku FASTA może być kilka sekwencji umieszczonych pod sobą.

 

1.  Mamy naszą sekwencję cDNA. Należy wyszukać odpowiednie narzędzie aby zrobić translację na białko: Tools à nucleid Tools à Nucleic Translation à Transeq – Translate nucleic acid sequences à wybieramy „Launch” i wklejamy sekwencje i naciskamy „launch". W prawym górnym rogu pokazuje się Job statys – jak klepsydra będzie zielona – wystraczy na nią kliknąć, żeby zobaczyć rezultat pracy,

2.  Alignment (brak odpowiedniego słowa w języku polskim; stosuje się uliniowienie albo dopasowanie sekwencji)  jest sposobem dopasowania sekwencji nukleotydowych lub białek do zidentyfikowania regionów wykazujących podobieństwo, mogących wynikać z pdobnej funkcji, struktury lub powiązań ewolucyjnych pomiędzy tymi sekwencjami. Możemy je podzielić na metody globalne i lokalne.
Dopasowania globalne, obejmujące pełny zakres wszystkich sekwencji, są najbardziej użyteczne, gdy zestawiane sekwencje są podobne i o zbliżonych rozmiarach. Sekwencje są rozciągane na tę samą długośc i poszczególnie miejsca są analizowane. Ogólna technika dopasowania globalnego jest znana jako algorytm Needlemana-Wunscha i jest oparta na programowaniu dynamicznym. Przykład programu – ClustalW.
Dopasowania lokalne są bardziej przydatne dla sekwencji nie wykazujących w całości większego podobieństwa, co do których istnieje przypuszczenie, że zawierają podobne podsekwencje czy motywy. W przypadku dopasowania lokalnego (algorytm Smitha-Watermana)  badane jest podobieństwo w obrębie krótszych regionów w sekwencjach. Przykład programu – BLAST.
W przypadku sekwencji aminokwasowych jeden aminokwas może być kodowany przez różne trójki nukleotydów, różne będą więc kary za zmiany punktowe w sekwencji ze względu na fenotypowe efekty (czy zmiana w sekwencji nukleotydowej niesie zmianę w białku, jeśli tak, to czy powstalyw  tym miejscu aminokwas ma podobne właściwości czy inne itd., odpowiednie przeliczniki zawarte są w tzw. Macierzach porównań.
Kolejną kwestią są kary za przerwy w sekwencjach – możemy ustalić jaka ma być kara za rozpoczęcie przerwy i za każda kolejną pozycje przerwy. To jest właśnie Gap-penalty czyli kary za przerwy (indele).
Ostatecznie dla każdej pary porównanych sekwencji policzony zostaje score. Im wyższy – tym sekwencje wykazują większe podobieństwo, ale nie należy tego interpretować zbyt pochopnie, bo wiele zależy także od długości porównywanych sekwencji. W zależności od długości sekwencji ten sam wynik może być uznany za nieistotny lub wręcz przeciwnie.

 

3.  Ze względu na przyrównywane sekwencje możemy podzielić BLAST wg poniższej tabeli:

BLAST

Przeszukiwana baza

sekwencja w zapytaniu

BlastN

nukleotydowa

nukleotydowa

BlastP

białkowa

aminokwasowa

BlastX

białkowa

translatowana nukleotydowa

Tblastn

translatowana nukleotydowa

aminokwasowa

Tblastx

translatowana nukleotydowa

translatowana nukleotydowa

 

4.  Mamy naszą uzyskaną po translacji sekwencję białkową, przeszukamy Blastem bazę sekwencji białkowych, aby znaleźć podobne białka… może nasza sekwencja jest sekwencją jakiegoś istniejącego białka :)
Kopiujemy uzyskaną sekwencję aminokwasowi, wchodzimy w Tools à Similarity Search Tools à NCBI BLASTP Protein vs. Protein Sequence Similarity Serach à Launch
Wklejamy sekwencję i naciskamy ‘launch’, czekamy na wyniki w Job status
… czyli wiemy, że to receptor dla glukokortykoidów

Sprawdźmy teraz, czy będzie on miał podobną sekwencję u różnych gatunków zwierząt.
Będziemy przeszukiwać bazę sekwencji białkowych à wchodzimy w Library page i wybieramy UniprotKB (all) à przechodzimy do Query Form i wyszukujemy sekwencji dla receptora dla glukokortykoidów - z listy rozwijanej wybieramy description = Glucocorticoid receptori wybieramy serach. Wśród wyszukanych wyników zaznaczamy te dotyczące świni, człowieka, myszy i szczura. Przewijamy do góry strony i zaznaczamy selected results only oraz z Launch analysis tool: wybieramy z rozwijanej listy ClustalW à Launch. Automatycznie zostaly umieszczone tu wybrane sekwencje do porównania. Naciskamy „launch” à Job status

à porównujemy zestawione sekwencje
 

Żeby zobaczyć, które sekwencje są najbardziej podobne, a które najbardziej się różnią możemy użyć narzędzia NeedleP. Wracamy do wyników wyszukanych sekwencji receptora dla glukokortykoidów, porównujemy parami sekwencje: Człowiek – świnia, Człowiek – mysz, Człowiek – szczur; Dla każdej z pary uruchamiamy narzędzie NeedleP 

 

 

5.  Powracamy do sekwencji aminokwaswej ludzkiego receptora dla glukokortykoidów: Cofnąć się do wyników wyszukiwania i zobaczyć do jest w informacjach o tym receptorze: linki do publikacji w Medline, DrugBank, itd.. a na dole sekwencja à Kopiujemy sekwencję i sprawdzamy jakia strukturę drugorzędową posiada białko. Tools à Protein Tools à Protein 2D structure à Garnier  à wklejamy sekwencje à Launch à Job status

HHH = helisa

EEE = beta-kartka
TTT = skręt

CCC = nitka

 

6.  Teraz sprawdzmy sekwencję aminokwasowi receptora dla glukokortykoidów na obecność białek transmembranowych: à Kopiujemy sekwencję à. Tools à Protein Tools à Protein 2D structure à Tmap  à wklejamy sekwencje à Launch à Job status à Tmap à Graphic view: kreska nad wykresem określa potencjalne miejsce dla helisy transblonowej, ale skoro tylko jednak to raczej nie jest to białko transbłonowe ( te „lubią mieć” 7 helis transbłonowych)

 

7.  Przejdźmy na inną stronę : softberry.com

Tutaj sprawdzimy gdzie prawdopodobnie lokuje się badane białko:

Protein Location à ProtComp (Animal/Fungi)

Białka po translacji mają sekwencje sygnałowe, dzieki którym są kierowane do odpowiednich przedziałów komorkowych. Tutaj na podstawie tych sekwencji możemy przewidywać jaka jest lokalizacja białka. Wklejamy sekwencję à process à obliczone wyniki dla poszczególnych lokalizacji. Receptor dla glukokortykoidów mieści się w cytoplazmie a po związaniu ligandu kierowany jest do jadra komórkowego, gdzie działa jako czynnik transkrypcyjny. Ostatnie publikacje sugerują także jego lokalizację w błonie komórkowej i innych kompartymentach komórkowych, co również przewidziała metoda sieci neuronowych.

 

8.  Zobaczmy jeszcze jak wygląda trzeciorzędowa struktura tego białka: wchodzimy na stronę http://www.rcsb.org

Wyszukujemy receptora dla glukokortykoidów z deksametazonem (Glucocorticoid receptor dexamethasone). Spośród wyników wybieramy 1M2Z. Wybieramy view in Jmol à możemy obracać, zmieniać widocznośc elementów itd…

 

9.  * Zadanie dodatkowe: Dokowanie ligandu do białka.

Jako białko mamy gotowy plik - strukturę domeny wiążącej ligand receptora dla glukokortykoidów (plik domena A), wyszukać w bazie http://pubchem.ncbi.nlm.nih.gov dowolny potencjalny ligand (np. prednizon, deksametazon, betametazon). Obie struktury (białko i ligand) muszą być w formacie PDB.

Na stronie http://www.dockingserver.com wybieramy Pricingà Guest account/starting now à Docking -> My proteind – wgrywany Domenę A, My ligands – wgywamy ligand à wyniki po chwili w My dockings

Zgłoś jeśli naruszono regulamin