0% found this document useful (0 votes)
22 views

Apunts Modul 1

bioinformatics notes

Uploaded by

anmogu332
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as DOCX, PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
22 views

Apunts Modul 1

bioinformatics notes

Uploaded by

anmogu332
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as DOCX, PDF, TXT or read online on Scribd
You are on page 1/ 25

TEMA 0.

INTRODUCCIÓ A LA
BIOINFORMÀTICA
En un laboratori o un projecte, en qualsevol lloc en què executem en l’àmbit bio, podem
diferenciar les 3I a nivell experimental:

 Assaig in vitro: laboratori.


 Assaig in vivo: traslladem els resultats que tenim de in vitro utilitzant diferents models
que serveixen per validar-ho.
 Assaig in silico: en l’ordinador. Totes les dades obtingudes generen una sèrie
d’informació, resultats, els quals els hem de treballar a nivell computacional. Podem
anar més enllà de l’anàlisi de les dades i fer prediccions. Aquestes prediccions les
podem fer en base a dades de caire molecular, un anàlisi i fer propostes de projectes
(coses ha fer)
Ex. hem vist que hi ha una proteïna essencial que es troba en molts microorganismes,
amb residus vitals per l’activitat X i ens plantegem fer un mutant en un residu concret
que intervé en la unió de Y, en una interacció amb un enzim, etc. La predicció i el càlcul
el fem computacionalment i el traslladem a in vitro.

El connector de les 3I és la bioinformàtica, la que ens permet el canvi del codi genètic al
labroatori.

2. QUÈ ÉS LA BIOINFORMÀTICA?
La bioinformàtica són eines que ens permeten resoldre problemes biològics. Aplica la
tecnologia per cercar, visualitzar, analitzar, integrar i gestionar informació biològica (dades
moleculars). S’alimenta dels experiments i dades que provenen de les –òmiques (genoma,
transcriptoma, proteoma, metaboloma...).

Ens permet establir relacions evolutives, filogenètiques, epidemiològiques, diversitat


biològica, etc. A més també ens permet fer anàlisi de l’estructura de biomolècules,
modelització, estudis d’interaccions.

Un bioinformàtic és un especialista que està en connexió amb diferents disciplines i àrees de


coneixements, no només la bioinformàtica pura, ja que és un instrument. Es trobem en els
`àmbits de la ciència de la computació,
matemàtiques, química, biologia, física, etc. És bases de dades
moleculars
multidisciplinat.

Intentem fer prediccions amb un objectiu


concret, com per exemple, dissenyar un fàrmac.
reconeixements
A partir de les bases de dades (DNA, RNA, de patrons
predicció

proteïnes, etc.) podem fer prediccions. A partir


de les prediccions podem reconèixer determinats patrons que són característiques del
plegament X de la proteina i ens retroalimenta noves bases de dades basades en patrons,
que alhora estan basades en una predicció, que alhora estan basades amb una base de
dades. És un cercle.
1
Les bases de dades s’alimenten de:

- Experiments, i si mirem de genòmica, per exemple, doncs s’alimentarà d’experiments


de seqüenciació massiva.
- Problemes biològics de fa temps plantejats.
En les bases de dades no només hi ha nucleòtids o aminoàcids, hi ha moltes coses més.

Fem una predicció X. El que hem de fer és validar-lo i demostrar-lo. No és només preveure
que hi ha un centre actiu, cal demostrar-lo i només es podrà fer in vivo o in vitro¸ quan passa
pel laboratori.

Per reconeixer patrons també els podem validar in silico. Què passa i canviem el residu? I el
nivell del plegament? Tot això es pot preveure computacionalment i veure quin efecte tindrà
en el plegament de la proteïna i la funció. Podem dissenyar experiments in silico que
prevenguin això.

L’eix central de tot és el càlcul computacional.

Bases de dades

S’han aconseguit a partir de la introducció de la tecnificació


experimental. Ha fet que hi hagi hagut una explosió d’equips
que ens permeten, per exemple, seqüenciar genomes. La
introducció de tècniques de seqüenciació massiva vam fer que
això explosioni de manera significativa.

Als anys 90 anàvem amb els mètodes tradicionals: amb gels on


podíem llegir al voltant de 200-400 nucleòtids i trigaves en
obtenir el gel per seqüenciació Sanger. Ara en poques hores
obtens el genoma complert. En els últims 15-20 anys és on hi ha hagut l’explosió gràcies a la
tecnologia.

El primer genoma seqüenciat va ser d’un bacteri de 1,8Mb. L’any 2001-2003 es va obtenir el
primer genoma humà complert amb un cost de 1.000 milions de dòlars. Amb la introducció de
les tècniques massives, al 2017 pots seqüenciar un genoma igual de gran amb un cost de
500-600 euros. La tecnologia ha permès una reducció.

L’augment de producció de dades i que sigui tan barat, ha fet que hi hagi un augment
impressionant de dades que es emmagatzemen en llocs repositoris. Aquesta explosió ha fet
que hi hagi una branca de la bioinformàtica que es dedica a l’emmagatzematge i indexació de
dades en bases de dades, per tal de poder donar accés d’aquestes dades i que estiguin
ordenades. Hi ha milers de llocs on les podem dipositar.

Un dels llocs per excel·lència, dels primers que es van crear, per emmagatzemar dades de
nucleòtids de gens va ser GenBank. Gen Bank és pioner com a bases de dades. Es va crear
l’any 1982 amb 606 registres, i fa un parell d’anys, a desembre de 2018, ja hi ha un registre
de més de 2 milions de registres diferents. En un registre pot haver-hi un genoma complert,
per exemple.

El fet de que hi hagi tants llocs i tantes bases de dades on buscar, genera conflicte. Hem de
tenir clar què volem i, a partir d’aquí, saber on ho hem d’anar a buscar, ja que qualsevol de
nosaltres la pot crear, aquesta base de dades, però com de fiable és? Hem de saber on
2
consultem i on recollim aquestes dades; cal que tinguin una garantia de qualitat. Aquesta
garantia vindrà donada per la publicació en una revista, normalment, de la base de dades que
es crea. Sempre hi ha un article associat en una revista de prestigi que defineix el que conté
la base de dades i quin tipus de dades hi ha i com es pot consultar, etc.

En definitiva, aquest anàlisi ens ofereix coneixement, el qual vindrà a partir del
reconeixement de patrons i la predicció i SEMPRE haurem de passar per la validació in vivo i
in vitro. Hi ha moltíssims camps d’aplicació de la bioinformàtica, sent un la microbiologia.

3. IDENTIFICACIÓ DE NOVES DIANES ANTIMICROBIANES


N’hem a aplicar aquestes tècniques per a la identificació d’una nova diana antimicrobiana
(objectiu). Això ho farem seguint una pauta:

1. Selecció de soques: a partir d’una sèrie de soques clíniques que ens interessa, les
caracteritzem, veurem fenotips associats a aquests clons d’origen clínic, quins són més
o menys virulents, resistència, etc. Generarem unes dades que s’hauran de processar.
Expansió: podem genotipar.
2. Anàlisi comparatiu: veurem quins són els més interessants per al fenotip de major
virulència, resistència o capacitat de fer biofilms, etc. Serà un segon nivell de
caracterització que ens portarà a un anàlisi del proteoma, anàlisi del genoma o anàlisi
del transcriptoma. Encara estem caracteritzant i ens aportarà unes dades que
integrarem amb les altres informacions obtingudes.
Expansió: podem veure els canvis en els gens que hem seqüenciat i podem traslladar
això en un arbre i veure quins microorganismes estan més a prop, etc.
També podem comparar proteomes i veure quines proteïnes s’expressen en dos
microorganismes diferents o el mateix i canviant les condicions. identifiquem les
proteïnes i les seqüenciem.
A nivell transcriptòmic, fixem condicions i veiem quins són els gens que es
transcriuen.
3. Integració de dades: a partir de la integració de dades, podem definir una estratègia
que ens permet trobar la diana.
Extensió: quan fem un arbre, podem veure com una sèrie d’individus que poden ser
considerats un clon de risc epidemiològic perquè a nivell de fenotip tenen
característiques semblants i a nivell de genotip es trobem a prop. Podem fer un anàlisi
més profund sobre els microorganismes que ens interessa treballar amb ells i els
microorganismes que anirem contra ells.
4. Selecció i validació de targets candidats: busquem projecte gènic sobre el qual
adreçar un fàrmac. En el disseny, definirem una sèrie de condicionants. A partir dels
caràcters definits, veurem si la funció del gen està conservat o no, si es troba present
en tot, si pot ser un bon target pels bacteris més virulents, si està present en
organismes eucariotes i veure la toxicitat, si la proteïna interacciona amb altres,
cercarem fàrmacs, etc. Quan tinguem una col·lecció de fàrmacs que poden
interaccionar bé, caldrà anar a in vitro i in vivo, veure què li passa al mutant i fer
diferents assajos. Acabarem obtenint un tractament.
Extensió: ja tenim el gen X contra el que dissenyarem el fàrmac. Ara n’hem a veure les
seves funcions, homòlegs, present o absent, essencialitat, però és ideal trobar una
diana que es correspongui amb una funció vital amb el possible patogen? No, perquè
3
matarem bons i dolents, no és bo utilitzar un gen vital, o també provocar resistència si
fem una pressió selectiva molt gran. A partir d’aquí, anem a validar. La toxicitat no es
pot validar fins que no es comprova. L’equilibri entre no ser tòxic i ser potent és difícil
trobar.

Si la bioinformàtica no hi fos, es faria el prova-error, només fent in vivo i in vitro.

4
TEMA 1. BASES DE DADES D’INTERÈS
PER A LES BIOCIÈNCIES
1. BASES DE DADES BIBLIOGRÀFIQUES

Cerques lògiques

Per cercar en qualsevol lloc utilitzem operadors booleans, per tal


AND +
de barrejar i crear estratègies amb termes. Els operadors bàsics els
podem barrejar. De vegades utilitzem comodins que són útils per OR ^
escriure un terme que no sabem del tot com s’escriu realment. NOT -
El més restrictiu seria AND i el menys restrictiu OR. Els operadors Comodins *
sempre van en majúscula, de manera que anem on anem, els
operadors sempre van igual, ja que si no ho interpreta com un terme.

AND vol dir ambdós termes.

OR vol dir un o altre terme.

NOT vol dir un i no l’altre

En el cas del * seria per termes parcials.

Posem “...” per a posar frases. Serveix per ampliar. Termes que s’escriuen
exactament d’aquesta manera i ordre. És el més restrictiu.

Molt important l’ús de (...) quan hi ha més d’un operador. Si no els


utilitzem, els llocs agafen el criteri de cercar d’esquerra a dreta. Llavors, posem l’exemple de
(ferric AND uptake) NOT human. Posant (...) forcem a que comenci per aquest terme, estigui
on estigui.

Altres operadors

W/n → són operadors que ens deixen buscar 2 termes separats l’un de l’altre a una distància
determinada. Per exemple, quan diem W/5 estem dient que volem dos termes on la distància
entre ells com a màxim és de 5 termes. Ens serveix per buscar dintre d’una frase o un
paràgraf.

Pre/n → aquests dos termes estan a una distància n i l’un va davant de l’altre.

5
2. LLOCS PER CERCAR INFORMACIÓ BIBLIOGRÀFICA
Trobem Medline i PubMed.

El PubMed és una interfície gràfica que ens permet comunicar-nos amb la veritable base de
dades; és com ens comuniquem amb la base de dades. Podem posar termes, aplicar filtres,
etc. És allò que escrivim que és interpretat pel PubMed i es llença a la base de dades, les
quals una seria Medline. Medline és la veritable base de dades, on estan emmagatzemades.

En PubMed no només consultem Medline. Deixem consultes sobre altres bases de dades
diferents, com bases de dades de llibres, informes, etc. Que no estan en Medline. Medline
conté informació al voltant de les bio- i mèdic. Ara trobem gairebé de totes les disciplines. No
només es pot consultar a través de PubMed.

La fem a través de PubMed perquè aquest es troba en un gran portal d’informació on hi ha


més coses a part de bibliografia, com dades moleculars, malalties humanes, mapes de
genomes, cromosomes, etc. Quan llancem una consulta, en realitat llancem la consulta a llocs
com el Medline, però també estem veient si hi ha algun article amb dades moleculars o
informació que ens interessa. Això és el que anomenem un portal amb dades que es
relacionen entre ells. L’avantatge és que quan busques bibliografia a través de PubMed, si hi
ha alguna seqüència relacionada, la trobaràs en el mateix lloc.

Qui ho manté tot això és el NCBI a EE.UU. És el punt de referència per a tothom. És important
que no ens quedem només amb el que hi ha al PubMed. Si llancem una consulta qualsevol a
PubMed, avui dia trobaríem que hi ha registrats 33 milions de registres diferents, mentre que
en el Medline 29 milions. Hi ha revistes que llencen i publiquen nous articles, els quals no
estan continguts en Medline. Medline té una actualització quinzenal, és a dir, cada 15 dies
s’actualitza la base de dades. En aquests dies que passen fins a la nova versió, hi ha revistes
que han acceptat nous articles, però no es troben en Medline. Els dipositen en una base de
dades que es puguin consultar a través de PubMed. PMC és el PubMed Central, la qual és una
interfície gràfica molt semblant al PubMed, però la base de dades només de d’articles
complets, contenen el text complet; té uns 6 milions de registres.

La política dels que financen, promocionen a que els projectes que s’executen amb diners
públics, s’han de publicar en revistes on tothom tingui accés. Publicar en una revista amb codi
obert té un cost elevat. En una revista on el lector hagi de pagar per llegir, pot ser més baix,
però tot depèn de la natura de la revista. Darrere de tot el món aquest hi ha la indústria
editorial que guanya molts diners, sigui perquè els cobra dels autors o lectors, aquesta
indústria mai perd. Això va segons el prestigi de la revista. Trobem els índex d’impacte que
situen la revista en un cert nivell. La indústria editorial en obert publica molts més perquè així
aconsegueix més recursos. Altres revistes que s’anomenen predatories es trobem
amagades sota noms que et semblen fiables, però són revistes que només serveixen pels
negocis, la revisió sol ser molt lleugera. És molt important anar a llocs rigorosos per trobar
qualitat.

PubMed

El que s’indexa solen ser títol, autors, afiliacions, codis únics que els identifica el document,
petit resum o termes associats, com podem veure en la següent captura:

6
El PubMed agafa el que hi ha al Medline i fa una interfície gràfica, però la informació és la
mateixa. La informació va precedida d’unes etiquetes que defineixen què tenim aquí. Els tags
ens poden facilitar molt la cerca.

Ex. Imaginem que volem cercar informació publicada per una persona amb cognom
Barcelona. Si fem una cerca amb aquest terme, trobarem tots els articles que hagi fet la
persona, però també els llocs on surti aquest terme. No és el que volem. Volem que el terme
es correspongui amb el nom d’un autor. El que podem fer és ajudar-nos de les etiquetes i dir-
li “dóna’m la informació que es correspongui amb el terme Barcelona, però cercant el terme
només en el camp nom dels autors”. De manera que apliquem un filtre basat en els tags. Això
ens permet afinar molt
amb la nostra
cerca.

7
La base de dades està molt ben definida. Quan fem la cerca, podem editar-la, afegir un altre
terme, afegir un altre tag, tornar-la a trobar, etc.

De vegades, el que ens trobem és que pel terme que volem fer la consulta, no sabem si tota
la informació que hi ha han utilitzar el mateix termes. Per exemple, el terme virulència.
Tenim clar què vol dir i que no té res a veure amb la patogenicitat. Però de vegades, els
autors no utilitzen correctament la informació i enlloc d’utilitzar “virulència” ha posat “més
patogen que”. No és correcte. Preveient això o amb la idea de estendre la cerca d’un terme
amb altres que puguin estar relacionats, com virulència i patogènesi, la gent del PubMed ha
dissenyat un vocabulari on es correlacionen termes. De manera que quan cerquem per un
terme, la interfície agafa el terme i el va a buscar en el vocabulari indexat i mira si té termes
que agrupen.

En llença en el vocabulari anomenat MeSH, troba els termes relacionats i porta una cerca on
ha barrejar o portat el terme virulència, afegeix OR, un segon terme. De manera que sense
saber-ho, hem fet una cerca més extensa.

Problema: és exponencial. Si només volem 1 terme, això ho estén. Llavors si només volem
això utilitzem “...”. Cerca exhaustiva en el “cos” de les publicacions. Com en el PubMed no
podem, hem d’anar al PMC on sí es pot fer perquè tenim l’article sencer.

3. BASES DE DADES: MOLECULARS


Conjunt de dades emmagatzemades seguint una estructura/ordenació concreta. Es troben en
un suport informàtic que permet que puguin ser extretes i/o modificades amb facilitat.

Hi ha moltes dades per processar. En el nostre cas pràctic, per exemple, tindrem la seqüència
rpFf que la disposarem en una base de dades de nucleòtids. Això és una dada bàsica, farem
una breu descripció del que hi ha i ho depositarem en un lloc per a que tothom tingui accés.
Si nosaltres volem publicar, sigui on sigui, la revista voldrà tenir l’accés a aquesta seqüència,
llavors estem obligats a depositar-la en una base de dades. Es convertirà en una dada
primària.

Les dades primàries contenen dades extretes de l’experimentació com seqüències


nucleotídiques i estructura de les proteïnes:

8
- DNA sequence database
- Genome database
- Protein structure database

La pròpia base de dades pot millorar aquestes, pot agafar les dades primàries, analitzar-les i
generar un nou registre producte d’aquest anàlisi. Això seria dades secundàries: contenen
dades derivades de l’anàlisi i tractament de la informació de les bases de dades primàries,
bases de dades d’estructura secundària, dominis i famílies, motius, matrius, perfils de
hidrofobicitat, seqüències proteiques obtingudes per traducció, etc  RefSeq NCBI: base de
dades que inclou DNA, RNA i proteïnes, derivats de GenBank.

Si hi ha més d’un grup que té seqüències del rpFf, que seria el nostre cas, la base de dades
agafa tota la informació i la posa en un (1) registre, de manera que els usuaris poden anar a
la base secundària i treure la redundància, creant un arxiu refinat o de referència de la
seqüència. Es preserva l’autoria. Quan acceptem això, acceptem que poden fer el que vulguin
amb la dada.

Hi ha milers de bases de dades, però si és DNA hi ha 3 grans llocs:

- DDBJ: DNA Data Bank of Japan


- ENA: European Nucleotide Archive
- GenBank

Podem sotmetre les nostres dades on vulguem, el problema és quan volem buscar una
informació, on ho fem? Idealment hauríem d’anar als 3 llocs per trobar-la, però no cal perquè
aquestes tres bases tene nun conveni de col·laboració on diàriament intercanvien informació.
Pot passar que estiguem fent un projecte de seqüenciació d’un genoma i no estigui acabat,
però vulguem donat accés al tros del genoma que tenim. En aquest cas, aquest tros només
estarà en una base en concret, però quan el treball estigui acabat, directament passarà en el
lloc comú.

Nosaltres sempre dipositem en GenBank perquè ENA/EBI, sobretot EBI, s’ha dedicat més al
desenvolupament de softwares d’anàlisi de dades per tal de facilitat el seu processament,
però ells no els fan, només creen aquestes eines. Són eines molt més potents, però utilitzem
GenBank perquè també el formulari i la forma de dipsoitar és més fàcil.

Format fitxers

Podem trobar arxius senzills on només hi ha una seqüència amb una petita descripció, i en
cada lloc pot aparèixer en un forma diferent. El problema d’això és que quan vols informació,
no és exactament igual, per això en aquest conveni el que es fa és que els formats
convergeixin i hi hagi la mateixa informació. L’arxiu senzill predilecte és FASTA. Té 2 camps:

>NR_075252 Erysipelothrix rhusiopathiae str. Fujisawa strain


Fujisawa 5S;ribosomal RNA, complete sequence. 113 bp
tggtgattttagcgaagtggtcacacctgttcccatctcgaacacagaagttaagcacttt

9
agcggcgacaatatctagccacgcgctagtgaagatagttcatcgccaggta

 En la primera línia que comença amb > és una línia única i és una descripció de la
seqüencia. Acaba amb un retorn-intro.
 La segona línia és només la seqüència.

Aquest format l’utilitzem per qualsevol tipus d’anàlisi. Quan anem a GenBank podem
descarregar l’arxiu en aquest format. Tenim seqüències pròpies que també estaran en aquest
format.

Hi ha alguns formats arxius que contenen més informació i són els tipus múltiple. En l’anàlisi
comparatiu múltiple es genera una informació que està en un arxiu de tipus múltiple perquè
tenim diferents seqüències alineades. També hi ha predicció d’estructures, distància, etc.,
sent aquest el tipus mixte.

FAST de qualitat (FASTq)  arxiu que ve de la seqüenciació massiva. Conté una breu
descripció, seqüència i uns caràcters on hi ha informació de qualitat de la seqüència.
Nosaltres no ho podem processar, però si tenim aplicatius que en base la qualitat defineix la
seqüència. Convertim a un FASTA normal. Tenim molts formats, hi ha una eina que ens
permet convertir aquests formats.

Submissió i dipòsit de seqüències

Un cop arribem al final del nostre projecte, ja som autors de la seqüència rpFf. Ho dipositem
al GenBank mitjançant un formulari. Això és revisat per la base de dades, ho comprova i ho
accepta. Mínim fa un traçat de procedència i ens dona un codi d’accés, el qual serà únic i
universal  únic: no hi haurà altra seqüència que el trobi ; universal  en qualsevol base de
dades mundial el codi serà el mateix.

Com autors tenim dret a revisar i editar. Imaginem que en un mesos veiem que hi ha un hot
spot i certs polimorfismes. Quan ens adonem, avisem a la base de dades i actualitzem. En un
temps publiquem el treball en una revista i fem referencia a la seqüència, també ho
comuniquem a la base de dades. Tenim dret a fer el que vulguem amb la dada primària i amb
la secundaria ells faran l’anàlisi.

Anotació de GenBank

Trobem 3 apartats:

 Encapçalament: són dades relatives a l’organisme, la afiliació, els autors, bibliografia,


descripció... informació general i referències.
 Taula de característiques que els autors volen ressaltar de la seqüència.
- Tenim un codi que fa referència a
característiques principals del que es
vol fer menció
- Informació amb la localització
- Informació addicional.
 Seqüència

Si anem a https://www.ebi.ac.uk/ena/WebFeat/ ,
veiem el següent:

10
Un CDS és una seqüència de nucleòtids que correspon a una seqüencia d’aminoàcids d’una
proteïna (inclou el codó de stop).

Tenim en el formulari quan preparem per enviar la seqüència. Això són tags que després van
bé a l’hora de fer cerques. Ens dona detalls amb breus explicacions de cada camp, què conté.

TEMA 2. ALINEAMENT DE SEQÜÈNCIES


1. ALGORITMES

Needleman Wunsch

The dynamic programming is:

 Breaking down a larger problem into smaller sub-problems/tasks.


 Solves each sub-problem in order to solver the bigger problem.

When we’re talking about the sequence alignment, we have to take into consideration:

 A computational method to find the best optimal alignment between two sequences.
 The method compares every character in the two sequences and generates an
alignment.

11
The component of the alignment:

 Matches: characters that are the same in the two strings (blue lines)
 Mismatches: characters that aren’t the same in the two strings (red square)
 Gaps: introducing them can make strings to have more matches and the alignment
becomes better than the previous one.
We’re introducing these gaps because of evolution, sometimes there’re mutations and
these variations can be mismatches.

Example:

In both of them there’s 1 gap. But, which one has a better alignment? We have to use a
scoring scheme. We put some conditions:

 There should be some score for matches.


 There must be a penalty for mismatches.
 There must be a penalty for gaps
 The total score is the sum of all matches and penalties. It’ll reflect the quality of the
alignment. If we have multiple alignments possible, we’ll choose the higher score.

Using the same example as before:

 Match = +1
 Mismatch = -1
 Gap = 0

We choose A2 because it has the maximum score.

We have two types of alignments:

 Global: align both sequences end-to-end. For sequences


that are similar or that are evolutionary close to each
other.
 Local: align stretches of sequence with the highest density of matches. For sequences
that aren’t similar or that are evolutionary far to each other. We use the region in which
they are similar. We’re interested in which part/region of two sequences are similar.

The steps for Needleman & Wunsch algorithm:

1. Initialize NxM matrix  we’ll have two sequences, both will be


placed along the matrix. We’re comparing two characters.
2. Fill the matrix upper left corner to the lower right corner in
a recursive fashion (using a scoring scheme)  the steps will be repeated again and
again until we reach the lower right corner of the matrix.
3. Traceback  generates the alignment.

Example:
12
- Seq1: TGGTG  m
- Seq2: ATCGT  n

We initialize table T:

T(i, j) is the cell at the intersection of row I (horizontal axis) and column J (vertical axis). 0-5
addresses of a particular cell. In green we have the T(4, 3) cell.

We initialize T(0,0) with a score of 0. We’ll be moving from top left corner to the bottom right
corner, we’ll go along horizontally. The scoring scheme we’ll use:

 Match = +1
 Mismatch = -1
 Gap = -2

To calculate the score:

We start calculating:

 T (1,0):
- First expression: T (0, -1) doesn’t apply to
anything on the table.
- Second expression: it applies so:
1. T (0,0) = 0
2. Gap penalty = -2
3. 0 + (-2) = -2
- Third expression: T (1, -1) doesn’t apply to
anything.
The score for T(1,0) = -2  we draw an arrow
pointing to where the score is coming from: left
T(0,0)
 T (2,0):
- First expression: T (1, -1) doesn’t apply to anything.
- Second expression: T (1,0) applies.
1. T (1,0) = -2
2. Gap penalty = -2

13
3. -2 + (-2) = -4
- Third expression: T (2, -1) doesn’t apply
The score for T(2,0) = -4  arrow to the left T(1,0)
 T (3,0) = -6
 T (4,0) = -8
 T (5,0) = -10
 T (0,1):
- First expression doesn’t apply
- Second expression doesn’t apply -> T (-1,1)
- Third expression apply so:
1. T (0,0) = 0
2. Gap penalty = -2
3. 0 + (-2) = -2
So the score for T(0,1) is –2  arrow to up T (0,0)
 T (1,1):
- First expression applies so:
1. T (0,0) = 0
2. It’s a mismatch (T and A) so = -1
3. 0 + (-1) = -1
o Second expression applies so:
1. T (0,1) = -2
2. Gap penalty = -2
3. -2 + (-2) = -4
o Third expression applies so:
1. T (1,0) = -2
2. Gap penalty = -2
3. -2 + (-2) = -4
Out of this 3 values –1 is the best, so the score for T (1,1) is –1  arrow to the diagonal
up: T(0,0)  because the higher score is -1 and it comes from the first expression,
which at the same time comes from T(0,0)
 T (2,1):
- First expression applies so:
1. T (1,0) = -2
2. It’s a mismatch (G and A) so = -1
3. -2 + (-1) = -3
- Second expression apply so:
1. T (1,1) = -1
2. Gap penalty = -2
3. -1 + (-2) = -3
- Third expression apply so:
1. T (2,0) = -4
2. Gap penalty =-2
3. -4 + (-2) = -6
Out of this 3 values –3 is the best so the score for T (2,1) is –3  arrow to left T (1,1)
and diagonal up T (1,0).

14
Once we compute all the scores, we fill the matrix. To traceback we just have to follow the
arrows starting from the lower right corner:

 To work out the best alignment, follow the traceback form top left to bottom right
and look at the letters aligned in each cell
 Here the 1st cell (yellow) doesn’t correspond to any letter  we ignore it
 The 2nd cell is A in sequence S2 but nothing in sequence S1  gap
 The 3rd cell is T in sequence S2 and T in sequence S1  match

Smith-Waterman algorithm

Background:

 Exons in DNA tend to be more conserved as compared with introns


o Exons are code proteins and therefore are very important, nature conserves
these sequences and therefore if you have 2 DNA sequences with exons in
them there’s a high chance that they have a very nice alignment.
 Functional domains in proteins tend to be more conserved than the hydrophobic core
o They're more conserved because they do specific functions on the biological
systems so if you have 2 sequences with the same domain then there is a high
15
chance that the two sequences will align very nicely.
Both of these requirements can be fulfilled by emplowing the local alignment strategy.
If you have 2 sequences you place them on top and on the left side and you assign a match,
mismatch and gap penalty and then you utilize the scheme* to calculate C(i,j).

In the needleman and Wunsch algorithm we only had the first 3 but in the smith-waterman
algorithm we introduced a zero, and we have to compute the maximum of these 4. So the
diference between Needleman Wunsch and Smith Waterman is that 0 is also placed in the
relationship!

So the conditions are:

 Match = +1
 Mismatch = -1
 Space = -5

We initialize the first column and the first row with zeros, it’s very important.

We complete the table as we did with the Needleman and Wunsch algorithm but we have to
choose between 4 values instead of 3.

Exemple T (1,1):

 First expression: +1  T(0,0) = 0 + 1 (match)


 Second expression: -5  T(0,1) = 0 – 5 (space)
 Third expression: -5  T(1,0) = 0 – 5 (space)
 Fourth expression: 0

We select +1.

When we have a completed matrix as above we have to find the highest scores, in this case,
the 2. With these scores we start the traceback until we find a 0  sequentially
What this tells you is that there are 3 possible local alignments in these matrix, that we can
16
extract and write them spear.

Conclusion:
 Local alignments can be performed using Smith Waterman algorithm
- Very useful in extracting the exons and functional domains in DNA and protein
sequences resspectively
 Traceback can start from any position in the scoring matrix
 Local alignments can be extracted by starting from a high score till reaching 0.

2. ALINEAMENT DE PARELLES
Els paràmetres que podem utilitzar per comparer dues seqüències són:

 Contingut G+C
 Freqüència de bases
 Grandària  no hi quep el mateix en una seqüència de 1.000pb que una de 100pb, tot
I això, no et dona el significat biologic.
 Motius comuns.

Tot això es pot veure en un alineament, que és la comparació que ens donarà més
informació. És la única manera de veure l’interès, veus clarament si se semblen més o menys,
si tenen aminoàcids en comú o bases i posicions molt semblants, etc.

Alineament  forma de repsentar


i comparar dues o més seqüències de
DNA, RNA o aminoàcids anb
l’objectiu de ressaltar-ne les
seves zones d’identitat o
similitud. Aquestes zones
poden indicar relacions
funcionals o evolutives entre
els gens o proteïnes
analitzades. Pot tenir dos
significats:

17
 Estadístic: es pot assignar una puntuació a cada alineament que indiqui com
d’allunyants estan d’un alineament a l’atzar. Podem evaluar si és bo o no quan
aquests no són idèntics.
 Biològic: comparteixen un ancestre comú? Implica una relació funcional, estructural i
evolutiva? No hem d’oblidar que estem treballant amb DNA i proteïnes, llavors si
alineem una proteïna A amb una proteïna B i ho fan molt bé, això suposa moltes coses
a nivell biològic com que són semblants, fan funcions similars, etc.

Quan alineem dues seqüencies estem comparant el seu contingut. Si ens fixem en la query de
la imatge de sota, realment les dues seqüències se semblen poc. Però si ens fixem en el
gràfic, les dues proteïnes se semblent molt. Tot i ser molt semblants, hi ha trossos que una té
i l’altra no, però l’estructura és similar i fan la mateixa funció. Llavos podríem dir que són dos
organismes que van divergir.

El significat biològic d’això és: sigui el que sigui que fa l’aminoàcid en posició N de
l’alineament de la proteïna A és el mateix que fa l’aminoàcid en la mateixa posició de
l’alineament de la proteïna B. Per exemple, en la posició 60 tenim una alanina i en la posició
59 trobem una glicina (això és perquè hi ha un gap). Quan assignem un significat biològic
només pot haver un (1) alineament correcte, però poden haver-hi zones que no estiguin
alineades o poden haver zones canviades completament. Això el programa no ho sap, no
dona aquest significat i per això estan els i les científiques.

Què signfiica que dues seqüències estan relacionades?

L’alinemanet ens diu el grau de relació. Gairebé sempre aquesta relació és evolutiva i és una
evidència que han divergit d’un ancestre comú. Tot i que la gan majoria de vegades ens
trobarem que la relació és deguda a una relació evolutiva, no sempre serà així perquè hi ha
convergència evolutiva.

Aquests canvis es poden produir de l’ancestre comú fins les diferents seqüències. Imaginem
que l’ancestre comú és ACGGCT, llavors trobem:

 Seq 1: ACGGTT 
substitució
(transició)
 Seq 2: ACGGAT 
substitució
(transversió)
 Seeq 3: ACGGT 
deleció (també podria
tenir lloc una
inserció)
18
A l’hora de jutjar el canvi no és el mateix:

Cal un sistema de puntuació per determinar com d’idèntiques o semblants són aquestes
seqüències entre elles.

Sistema de puntuació

A cada parell de l’alineament s’assigna un valor que serà major o menor (també amb valors
negatius) en funció de la probabilitat de l’esdeveniment evolutiu que ha pogut generar aquell
canvi. Despres se sumen tots els valors al llarg de l’alineament (sistema de puntuació
additiu). A les puntuacions negatives se les coneix com penalitzacions. Per exemple, no és
el mateix moure’s entre purines que canviar una a una pirimidina.

Les matrius de puntuacions assignen una puntuació determinada amb el tipus de canvi.
Per exemple:

Evolutivament parlant, és més difícil que hi hagi una pèrdua que una simple mutació perquè
la polimerasa s’equivoca. Si fem una matriu de puntuació on posem aquests valors, podem dir
que tot i que l’alinemaent sigui semblant, hi ha dos que semblen més favorables i que
evolutivament semblant anem a partir del 4.

No és le mateix canviar entre purines que una purina per una pirimidina. Podem assignar
puntuacions diferents segons si és una transducció o
transversió, complicant la matriu. Quan tornem a evaluar veiem
que segons aquest criteri, la seqüència 1 i la seqüència 2 són
més semblants que amb la 3. Com porvenen de probabilitat de
canvi evolutiu, vol dir que 1 i 2 estan més properes
evolutivament i són més semblants.

En el cas del DNA, en tenir només 4 possibilitats, les probabilitat


de mutació no són tan diferents, tot i que sigui cert que és més
probable que s’equivoqui d’una manera. Només tenim en
compte la identitat (|). Però amb proteïnes això canvia perquè
tenim 20 aminoàcids diferents. Alguns aminoàcids se semblen
molt més entre ells que no amb uns altres. A l’hora de fer el
canvi no és el mateix que canviï en
una posició una leucina, per exemple,
amb una isoleucina perquè molt
diferents realment no són i segurament la proteïna continuarà sent
funcional. En proteïnes també hem de tenir en compte les
similituds (:).

19
Donat que totes les proteïnes provenen de triplets i canvis evolutius, els quals es fan en el
DNA, les mutacions mai tenen lloc a les proteïnes.

Si per exemple volem passar d’aspàrtic a tirosina, amb un sol canvi en el DNA ja està fet. En
canvi, si passem d’aspàrtic a triptòfan necessitem 3 mutuacions i, evidentment, serà menys
probable trobar això últim que no la primera situació. Però no només això, alguns aminoàcids
se semblen. Per passar d’aspàrtic a glutàmic és un canvi molt comú perquè són pràcticament
idèntics. Amb també un sol canvi passem d’aspàrtic cap a glicina, que no té res a veure. Des
del punt de vista de probabilitat de canvi és le mateix, però a la proteïna no li senta bé aquest
canvi.

Llavors, el canvi d’un aminoàcid per un altre NO ha


de tenir la mateixa puntuació. Però compte! El tipus
d’aminoàcid també és important.

Matrius
MATRIUS DE PUNTUACIÓ
Les matrius d’indeittat funcionen bé per alineament
de proteïnes molt semblants, però NO per seqüències
relativament distintes. Per poder evaluar els canvis
de proteïnes no serveixen aquestes matrius
d’identitat.

MATRIUS DE SUBSTITUCIÓ: PAM


Necessitem matrius de puntuació que valorin que no és el mateix canviar d’aspàrtic a glicina
que per una altra cosa, per exemple.

PAM va ser desenvolupada per Margaret Dayhoff l’any 1977. Va aplicar l’estadística en
aquestes matrius. Aquestes es calculen observant diferències entre proteïnes relacionades
(properes,, amb un mínim del 85% de similitud).

→ PAM1: es va calcular considerant seqüències amb 1 mutació per cada 100 aminoàcids.
Així, aquesta matriu estima el ritme de substitució entre dos aminoàcids si l’1%
d’aquests canvien.
→ PAM250: és de les matrius més utilitzades de totes les que va desenvolupar Dayhoff.
Intenta assignar una puntuació que ve a significar (no probabilitat) i deriva de quina és
la probabilitat de canvi. Si vols canviar triptòfan per un altre, per exemple, serà una
puntuació màxima.

MATRIUS DE SUBSTITUCIÓ: BLOSUM


Henikoff i Henijoff van construir aquestes matrius utilitzant alineaments múltiples de
proteïnes evolutivament divergents. Les probabilitats utilitzades en els càlculs de la matrius
es computen observant blocs de seqüències conservades trobats dins dels alineaments de
proteïnes divergents. S'assumeix que aquestes seqüències conservades són importants
funcionalment dins les proteïnes relacionades.

Es van considerar els parells de freqüències entre segments dels alineaments amb menys
d’un 62% d’identitat i es va construir la matriu BLOSUM62.

20
S’utilitzaran doncs Matrius BLOSUM de numeració alta per alinear dos seqüències properes
(relacionades), i s’utilitzaran números més baixos per a seqüències més divergents.

Llavors, utilitzant el programa BLAST per generar una sèrie d’alineament sense gaps a partir
de seqüències diferents que havien vist que tenien trossos que erem molt similars. Llavors:

 Amb números més alts = seqüències del bloc més iguals.


 Amb números més baixos = seqüències del bloc més diferents.

BLOSUM 62: originalment tenia colors, però quan la van crear van veure que coincidia molt
bé en grups d’aminoàcids. Els valors positius indiquen que són similars. Aquesta matriu es va
construir a partir d’alineaments, probabilitats i freqüències de canvis. Quan fem un
alineament, comptem els scores i sumant-los.

Gairebé tots els programes utilitzen matrius de substitució BLOSUM62 és una bona opció. És
la matriu per defecte. Quan en el BLAST poses seqüències curtes, si no ho poses, canvia i
ajusta els paràmetres per alinear seqüències curtes i un és utilitzant PAM30.

Puntuació per “gaps”

A part de donar scores, hem de tenir en compte les insercions i delecions. Quan alineem dues
seqüències que han divergit pot ser que hagi passat algun d’aquests fenòmens . Els gaps són
la representació del significat biològic.

El score final serà la suma de la matriu menys la penalització del gap. Si l’alineament és molt
gran, el número serà molt petit i al revés. Podem
tenir dues seqüències idèntiques amb score de 30 i
dues seqüències amb 10% d’identitat amb un score
de 3.000.

Aquests els podem puntuar:

 Un gap = -2
 El que és difícil és que es produeixi el
fenòmen
d’inserció i
deleció, però
un cop s’ha produït, serà bastant fàcil emportar-te 2, 3,
4, les probabilitat de que el fragment sigui més o menys
gran és molt semblant. El tros que treus pot ser 1, 2, 3,
4, bases. Tens dues penalitzacions:
- Obrir el gap = -2
- Extendre el gap = -0, 1

Molts programes d’alineament suggereixen els valors per defecte, modificar les variables
canviarà l’alineament i la seva interpretació.

Quan et planteges quin és el millor alineaments, has de mirar totes les possibilitats, calcular
els scores i escollir el que tingui una puntuació més elevada.

Mètodes per construir l’alineament

21
 Programació dinàmica:
- Alinea parells de seqüències.
- Garanteix alineaments òptims i exactes (quantitatiu)
- Computacionalment cars i lents
o Global: Needelman i Wunch
o Local: Smith-Waterman
 Cerques heurístiques:
- Alineaments no sempre òptims, aproximats (quantitatiu)
- Permeten fer cerques ràpides en base de dades grans (BLAST, FASTA)
 Dot plot: matriu de punts
- No obté alineaments òptims (qualitatiu)
- Permet identificar visualment repeticions inter e intraseqüencials.
- Ràpida identificació de indels, patrons de reorganització en els genomes i
esdeveniments de transferència horitzontal.

PROGRAMACIÓ DINÀMICA
La idea bàsica és construir el millor alineament usant alineamtns òptims de subseqüències
menors. L’algoritme de Needleman i Wuncsch és un exemple de programació dinàmica que
utilitza un algoritme recursiu.

L’algoritme de Needleman i Wunsch permet fer alineaments globals òptims (alinea les
seqüències al llarg de tota la seva longitud).

 Seqüències de longituds semblants


 Seqüències relativament semblants

El 1981, Temple Smith i Mike Waterman proposen una modificació del algoritme de
Needleman-Wunsch par a obtenir alineaments locals obtenint el millor score entre dos sub-
seqüències d’un parell de seqüències.

 Útil en seqüències més divergents


 Les seqüències poden tenir qualsevol longitud
 Es diferencía del mètode anterior en la construcció de la matriu C(mxn)

El problema de fer aquest és que quan tens 2-3 seqüències de mides similars i continguts
similars ja t’ho dona per bo. Si agafes 2 seqüències que no tenen res a veure per generar els
blocs, un mètode que vol alinear tot no té sentit perquè de les seqüències només la part que
té sentti biològic seria un bloc en concret. Per això Smith va desenvolupar el seu algoritme
per només alinear el que realment s’alinea.

Llavors els alineaments:

 Globals: les seqüències s’alineen d’un extrem a un altre.


 Locals: les seqüències s’alineen en petites regions i aïllades. Mostren regions (dominis)
conservats entre seqüències relativament distants.

3. ALINEAMENT MÚLTIPLE

22
Objectiu: amplificar el gen rpfF d’una nova espècie bacteriana de la família
Xanthomonadaceae que se sospita pertany al gènere Xylella sp.

Podríem fer una PCR per tal de buscar proteïnes similars (= organismes emparentats) i
després podrem dissenyar oligonucleòtids degenerats.

Metodologia: comparar les seqüències de les proteïnes rpfF amb activitat enoil-CoA
hidratasa en diverses espècies de la família. Trobar regions conservades i dissenyar un primer
mitjançant traducció reversa.

Com ja sabem, els alineaments de parelles són basats en la programació dinàmica i poden ser
locals o globals. Per tal de puntuar-los, fem matrius de substitució. Solen ser alineaments
fàcils i ràpids. Alinear més de dues seqüències utilitzant el mateix mètode és pràcticament
impossible, és computacionalment lent. Cap als anys 80 utilitzaven l’algoritme heurístic per
crear alineaments de parelles. És a dir, sacrifiques exactitud per velocitat.

Molts dels algoritmes per a alineaments múltiples utilitzen un mètode d’alineament


progressiu. Comença fent un alineament de parelles i va afegint a aquest alineament les
altres seqüències de forma progressiva:

1. Alineem en parelles totes contra totes.


2. Decidim les que són més similars.
3. Les més similars són les primeres que alinea per alineament múltiple.
4. De manera progressiva, les fiquem totes fins crear el final.
5. Creem matrius de distàncies  per a determinar l’ordre en que alinear les
seqüències.
6.

Alineaments progressius

1) Alineament de parelles
a) Lent, acurat, programació dinàmica
 Global  Needleman-Wunsch
 Seqüències curtes (>100 pot ser lent)
b) Ràpid, aproximat
 Mètide del k-tuple, semblant al BLAST
2) Obtenció de matriu de distància basada en les puntuacions obtingudes en els alineamts
de parelles. Construcció d’un arbre guia. Saber quines són les més distinties i les
menys. Guia la construcció final, però no és una història filogenètica.
3) Construcció de l’alineament múltiple per mètode progressiu (afegint les seqüències
d’una amb una o l’alineament resultant
d’una parella) usant l’arbre guia. Re-
alineament global de les seqüències més
pròximes.

La matriu representa les distàncies entre cada un


dels parells de seqüències que es comparen. El
número de mutacions és equivalent a la distància.

23
El Clustal W serveix per fer alineaments múltiples. És la base de quasi tots els programes:
ClustalW, ClustalOmega, MAFFT, Kalign, ProAlign, MUSCLE, DIALIGN, PRANK, FSA, T‐Coffee,
ProbCons, COACH, Cobalt, SIM, LALING, Handel, 3D‐Coffee, etc.

i. Variants que basats en alineaments locals


ii. Variants que usen models probabilístics
iii. Variants que usen dades estructurals o funcionals

Fiquem informació (input) on cada input té un format i el programa ens dona un output que
també té informació. En un fitxer únic posem totes les seqüències FASTA. Perquè sigui format
FASTA cal que hi hagi al principi ‘>’, ja que si no hi és no és format FASTA. Després ve un text
lliure de descripció, click per fer un paràgraf i després la seqüència.

Aplicacions dels alineaments múltiples

 Identificació de llocs variables dintre de seqüències conservades.


 Identificació de llocs conservats o semi-conservats dintre de seqüències divergents.
 Detectar motius o regions conservades amb funció comú.
 Construcció de matriux de posició o de pes.
 Establir relacions filogenètiques e inferències evolutives.
 Ajudar a predir estructura secundària i terciària d’àcids nucleics i proteïnes.

24
25

You might also like

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy