Apunts Modul 1
Apunts Modul 1
INTRODUCCIÓ A LA
BIOINFORMÀTICA
En un laboratori o un projecte, en qualsevol lloc en què executem en l’àmbit bio, podem
diferenciar les 3I a nivell experimental:
El connector de les 3I és la bioinformàtica, la que ens permet el canvi del codi genètic al
labroatori.
2. QUÈ ÉS LA BIOINFORMÀTICA?
La bioinformàtica són eines que ens permeten resoldre problemes biològics. Aplica la
tecnologia per cercar, visualitzar, analitzar, integrar i gestionar informació biològica (dades
moleculars). S’alimenta dels experiments i dades que provenen de les –òmiques (genoma,
transcriptoma, proteoma, metaboloma...).
Fem una predicció X. El que hem de fer és validar-lo i demostrar-lo. No és només preveure
que hi ha un centre actiu, cal demostrar-lo i només es podrà fer in vivo o in vitro¸ quan passa
pel laboratori.
Per reconeixer patrons també els podem validar in silico. Què passa i canviem el residu? I el
nivell del plegament? Tot això es pot preveure computacionalment i veure quin efecte tindrà
en el plegament de la proteïna i la funció. Podem dissenyar experiments in silico que
prevenguin això.
Bases de dades
El primer genoma seqüenciat va ser d’un bacteri de 1,8Mb. L’any 2001-2003 es va obtenir el
primer genoma humà complert amb un cost de 1.000 milions de dòlars. Amb la introducció de
les tècniques massives, al 2017 pots seqüenciar un genoma igual de gran amb un cost de
500-600 euros. La tecnologia ha permès una reducció.
L’augment de producció de dades i que sigui tan barat, ha fet que hi hagi un augment
impressionant de dades que es emmagatzemen en llocs repositoris. Aquesta explosió ha fet
que hi hagi una branca de la bioinformàtica que es dedica a l’emmagatzematge i indexació de
dades en bases de dades, per tal de poder donar accés d’aquestes dades i que estiguin
ordenades. Hi ha milers de llocs on les podem dipositar.
Un dels llocs per excel·lència, dels primers que es van crear, per emmagatzemar dades de
nucleòtids de gens va ser GenBank. Gen Bank és pioner com a bases de dades. Es va crear
l’any 1982 amb 606 registres, i fa un parell d’anys, a desembre de 2018, ja hi ha un registre
de més de 2 milions de registres diferents. En un registre pot haver-hi un genoma complert,
per exemple.
El fet de que hi hagi tants llocs i tantes bases de dades on buscar, genera conflicte. Hem de
tenir clar què volem i, a partir d’aquí, saber on ho hem d’anar a buscar, ja que qualsevol de
nosaltres la pot crear, aquesta base de dades, però com de fiable és? Hem de saber on
2
consultem i on recollim aquestes dades; cal que tinguin una garantia de qualitat. Aquesta
garantia vindrà donada per la publicació en una revista, normalment, de la base de dades que
es crea. Sempre hi ha un article associat en una revista de prestigi que defineix el que conté
la base de dades i quin tipus de dades hi ha i com es pot consultar, etc.
En definitiva, aquest anàlisi ens ofereix coneixement, el qual vindrà a partir del
reconeixement de patrons i la predicció i SEMPRE haurem de passar per la validació in vivo i
in vitro. Hi ha moltíssims camps d’aplicació de la bioinformàtica, sent un la microbiologia.
1. Selecció de soques: a partir d’una sèrie de soques clíniques que ens interessa, les
caracteritzem, veurem fenotips associats a aquests clons d’origen clínic, quins són més
o menys virulents, resistència, etc. Generarem unes dades que s’hauran de processar.
Expansió: podem genotipar.
2. Anàlisi comparatiu: veurem quins són els més interessants per al fenotip de major
virulència, resistència o capacitat de fer biofilms, etc. Serà un segon nivell de
caracterització que ens portarà a un anàlisi del proteoma, anàlisi del genoma o anàlisi
del transcriptoma. Encara estem caracteritzant i ens aportarà unes dades que
integrarem amb les altres informacions obtingudes.
Expansió: podem veure els canvis en els gens que hem seqüenciat i podem traslladar
això en un arbre i veure quins microorganismes estan més a prop, etc.
També podem comparar proteomes i veure quines proteïnes s’expressen en dos
microorganismes diferents o el mateix i canviant les condicions. identifiquem les
proteïnes i les seqüenciem.
A nivell transcriptòmic, fixem condicions i veiem quins són els gens que es
transcriuen.
3. Integració de dades: a partir de la integració de dades, podem definir una estratègia
que ens permet trobar la diana.
Extensió: quan fem un arbre, podem veure com una sèrie d’individus que poden ser
considerats un clon de risc epidemiològic perquè a nivell de fenotip tenen
característiques semblants i a nivell de genotip es trobem a prop. Podem fer un anàlisi
més profund sobre els microorganismes que ens interessa treballar amb ells i els
microorganismes que anirem contra ells.
4. Selecció i validació de targets candidats: busquem projecte gènic sobre el qual
adreçar un fàrmac. En el disseny, definirem una sèrie de condicionants. A partir dels
caràcters definits, veurem si la funció del gen està conservat o no, si es troba present
en tot, si pot ser un bon target pels bacteris més virulents, si està present en
organismes eucariotes i veure la toxicitat, si la proteïna interacciona amb altres,
cercarem fàrmacs, etc. Quan tinguem una col·lecció de fàrmacs que poden
interaccionar bé, caldrà anar a in vitro i in vivo, veure què li passa al mutant i fer
diferents assajos. Acabarem obtenint un tractament.
Extensió: ja tenim el gen X contra el que dissenyarem el fàrmac. Ara n’hem a veure les
seves funcions, homòlegs, present o absent, essencialitat, però és ideal trobar una
diana que es correspongui amb una funció vital amb el possible patogen? No, perquè
3
matarem bons i dolents, no és bo utilitzar un gen vital, o també provocar resistència si
fem una pressió selectiva molt gran. A partir d’aquí, anem a validar. La toxicitat no es
pot validar fins que no es comprova. L’equilibri entre no ser tòxic i ser potent és difícil
trobar.
4
TEMA 1. BASES DE DADES D’INTERÈS
PER A LES BIOCIÈNCIES
1. BASES DE DADES BIBLIOGRÀFIQUES
Cerques lògiques
Posem “...” per a posar frases. Serveix per ampliar. Termes que s’escriuen
exactament d’aquesta manera i ordre. És el més restrictiu.
Altres operadors
W/n → són operadors que ens deixen buscar 2 termes separats l’un de l’altre a una distància
determinada. Per exemple, quan diem W/5 estem dient que volem dos termes on la distància
entre ells com a màxim és de 5 termes. Ens serveix per buscar dintre d’una frase o un
paràgraf.
Pre/n → aquests dos termes estan a una distància n i l’un va davant de l’altre.
5
2. LLOCS PER CERCAR INFORMACIÓ BIBLIOGRÀFICA
Trobem Medline i PubMed.
El PubMed és una interfície gràfica que ens permet comunicar-nos amb la veritable base de
dades; és com ens comuniquem amb la base de dades. Podem posar termes, aplicar filtres,
etc. És allò que escrivim que és interpretat pel PubMed i es llença a la base de dades, les
quals una seria Medline. Medline és la veritable base de dades, on estan emmagatzemades.
En PubMed no només consultem Medline. Deixem consultes sobre altres bases de dades
diferents, com bases de dades de llibres, informes, etc. Que no estan en Medline. Medline
conté informació al voltant de les bio- i mèdic. Ara trobem gairebé de totes les disciplines. No
només es pot consultar a través de PubMed.
Qui ho manté tot això és el NCBI a EE.UU. És el punt de referència per a tothom. És important
que no ens quedem només amb el que hi ha al PubMed. Si llancem una consulta qualsevol a
PubMed, avui dia trobaríem que hi ha registrats 33 milions de registres diferents, mentre que
en el Medline 29 milions. Hi ha revistes que llencen i publiquen nous articles, els quals no
estan continguts en Medline. Medline té una actualització quinzenal, és a dir, cada 15 dies
s’actualitza la base de dades. En aquests dies que passen fins a la nova versió, hi ha revistes
que han acceptat nous articles, però no es troben en Medline. Els dipositen en una base de
dades que es puguin consultar a través de PubMed. PMC és el PubMed Central, la qual és una
interfície gràfica molt semblant al PubMed, però la base de dades només de d’articles
complets, contenen el text complet; té uns 6 milions de registres.
La política dels que financen, promocionen a que els projectes que s’executen amb diners
públics, s’han de publicar en revistes on tothom tingui accés. Publicar en una revista amb codi
obert té un cost elevat. En una revista on el lector hagi de pagar per llegir, pot ser més baix,
però tot depèn de la natura de la revista. Darrere de tot el món aquest hi ha la indústria
editorial que guanya molts diners, sigui perquè els cobra dels autors o lectors, aquesta
indústria mai perd. Això va segons el prestigi de la revista. Trobem els índex d’impacte que
situen la revista en un cert nivell. La indústria editorial en obert publica molts més perquè així
aconsegueix més recursos. Altres revistes que s’anomenen predatories es trobem
amagades sota noms que et semblen fiables, però són revistes que només serveixen pels
negocis, la revisió sol ser molt lleugera. És molt important anar a llocs rigorosos per trobar
qualitat.
PubMed
El que s’indexa solen ser títol, autors, afiliacions, codis únics que els identifica el document,
petit resum o termes associats, com podem veure en la següent captura:
6
El PubMed agafa el que hi ha al Medline i fa una interfície gràfica, però la informació és la
mateixa. La informació va precedida d’unes etiquetes que defineixen què tenim aquí. Els tags
ens poden facilitar molt la cerca.
Ex. Imaginem que volem cercar informació publicada per una persona amb cognom
Barcelona. Si fem una cerca amb aquest terme, trobarem tots els articles que hagi fet la
persona, però també els llocs on surti aquest terme. No és el que volem. Volem que el terme
es correspongui amb el nom d’un autor. El que podem fer és ajudar-nos de les etiquetes i dir-
li “dóna’m la informació que es correspongui amb el terme Barcelona, però cercant el terme
només en el camp nom dels autors”. De manera que apliquem un filtre basat en els tags. Això
ens permet afinar molt
amb la nostra
cerca.
7
La base de dades està molt ben definida. Quan fem la cerca, podem editar-la, afegir un altre
terme, afegir un altre tag, tornar-la a trobar, etc.
De vegades, el que ens trobem és que pel terme que volem fer la consulta, no sabem si tota
la informació que hi ha han utilitzar el mateix termes. Per exemple, el terme virulència.
Tenim clar què vol dir i que no té res a veure amb la patogenicitat. Però de vegades, els
autors no utilitzen correctament la informació i enlloc d’utilitzar “virulència” ha posat “més
patogen que”. No és correcte. Preveient això o amb la idea de estendre la cerca d’un terme
amb altres que puguin estar relacionats, com virulència i patogènesi, la gent del PubMed ha
dissenyat un vocabulari on es correlacionen termes. De manera que quan cerquem per un
terme, la interfície agafa el terme i el va a buscar en el vocabulari indexat i mira si té termes
que agrupen.
En llença en el vocabulari anomenat MeSH, troba els termes relacionats i porta una cerca on
ha barrejar o portat el terme virulència, afegeix OR, un segon terme. De manera que sense
saber-ho, hem fet una cerca més extensa.
Problema: és exponencial. Si només volem 1 terme, això ho estén. Llavors si només volem
això utilitzem “...”. Cerca exhaustiva en el “cos” de les publicacions. Com en el PubMed no
podem, hem d’anar al PMC on sí es pot fer perquè tenim l’article sencer.
Hi ha moltes dades per processar. En el nostre cas pràctic, per exemple, tindrem la seqüència
rpFf que la disposarem en una base de dades de nucleòtids. Això és una dada bàsica, farem
una breu descripció del que hi ha i ho depositarem en un lloc per a que tothom tingui accés.
Si nosaltres volem publicar, sigui on sigui, la revista voldrà tenir l’accés a aquesta seqüència,
llavors estem obligats a depositar-la en una base de dades. Es convertirà en una dada
primària.
8
- DNA sequence database
- Genome database
- Protein structure database
La pròpia base de dades pot millorar aquestes, pot agafar les dades primàries, analitzar-les i
generar un nou registre producte d’aquest anàlisi. Això seria dades secundàries: contenen
dades derivades de l’anàlisi i tractament de la informació de les bases de dades primàries,
bases de dades d’estructura secundària, dominis i famílies, motius, matrius, perfils de
hidrofobicitat, seqüències proteiques obtingudes per traducció, etc RefSeq NCBI: base de
dades que inclou DNA, RNA i proteïnes, derivats de GenBank.
Si hi ha més d’un grup que té seqüències del rpFf, que seria el nostre cas, la base de dades
agafa tota la informació i la posa en un (1) registre, de manera que els usuaris poden anar a
la base secundària i treure la redundància, creant un arxiu refinat o de referència de la
seqüència. Es preserva l’autoria. Quan acceptem això, acceptem que poden fer el que vulguin
amb la dada.
Podem sotmetre les nostres dades on vulguem, el problema és quan volem buscar una
informació, on ho fem? Idealment hauríem d’anar als 3 llocs per trobar-la, però no cal perquè
aquestes tres bases tene nun conveni de col·laboració on diàriament intercanvien informació.
Pot passar que estiguem fent un projecte de seqüenciació d’un genoma i no estigui acabat,
però vulguem donat accés al tros del genoma que tenim. En aquest cas, aquest tros només
estarà en una base en concret, però quan el treball estigui acabat, directament passarà en el
lloc comú.
Nosaltres sempre dipositem en GenBank perquè ENA/EBI, sobretot EBI, s’ha dedicat més al
desenvolupament de softwares d’anàlisi de dades per tal de facilitat el seu processament,
però ells no els fan, només creen aquestes eines. Són eines molt més potents, però utilitzem
GenBank perquè també el formulari i la forma de dipsoitar és més fàcil.
Format fitxers
Podem trobar arxius senzills on només hi ha una seqüència amb una petita descripció, i en
cada lloc pot aparèixer en un forma diferent. El problema d’això és que quan vols informació,
no és exactament igual, per això en aquest conveni el que es fa és que els formats
convergeixin i hi hagi la mateixa informació. L’arxiu senzill predilecte és FASTA. Té 2 camps:
9
agcggcgacaatatctagccacgcgctagtgaagatagttcatcgccaggta
En la primera línia que comença amb > és una línia única i és una descripció de la
seqüencia. Acaba amb un retorn-intro.
La segona línia és només la seqüència.
Aquest format l’utilitzem per qualsevol tipus d’anàlisi. Quan anem a GenBank podem
descarregar l’arxiu en aquest format. Tenim seqüències pròpies que també estaran en aquest
format.
Hi ha alguns formats arxius que contenen més informació i són els tipus múltiple. En l’anàlisi
comparatiu múltiple es genera una informació que està en un arxiu de tipus múltiple perquè
tenim diferents seqüències alineades. També hi ha predicció d’estructures, distància, etc.,
sent aquest el tipus mixte.
FAST de qualitat (FASTq) arxiu que ve de la seqüenciació massiva. Conté una breu
descripció, seqüència i uns caràcters on hi ha informació de qualitat de la seqüència.
Nosaltres no ho podem processar, però si tenim aplicatius que en base la qualitat defineix la
seqüència. Convertim a un FASTA normal. Tenim molts formats, hi ha una eina que ens
permet convertir aquests formats.
Un cop arribem al final del nostre projecte, ja som autors de la seqüència rpFf. Ho dipositem
al GenBank mitjançant un formulari. Això és revisat per la base de dades, ho comprova i ho
accepta. Mínim fa un traçat de procedència i ens dona un codi d’accés, el qual serà únic i
universal únic: no hi haurà altra seqüència que el trobi ; universal en qualsevol base de
dades mundial el codi serà el mateix.
Com autors tenim dret a revisar i editar. Imaginem que en un mesos veiem que hi ha un hot
spot i certs polimorfismes. Quan ens adonem, avisem a la base de dades i actualitzem. En un
temps publiquem el treball en una revista i fem referencia a la seqüència, també ho
comuniquem a la base de dades. Tenim dret a fer el que vulguem amb la dada primària i amb
la secundaria ells faran l’anàlisi.
Anotació de GenBank
Trobem 3 apartats:
Si anem a https://www.ebi.ac.uk/ena/WebFeat/ ,
veiem el següent:
10
Un CDS és una seqüència de nucleòtids que correspon a una seqüencia d’aminoàcids d’una
proteïna (inclou el codó de stop).
Tenim en el formulari quan preparem per enviar la seqüència. Això són tags que després van
bé a l’hora de fer cerques. Ens dona detalls amb breus explicacions de cada camp, què conté.
Needleman Wunsch
When we’re talking about the sequence alignment, we have to take into consideration:
A computational method to find the best optimal alignment between two sequences.
The method compares every character in the two sequences and generates an
alignment.
11
The component of the alignment:
Matches: characters that are the same in the two strings (blue lines)
Mismatches: characters that aren’t the same in the two strings (red square)
Gaps: introducing them can make strings to have more matches and the alignment
becomes better than the previous one.
We’re introducing these gaps because of evolution, sometimes there’re mutations and
these variations can be mismatches.
Example:
In both of them there’s 1 gap. But, which one has a better alignment? We have to use a
scoring scheme. We put some conditions:
Match = +1
Mismatch = -1
Gap = 0
Example:
12
- Seq1: TGGTG m
- Seq2: ATCGT n
We initialize table T:
T(i, j) is the cell at the intersection of row I (horizontal axis) and column J (vertical axis). 0-5
addresses of a particular cell. In green we have the T(4, 3) cell.
We initialize T(0,0) with a score of 0. We’ll be moving from top left corner to the bottom right
corner, we’ll go along horizontally. The scoring scheme we’ll use:
Match = +1
Mismatch = -1
Gap = -2
We start calculating:
T (1,0):
- First expression: T (0, -1) doesn’t apply to
anything on the table.
- Second expression: it applies so:
1. T (0,0) = 0
2. Gap penalty = -2
3. 0 + (-2) = -2
- Third expression: T (1, -1) doesn’t apply to
anything.
The score for T(1,0) = -2 we draw an arrow
pointing to where the score is coming from: left
T(0,0)
T (2,0):
- First expression: T (1, -1) doesn’t apply to anything.
- Second expression: T (1,0) applies.
1. T (1,0) = -2
2. Gap penalty = -2
13
3. -2 + (-2) = -4
- Third expression: T (2, -1) doesn’t apply
The score for T(2,0) = -4 arrow to the left T(1,0)
T (3,0) = -6
T (4,0) = -8
T (5,0) = -10
T (0,1):
- First expression doesn’t apply
- Second expression doesn’t apply -> T (-1,1)
- Third expression apply so:
1. T (0,0) = 0
2. Gap penalty = -2
3. 0 + (-2) = -2
So the score for T(0,1) is –2 arrow to up T (0,0)
T (1,1):
- First expression applies so:
1. T (0,0) = 0
2. It’s a mismatch (T and A) so = -1
3. 0 + (-1) = -1
o Second expression applies so:
1. T (0,1) = -2
2. Gap penalty = -2
3. -2 + (-2) = -4
o Third expression applies so:
1. T (1,0) = -2
2. Gap penalty = -2
3. -2 + (-2) = -4
Out of this 3 values –1 is the best, so the score for T (1,1) is –1 arrow to the diagonal
up: T(0,0) because the higher score is -1 and it comes from the first expression,
which at the same time comes from T(0,0)
T (2,1):
- First expression applies so:
1. T (1,0) = -2
2. It’s a mismatch (G and A) so = -1
3. -2 + (-1) = -3
- Second expression apply so:
1. T (1,1) = -1
2. Gap penalty = -2
3. -1 + (-2) = -3
- Third expression apply so:
1. T (2,0) = -4
2. Gap penalty =-2
3. -4 + (-2) = -6
Out of this 3 values –3 is the best so the score for T (2,1) is –3 arrow to left T (1,1)
and diagonal up T (1,0).
14
Once we compute all the scores, we fill the matrix. To traceback we just have to follow the
arrows starting from the lower right corner:
To work out the best alignment, follow the traceback form top left to bottom right
and look at the letters aligned in each cell
Here the 1st cell (yellow) doesn’t correspond to any letter we ignore it
The 2nd cell is A in sequence S2 but nothing in sequence S1 gap
The 3rd cell is T in sequence S2 and T in sequence S1 match
Smith-Waterman algorithm
Background:
In the needleman and Wunsch algorithm we only had the first 3 but in the smith-waterman
algorithm we introduced a zero, and we have to compute the maximum of these 4. So the
diference between Needleman Wunsch and Smith Waterman is that 0 is also placed in the
relationship!
Match = +1
Mismatch = -1
Space = -5
We initialize the first column and the first row with zeros, it’s very important.
We complete the table as we did with the Needleman and Wunsch algorithm but we have to
choose between 4 values instead of 3.
Exemple T (1,1):
We select +1.
When we have a completed matrix as above we have to find the highest scores, in this case,
the 2. With these scores we start the traceback until we find a 0 sequentially
What this tells you is that there are 3 possible local alignments in these matrix, that we can
16
extract and write them spear.
Conclusion:
Local alignments can be performed using Smith Waterman algorithm
- Very useful in extracting the exons and functional domains in DNA and protein
sequences resspectively
Traceback can start from any position in the scoring matrix
Local alignments can be extracted by starting from a high score till reaching 0.
2. ALINEAMENT DE PARELLES
Els paràmetres que podem utilitzar per comparer dues seqüències són:
Contingut G+C
Freqüència de bases
Grandària no hi quep el mateix en una seqüència de 1.000pb que una de 100pb, tot
I això, no et dona el significat biologic.
Motius comuns.
Tot això es pot veure en un alineament, que és la comparació que ens donarà més
informació. És la única manera de veure l’interès, veus clarament si se semblen més o menys,
si tenen aminoàcids en comú o bases i posicions molt semblants, etc.
17
Estadístic: es pot assignar una puntuació a cada alineament que indiqui com
d’allunyants estan d’un alineament a l’atzar. Podem evaluar si és bo o no quan
aquests no són idèntics.
Biològic: comparteixen un ancestre comú? Implica una relació funcional, estructural i
evolutiva? No hem d’oblidar que estem treballant amb DNA i proteïnes, llavors si
alineem una proteïna A amb una proteïna B i ho fan molt bé, això suposa moltes coses
a nivell biològic com que són semblants, fan funcions similars, etc.
Quan alineem dues seqüencies estem comparant el seu contingut. Si ens fixem en la query de
la imatge de sota, realment les dues seqüències se semblen poc. Però si ens fixem en el
gràfic, les dues proteïnes se semblent molt. Tot i ser molt semblants, hi ha trossos que una té
i l’altra no, però l’estructura és similar i fan la mateixa funció. Llavos podríem dir que són dos
organismes que van divergir.
El significat biològic d’això és: sigui el que sigui que fa l’aminoàcid en posició N de
l’alineament de la proteïna A és el mateix que fa l’aminoàcid en la mateixa posició de
l’alineament de la proteïna B. Per exemple, en la posició 60 tenim una alanina i en la posició
59 trobem una glicina (això és perquè hi ha un gap). Quan assignem un significat biològic
només pot haver un (1) alineament correcte, però poden haver-hi zones que no estiguin
alineades o poden haver zones canviades completament. Això el programa no ho sap, no
dona aquest significat i per això estan els i les científiques.
L’alinemanet ens diu el grau de relació. Gairebé sempre aquesta relació és evolutiva i és una
evidència que han divergit d’un ancestre comú. Tot i que la gan majoria de vegades ens
trobarem que la relació és deguda a una relació evolutiva, no sempre serà així perquè hi ha
convergència evolutiva.
Aquests canvis es poden produir de l’ancestre comú fins les diferents seqüències. Imaginem
que l’ancestre comú és ACGGCT, llavors trobem:
Seq 1: ACGGTT
substitució
(transició)
Seq 2: ACGGAT
substitució
(transversió)
Seeq 3: ACGGT
deleció (també podria
tenir lloc una
inserció)
18
A l’hora de jutjar el canvi no és el mateix:
Cal un sistema de puntuació per determinar com d’idèntiques o semblants són aquestes
seqüències entre elles.
Sistema de puntuació
A cada parell de l’alineament s’assigna un valor que serà major o menor (també amb valors
negatius) en funció de la probabilitat de l’esdeveniment evolutiu que ha pogut generar aquell
canvi. Despres se sumen tots els valors al llarg de l’alineament (sistema de puntuació
additiu). A les puntuacions negatives se les coneix com penalitzacions. Per exemple, no és
el mateix moure’s entre purines que canviar una a una pirimidina.
Les matrius de puntuacions assignen una puntuació determinada amb el tipus de canvi.
Per exemple:
Evolutivament parlant, és més difícil que hi hagi una pèrdua que una simple mutació perquè
la polimerasa s’equivoca. Si fem una matriu de puntuació on posem aquests valors, podem dir
que tot i que l’alinemaent sigui semblant, hi ha dos que semblen més favorables i que
evolutivament semblant anem a partir del 4.
No és le mateix canviar entre purines que una purina per una pirimidina. Podem assignar
puntuacions diferents segons si és una transducció o
transversió, complicant la matriu. Quan tornem a evaluar veiem
que segons aquest criteri, la seqüència 1 i la seqüència 2 són
més semblants que amb la 3. Com porvenen de probabilitat de
canvi evolutiu, vol dir que 1 i 2 estan més properes
evolutivament i són més semblants.
19
Donat que totes les proteïnes provenen de triplets i canvis evolutius, els quals es fan en el
DNA, les mutacions mai tenen lloc a les proteïnes.
Si per exemple volem passar d’aspàrtic a tirosina, amb un sol canvi en el DNA ja està fet. En
canvi, si passem d’aspàrtic a triptòfan necessitem 3 mutuacions i, evidentment, serà menys
probable trobar això últim que no la primera situació. Però no només això, alguns aminoàcids
se semblen. Per passar d’aspàrtic a glutàmic és un canvi molt comú perquè són pràcticament
idèntics. Amb també un sol canvi passem d’aspàrtic cap a glicina, que no té res a veure. Des
del punt de vista de probabilitat de canvi és le mateix, però a la proteïna no li senta bé aquest
canvi.
Matrius
MATRIUS DE PUNTUACIÓ
Les matrius d’indeittat funcionen bé per alineament
de proteïnes molt semblants, però NO per seqüències
relativament distintes. Per poder evaluar els canvis
de proteïnes no serveixen aquestes matrius
d’identitat.
PAM va ser desenvolupada per Margaret Dayhoff l’any 1977. Va aplicar l’estadística en
aquestes matrius. Aquestes es calculen observant diferències entre proteïnes relacionades
(properes,, amb un mínim del 85% de similitud).
→ PAM1: es va calcular considerant seqüències amb 1 mutació per cada 100 aminoàcids.
Així, aquesta matriu estima el ritme de substitució entre dos aminoàcids si l’1%
d’aquests canvien.
→ PAM250: és de les matrius més utilitzades de totes les que va desenvolupar Dayhoff.
Intenta assignar una puntuació que ve a significar (no probabilitat) i deriva de quina és
la probabilitat de canvi. Si vols canviar triptòfan per un altre, per exemple, serà una
puntuació màxima.
Es van considerar els parells de freqüències entre segments dels alineaments amb menys
d’un 62% d’identitat i es va construir la matriu BLOSUM62.
20
S’utilitzaran doncs Matrius BLOSUM de numeració alta per alinear dos seqüències properes
(relacionades), i s’utilitzaran números més baixos per a seqüències més divergents.
Llavors, utilitzant el programa BLAST per generar una sèrie d’alineament sense gaps a partir
de seqüències diferents que havien vist que tenien trossos que erem molt similars. Llavors:
BLOSUM 62: originalment tenia colors, però quan la van crear van veure que coincidia molt
bé en grups d’aminoàcids. Els valors positius indiquen que són similars. Aquesta matriu es va
construir a partir d’alineaments, probabilitats i freqüències de canvis. Quan fem un
alineament, comptem els scores i sumant-los.
Gairebé tots els programes utilitzen matrius de substitució BLOSUM62 és una bona opció. És
la matriu per defecte. Quan en el BLAST poses seqüències curtes, si no ho poses, canvia i
ajusta els paràmetres per alinear seqüències curtes i un és utilitzant PAM30.
A part de donar scores, hem de tenir en compte les insercions i delecions. Quan alineem dues
seqüències que han divergit pot ser que hagi passat algun d’aquests fenòmens . Els gaps són
la representació del significat biològic.
El score final serà la suma de la matriu menys la penalització del gap. Si l’alineament és molt
gran, el número serà molt petit i al revés. Podem
tenir dues seqüències idèntiques amb score de 30 i
dues seqüències amb 10% d’identitat amb un score
de 3.000.
Un gap = -2
El que és difícil és que es produeixi el
fenòmen
d’inserció i
deleció, però
un cop s’ha produït, serà bastant fàcil emportar-te 2, 3,
4, les probabilitat de que el fragment sigui més o menys
gran és molt semblant. El tros que treus pot ser 1, 2, 3,
4, bases. Tens dues penalitzacions:
- Obrir el gap = -2
- Extendre el gap = -0, 1
Molts programes d’alineament suggereixen els valors per defecte, modificar les variables
canviarà l’alineament i la seva interpretació.
Quan et planteges quin és el millor alineaments, has de mirar totes les possibilitats, calcular
els scores i escollir el que tingui una puntuació més elevada.
21
Programació dinàmica:
- Alinea parells de seqüències.
- Garanteix alineaments òptims i exactes (quantitatiu)
- Computacionalment cars i lents
o Global: Needelman i Wunch
o Local: Smith-Waterman
Cerques heurístiques:
- Alineaments no sempre òptims, aproximats (quantitatiu)
- Permeten fer cerques ràpides en base de dades grans (BLAST, FASTA)
Dot plot: matriu de punts
- No obté alineaments òptims (qualitatiu)
- Permet identificar visualment repeticions inter e intraseqüencials.
- Ràpida identificació de indels, patrons de reorganització en els genomes i
esdeveniments de transferència horitzontal.
PROGRAMACIÓ DINÀMICA
La idea bàsica és construir el millor alineament usant alineamtns òptims de subseqüències
menors. L’algoritme de Needleman i Wuncsch és un exemple de programació dinàmica que
utilitza un algoritme recursiu.
L’algoritme de Needleman i Wunsch permet fer alineaments globals òptims (alinea les
seqüències al llarg de tota la seva longitud).
El 1981, Temple Smith i Mike Waterman proposen una modificació del algoritme de
Needleman-Wunsch par a obtenir alineaments locals obtenint el millor score entre dos sub-
seqüències d’un parell de seqüències.
El problema de fer aquest és que quan tens 2-3 seqüències de mides similars i continguts
similars ja t’ho dona per bo. Si agafes 2 seqüències que no tenen res a veure per generar els
blocs, un mètode que vol alinear tot no té sentit perquè de les seqüències només la part que
té sentti biològic seria un bloc en concret. Per això Smith va desenvolupar el seu algoritme
per només alinear el que realment s’alinea.
3. ALINEAMENT MÚLTIPLE
22
Objectiu: amplificar el gen rpfF d’una nova espècie bacteriana de la família
Xanthomonadaceae que se sospita pertany al gènere Xylella sp.
Podríem fer una PCR per tal de buscar proteïnes similars (= organismes emparentats) i
després podrem dissenyar oligonucleòtids degenerats.
Metodologia: comparar les seqüències de les proteïnes rpfF amb activitat enoil-CoA
hidratasa en diverses espècies de la família. Trobar regions conservades i dissenyar un primer
mitjançant traducció reversa.
Com ja sabem, els alineaments de parelles són basats en la programació dinàmica i poden ser
locals o globals. Per tal de puntuar-los, fem matrius de substitució. Solen ser alineaments
fàcils i ràpids. Alinear més de dues seqüències utilitzant el mateix mètode és pràcticament
impossible, és computacionalment lent. Cap als anys 80 utilitzaven l’algoritme heurístic per
crear alineaments de parelles. És a dir, sacrifiques exactitud per velocitat.
Alineaments progressius
1) Alineament de parelles
a) Lent, acurat, programació dinàmica
Global Needleman-Wunsch
Seqüències curtes (>100 pot ser lent)
b) Ràpid, aproximat
Mètide del k-tuple, semblant al BLAST
2) Obtenció de matriu de distància basada en les puntuacions obtingudes en els alineamts
de parelles. Construcció d’un arbre guia. Saber quines són les més distinties i les
menys. Guia la construcció final, però no és una història filogenètica.
3) Construcció de l’alineament múltiple per mètode progressiu (afegint les seqüències
d’una amb una o l’alineament resultant
d’una parella) usant l’arbre guia. Re-
alineament global de les seqüències més
pròximes.
23
El Clustal W serveix per fer alineaments múltiples. És la base de quasi tots els programes:
ClustalW, ClustalOmega, MAFFT, Kalign, ProAlign, MUSCLE, DIALIGN, PRANK, FSA, T‐Coffee,
ProbCons, COACH, Cobalt, SIM, LALING, Handel, 3D‐Coffee, etc.
Fiquem informació (input) on cada input té un format i el programa ens dona un output que
també té informació. En un fitxer únic posem totes les seqüències FASTA. Perquè sigui format
FASTA cal que hi hagi al principi ‘>’, ja que si no hi és no és format FASTA. Després ve un text
lliure de descripció, click per fer un paràgraf i després la seqüència.
24
25