Download Class on November 18, 2004 - Server users.dimi.uniud.it

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
BASI DI DATI BIOLOGICHE - 2
Basi di Dati Biologiche
Tipi principali di Basi di Dati Biologiche:
Di sequenze:
NCBI.
Di annotazioni:
Ensembl.
Specifiche:
Transfac.
Di analisi:
Microarray.
Basi di dati di sequenze (1)
Basi di dati pubbliche:
NCBI;
DDBJ;
EBI.
Mantengono dati sul sequenziamento (sequenza FASTA) e
sulle caratteristiche conosciute riconducibili a tali sequenze
(regioni codificanti, regioni di legame, inizio della replicazione,
Basi di dati di sequenze (2)
Deposito di sequenze provenienti da sottomissioni
dirette.
Le tre le organizzazioni utilizzano DBMS diversi.
NCBI – personalizzato;
EBI – SRS Oracle.
Si scambiano dati quotidianamente.
Basi di dati di sequenze - Interazione
L'interazione con gli utenti è diversa per ognuna delle
organizzazioni.
NCBI:
Entrez;
EBI/DDBJ:
SRS.
In tutti i casi, la struttura delle basi di dati è nascosta
agli utenti.
Basi Di Dati di Sequenze – Flat File
L'interazione fra le tre organizzazioni è organizzata
attraverso un “protocollo”.
Tale “protocollo” definisce il formato dei dati che
vengono scambiati.
In modo indiretto fornisce delle informazioni
sull'organizzazione dei dati.
Flat File - Introduzione
L'obiettivo dei flat file è di definire delle regole che
permettano alle tre basi di dati di scambiarsi
informazioni.
Le informazioni scambiate possono essere di natura
diversa:
informazioni sulla sequenza;
caratteristiche (feature):
funzioni biologiche;
interazioni fra molecole;
risultato dell'espressione di una funzione biologica.
Flat File - Struttura
Insieme di coppie chiave/valore.
Il valore può essere, a sua volta, una insieme di coppie
chiave/valore.
La chiave è stabilita dallo standad.
Flat File - Esempio.
LOCUS
SCU49845 5028 bp DNA
PLN
21-JUN-1999
DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p
(AXL2) and Rev7p (REV7) genes, complete cds.
ACCESSION U49845
VERSION U49845.1 GI:1293613
KEYWORDS .
SOURCE
Saccharomyces cerevisiae (baker's yeast)
ORGANISM Saccharomyces cerevisiae
Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes;
Saccharomycetales; Saccharomycetaceae; Saccharomyces.
REFERENCE 1 (bases 1 to 5028)
AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W.
TITLE Cloning and sequence of REV7, a gene whose function is required for
DNA damage-induced mutagenesis in Saccharomyces cerevisiae
JOURNAL Yeast 10 (11), 1503-1509 (1994)
MEDLINE 95176709
PUBMED 7871890
REFERENCE 2 (bases 1 to 5028)
AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M.
TITLE Selection of axial growth sites in yeast requires Axl2p, a novel
plasma membrane glycoprotein
JOURNAL Genes Dev. 10 (7), 777-793 (1996)
MEDLINE 96194260
PUBMED 8846915
REFERENCE 3 (bases 1 to 5028)
AUTHORS Roemer,T.
TITLE Direct Submission
JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New
Haven, CT, USA
Flat File - LOCUS
Il primo attributo (LOCUS) è strutturato:
locus name – nell'esempio, SCU49845;
sequence length – 5028 bp;
molecule type – DNA;
GenBank division – PLN = plant, fungal, and algal
sequences;
modification date.
Flat File - DEFINITION
Breve descrizione della sequenza, che include
informazioni quali l'organismo di provenienza, il nome
del gene, o della proteina, e una qualche descrizione
delle funzioni della sequenza qualora essa non sia
codificante;
E’ un campo poveramente strutturato, denominato
annotazione della sequenza.
Flat File - SOURCE
Informazioni non strutturate sull'organismo e, talvolta,
sul tipo della molecola di provenienza della sequenza;
Contiene la sotto-specificazione ORGANISM:
Nome scientifico formale (genere e specie) dell'organismo di
provenienza.
Flat File – IDENTIFICATORI
ACCESSION: è l'identificatore stabile del record della
sequenza, costituito da una combinazione di lettere e
numeri.
VERSION: è l'identificatore di una singola, specifica
sequenza all'interno della genbank.
GI: è un numero, equivalente a VERSION, attribuito ad
ogni sequenza.
Flat File – REFERENCE
Pubblicazioni scientifiche relative alla sequenza, che
hanno per oggetto dati riportati nel record (sia sulla
sequenza che sull'annotazione);
E' costituito da un insieme di coppie chiave/valore.
Flat File – REFERENCE sottocampi
AUTHORS – elenco degli autori;
TITLE – titolo del documento;
JOURNAL – dove è stato pubblicato;
MEDLINE – MedLine unique identifier (UID);
PUBMED – PubMed Identifier (PMID).
Flat File – FEATURES
Oltre ai dati sulla sequenza, sono presenti, organizzati
in maniera diversa, dati relativi a caratteristiche
associabili alla sequenza;
Tali dati, detti anche Feature Table, constano dei
seguenti elementi:
Feature Key: singola parola indicante il gruppo funzionale;
Location: informazione utile per reperire la feature;
Qualificazioni: informazioni ausiliarie sulla feature.
FEATURES – Peculiarità
Alcuni caratteristiche interessanti delle features sono:
Si possono definire gerarchie di features;
Le localizzazioni possono essere complesse;
Possono essere disposte in maniera ordinata;
L'evidenza sperimentale può essere fornita in modo
esplicito;
La sintassi si presta ad un parsing automatico.
FEATURES – Esempio (1)
Key
Location/Qualifiers
CDS
23..400
/product="alcohol dehydrogenase"
/gene="adhI"
LA feature CDS è una sequenza codificante che inizia alla base 23
e finisce alla base 400, ha un prodotto detto 'alcohol
dehydrogenase' e codifica per un gene detto 'adhI'
FEATURES – Esempio (2)
Key
Location/Qualifiers
CDS
join(544..589,688..>1032)
/product="T-cell receptor beta-chain"
Questa feature è una sequenza parzialmente codificante formata
unendo gli elementi indicati a formare un'unica sequenza contigua
che codifica un prodotto detto 'T-cell receptor beta-chain'.
FEATURES – Esempio (3)
FEATURES
source
CDS
gene
CDS
gene
CDS
Location/Qualifiers
1..5028
/organism="Saccharomyces cerevisiae"
/db_xref="taxon:4932"
/chromosome="IX"
/map="9"
<1..206
/codon_start=3
/product="TCP1-beta"
/protein_id="AAA98665.1"
/db_xref="GI:1293614"
/translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA
AEVLLRVDNIIRARPRTANRQHM"
687..3158
/gene="AXL2"
687..3158
/gene="AXL2"
/note="plasma membrane glycoprotein"
/codon_start=1
/function="required for axial budding pattern of S.
cerevisiae"
/product="Axl2p"
/protein_id="AAA98666.1"
/db_xref="GI:1293615"
/translation="MTQLQIS...PEML"
complement(3300..4037)
/gene="REV7"
complement(3300..4037)
/gene="REV7"
/codon_start=1
/product="Rev7p"
/protein_id="AAA98667.1"
/db_xref="GI:1293616"
/translation="MNRWVEKWLR...SLF"
FEATURES - source
E' una feature particolare che riassume quanto si sa
sull'elemento sulla base del solo sequenziamento:
lunghezza;
organismo;
locazione genomica;
ecc...
FEATURES - CDS
Regione di nucleotidi che corrisponde ad una sequenza
di aminoacidi in una proteina (sequenza codificante):
La prima riga è la locazione;
Seguono dati accessori:
product;
protein_id;
translation.
FEATURES - Gene
Una regione di interesse biologico identificata come un
gene e alla quale è stato assegnato un nome.
Locazione;
Nome del Gene.
FLAT FILE
Alla fine del flat file vengono riportati:
BASE COUNT – il numero di A, C, T e G nella sequenza;
Last but not list, la sequenza.
FEATURES – Esempio (3)
BASE COUNT 1510 a 1074 c 835 g 1609 t
ORIGIN
1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg
61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct
121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa
181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg
241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa
301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa
361 attttggcaa cttatgtttc ctcttcgagc agtactcgag ccctgtctca agaatgtaat
421 aatacccatc
...
4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct
4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct
4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc
ESERCIZIO
Sulla base del file di esempio, si costruisca una base di
dati che mantenga le informazioni in esso riportate,
ovvero:
Informazioni sulle sequenze:
descrizione;
source;
reference.
Features relative alle varie sequenze.