Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
BASI DI DATI BIOLOGICHE - 2 Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze: NCBI. Di annotazioni: Ensembl. Specifiche: Transfac. Di analisi: Microarray. Basi di dati di sequenze (1) Basi di dati pubbliche: NCBI; DDBJ; EBI. Mantengono dati sul sequenziamento (sequenza FASTA) e sulle caratteristiche conosciute riconducibili a tali sequenze (regioni codificanti, regioni di legame, inizio della replicazione, Basi di dati di sequenze (2) Deposito di sequenze provenienti da sottomissioni dirette. Le tre le organizzazioni utilizzano DBMS diversi. NCBI – personalizzato; EBI – SRS Oracle. Si scambiano dati quotidianamente. Basi di dati di sequenze - Interazione L'interazione con gli utenti è diversa per ognuna delle organizzazioni. NCBI: Entrez; EBI/DDBJ: SRS. In tutti i casi, la struttura delle basi di dati è nascosta agli utenti. Basi Di Dati di Sequenze – Flat File L'interazione fra le tre organizzazioni è organizzata attraverso un “protocollo”. Tale “protocollo” definisce il formato dei dati che vengono scambiati. In modo indiretto fornisce delle informazioni sull'organizzazione dei dati. Flat File - Introduzione L'obiettivo dei flat file è di definire delle regole che permettano alle tre basi di dati di scambiarsi informazioni. Le informazioni scambiate possono essere di natura diversa: informazioni sulla sequenza; caratteristiche (feature): funzioni biologiche; interazioni fra molecole; risultato dell'espressione di una funzione biologica. Flat File - Struttura Insieme di coppie chiave/valore. Il valore può essere, a sua volta, una insieme di coppie chiave/valore. La chiave è stabilita dallo standad. Flat File - Esempio. LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. ACCESSION U49845 VERSION U49845.1 GI:1293613 KEYWORDS . SOURCE Saccharomyces cerevisiae (baker's yeast) ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) MEDLINE 95176709 PUBMED 7871890 REFERENCE 2 (bases 1 to 5028) AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M. TITLE Selection of axial growth sites in yeast requires Axl2p, a novel plasma membrane glycoprotein JOURNAL Genes Dev. 10 (7), 777-793 (1996) MEDLINE 96194260 PUBMED 8846915 REFERENCE 3 (bases 1 to 5028) AUTHORS Roemer,T. TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New Haven, CT, USA Flat File - LOCUS Il primo attributo (LOCUS) è strutturato: locus name – nell'esempio, SCU49845; sequence length – 5028 bp; molecule type – DNA; GenBank division – PLN = plant, fungal, and algal sequences; modification date. Flat File - DEFINITION Breve descrizione della sequenza, che include informazioni quali l'organismo di provenienza, il nome del gene, o della proteina, e una qualche descrizione delle funzioni della sequenza qualora essa non sia codificante; E’ un campo poveramente strutturato, denominato annotazione della sequenza. Flat File - SOURCE Informazioni non strutturate sull'organismo e, talvolta, sul tipo della molecola di provenienza della sequenza; Contiene la sotto-specificazione ORGANISM: Nome scientifico formale (genere e specie) dell'organismo di provenienza. Flat File – IDENTIFICATORI ACCESSION: è l'identificatore stabile del record della sequenza, costituito da una combinazione di lettere e numeri. VERSION: è l'identificatore di una singola, specifica sequenza all'interno della genbank. GI: è un numero, equivalente a VERSION, attribuito ad ogni sequenza. Flat File – REFERENCE Pubblicazioni scientifiche relative alla sequenza, che hanno per oggetto dati riportati nel record (sia sulla sequenza che sull'annotazione); E' costituito da un insieme di coppie chiave/valore. Flat File – REFERENCE sottocampi AUTHORS – elenco degli autori; TITLE – titolo del documento; JOURNAL – dove è stato pubblicato; MEDLINE – MedLine unique identifier (UID); PUBMED – PubMed Identifier (PMID). Flat File – FEATURES Oltre ai dati sulla sequenza, sono presenti, organizzati in maniera diversa, dati relativi a caratteristiche associabili alla sequenza; Tali dati, detti anche Feature Table, constano dei seguenti elementi: Feature Key: singola parola indicante il gruppo funzionale; Location: informazione utile per reperire la feature; Qualificazioni: informazioni ausiliarie sulla feature. FEATURES – Peculiarità Alcuni caratteristiche interessanti delle features sono: Si possono definire gerarchie di features; Le localizzazioni possono essere complesse; Possono essere disposte in maniera ordinata; L'evidenza sperimentale può essere fornita in modo esplicito; La sintassi si presta ad un parsing automatico. FEATURES – Esempio (1) Key Location/Qualifiers CDS 23..400 /product="alcohol dehydrogenase" /gene="adhI" LA feature CDS è una sequenza codificante che inizia alla base 23 e finisce alla base 400, ha un prodotto detto 'alcohol dehydrogenase' e codifica per un gene detto 'adhI' FEATURES – Esempio (2) Key Location/Qualifiers CDS join(544..589,688..>1032) /product="T-cell receptor beta-chain" Questa feature è una sequenza parzialmente codificante formata unendo gli elementi indicati a formare un'unica sequenza contigua che codifica un prodotto detto 'T-cell receptor beta-chain'. FEATURES – Esempio (3) FEATURES source CDS gene CDS gene CDS Location/Qualifiers 1..5028 /organism="Saccharomyces cerevisiae" /db_xref="taxon:4932" /chromosome="IX" /map="9" <1..206 /codon_start=3 /product="TCP1-beta" /protein_id="AAA98665.1" /db_xref="GI:1293614" /translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM" 687..3158 /gene="AXL2" 687..3158 /gene="AXL2" /note="plasma membrane glycoprotein" /codon_start=1 /function="required for axial budding pattern of S. cerevisiae" /product="Axl2p" /protein_id="AAA98666.1" /db_xref="GI:1293615" /translation="MTQLQIS...PEML" complement(3300..4037) /gene="REV7" complement(3300..4037) /gene="REV7" /codon_start=1 /product="Rev7p" /protein_id="AAA98667.1" /db_xref="GI:1293616" /translation="MNRWVEKWLR...SLF" FEATURES - source E' una feature particolare che riassume quanto si sa sull'elemento sulla base del solo sequenziamento: lunghezza; organismo; locazione genomica; ecc... FEATURES - CDS Regione di nucleotidi che corrisponde ad una sequenza di aminoacidi in una proteina (sequenza codificante): La prima riga è la locazione; Seguono dati accessori: product; protein_id; translation. FEATURES - Gene Una regione di interesse biologico identificata come un gene e alla quale è stato assegnato un nome. Locazione; Nome del Gene. FLAT FILE Alla fine del flat file vengono riportati: BASE COUNT – il numero di A, C, T e G nella sequenza; Last but not list, la sequenza. FEATURES – Esempio (3) BASE COUNT 1510 a 1074 c 835 g 1609 t ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa 361 attttggcaa cttatgtttc ctcttcgagc agtactcgag ccctgtctca agaatgtaat 421 aatacccatc ... 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc ESERCIZIO Sulla base del file di esempio, si costruisca una base di dati che mantenga le informazioni in esso riportate, ovvero: Informazioni sulle sequenze: descrizione; source; reference. Features relative alle varie sequenze.