Download PART I Introducció 19

Document related concepts
no text concepts found
Transcript
PART I
Introducció
19
20
La primera part d’aquest treball fa referència al context històric en el qual es
va situar l’inici d’aquesta tesi doctoral. Es pot considerar un exemple de
l’importància i dels esforços invertits per la comunitat científica per a desxifrar el
contingut gènic humà. A continuació es recullen els resultats obtinguts pel
nostre laboratori com a membres del Consorci EuroImage. L’estratègia
utilitzada i els resultats obtinguts han contribuït a avançar en el coneixement
dels gens continguts en els genomes seqüenciats durant les últimes dècades.
I. Heretabilitat, trets genètics i genoma humà
La consciència de l’existència d’heretabilitat de trets físics i del comportament
va sorgir en l’antiguitat. Aquest fet queda reflectit en l’àmbit de la ramaderia
(cria i millora genètica dels animals domèstics) o en l’àmbit agrícola (obtenció
de cultius més productius, més resistents…). L’herència de certes
característiques fenotípiques era reconeguda com a familiar. Principalment
l’estudi de l’herència d’anomalies fenotípiques i malalties va establir els
fonaments per a una nova visió de la biologia i la medicina on s’incorporava un
nou factor: l’herència i els antecedents familiars. En un primer moment, el
coneixement i la definició de diferents modes d’herència es va descriure sense
conèixer la base física d’aquesta herència. El coneixement de l’existència dels
gens o del material genètic va esclatar quan es van recuperar els estudis de
Mendel amb les plantes del pèsol. Aquests estudis i el descobriment de la
naturalesa física i molecular de l’agent responsable d’aquesta heretabilitat,
l’àcid desoxiribonucleic, DNA, va suposar l’inici d’una revolució en els camps de
la medicina i la biologia. Va sorgir un especial interès pel coneixement de les
bases moleculars de malalties d’herència mendeliana com per exemple la
malaltia de Huntington o l’anèmia de Fanconi. És per això que actualment la
majoria de les malalties o alteracions hereditàries estudiades i més conegudes
són aquelles causades per un sol gen. En aquest cas un sol gen quan és
anòmal és responsable de donar lloc a la malaltia (mutacions puntuals,
repeticions…). Aquest tipus de trets són els anomenats monogènics.
Actualment, un dels objectius principals de la biomedicina és aconseguir
determinar el paper dels gens en caràcters amb patrons d’herència complexos
o no mendelians. És el cas d’alteracions com la diabetis, els càncers o moltes
malalties mentals. S’hi inclouen també trets fenotípics complexos com l’alçada,
21
el comportament, l’inteligència o la pigmentació de la pell. En aquests casos és
probable que més d’un gen i més d’una mutació siguin presents per a que la
malaltia o tret fenotípic es manifesti. És evident a més a més, que moltes
d’aquestes variacions genètiques actuen com a factors de susceptibilitat no
determinants i que l’influència de l’entorn és també un factor a tenir en
consideració. Aconseguir discernir entre tots aquests agents i el seu paper en
diferents alteracions fenotípiques ha esdevingut essencial per a la biologia i
medicina actuals. Una de les eines principals per tal d’aconseguir identificar
aquests factors i determinar la seva funció és l’obtenció de la seqüència
genòmica humana i d’organismes model completa, acurada i disponible sense
restriccions per a la comunitat científica. Amb aquest objectiu es va engegar el
Projecte Genoma Humà, objecte de la següent secció, i en el context del qual
es desenvolupa la recerca duta a terme en aquesta tesi.
II. Context històric: Projecte Genoma Humà
La primavera de l’any 2003 és considerada la data oficial de l’obtenció de la
seqüència completa del genoma humà. Des del seu inici va ser evident que es
tractava d’un esdeveniment que revolucionaria la biologia i obriria nous camps
d’aplicació a nivell de la medicina molecular, la biotecnologia, el control
ambiental, els recursos energètics o l’avaluació de riscs.
La primera publicació que menciona la possibilitat i importància d’obtenir la
seqüència completa del genoma humà data de mitjans dels anys 80 (Dulbecco,
1986). La creixent innovació i l’optimització experimental (el clonatge amb
cromosomes artificials de llevat (YAC), els mapes genètics d’alta resolució, la
seqüenciació automàtica fluorescent, l’algoritme de BLAST per alinear
seqüències) va permetre que l’any 1990 el Departament d’Energia (DOE) i els
National Institutes of Health (NIH) dels Estats Units iniciessin oficialment el
Projecte Genoma Humà (HGP, Human Genome Project) amb l’objectiu final
d’obtenir la seqüència nucleotídica completa del genoma humà. La posterior
incorporació del Wellcome Trust britànic optimitzant l’ús de cromosomes
artificials de bacteris (BAC) per a mapatge i seqüenciació va permetre a finals
de l’any 1992 l’obtenció dels mapes físics complets del cromosoma Y (Foote et
al., 1992; Vollrath et al., 1992) i del cromosoma 21 (Chumakov et al., 1992). A
partir d’aquest moment i durant els anys següents es van aconseguir generar
22
mapes genètics de baixa resolució humans i murins i es va obtenir la primera
seqüència completa d’un organisme viu de vida lliure, el genoma del bacteri
Haemophilus influenzae (Fleischmann et al., 1995). Al mateix temps es produia
un augment significatiu en l’obtenció de dades de seqüència i expressió gràcies
a projectes com l’iniciat per l’IMAGE Consortium (Lennon et al., 1996), el
RIKEN (Wada, 1994) o el projecte genoma del llevat Saccharomyces cerevisiae
(Dujon, 1996).
La competència declarada per part del sector privat (Celera Genomics) per a
obtenir la seqüència completa del genoma humà va accelerar dràsticament la
producció i alliberació de dades de seqüència i mapatge a la comunitat
científica. El cromosoma 22 es considera el primer cromosoma humà en ser
totalment seqüenciat (Dunham et al., 1999). A mesura que s’anaven obtenint,
les seqüències genòmiques provisionals parcials (draft) es posaven a l’abast de
la comunitat científica a les bases de dades públiques. Aquesta informació va
resultar, i encara ho és avui dia, molt útil per a nombrosos projectes, entre els
quals s’inclou aquesta tesi. És important tenir en compte la naturalesa
provisional i canviant d’aquesta informació, especialment durant la fase més
productiva i competitiva del projecte. En aquest context es situen la major part
dels resultats obtinguts en les dues primeres parts d’aquest treball.
L’any 2001 es va publicar la seqüència provisional completa del genoma
humà representant aproximadament el 90% de la seqüència eucromàtica, és a
dir, la corresponent a DNA no repetitiu i, en principi, amb capacitat de
transcriure’s (Lander et al., 2001; Venter et al., 2001). Es tractava de seqüència
que no arribava a complir els criteris de qualitat establerts per a la seqüència
final acabada i per tant, va ser necessari utilitzar les dades amb precaució. Tot i
el seu grau de provisionalitat, aquestes dades han resultat molt útils tant a nivell
d’estudis genòmics globals com a nivell d’anàlisi de gens particulars.
Des d’aquest moment i fins l’any 2003 es va anar obtenint el que s’ha
considerat seqüència definitiva acabada. Aquestes dades cobreixen el 99% del
DNA eucromàtic i es considera que actualment existeixen menys de 400
discontinuïtats o gaps. L’1% restant no seqüenciat correspón a DNA
centromèric i repetitiu, la seqüenciació del qual no és tecnològicament factible
actualment.
23
De forma paral.lela i complementària a l’obtenció de la seqüència crua del
DNA humà, nombrosos avenços tecnològics s’han produït pel que fa a les
eines per a la seqüenciació, aconseguint reduïr-ne el cost econòmic i
augmentar el volum i la velocitat de producció de dades.
La disponibilitat de la seqüència genòmica humana ha permès començar a
avançar en el coneixement de la variabilitat nucleotídica entre individus i en
l’aplicació d’eines de genètica comparativa usant els genomes d’altres
organismes model seqüenciats (ratolí, rata, Drosophila melanogaster o
Caenorhabditis elegans). Paral.lelament, avenços significatius s’han produït en
el camp de la bioinformàtica i biologia computacional, com és el
desenvolupament d’eines per a la generació, captura i anotació de dades, el
desenvolupament de programes per a la representació i anàlisi de similaritat i
variació de seqüència, i les millores en el contingut i usabilitat de les bases de
dades.
Algunes dades concretes obtingudes a partir de la seqüència publicada del
genoma humà i algunes incògnites que encara queden per esbrinar es
recopilen a les Taules 1 i 2.
Taula 1. Algunes dades obtingudes a partir de la seqüència completa del
genoma humà.
Conté 3 mil milions de parells de bases nucleotídiques.
La mida mitjana d’un gen és de 3000 bases.
La distrofina és dels gens coneguts el més gran, 2’4 megabases.
Més del 50% dels gens identificats tenen funció desconeguda.
El 99’9% de la seqüència genòmica és idèntica entre individus.
Aproximadament el 2% del genoma conté informació per a codificar proteïna.
Com a mínim el 50% del genoma és seqüència repetitiva no codificant.
La seqüència repetitiva té un paper en l’estructura i dinàmica dels cromosomes. Són
responsables de generar reorganitzacions genòmiques donant lloc a gens completament nous
o a noves seqüències gèniques.
El genoma humà conté una proporció de seqüència repetitiva major que altres organismes
seqüenciats (Caenorhabditis elegans, Drosophila melanogaster o Mus musculus).
Més del 40% de proteïnes predites comparteixen similaritat de seqüència amb proteïnes de
Caenorhabditis elegans o Drosophila melanogaster.
Es considera que l’elevat nombre de tipus de proteïnes humanes en comparació amb altres
espècies es deu principalment a mecanismes de splicing alternatiu i de modificació posttraduccional.
24
La majoria de famílies de proteïnes són comuns entre humans, Caenorhabditis elegans o
Drosophila melanogaster. La principal diferència recau en el número de membres, molt més
elevat en humans.
Els gens es troben concentrats en regions genòmiques a l’atzar separades per grans
extensions de DNA no codificant.
A les regions riques en gens predominen les bases G-C.
Les regions pobres en gens presenten un percentatge més elevat de bases A-T.
El cromosoma 1 és el més gran i conté el major nombre de gens.
El cromosoma Y és el de tamany i contigut gènic menor.
S’han identificat més de 3 milions de posicions nucleotídiques amb variabilitat entre humans.
Taula 2. Algunes incògnites i dades encara desconegudes sobre el genoma
humà.
El número exacte de gens, la seva posició i la seva funció.
Els mecanismes de regulació gènica.
L’organització i estructura dels cromosomes.
Els tipus de DNA no codificant, la seva distribució i funció.
La coordinació de l’expressió gènica, síntesi proteica i mecanismes post-traduccionals.
El proteoma dels organismes: el conjunt de proteïnes i les seves funcions respectives.
La conservació proteica entre organismes.
Les correlacions entre les variacions nucleotídiques dels individus i trets fenotípics/malalties.
Les variacions en la seqüència dels gens com a factor de susceptibilitat.
Els gens implicats en l’herència de caràcters complexos i multigènics.
Els beneficis i les aplicacions de les dades de seqüència generades a partir
del projecte Genoma Humà afecten àrees tan àmplies i diverses com la
medicina molecular, la microbiologia, els estudis evolutius i antropològics, la
medicina forènsica o l’agricultura. Algunes de les possibles aplicacions en
cadascún d’aquests camps s’enumeren a la Taula 3.
25
Taula 3. Aplicacions futures de les dades fruit del Projecte Genoma Humà.
Medicina molecular
Microbiologia genòmica
Avaluació de risc
Evolució i antropologia
Genòmica forènsica
Agricultura
Aplicacions futures inclouen millores en el diagnòstic de
malalties, en la detecció precoç de possibles predisposicions
genètiques, en el disseny de fàrmacs, en la teràpia gènica i
sistemes de control de l’acció de fàrmacs o en la síntesi de
fàrmacs individuals (farmacogenòmica).
S’usen els recursos i eines del projecte genoma humà per a
iniciar la seqüenciació massiva de genomes de
microorganismes. S’espera obtenir informació referent a noves
fonts d’energia, eliminació segura de residus tòxics, detecció
de productes contaminants ambientals i comprensió de les
vulnerabilitats enfront malalties infeccioses.
El coneixement de la variabilitat genètica i el seu paper en
referència a la susceptibilitat està permetent avaluar el risc
individual enfront agents tòxics com radiacions i substàncies
mutagèniques o cancerígenes. De la mateixa manera permetrà
reduïr la transmissió vertical de mutacions.
La comparació de genomes ha de permetre l’estudi de
l’evolució dels organismes vius, establir els corrents migratoris
al llarg de la història i determinar edats i dates concretes
d’esdeveniments històrics.
Conèixer la seqüència genòmica permetrà l’identificació
d’individus concrets en un context criminal, en esdeveniments
catastròfics o en l’establiment de relacions familiars. A nivell
ambiental permetrà l’identificació d’espècies protegides i la
detecció d’agents contaminants. A nivell mèdic permetrà
l’identificació de compatibilitats tissulars per a transplantaments
d’òrgans.
La genòmica de plantes i animals impulsarà la creació de
varietats resistents, més productives, més nutritives o amb
incorporació de vacunes.
III. Anàlisi transcripcional del genoma humà
Un cop obtinguda la seqüència completa d’un determinat genoma el repte
principal resideix en l’identificació de tots els gens presents. Especialment en el
cas del genoma humà la dificultat principal per a assolir aquest objectiu es
troba en l’extrema complexitat del nostre genoma. La major part dels gens
humans acostumen a consistir de diversos exons petits separats per
seqüències no codificants de longitud variable (introns) i que fins i tot poden
arribar a contenir altres gens. És aquesta una característica que compromet
greument la precisió amb la que les eines informàtiques de predicció de gens
són capaces d’identificar seqüències gèniques (predicció de novo). L’ús d’eines
informàtiques per a l’anàlisi de similaritat de seqüència i per a l’identificació de
26
seqüències específiques de gens (transicions exó-intró, seqüències
promotores, dianes de poliadenilació o pautes de lectura oberta) es coneix amb
el terme de clonatge in silico. El creixement exponencial de les bases de dades
públiques de seqüència evidencia els nombrosos avantatges d’aquesta
estratègia però cal tenir en ment que un dels desavantatges principals
d’aquestes eines de predicció es troba en l’imprecisió i probabilitat d’error si
se’n fa un ús exclusiu o independent. Indicacions i evidències sobre potencials
seqüències gèniques poden també obtenir-se mitjançant genòmica
comparativa. En aquest cas s’utilitza la comparació d’una seqüència genòmica,
l’humana per exemple, amb altres genomes més petits, de menor complexitat i
amb menys seqüència no codificant (fugu, llevat, ratolí) amb la finalitat
d’identificar regions de conservació i els gens que hi estàn continguts.
Taula 4. Comparació i aplicacions de l’mRNA i del cDNA.
mRNA
cDNA
Cadena senzilla
Doble cadena
Poca estabilitat
Estable
Manipulació complexa
Fàcil manipulació
Traducció a proteïna
Transcripció a RNA i traducció a proteïna
Tot i els avantatges de les eines informàtiques per a l’anàlisi de la seqüència
genòmica, és imprescindible obtenir evidència experimental directa sobre la
naturalesa gènica d’una determinada seqüència. L’estratègia transcripcional
per a l’identificació de seqüències gèniques utilitza com a punt de partida el
producte en forma d’RNA missatger (mRNA) o de proteïna, dels gens
expressats en una determinada cèl.lula, teixit, organisme o estadi de
desenvolupament i permet demostrar empíricament que una determinada
seqüència nucleotídica correspón a un gen (Figura 1). Es parteix de la
producció de còpies en DNA de l’RNA missatger (cDNA) d’una cèl.lula, teixit o
organisme (Taula 4). Els clons de cDNA poden ser aleshores amplificats i
seqüenciats (Figura 2). Els avantatges principals de l’identificació de gens
seguint aquesta estratègia resideixen en la seva rapidesa relativa per a
identificar seqüències transcrites. A més a més, cada clon de cDNA aporta
27
DNA
Doble cadena
exó
RNA precursor
AAAAAAAAAAn
Cadena senzilla
intró
mRNA
AAAAAAAAAAn
Cadena senzilla
Transcripció reversa
AAAAAAAAAAn
cDNA
Doble cadena
Proteïna
Figura 1. Generació de còpies de DNA (cDNA) a partir del RNA missatger
(mRNA) generat per la transcripció de gens en organismes eucariotes.
informació adicional sobre aquell gen, com l’identificació de seqüència
codificadora de proteïna (ja que no contenen introns), informació sobre el patró
d’expressió (el teixit o cèl.lules o estat de desenvolupament d’on prové el cDNA
analitzat dóna informació valuosa d’on s’expressa el gen corresponent),
l’identificació de fenòmens de transcripció alternativa (clons de cDNA
Síntesi de la primera cadena de DNA
mRNA
AAAAAAAAAAn
TTTTTTTT
Clon de cDNA
Tractament amb RNAsa H
i síntesi de la segona
cadena de DNA (DNA
polimerasa I)
Lligació en vector
adient (amb extrems
roms o adaptadors)
TTTTTTTT
Figura 2. Procediment de transcripció reversa i producció de clons de cDNA.
28
procedents d’un mateix gen que difereixen parcialment en la seva seqüència), i
l’identificació de gens homòlegs en altres espècies (ja que només contenen la
part del gen més conservada –codificadora- no tenen introns).
IV. Consorci IMAGE. Projecte EUROIMAGE
L’importància d’aconseguir identificar empíricament seqüències gèniques ha
esdevingut cada vegada més evident a mesura que s’han anat obtenint dades
de seqüència genòmica crua. El Consorci IMAGE (Integrated Molecular
Analysis of Genomes and their Expression) es va iniciar l’any 1993 amb
l’intenció de compartir recursos amb l’objectiu d’optimitzar la comprensió del
genoma humà partint d’una estratègia d’anàlisi transcripcional (Lennon et al.,
1996). Per assolir tal objectiu es va generar una col.lecció de clons de cDNA a
partir de llibreries normalitzades pre-existents. Es van establir conjunts o arrays
de clons representatius i es van caracteritzar parcialment a nivell de seqüència
(ESTs, expressed sequence tags, seqüències de 500 nucleòtids
aproximadament, corresponents als extrems dels clons) i mapatge de baixa
resolució. L’anàlisi d’aquestes dades de seqüència va permetre agrupar els
clons en funció del transcrit del qual provenien. Aquesta informació, els clons i
les llibreries usades han estat a l’abast de tota la comunitat científica a través
de les bases de dades públiques i dels centres distribuidors de clons. El
consorci IMAGE ha contribuït molt notablement a l’identificació de nombrosos
gens humans, així com a l’ensamblatge i l’anotació final de la seqüència del
genoma humà.
Amb l’objectiu de consolidar el treball portat a terme i els recursos generats pel
consorci IMAGE, l’any 1997 es va impulsar un nou subprojecte, l’EuroImage
(European Integrated Analysis of Genes and their Expression), finançat pel
programa BIOMED2 de la Comunitat Europea (Biomed BMH4-CT97-2284).
Entre els objectius proposats en el projecte destacaven els següents:
• Generació d’una col.lecció mínima no redundant de clons de cDNA
corresponents a la majoria dels transcrits humans.
• Creació d’una col.lecció ‘master’ de clons de cDNA complets utilitzant els
recursos establerts pel consorci IMAGE (llibreries i clons).
29
• Caracterització de la col.lecció ‘master’ de clons de cDNA mitjançant
seqüenciació de qualitat, una fiabilitat mínima del 99.99% per a cada
cadena i un mínim de tres lectures per cada base nucleotídica.
• Mapatge d’alta resolució dels gens identificats en humans i organismes
model.
• Obtenció dels perfils d’expressió en humans i organismes model per tal
d’aprofundir en el coneixement de transcrits específics d’especial interès pel
grup de recerca responsable.
• Integració de l’informació generada pel projecte en bases de dades
públiques disponibles a tota la comunitat científica.
Per tal d’assolir els objectius proposats pel Consorci EuroImage es va establir
una col.laboració entre vuit grups de recerca europeus complementant
recursos, eines i resultats. Els laboratoris participants en el projecte són els
llistats a continuació:
• Centre National de la Recherche Scientifique, CNRS (Dr Auffray, França)
• Max-Planck Institut fur Molekulare Genetik, MPI (Dr Lehrach, Alemanya)
• Deutsches Krebsforschungszentrum Stiftung des offentlichen Rechts, DKFZ
(Dr Poutska, Alemanya)
• Kungl Tekniska Hogskolan, KTH (Dr Uhlen, Suècia)
• European Molecular Biology Laboratory, EMBL (Dr Ansorge, Alemanya)
• Human Genome Mapping Project Resource Centre, HGMP (Dr Gibson,
Gran Bretanya)
• Telethon Institute of Genetics and Medicine, TIGEM (Dr Ballabio, Itàlia)
• Medical and Molecular Genetics Department, Institut de Recerca
Oncològica, IRO (Dr Estivill, Espanya)
Enmarcats en el context del projecte EuroImage i com a membres del
consorci, el nostre laboratori al Departament de Genètica Mèdica i Molecular de
l’Institut de Recerca Oncològica es va centrar en l’anàlisi del contingut gènic de
regions cromosòmiques considerades d’especial relevància biomèdica per al
departament. Entre aquestes regions d’interès es troba la zona cromosòmica
objecte d’anàlisi en la segona part d’aquest treball, la regió q24-q26 del
cromosoma 15 humà.
30
V. Aïllament de gens in silico
L’obtenció de la seqüència completa crua del genoma humà i altres
organismes ha comportat el desenvolupament de noves estratègies per a
l’identificació de gens. En el cas de l’aïllament de gens in silico, s’obtè benefici
de les eines i dades presents a les bases de dades públiques generades de
forma sistemàtica, se n’obté el màxim d’informació, es comprova aquesta
informació empíricament i es completa posteriorment en funció dels objectius
de l’estudi corresponent (Figura 3).
GeneMap
i Unigene
Mapatge
ESTs
Teixit
Homologies
Identificació
d’ ORF parcials
d’interès
Obtenció de la seqüència
codificant completa i
patró d’expressió
Figura 3. Etapes principals de l’estratègia de clonatge i identificació de
seqüències transcrites usada en aquest treball. ORF, pauta de lectura oberta;
EST, expressed sequence tag.
S’acostuma a partir de les bases de dades d’ESTs, seqüències dels extrems
dels clons de cDNA, per a identificar potencials seqüències expressades. A
partir d’aquest punt els passos seguits per a l’identificació i aïllament del gen o
gens corresponents s’esquematitzen tot seguit.
1/ Predicció de gens a partir d’ESTs
S’utilitzen dades de mapatge presents a les bases de dades públiques
(Genemap, NCBI) per a definir grups d’ESTs representatius de gens no
coneguts. S’usen programes bioinformàtics d’aliniament per homologia de
31
seqüència (CAP Assembly, Sequencher, BLAST) i la comparació posterior amb
seqüències de les bases de dades públiques (dbEST, GenBank, Unigene).
L’objectiu final d’aquest apartat és identificar clons corresponents a un únic
gen, no quimèrics i del màxim número de parells de bases possible per tal que
continguin el màxim de seqüència codificant del gen corresponent.
2/ Seqüenciació dels clons seleccionats
A partir dels clons sel.leccionats en el punt anterior se n’obté la seqüència
completa mitjançant l’estratègia de primer walking. Això comporta dissenyar
nous oligonucleòtids a partir de cada seqüència parcial obtinguda (500-700
nucleòtids). Es realitza aleshores la següent reacció de seqüència, es repeteix
el procediment fins que es completa la seqüència de l’insert i s’obté seqüència
Grups d’ESTs
sol.lapants
Construcció de la seqüencia consens
Selecció del clon/clons de
major extensió
Secuenciació completa (primer walking)
cDNA parcial (amb pauta de lectura oberta
incompleta)
Diseny d’oligos per a la extensió d’extrems
de cDNA (RACE)
STOP
mRNA
STOP
RT y lligació
d’adaptadors
aaaaaaa
STOP
Població enriquida en cDNAs
complets
STOP
STOP
PCR1
PCR2
Lligació
Secuenciació
RACE+clon cDNA=
cDNA complet
AUG
STOP
Figura 4. Gràfic mostrant el procés de sel.lecció, seqüenciació i obtenció de
clons de cDNA complets.
32
de vector, indicant així, que l’insert ha estat cobert d’extrem a extrem. Les
dades de seqüència obtingudes per a cada reacció són processades i editades
amb eines bioinformàtiques específiques per a l’ensamblatge i edició de
seqüències nucleotídiques com Sequencher (GeneCodes). Per al disseny de
seqüències oligonucleotídiques adients pel seu ús en reaccions de
seqüenciació s’empren programes com OLIGO o GCG PRIMER (Figura 4).
3/ Detecció d’homologies
Les seqüències completes dels inserts dels clons de cDNA seleccionats
poden ser analitzades per a detectar seqüències codificadores de proteïna
(pautes de lectura oberta) completes o parcials (Sequencher). Tant la
seqüència nucleotídica com la seqüència aminoacídica predita permeten cercar
homologies a les bases de dades (FASTA, BLAST). En funció del grau
d’homologia de seqüència els gens o proteïnes detectades a les bases de
dades poden suggerir l’inclusió de la nova seqüència en una determinada
classe de gens o proteïnes, així com la seva implicació en determinats
processos cel.lulars i l’identificació de gens ortòlegs en altres espècies.
4/ Obtenció de la seqüència codificadora completa de cada gen
La gran majoria de clons de les llibreries contenen inserts corresponents a
cDNAs parcials que no representen el total de la seqüència codificadora de
proteïna del gen. Una vegada cercades les bases de dades amb la seqüència
obtinguda en el pas anterior amb l’objectiu de detectar seqüències solapants,
cal adoptar procediments moleculars per extendre els clons parcials fins a
obtenir el cDNA complet amb una pauta de lectura oberta (ORF) sencera.
Alguns d’aquests procediments estàn basats en l’amplificació mitjançant PCR,
com és el cas dels experiments de RACE (extensió ràpida d’extrems de cDNA)
o la transcripció reversa (RT-PCR), i altres es basen en la hibridació de
llibreries de cDNA de teixits o d’òrgans específics.
5/ Predicció de l’estructura i dominis de proteïnes
Un cop predita la seqüència codificadora de proteïna a partir de la seqüència
completa del cDNA poden identificar-se dominis proteics coneguts i conservats
amb altres proteïnes de les bases de dades. S’usen programes de lliure accés
com PROSITE (Sigrist et al., 2002), PFAM (http://pfam.wustl.edu/index.html),
33
SMART
(Letunic et al., 2004; Schultz
et
al.,
1998)
o
MOTIF
(http://motif.genome.jp) per a identificar dominis proteics. Es pot predir
l’estructura secundària de la proteïna putativa amb programes com GENEQUIZ
( A n d r a d e
et
a l .,
1999),
PREDICTPROTEIN
(http://cubic.bioc.columbia.edu/predictprotein) o PSIPRED (McGuffin et al.,
2000), així com obtenir indicacions sobre la seva funció potencial.
6/ Predicció de l’estructura genòmica
La seqüència nucleotídica corresponent a un cDNA no conté seqüència
intrònica. Gràcies a aquest fet, un aliniament amb la corresponent seqüència
genòmica permet deduir l’estructura exònica-intrònica del gen. La presència de
la seqüència genòmica humana completa a les bases de dades públiques
facilita enormement aquest procés.
7/ Mapatge
De la mateixa manera que en el punt anterior la disponibilitat de tot el genoma
humà a les bases de dades públiques permet determinar fàcilment la
localització cromosòmica del gen seqüenciat. Un cop coneguda la seva situació
cromosòmica és possible analitzar la presència en la regió d’interès de loci
responsables de malalties per les quals el gen/gens responsables encara
romanen desconeguts. D’aquesta manera és possible identificar gens
candidats per a determinades característiques o patologies (McKusick). En el
cas de no obtenir correspondència (per exemple per errors de mapatge o per
discontinuïtats de seqüència) es pot confirmar experimentalment el mapatge
mitjançant diversos mètodes (FISH (hibridació in situ fluorescent) o híbrids de
radiació per exemple)
8/ Anàlisi de seqüències adjacents
L’anàlisi de les regions genòmiques flanquejants pot permetre identificar
potencials seqüències reguladores i promotores. Es poden utilitzar eines de
lliure
accés
com
GENSCAN
(Burge
&
Karlin,
(http://www.hgmp.mrc.ac.uk/Registered/Webapp/nix).
34
1997)
o
NIX
9/ Eines i enllaços útils per l’anàlisi in silico (adreces web de setembre 2004)
GENERALS
NCBI
EBI
DDBJ
ExPASy
http://www.ncbi.nlm.nih.gov/
http://www.ebi.ac.uk/
http://www.ddbj.nig.ac.jp/
http://www.expasy.ch/
PROJECTES GENOMA
Entrez Genome
The Institute for
Genome Research
(TIGR) Microbial
Database
Integrated
Genomics Inc.
NHGRI List of
Genetic and Genomic
Resources
The Sanger Centre
Washington
University-St.Louis
Ohlahoma
University
Microbial Genome
Database
http://www.ncbi.nlm.nih.gov/genomes/static/euk_g
.html
http://www.tigr.org/tdb/mdb/mdb.html
http://www.genomesonline.org/
http://www.nhgri.nih.gov/Data
http://www.sanger.ac.uk
http://genome.wustl.edu
http://www.genome.ou.edu/
http://mbgd.genome.ad.jp
ANÀLISI DE GENOMES
MAGPIE
GeneQuiz
PEDANT
Clusters of
Orthologous
Groups of
Proteins (COGs)
Kyoto
Encyclopedia of
Genes and
Genomes (KEGG)
What Is There
(WIT)
http://genomes.rockefeller.edu/magpie
http://jura.ebi.ac.uk:8765/ext-genequiz/
http://www.cmbi.kun.nl/swift/genequiz/info_entry.ht
ml
http://pedant.gsf.de/
http://www.ncbi.nlm.nih.gov/COG
http://www.genome.jp/kegg/
http://wit.integratedgenomics.com/IGwit
35
ANÀLISI D’ESTS
dbEST home
page
EST Projects
at Washington
University
The
I.M.A.G.E.
Consortium
UniGene
The UniGene
build
procedure
UniGene
query engine
HomoloGene
STACK
TIGR Gene
Indices
TIGR
Orthologous
Gene Alignment
database
GeneMap
dbSNP
Cancer
Genome Anatomy
Project (CGAP)
CGAP Digital
Differential
Display (DDD)
CGAP
xProfiler
http://www.ncbi.nlm.nih.gov/dbEST/
http://genome.wustl.edu/est/
http://image.llnl.gov/
http://www.ncbi.nlm.nih.gov/UniGene/
http://www.ncbi.nlm.nih.gov/UniGene/build.html
http://www.ncbi.nlm.nih.gov/UniGene/query.cgi
http://www.ncbi.nlm.nih.gov/HomoloGene/
http://www.sanbi.ac.za/Dbases.html
http://www.tigr.org/tdb/tgi.html
http://www.tigr.org/tdb/tgi/ego/
http://www.ncbi.nlm.nih.gov/genemap/
http://www.ncbi.nlm.nih.gov/SNP/
http://www.ncbi.nlm.nih.gov/ncicgap/
http://www.ncbi.nlm.nih.gov/UniGene/ddd.cgi?ORG=Hs
http://cgap.nci.nih.gov/Tissues/xProfiler
ALINIAMENT DE SEQÜÈNCIES
BLAST
CLUSTAL W
dotter
FASTA lalign
hmmer
RepeatMasker
seg
sim4
Wise package
http://ncbi.nlm.nih.gov/BLAST/
http://www.ebi.ac.uk/clustalw/
ftp://ftp.sanger.ac.uk/pub/dotter/
http://www.ebi.ac.uk/fasta/
http://hmmer.wustl.edu/
http://ftp.genome.washington.edu/RM/RepeatMasker.h
tml
ftp://ncbi.nlm.nih.gov/pub/seg/
http://globin.cse.psu.edu
http://www.ebi.ac.uk/Wise2/
36
PREDICCIONS A PARTIR DE SEQÜÈNCIES DE DNA
Banbury Cross
FGENEH
GeneID
GeneMachine
GeneParser
GENSCAN
Genotator
GRAIL
GRAIL-EXP
HMMgene
MZEF
PROCRUSTES
RepeatMasker
Sputnik
http://igs-server.cnrs-mrs.fr/igs/banbury
http://www.softberry.com/berry.phtml?topic=fgenesh
&group=programs&subgroup=gfind
http://www1.imim.es/geneid.html
http://genome.nhgri.nih.gov/genemachine
http://beagle.colorado.edu/~eesnyder/GeneParser.ht
l
http://genes.mit.edu/GENSCAN.html
http://www.fruitfly.org/~nomi/genotator/
http://compbio.ornl.gov/tools/index.shtml
http://compbio.ornl.gov/grailexp/
http://www.cbs.dtu.dk/services/HMMgene/
http://www.cshl.org/genefinder
http://www-hto.usc.edu/software/procrustes
http://ftp.genome.washington.edu/RM/RepeatMasker.h
tml
http://rast.abajian.com/sputnik/
BASES DE DADES I EINES PER ANALITZAR DOMINIS PROTEICS
ProDom
Pfam
ProfileScan
http://protein.toulouse.inra.fr/prodom.html
http://pfam.wustl.edu
http://www.sanger.ac.uk/Software/Pfam/
http://smart.embl-heidelberg.de
http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi
http://blocks.fhcrc.org
http://www.bioinf.man.ac.uk/dbbrowser/PRINTS/PRINTS.
html
http://www.isrec.isb-sib.ch/software/PFSCAN
PREDICCIÓ
DE
SMART
CDD search
BLOCKS
PRINTS
PROPIETATS
A
PARTIR
DE
SEQÜÈNCIES
D’AMINOÀCIDS
Compute pI/MW
MOWSE
PeptideMass
TGREASE
SAPS
AACompIdent
AACompSim
PROPSEARCH
http://www.expasy.ch/tools/pi tool.html
http://srs.hgmp.mrc.ac.uk/cgi-bin/mowse
http://www.expasy.ch/tools/peptide-mass.html
ftp://ftp.virginia.edu/pub/fasta/
http://www.isrec.isb-sib.ch/software/SAPS form.html
http://www.expasy.ch/tools/aacomp/
http://www.expasy.ch/tools/aacsim/
http://www.embl-heidelberg.de/prs.html
37
PREDICCIÓ ESTRUCTURA PROTEICA
Nnpredict
PredictProtein
SOPMA
Jpred
PSIPRED
PREDATOR
COILS
MacStripe
PHDtopology
SignalP
TMpred
DALI
FSSP
SWISS-MODEL
TOPITS
http://www.cmpharm.ucsf.edu/~nomi/nnpredict.html
http://www.embl-heidelberg.de/predictprotein/
http://pbil.ibcp.fr/
http://www.compbio.dundee.ac.uk/~www-jpred/
http://bioinf.cs.ucl.ac.uk/psipred/psiform.html
http://menu.hgmp.mrc.ac.uk/menubin/run?option=predator
http://www.york.ac.uk/depts/biol/units/coils/coi
lcoil.html
http://www.york.ac.uk/depts/biol/units/coils/coi
lcoil.html
http://www.embl-heidelberg.de/predictprotein
http://www.cbs.dtu.dk/services/SignalP/
http://www.ch.embnet.org/software/TMPRED_form.ht
ml
http://www2.ebi.ac.uk/dali/
http://www2.ebi.ac.uk/dali/fssp/
http://www.expasy.ch/swissmod/SWISS-MODEL.html
http://www.embl-heidelberg.de/predictprotein/
RECUPERACIÓ D’INFORMACIÓ A PARTIR DE LES BASES DE DADES
Entrez
FlyBase
GDB
GeneCards
HomoloGene
Kinemage
LocusLink
MIPS
MMDB
OMIM
PDB
Sacch3D
SGD
VAST
YPD
http://www.ncbi.nlm.nih.gov/Entrez/
http://flybase.bio.indiana.edu
http://www.gdb.org/
http://bioinfo.weizmann.ac.il/cards/
http://www.ncbi.nlm.nih.gov/HomoloGene/
http://www.umass.edu/microbio/rasmol/mage.htm
http://www.ncbi.nlm.nih.gov/LocusLink/
http://www.mips.biochem.mpg.de/
http://www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.sht
ml
http://www.ncbi.nlm.nih.gov/Omim
http://www.rcsb.org/pdb/
http://www-genome.stanford.edu/Sacch3D/
http://www.yeastgenome.org/
http://www.ncbi.nlm.nih.gov/Structure/VAST/vast.sht
ml
http://www.proteome.com/databases/index.html
38
PART I: Objectius
• Identificació de nous gens humans en el marc del Projecte Genoma Humà
i del Consorci EuroImage a partir de llibreries de cDNA establertes i de les
bases de dades i eines bioinformàtiques públiques
• Caracterització dels nous gens humans identificats a nivell de la seva
seqüència nucleotídica, patró d’expressió, predicció de la proteïna
codificada i determinació d’homologies amb altres espècies
39
40
PART I
Resultats
41
42
Resultats
La participació del nostre grup de recerca en el projecte europeu EuroImage
destinat a la seqüenciació de clons de cDNA humans ha permès l’identificació,
l’obtenció de la seqüència completa i la caracterització de l’expressió de
diversos gens humans desconeguts fins aleshores. Tots els casos presentats a
continuació corresponen a gens novells no identificats anteriorment en humans
i configuren un recull dels gens identificats i publicats com a resultat de la
participació directa del nostre laboratori en el projecte EuroImage. Cadascún
d’ells constitueix un exemple de l’estratègia usada per a l’aïllament, anàlisi de
l’expressió i identificació d’homologies utilitzada per a la caracterització
sistemàtica de gens nous a petita escala en el marc d’un projecte amb
l’ambiciós objectiu d’identificar i caracteritzar tots els gens del genoma humà.
43
44
I. Identificació i caracterització del gen humà PDCD9
La publicació següent exposa de quina manera l’anàlisi de transcrits
desconeguts permet l’identificació de PDCD9 (programmed cell death 9), un
nou gen humà homòleg a la proteïna pro-apoptòtica p52 de Gallus. El nostre
estudi va permetre refinar la seva localització cromosòmica a 5q11. Es van
obtenir dades sobre el patró d’expressió en teixits humans i es va determinar el
grau de conservació a nivell de seqüència proteica entre diferents espècies. La
baixa conservació amb altres famílies de proteïnes va indicar que possiblement
es tracta d’una nova família de proteïnes amb una funció potencial en
processos apoptòtics. Aquestes dades constitueixen el cos principal de l’article
publicat l’any 1999 pel nostre grup.
45
Cytogenet Cell Genet 87:85–88 (1999)
Cloning, expression, and mapping of PDCD9,
the human homolog of Gallus gallus
pro-apoptotic protein p52
L. Carim, L. Sumoy, M. Nadal, X. Estivill, and M. Escarceller
Centre de Genètica Mèdica i Molecular, Institut de Recerca Oncològica, Hospital Duran i Reynals, Barcelona (Spain)
Abstract. We report the sequence, tissue distribution, and
chromosome location of a novel gene, PDCD9 (programmed
cell death 9). PDCD9 is the mammalian counterpart of the Gallus gallus pro-apoptotic protein p52. The human cDNA has an
open reading frame of 1,314 nucleotides and was predicted to
encode a protein of 438 amino acids with a calculated mass of
50 kDa. The protein sequences of chicken, mouse, and human
PDCD9 are remarkably conserved. PDCD9 mRNA is expressed ubiquitously in adult tissues, displaying a stronger signal in heart, skeletal muscle, kidney, and liver. PDCD9 was
mapped to chromosome 5q11.
To date, just a fraction of the entire human gene set has been
identified. Our laboratory, a member of the EUROIMAGE
Consortium, is engaged in the isolation and mapping of novel
human genes. The EUROIMAGE Consortium was constituted
in 1997 with the objective of completing the cDNA sequence
and identifying genes involved in human biology and inherited
diseases by correlating precise map locations and gene expressions with phenotypic data (Adams et al., 1991; Lennon et al.,
1996; Schuler, 1997; Deloukas et al., 1998).
We now report the cloning, tissue distribution, and chromosome location of PDCD9 (programmed cell death 9), the
human homolog of Gallus gallus pro-apoptotic protein p52.
Sun et al. (1998) reported the purification of protein p52 from
chicken embryos and the cloning of its corresponding cDNA. It
was also shown that p52 expression in mouse fibroblasts caused
apoptotic cell death, upregulation of the c-Jun transcription
factor, and activation of the c-Jun N-terminal kinase (Jnk1),
presenting p52 as a new cell-death protein. Our results show a
striking degree of similarity between PDCD9 and p52, which,
together with the lack of homology to other related protein families, suggests the possibility of PDCD9 being one of the proteins associated with apoptotic pathways that have yet to be
identified.
Apoptosis is a morphologically distinct form of programmed cell death (for a review, see Steller, 1995). It is an active
process that plays a major role during cellular differentiation,
development, tissue homeostasis, and metamorphosis, as well
as in many diseases, including cancer, acquired immunodeficiency syndrome, and neurodegenerative disorders (Thompson, 1995; Vaux et al., 1999). The basic machinery appears to
be present in essentially all mammalian cells at all times, but
the activation of the cellular suicide program is regulated by
many different extracellular and intracellular signals. Numerous genes involved in apoptosis have been cloned, and many of
them are highly conserved among different species (Jacobson et
al. 1997).
Supported by EU Biomed Project No. BMH4-CT97-2284 to X.E. M.E. is funded by
the Spanish Ministry of Education (CIDYT contract FPI-070-97) and L.S. by the
Catalan autonomous government (RED contract 1998-64).
Copyright © 2000 S. Karger AG, Basel
Materials and methods
Received 5 May 1999; revision accepted 30 July 1999.
Request reprints from Dr. Mònica Escarceller, Centre de Genètica Mèdica i
Molecular, Institut de Recerca Oncològica, Hospital Duran i Reynals,
Autovia de Castelldefels km 2,7, L’Hospitalet de Llobregat,
08907 Barcelona (Spain); telephone: 34-93-260-7775; fax: 34-93-260-7776;
e-mail: [email protected].
ABC
Fax + 41 61 306 12 34
E-mail [email protected]
www.karger.com
© 1999 S. Karger AG, Basel
0301–0171/99/0872–0085$17.50/0
Cluster assembly and sequence analysis
EST clusters were assembled using the EST CAP assembly program
(http://www.tigem.it) and Sequencher software (GeneCodes) for the Macintosh computer. Clones were obtained from the EUROIMAGE distribution
centers (DHGP and HGMP). Sequences were determined by primer walking
Accessible online at:
www.karger.com/journals/ccg
with custom-synthesized primers (LifeTech), using Perkin-Elmer BigDye
reagents, following the manufacturer’s instructions, on an ABI 377 automated fluorescence sequence analyzer. For each clone, both strands were
sequenced with at least three independent reads per base. PDCD9 nucleotide
sequence is available from GenBank under accession number AF146192.
Sequence comparisons were performed using ClustalW 1.7 (http://dot.
imgen.bcm.tmc.edu:9331/multi-align/multi-align.html). Boxed multiple sequence alignments were obtained with the BOXSHADE 3.21 program (http:
//www.isrec.isb-sib.ch/software/BOX_form.html). The protein pattern and
domain databases Prosite, SMART, and Pfam (http://www.hgmp.mrc.ac.uk/
GenomeWeb/prot-domain.html) were searched for known motifs or functional domains.
Northern blot analysis
Multiple-tissue Northern blots (MTN-12 blot, Clontech) were hybridized
with a 1-kb PCR product corresponding to the 3) region of the human
IMAGE clone 1368574 for detection of PDCD9 and with a commercial
(Clontech) 2-kb ß-actin cDNA as a control for quantification. Probes were
labeled using a random primer DNA labeling kit (BioRad). Blots were
hybridized overnight at 65 ° C in ExpressHyb hybridization solution (Clontech) and washed at 68 ° C in 0.2 × SSC, 0.5 % SDS.
Fluorescence in situ hybridization (FISH)
A previously described protocol (Nadal et al., 1997) was used with some
modifications. Briefly, 2 Ìg of PAC clone 273D21 were labeled with bio16-dUTP (Boehringer Mannheim) in a standard nick-translation reaction.
Four hundred nanograms of the product were precipitated along with 1 Ìg of
Cot-1 DNA (GIBCO BRL) and 1 Ìg of salmon sperm DNA (Sigma) and the
pellet resuspended in hybridization mix containing 50 % formamide and
10 % dextran sulfate in 1.5 × SSC. Ten microliters of the hybridization mix
was applied to each slide. Slides were incubated overnight in a humid chamber at 37 ° C. Post-hybridization washes were performed in three changes of
50 % formamide, 2 × SSC at 42 ° C, followed by three changes of 2 × SSC at
42 ° C. For signal detection, slides were incubated at 37 ° C with avidin-FITC
(Vector Laboratories) for 20 min and washed in three changes of 4 × SSC,
Tween 20 at 37 ° C. Slides were mounted with 40 Ìl of antifade solution (Vector Laboratories) containing 150 ng/ml of DAPI. Slides were viewed with an
Olympus AH-3 (VANOX) fluorescence microscope. Images were analyzed
with the Cytovision system (Applied Imaging).
Results and discussion
In our effort to identify new genes, we constructed and analyzed in silico unique gene EST clusters on the basis of clone
size, chromosomal localization, and tissue expression. Among
all clusters studied, we isolated a partial human cDNA sequence with a single open reading frame (ORF). The ESTderived sequence encompassed only nucleotide (nt) 570 to nt
1465 of the definitive PDCD9 sequence. To obtain the complete coding sequence, we selected cDNA clones by screening
the Ïgt11 human cDNA library and by BLAST homology
searching against dbEST (NCBI) (http://www.ncbi.nlm.nih.
gov/cgi-bin/BLAST/) (Altschul et al., 1997). From the results of
the search, two human IMAGE clones were chosen for sequencing: 549763 (EST GenBank accession number AA101062) and
1368574 (EST GenBank AA836428). None of the Ïgt11 clones
obtained completed the coding sequence, the maximum size
clones spanning from nt 814 to nt 1465. Of the two IMAGE
clones selected, one, 549763, also revealed a partial coding
sequence. Only clone 1368574 represented the full-length
cDNA.
The human cDNA had an ORF of 1,314 nucleotides (from
nt 40 to nt 1354). The 5) untranslated region (UTR) contained
an in-frame stop codon at nucleotide position 6, 27 bp up-
86
Cytogenet Cell Genet 87:85–88 (1999)
stream of the deduced initiation codon. The 3)-UTR contained
a consensus polyadenylation signal ATTAAA (1,441 nt) and a
poly(A) sequence at the end (1465 nt). This cDNA sequence
was predicted to encode a protein of 438 amino acids with a
calculated mass of 50 kDa.
BLAST homology searching against nonredundant databases (NCBI) gave a single significant hit with the G. gallus proapoptotic protein p52 (GenBank AF029071; Sun et al., 1998).
Nucleotide sequence comparison between chicken p52 and
its human homolog showed 70 % identity; this gene was therefore designated PDCD9 (programmed cell death 9) after the G.
gallus gene. In the original report (Sun et al., 1998), a fragment
of the human protein sequence was presented (amino acids 282
to 407) containing an erroneous stop codon at amino acid position 407, possibly due to the fact that a single EST sequence was
considered. By determining the full-length cDNA spanning the
entire ORF, we have corrected this error. The deduced human
and chicken amino acid sequences are 51 % identical and 61 %
similar (Fig. 1).
Sun et al. (1998) also reported the partial C-terminal mouse
amino acid sequence derived from three ESTs. We extended
the coding sequence by performing a BLAST homology search
against mouse dbEST (NCBI), which revealed a collection of
additional ESTs homologous to PDCD9. The cluster was
assembled in a single contig comprising a unique sequence in
mouse (UniGene Collection, Mm. 29109 (http://www.NCBI.
nlm.nih.gov/UniGene/Hs.Home.html). None of the murine
clones selected for sequencing were available because of yeast
contamination originating at the distribution sources. Nevertheless, we obtained the complete putative amino acid sequence from the consensus of all ESTs (Fig. 1). Human and
mouse PDCD9 have 66 % identity and 76 % similarity at the
protein level. Protein domain analysis of the PDCD9, murine
Pdcd9, and chicken p52 proteins did not show any known
motif or functional domain with significant probability.
Northern blot analysis of poly(A) RNA isolated from various tissues (MTN Human 12-lane blot, Clontech), using a 1-kb
PCR product corresponding to the 3) region of the human
IMAGE clone 1368574 as a probe, revealed a ubiquitously
expressed 1.5-kb mRNA species (Fig. 2). A high steady-state
level of PDCD9 mRNA was observed in heart, skeletal muscle,
kidney, and liver and a lower level in placenta and peripheral
blood leukocytes. A barely detectable level of expression was
seen in the remaining tissues tested. In addition, three minor
higher molecular weight forms (7.5, 6, and 4 kb) were detected,
which might have resulted from alternate promoter or polyA
site usage or from alternative mRNA splicing. The pattern of
PDCD9 mRNA expression differed notably from that of its
homolog in chicken, which showed a wide distribution in
embryonic and adult tissues. In particular, p52 mRNA was
more abundant in embryonic chicken heart and liver, whereas
in the adult chicken, a high hybridization signal was detected in
testis, brain, heart, kidney, and lung (Sun et al., 1998).
To assign the gene encoding PDCD9 to a human chromosome, FISH analysis was performed on metaphase chromosomes prepared from peripheral blood lymphocytes. A suitable
probe was obtained by screening of the RPCI[1,3-5] human
PAC library using the full-length PDCD9 cDNA. Three posi-
Fig. 1. Multiple sequence alignment of the human PDCD9, mouse Pdcd9, and chicken p52 polypeptides. Identical residues are
printed in reverse type, and similar residues are shaded. Consensus sequence is shown at the bottom, with identical amino acids in
uppercase symbols and similar amino acids in lowercase. Extents of partial amino acid sequences previously published by Sun et al.
(1998) are bracketed by ! ... 1 for the human and by !! ... 11 for the mouse polypeptide.
Fig. 2. Multiple-tissue northern blot analysis of PDCD9. The 1-kb
PDCD9 PCR product was used as a probe, revealing a ubiquitously
expressed 1.5-kb mRNA species. PDCD9 and ß-actin transcripts are indicated with arrows.
Fig. 3. Localization of PDCD9 to chromosome 5q11 by FISH using the
PAC clone 273D21 DNA as a biotinylated probe. The arrows point to the
location of the signal on chromosome 5.
tive clones were obtained, the clones corresponding to those
provided by the Resource Center of the Deutsches Humangenomprojekt (DHGP) in Germany. Among them, PAC 273D21
was chosen and confirmed to contain the PDCD9 gene by
hybridization and PCR amplification. Using PAC clone
273D21 DNA as a probe for FISH, we were able to assign the
PDCD9 gene to the pericentromeric region (band 5q11) of
human chromosome 5. A positive signal on both chromosome
homologs was observed in 22 (88 %) of 25 metaphase spreads
(Fig. 3). This result is in agreement with the previous mapping
to chromosome 5 of STS SHGC-186 in the Radiation Hybrid
Stanford G3 panel. Marker SHGC-186 is contained in UniGene cluster Hs. 28555, in which the selected IMAGE clones
are included. Searching OMIM (http://www.ncbi.nlm.nih.gov/
htbin-post/Omim), we did not find any known hereditary condition mapping to 5q11 that could be associated with PDCD9.
Cytogenet Cell Genet 87:85–88 (1999)
87
The syntenic region in mice, on chromosome 13, also lacks relevant mutations or phenotypes related to Pdcd9.
In summary, we have cloned, mapped, and studied the
expression of the human homolog of the G. gallus pro-apoptotic
protein p52. We have determined that the amino acid sequence
is well conserved between human, mouse, and chicken, which
suggests the possibility of a similar pro-apoptotic role for
PDCD9. The lack of homology with other protein families indicates that PDCD9s could constitute a novel class of apoptotic
proteins involved in alternative cell-death pathways that have
not yet been defined. However, the differences in adult tissue
expression might represent the existence of distinct functions of
PDCD9 in human and chicken. Further experiments should be
undertaken to elucidate the putative apoptotic role of PDCD9
in humans.
Acknowledgements
We are grateful to Michael Lynch and Mònica Gratacòs for the screening
of the Ïgt11 and PAC libraries. We also want to thank A. Puig and D. Otero
for their technical support with the DNA sequencing. We wish to thank the
HGMP Resource Center in Hinxton, UK, and the DHGP in Berlin, Germany, for supplying us with IMAGE cDNA and PAC clones.
References
Adams MD, Kelley DIM, Gocayne JD, Dubnick M,
Polymeropoulos MH, Xiao H, Merril CR, Wu A,
Olde B, Moreno RF, Kerlavage AR, McCombie
WR, Venter JC: Complementary DNA sequencing: expressed sequence tags and human genome
project. Science 252:1651–1656 (1991).
Altschul SF, Maden TL, Schaffer AA, Zhang J, Zhang
Z, Miller W, Lipman, DJ: Gapped BLAST and
PSI-BLAST: a new generation of protein database
search program. Nucl Acids Res 25:3389–3402
(1997).
Deloukas P, Schuler GD, Gyapay G, Beasley EM, Soderlund C, Rodriguez-Tome P, Hui L, Matise TC,
McKusick KB, Beckmann JS, Bentolila S, Bihoreau M, Birren BB, Browne J, Butler A, Castle AB,
Chiannilkulchai N, Clee C, Day PJ, Dehejia A,
Dibling T, Drouot N, Duprat S, Fizames C, Fox S,
Gelling S, Green L, Harrison P, Hocking R, Holloway E, Hunt S, Keil S, Lijnzaad P, Louis-Dit-Sully
C, Ma J, Mendis A, Miller J, Morissette J, Muselet
D, Nusbaum HC, Peck A, Rozen S, Simon D, Slon-
88
im DK, Staples R,. Stein LD, Stewart EA, Suchard
MA, Thangarajah T, Vega-Czarny N, Webber C,
Wu X, Hudson J, Auffray C, Nomura N, Sikela
JM, Polymeropoulos MH, James MR, Lander ES,
Hudson TJ, Myers RM, Cox DR, Weissenbach J,
Boguski MS, Bentley DR: A physical map of
30,000 human genes. Science 282:744–746
(1998).
Jacobson MD, Weil M, Raff MD: Programmed cell
death in animal development. Cell 88:347–354
(1997).
Lennon G, Auffray C, Polymeropoulos M, Soares MB:
The I.M.A.G.E. Consortium: an integrated molecular analysis of genomes and their expression. Genomics 33:151–152 (1996).
Cytogenet Cell Genet 87:85–88 (1999)
Nadal M, Moreno S, Pritchard M, Preciado MA, Estivill X, Ramos-Arroyo MA: Down syndrome: characterisation of a case with partial trisomy of chromosome 21 owing to a paternal balanced translocation (15;21) (q26;q22.1) by FISH. J med Genet
34:50–4 (1997).
Schuler GD: Pieces of the puzzle: expressed sequence
tags and the catalog of human genes. J molec Med
75:694–69 (1997).
Steller H: Mechanisms and genes of cellular suicide.
Science 267:1445–1449 (1995).
Sun L, Liu Y, Fremont M, Schwarz S, Siegmann M,
Matthies R, Jost JP: A novel 52 kDa protein
induces apoptosis and concurrently activates c-Jun
N-terminal kinase 1 (JNK1) in mouse C3H10T1/2
fibroblasts. Gene 208:157–166 (1998).
Thompson CB: Apoptosis in the pathogenesis and
treatment of disease. Science 267:1456–1462
(1995).
Vaux DL, Korsmeyer SJ: Cell death in development.
Cell 96:245–254 (1999).
46
II. Identificació, caracterització i mapatge del gen humà VPS33B
El treball següent descriu el procés d’aïllament i caracterització del nou gen
humà VPS33B (vacuolar protein sorting 33B), ortòleg a l’identificat prèviament a
rata. L’anàlisi de la seqüència aminoacídica va suggerir una implicació en
l’organització i transport de proteïnes i vesícules a la cèl.lula. Es va estudiar el
seu patró d’expressió i la seva posició en el genoma humà mitjançant mapatge
per híbrids de radiació. Aquests resultats van ser publicats l’any 2000 i van
refermar l’importància d’aquests treballs de caracterització preliminar de gens
nous.
47
Cytogenet Cell Genet 89:92–95 (2000)
Cloning, mapping and expression analysis of
VPS33B, the human orthologue of rat Vps33b
L. Carim, L. Sumoy, N. Andreu, X. Estivill and M. Escarceller
Medical and Molecular Genetics Center, Institut de Recerca Oncològica, Hospital Duran i Reynals, L’Hospitalet de Llobregat,
Barcelona (Spain)
Abstract. We have identified VPS33B, the human ortholog
of rat Vps33b. VPS33B encodes a transcript of 2482 nt with an
ORF of 617 amino acids and a predicted protein size of 70.6
kDa. VPS33B contains a Sec-1 domain shared with a family of
proteins involved in protein sorting and vesicular trafficking.
Enriched expression of VPS33B was observed in testis.
VPS33B was positioned at chromosome 15q26.1 by radiation
hybrid mapping.
Copyright © 2000 S. Karger AG, Basel
Our laboratory, a member of the EUROIMAGE Consortium, is engaged in the isolation and mapping of novel human
genes. We sequence cDNA clones corresponding to ESTs
selected on the basis of chromosome location on the long arm of
chromosome 15. Using this approach we have identified
VPS33B, the human orthologue of rat Vps33b, a mammalian
homologue of yeast Slp1/vps33p (Pevsner et al., 1996).
The sorting of vacuolar proteins in the yeast Saccharomyces
cerevisiae has become an important genetic model system due
to the insight it has given into lysosomal biogenesis in animal
cells (Conibear and Stevens, 1995; Wendland et al., 1998). To
date, few human homologues of the so called vps (vacuolar protein sorting) yeast genes have been described.
Protein transport to the lysosome-like vacuole in yeast is
mediated by more than 40 genes in S. cerevisiae. The yeast Vps
mutants are implicated in Golgi-to-lysosome trafficking (Conibear and Stevens, 1995; Wendland et al., 1998; Pevsner et al.,
1996) and are subdivided into six classes (A–E). Mutations in
the so called fourth class C Vps, including Vps33p among others, result in the most severe vacuolar protein sorting and morphology defects. It is believed that Vps gene products physically
and functionally interact to mediate a late step in protein transport to the vacuole (Rieder and Emr, 1997).
Slp1/Vps33p belongs to the Sec-1 domain family (Halachmi
and Lev, 1996). Members of this family are involved in protein
sorting, synaptic transmission and general secretion. Some of
them are the yeast Sec1, Sly1, Slp1/Vps33p and Vps45; three
nematode proteins: Unc-18, and the C. elegans homologues of
Sec1 and Sly1; the Drosophila rop and the rat Munc-18/nSec1,
mouse Munc18b and Munc18c, and bovine Munc18 and Sec1
(Halachmi and Lev, 1996 and references therein). The Sec1
proteins are mostly hydrophilic and lack a transmembrane
domain but are membrane bound proteins. The Sec-1 proteins
play a positive role in exocytosis.
Materials and methods
Supported by EU Biomed Project No. BMH4-CT97-2284 to X.E and by CICYTIN95-0347. M.E. is funded by the Spanish Ministry of Education (CIDYT contract FPI-070-97) and L.S. by the Catalan autonomous government (CIRIT-RED
contract 1998-64).
Received 1 December 1999; revision accepted 23 February 2000.
Request reprints from Mònica Escarceller, Medical and Molecular Genetics Center,
Institut de Recerca Oncològica, Hospital Duran i Reynals, Autovia de
Castelldefels km 2,7, L’Hospitalet de Llobregat, 08907 Barcelona (Spain);
telephone: 34-93-260-7775; fax: 34-93-260-7776; e-mail: [email protected]
ABC
Fax + 41 61 306 12 34
E-mail [email protected]
www.karger.com
© 2000 S. Karger AG, Basel
0301–0171/00/0892–0092$17.50/0
cDNA isolation and sequencing
Unigene cluster Hs. 26510 was built and analyzed in silico during the
EUROIMAGE full-length cDNA sequencing project. It was shown to contain a single open reading frame (ORF) and to share homology with vacuolar
protein sorting proteins. ESTs cluster Hs.26510 (http://www.NCBI.nlm.
nih.gov/UniGene) was assembled using the EST CAP assembly program
(http://gcg.tigem.it/cgi-bin/uniestass.pl) and Sequencher (GeneCodes) sequence assembly software. Additional ESTs corresponding to VPS33B but
Accessible online at:
www.karger.com/journals/ccg
not included in the cluster were found by searching the dbEST database using
the BLASTN program (Altschul et al., 1997). IMAGE cDNA clones whose
ESTs extended most 5) and 3) in the cDNA were chosen for sequencing:
531662, 2171628, 41400 and 531649. Clones were obtained from the
EUROIMAGE distribution centers. Sequence was determined by primer
walking using the PerkinElmer BigDye reagents on an ABI PRISM-377 fluorescent automated sequencer and custom synthesized sequencing primers
(LifeTech).
Full-length cDNA sequence was obtained using the rapid amplification
of cDNA ends (RACE) method on Marathon-Ready cDNA from adult
human heart (Clontech), according to the manufacturer’s instructions. The
following primers were used: G1 (5) AGAGAGTGCTGAGAAGGTGTAAGGC 3)), G2 (5) ATCCACATCAAGAGGCAGCAAAGAG 3)) and G3
(5) AGCCCTCAAAAGTTCTATGCGTGTG 3)) for 5) VPS33B extension.
PCR extended products were subcloned into the pGEM-T-easy vector
(Promega) and sequenced as above. We sought at least three independently
generated fully extended clones to determine the cDNA ends.
Sequence comparisons were performed using ClustalW 1.7 (http://dot.
imgen.bcm.tmc.edu:9331/multi-align/multi-align.html). Boxed multiple sequence alignments were obtained with the BOXSHADE 3.21 program (http:
//www.ch.embnet.org/software/BOX–form.html). To search for known motifs or functional domains, protein pattern and domain databases consulted
were Prosite, SMART and Pfam (http://www.hgmp.mrc.ac.uk/GenomeWeb/prot-domain.html).
VPS33B nucleotide and protein sequences are available in GenBank
under Acc. No. AF201694. The name has been approved by the Human
Gene Nomenclature Committee (http://www.gene.ucl.ac.uk/nomenclature/).
Northern blot analysis
A multiple-tissue Northern blot (MTN II blot, Clontech) was hybridized
to a 1.9-kb HindIII-PstI restriction product corresponding to the cDNA
insert from IMAGE clone 41400; and to a 2-kb ß-actin cDNA supplied commercially (Clontech) as control for quantification. Probes were labeled using
a random primer DNA labeling kit (Amersham Pharmacia). Blots were
hybridized overnight at 65 ° C in ExpressHyb solution (Clontech) and
washed at 68 ° C in 0.2 × SSC, 0.5 % SDS.
VPS33B radiation hybrid mapping
To precisely localize the VPS33B gene we used the Stanford TNG4 whole
genome radiation hybrid panel (Stewart et al. 1997). Twopoint linkage analysis was performed using the RHMAP-2.0 on the RH Server at the Stanford
Human Genome Center (http://www-shgc.stanford.edu/RH/index.html).
We used primers F (5) CTCAGTGAGATGCAGGCATC 3)) and R (5)
TATCCTGGGAGCAGGAAGTG 3)) which amplify STS14369. The PCR
conditions were 1 cycle at 94 ° C for 3 min; 35 cycles at 94 ° C for 30 s, 61 ° C
for 30s and 72 ° C for 1 min; and 1 cycle at 72 ° C for 5 min.
Results and discussion
Cloning of VPS33B, the human orthologue of rat Vps33b
Within the EUROIMAGE full-length cDNA sequencing
project underway in our laboratory (Lennon et al., 1998) we
sequence cDNA clones corresponding to ESTs from the same
cluster to identify new genes. The EST contigs that we build
and analyze in silico represent unique genes and they are selected on the basis of clone size, chromosome location and tissue
distribution. One of the partial human cDNA sequences,
belonging to Unigene cluster Hs.26510, contained a single open
reading frame (ORF). Additional ESTs not included in the cluster were found by searching the dbEST database using the
BLASTN program at NCBI (http://www.ncbi.nlm.nih.gov/
cgi-bin/BLAST/) (Altschul et al., 1997). IMAGE cDNA clones
corresponding to the ESTs that extended most 5) and 3) were
chosen for sequencing: 531662 (EST GenBank Acc. No.
AA074549), 2171628 (EST GenBank Acc. No. AI589203),
41400 (EST GenBank Acc. No. R56540) and 531649 (EST
GenBank Acc. No. AA074575).
Of the four human clones selected, 2171628 and 531649
were unable to grow in standard conditions and clone 531662
was shown to be miss-assigned and corresponded to an unidentified cluster of ESTs. Only clone 41400 was fully sequenced
and extended the ORF obtained with the EST assembly. Since
the clone did not cover the entire transcript, the full-length
cDNA sequence was obtained by 5) RACE extension (see
Methods). The assembly of the different clones gave as a result
a total transcript length of 2482 bp (including the polyA tail),
with an ORF (from nt 304–2157) encoding a 617 amino acid
product with a calculated mass of 70.6 kDa. The 5) untranslated region (UTR) contained an in-frame stop codon at
nucleotide position 217. A polyadenylation signal (AATAAA)
was observed at nt 2434 and a polyA tail at the end (2458 nt).
A single hit was obtained after BLAST homology searching
against non redundant nt databases (NCBI): r-vps33b, the “vacuolar protein sorting” homolog from Rattus norvegicus
(Pevsner et al., 1996). Nucleotide sequence comparison showed
90 % identity between our gene and rat Vps33b.
At the amino acid level, VPS33B showed homology to the
family of proteins related to Sec1 (Halachmi and Lev, 1996):
after BLAST search, the best hit was r-vps33b with a 96 % identity (97 % similarity) between them (Fig. 1); the second most
significant score was rat vps33a, with a 31 % identity (50 % similarity). The hits following were the “vacuolar protein sorting
33” homologues of yeast SLP1/vps33 in Drosophila, Arabidopsis, C. elegans and Aspergillus, as well as SLP1/vps33 itself.
Lower scores were observed for rop (Drosophila), vps45 (yeast)
and unc-18 (C. elegans ).
All these close homologues to VPS33B are known members
of the Sec-1 domain family and contain this motif (Halachmi
and Lev, 1996). Protein pattern analysis of VPS33B revealed
the presence of the domain, extending from amino acid 105 to
612, with a significant score of 3.6e-185 (SMART, http://www.
hgmp.mrc.ac.uk/GenomeWeb/prot-domain.html). It has been
proposed that the evolution of this gene family parallels the specialization of vesicle trafficking to distinct intracellular compartments (Pevsner et al., 1996). Indeed, loss of function in the
yeast genes Sec1, Sly1, Slp1/vps33 and Vps45 results in blocking of protein transport between distinct subcellular compartments, that is, Sly1 from endoplasmic reticulum to Golgi; Sec1
from Golgi to plasma membrane; Vps-45 from Golgi to prevacuolar and Slp1/vps33 from pre-vacuolar to the vacuole
(Pevsner et al., 1996; Tellam et al., 1997; and references therein). Because of sequence identity with their yeast counterpart, it
has been suggested that rat vps33a and rat vps33b might also
participate in vesicular trafficking between the Golgi and the
lysosome (Pevsner et al., 1996). Moreover, it is also possible
that rat vps33a and rat vps33b localize to distinct intracellular
compartments such as lysosomes, endosomes or peroxisomes.
Here we suggest, based on the striking amino acid homology
shared between human and rat vps33b, that our protein could
also be involved in this step in humans. In this context, it will
be of great interest to determine the subcellular location of
VPS33B in future experiments.
Cytogenet Cell Genet 89:92–95 (2000)
93
Fig. 1. Multiple sequence alignments of human VPS33B (VPS33B); rat vps33b (vps33b); rat vps33a (vps33a); the yeast Slp1/vps33b homologs in
Drosophila melanogaster (D.mel), Aspergillus fumigatus (A.fum), Arabidopsis thaliana (A.thal) and Caenorhabditis elegans (C.el) and SLP1 yeast polypeptide itself. Identical residues are printed in reverse type, and similar residues are shaded.
Expression of VPS33B
Expression studies of VPS33B with Northern blots of human tissues (MTN II blot, Clontech), were carried out by
hybridizing with a specific probe (see Methods). In adult tissues, basal expression was largely ubiquitous (Fig. 2), showing
an mRNA species migrating above the 2.4-kb marker. Remarkably, VPS33B expression was highly enriched in testis. This
contrasts with the broad tissue distribution of rat Vps33b,
where an equal amount of a 2.8-kb transcript was seen in all rat
tissues (Pevsner et al., 1996). We suggest that, even though both
orthologs display a high degree of identity, the differences in
the expression pattern indicate that the gene could hold a specific and distinct role in humans, perhaps in protein trafficking
from Golgi to the acrosome during spermatogenesis. This specificity could be mediated through the interaction with other
Fig. 2. Multiple-tissue Northern blot analysis of VPS33B. The 1.9-kb
HindIII-PstI restriction product was used as a probe revealing ubiquitous
expression: (A) results after an overnight exposure and (B) after a 10 day
exposure; (C) ß-actin control probe.
94
Cytogenet Cell Genet 89:92–95 (2000)
proteins, the syntaxins and syntaxin-like proteins being good
candidates. The genetic interaction between the Sec1-1 family
members and genes encoding syntaxin and syntaxin homologues has been shown previously (Bennett et al., 1993; Tellam et
al., 1997).
Mapping of VPS33B
Chromosome location of the human VPS33B gene was
determined by radiation hybrid mapping using the Stanford
TNG4 panel. The gene was linked to STS SHGC-83061 with a
LOD score of 7.49 at an approximate distance of 128 kb. This
STS is contained in RPCI-11 BAC 51D4 which in turn contains
the alpha-mannosidase II isozyme gene (D15S1173). This is in
agreement with the previous mapping of STSs mp2120 and
WI-22047 using the Genebridge 4 panel (between D15S202
and D15S157), which are located in 15q26.1 near the Bloom
syndrome locus (Deloukas et al., 1998). These STSs are contained in UniGene cluster Hs. 26510, in which the selected
IMAGE clones are included.
In summary, we have identified, characterized and finely
mapped, within the 15q26.1 region, a new human gene,
VPS33B. Comparisons with previously described genes at the
protein and nucleotide level indicate that VPS33B is the
human orthologue of rat Vps33b. The presence of the functional Sec1 domain in the highly conserved amino acid sequence of
human and rat vps33b suggests that VPS33B is holding a role in
vesicular protein trafficking to the lysosome. Localized expression of VPS33B in testis may account for a specific role of the
protein in humans.
Acknowledgments
We are grateful to A. Puig and D. Otero for technical support with DNA
sequencing. We wish to thank the HGMP Resource Center in Hinxton, UK,
and the RZPD in Berlin, Germany, for supplying us with IMAGE cDNA
clones.
References
Altschul SF, Maden TL, Schaffer AA, Zhang J, Zhang
Z, Miller W, Lipman, DJ: Gapped BLAST and
PSI-BLAST: a new generation of protein database
search program. Nucl Acids Res 25:3389–3402
(1997).
Bennett MK, Garcia-Arraras JE, Elferink LA, Peterson
K, Fleming AM, Hazuka CD, Scheller RH: The
syntaxin family of vesicular transport receptors
Cell 74:863–873 (1993).
Conibear E, Stevens TH: Vacuolar biogenesis in yeast:
sorting out the sorting proteins. Review. Cell
83:513–516 (1995).
Deloukas P, Schuler GD, Gyapay G, Beasley EM, Soderlund C, Rodriguez-Tome P, Hui L, Matise TC,
McKusick KB, Beckmann JS, Bentolila S, Bihoreau M, Birren BB, Browne J, Butler A, Castle AB,
Chiannilkulchai N, Clee C, Day PJ, Dehejia A,
Dibling T, Drouot N, Duprat S, Fizames C, Bentley DR, et al: A physical map of 30,000 human
genes. Science 282:744–746 (1998).
Halachmi N, Lev Z: The Sec1 family: a novel family of
proteins involved in synaptic transmission and
general secretion. Review. J Neurochem 66:889–
897 (1996).
Lennon G, Auffray C, Polymeropoulos M, Soares MB:
The I.M.A.G.E. Consortium: an integrated molecular analysis of genomes and their expression. Genomics 33:151–152 (1998).
Pevsner J, Hsu SC, Hyde PS, Scheller RH: Mammalian
homologues of yeast vacuolar protein sorting (vps)
genes implicated in Golgi-to-lysosome trafficking.
Gene 183:7–14 (1996).
Rieder SE, Emr SD: A novel RING finger protein complex essential for a late step in protein transport to
the yeast vacuole. Mol Biol Cell 8:2307–2327
(1997).
Stewart EA, McKusick KB, Aggarwal A, Bajorek E,
Brady S, Chu A, Fang N, Hadley D, Harris M, Hussain S, Lee R, Maratukulam A, O’Connor K, Perkins S, Piercy M, Qin F, Reif T, Sanders C, She X,
Sun WL, Tabar P, Voyticky S, Cowles S, Fan JB,
Cox DR, et al: An STS-based radiation hybrid map
of the human genome. Genome Res 7:422–433
(1997).
Tellam JT, James DE, Stevens TH, Piper RC: Identification of a mammalian Golgi Sec1p-like protein,
mVps45. J biol Chem 272:6187–6193 (1997).
Wendland B, Emr SD, Riezman H: Protein traffic in
the yeast endocytic and vacuolar protein sorting
pathways. Curr Opin Cell Biol 10:513–522.
(1998).
Cytogenet Cell Genet 89:92–95 (2000)
95
48
III. Identificació i anàlisi de l’expressió del gen C15orf3
La publicació següent constitueix un exemple d’identificació de gens
completament nous. Es tracta de seqüències amb pauta de lectura oberta
sense homologia a cap seqüència coneguda en aquell moment que permetès
inferir la seva funció o implicació en processos cel.lulars concrets. L’article
descriu el mapatge de C15orf3 a 15q21.1-21.2, excloent-lo de la regió q24-q26
objecte d’estudi en la Part II d’aquesta tesi. Tot i no presentar similaritat amb
cap família de gens ja coneguts, el patró d’expressió ubicu de C15orf3 suggeria
un paper universal i general necessari a totes les cèl.lules humanes. Es van
identificar els gens ortòlegs a rata i ratolí confirmant que C15orf3 és membre
d’una nova família de proteïnes encara no caracteritzades.
49
Cytogenet Cell Genet 88:330–332 (2000)
Identification and expression analysis of
C15orf3, a novel gene on chromosome
15q21.1→q21.2
L. Carim, L. Sumoy, N. Andreu, X. Estivill and M. Escarceller
Medical and Molecular Genetics Center, Institut de Recerca Oncològica, Hospital Duran i Reynals, L’Hospitalet de Llobregat,
Barcelona (Spain)
Abstract. We have isolated C15orf3, a novel human gene
that lacks homology to any known gene family. The C15orf3
gene encodes a transcript of 1676 nt with an ORF of 187 amino
acids and a predicted protein product size of 20.8 kDa. Northern blot analysis showed ubiquitous expression in adult tissues.
Identification of all human genes and construction of a
genome-wide transcript map are two major goals of the Human
Genome Project. A large-scale public effort to isolate all human
genes started in 1993, when the Integrated Molecular Analysis
of Human Transcripts and their Expression (IMAGE) Consortium was formed to create, collect and characterize cDNA
libraries from various tissues and different states of normalization (Adams et al., 1991; Lennon et al., 1996; Schuler et al.,
1996; Schuler, 1997; Deloukas et al., 1998). In that context, the
EUROIMAGE Consortium was constituted in 1997 with the
objective to complete the sequence and to identify genes
involved in human biological processes and inherited diseases
by correlating precise map location and expression with phenotypic data. Our laboratory, a member of this Consortium, is
engaged in the isolation and mapping of novel human genes.
We report here the cloning, tissue distribution and chromosomal localization of the human gene C15orf3.
EST database searching revealed the presence of C15orf3
homologs in rat and mouse. C15orf3 was mapped to chromosome 15q21.1 → q21.2 using the Stanford G3 radiation hybrid
panel.
Copyright © 2000 S. Karger AG, Basel
Material and methods
Cluster assembly and sequence analysis
EST clusters were assembled using the EST CAP assembly program
(http://www.tigem.it) and the Sequencher software for Macintosh (GeneCodes Corporation). Clones were obtained from the EUROIMAGE distribution centers. Sequences were determined by primer walking with custom synthesized primers (LifeTech) using the Perkin-Elmer BigDye reagents on an
ABI-377 fluorescent automated sequencer. C15orf3 nucleotide and protein
sequences are available in GenBank under Acc. No. AL109701. The name
has been approved by the Human Gene Nomenclature Committee (http:
//www.gene.ucl.ac.uk/nomenclature/).
Sequence comparisons were performed using ClustalW 1.7 (http://dot.
imgen.bcm.tmc.edu:9331/multi-align/multi-align.html). Boxed multiple sequence alignments were obtained with the BOXSHADE 3.21 program (http:/
/www.isrec.isb-sib.ch/software/BOX–form.html). To search for known motifs or functional domains, protein pattern and domain databases consulted
were Prosite, SMART and Pfam (http://www.hgmp.mrc.ac.uk/GenomeWeb/prot-domain.html).
Received 1 December 1999; manuscript accepted 4 January 2000.
Northern blot analysis
Human multiple-tissue Northern blots (MTN blot, Clontech) were hybridized with a 1-kb HindIII restriction product corresponding to the 5)
region of the human IMAGE clone 45620 for detection of C15orf3; and to a
2-kb ß-actin cDNA supplied commercially (Clontech) as control for quantification. Probes were labeled using a random primer DNA labeling kit (BioRad). Blots were hybridized overnight at 65 ° C in ExpressHyb hybridization
solution (Clontech) and washed at 68 ° C in 0.2 × SSC, 0.5 % SDS.
Request reprints from Mònica Escarceller, Medical and Molecular Genetics Center,
Institut de Recerca Oncològica, Hospital Duran i Reynals,
Autovia de Castelldefels km 2.7, L’Hospitalet de Llobregat,
08907 Barcelona (Spain); telephone: 34-93-260-7775; fax: 34-93-260-7776;
e-mail: [email protected]
C15orf3 radiation hybrid mapping
To precisely localize the C15orf3 gene we used the Stanford G3 whole
radiation hybrid genome panel (Stewart et al., 1997). Two point linkage analysis was performed using the RHMAP-2.0 on the RH Server at the Stanford
Supported by EU Biomed Project No. BMH4-CT97-2284 to X.E and by CICYTIN95-0347. M.E. is funded by the Spanish Ministry of Education (CIDYT contract FPI-070-97) and L.S. by the Catalan autonomous government (CIRIT-RED
contract 1998-64).
ABC
Fax + 41 61 306 12 34
E-mail [email protected]
www.karger.com
© 2000 S. Karger AG, Basel
0301–0171/00/0884–0330$17.50/0
Accessible online at:
www.karger.com/journals/ccg
Fig. 1. Multiple sequence alignments of the human C15orf3 polypeptide and its mouse and rat homologs. Identical residues are printed
in reverse type, and similar residues are shaded. Consensus sequence is shown at the bottom with identical amino acids in the three species
marked with asterisks and similar amino acids, or identical in only two species, noted as dots.
Human Genome Center (http://www-shgc.stanford.edu/RH/index.html).
We used primers F2 (5) GAATGAACCCAAAAGATAGC 3)) and R1 (5)
GAGAAGACCCCGTTTGA 3)). The PCR conditions were 1 cycle at 94 ° C
for 3 min; 35 cycles at 94 ° C for 30 s, 54 ° C for 30 s and 72 ° C for 1 min; and
1 cycle at 72 ° C for 5 min.
Results and discussion
A unique transcript named C15orf3 was identified during
the analysis of EST clusters within the physical region in
15q21.1 → q21.2, near the Marfan syndrome gene. Through
assembly and analysis of ESTs corresponding to the UniGene
cluster Hs.75847 we selected human cDNA clones for sequencing. The overlap of IMAGE clones 45620 (EST GenBank Acc.
No. H08232) and 222180 (EST GenBank Acc. No. H85350),
belonging to this cluster, generated the complete coding sequence of C15orf3.
The entire cDNA contained 1676 nt, with an ORF (from nt
25 to 586) encoding a 187 amino acid product with a calculated
mass of 20.8 kDa. The 5) untranslated region (UTR) contained
an in-frame stop codon at nt position 10. A polyadenylation
signal (AATAAA) was observed at nt 1631 and a polyA tail at
the end (nt 1654).
BLAST homology searching against non redundant databases (NCBI) (http://www.ncbi.nlm.nih.gov/cgi-bin/BLAST/)
(Altschul et al., 1997) gave a single significant hit with an uncharacterized mRNA: human PTD014 (GenBank AF092135).
Nucleotide sequence comparison showed 100 % identity between our gene and PTD014. Further bibliographic search gave
no more information about this gene.
To find putative homologues in other species, we performed
BLAST homology search against “mouse” and “other” dbEST
(NCBI). Two significant hits were obtained: EST GenBank
Acc. No. AI836529, included in the cluster Mm. 41921 and
EST GenBank Acc. No. AA727412 belonging to Mm. 41906
(UniGene Collection, http://www.NCBI.nlm.nih.gov/UniGene/Hs.Home.html). We assembled both clusters of mouse
ESTs homologous to C15orf3 in a single contig corresponding
to a unique sequence in mouse. None of the murine clones
selected for sequencing were available due to contamination
from the distribution sources. Nevertheless, we obtained the
complete putative amino acid sequence derived from the EST
consensus (Fig. 1).
Blast search against other species ESTs, revealed one significant hit with the rat (EST GenBank Acc. No. H35510), however, complete sequencing could not be achieved due to the fact
that the clone was not available since it was not included in the
IMAGE collection. Fig. 1 shows the partial deduced amino acid
sequence of the putative rat gene homologue to C15orf3.
Both rodent homologues showed a high degree of similarity
in the carboxy terminus of the protein: 94 % identity and 95 %
similarity. The same region in human C15orf3 was 80–82 %
identical and 88–90 % similar to that of mouse and rat, respectively. Human and mouse products displayed good homology
at the most 5) portion of the protein as well. The overall identity
human/mouse was 61 % and the similarity 69 % due to a lesser
conservation in the middle part of the proteins. We believe that
we have found three homologous genes belonging to a new
family sharing novel functional motifs. The analysis with protein domain identification software did not reveal the presence
of any important feature in C15orf3.
Expression studies of C15orf3 with Northern blots of human tissues (MTN human blot, Clontech), were carried out by
hybridizing with a specific probe, a 1-kb HindIII restriction
product corresponding to the 5) region of the IMAGE clone
45620. In adult tissues, expression was largely ubiquitous
(Fig. 2) showing a 1.7-kb mRNA species. A high steady state
level of C15orf3 mRNA was observed in most tissues examined: heart, brain, liver, skeletal muscle, kidney and pancreas.
A slightly lower level of expression was seen in placenta and
lung (Fig. 2).
Chromosome location of the human C15orf3 gene was
determined by radiation hybrid mapping using the Stanford
G3 panel. We determined that the gene was linked to
D15S1244 (STS SHGC-14276) with a lod score of 5.84, which
is located in 15q21.1→ q21.2. This is in gross agreement with
Cytogenet Cell Genet 88:330–332 (2000)
331
the previous mapping of STSs stSG4057, sts-N93791, stsR92213 and WI-21161 using the Genebridge 4 panel (between
D15S146 and D15S209) (Deloukas et al., 1998). These STSs
are contained in UniGene cluster Hs. 75847, in which the
selected IMAGE clones are included. However our results
using the higher resolution panel G3 panel positioned the
C15orf3 gene a bit more distally, between D15S209 and
D15S998.
In summary, we have identified, characterized and finely
mapped, within the 15q21.1→ q21.2 region, a new human
gene, C15orf3. Comparison with previously described genes at
protein and nucleotide levels indicated that C15orf3 is unique
without significant homology to any other known gene family.
The absence of functional domains in the protein gives no clues
for predicting the function of C15orf3. Nevertheless, the fact
that C15orf3 shows ubiquitous expression indicates that its
function may be a general one, required in all human cells.
Moreover, we have determined the putative amino acid sequence of two homologous genes of C15orf3 in mouse and rat,
suggesting the existence of a new family of mammalian proteins
as yet uncharacterized.
Fig. 2. Multiple-tissue Northern blot analysis
of C15orf3. The 1-kb HindIII restriction product
was used as a probe revealing a ubiquitously
expressed 1.7-kb mRNA species. C15orf3 and ßactin transcripts are labeled.
Acknowledgments
We are grateful to A. Puig and D. Otero for technical support with DNA
sequencing. We wish to thank the HGMP Resource Center in Hinxton, UK,
and the RZPD in Berlin, Germany, for supplying us with IMAGE cDNA
clones.
References
Adams MD, Kelley JM, Gocayne JD, Dubnick M,
Polymeropoulos MH, Xiao H, Merril CR, Wu A,
Olde B, Moreno RF, et al: Complementary DNA
sequencing: expressed sequence tags and human
genome project. Science 252:1651–1656 (1991).
Altschul SF, Madden TL, Schaffer AA, Zhang J, Zhang
Z, Miller W, Lipman, DJ: Gapped BLAST and
PSI-BLAST: a new generation of protein database
search program. Nucl Acids Res 25:3389–3402
(1997).
332
Deloukas P, Schuler GD, Gyapay G, Beasley EM, Soderlund C, Rodriguez-Tome P, Hui L, Matise TC,
McKusick KB, Beckmann JS, Bentolila S, Bihoreau M, Birren BB, Browne J, Butler A, Castle AB,
Chiannilkulchai N, Clee C, Day PJ, Dehejia A,
Dibling T, Drouot N, Duprat S, Fizames C, Bentley DR, et al: A physical map of 30,000 human
genes. Science 282:744–746 (1998).
Lennon G, Auffray C, Polymeropoulos M, Soares MB:
The I.M.A.G.E. Consortium: an integrated molecular analysis of genomes and their expression. Genomics 33:151–152 (1998).
Schuler GD: Pieces of the puzzle: expressed sequence
tags and the catalog of human genes. J Mol Med
75:694–698 (1997).
Cytogenet Cell Genet 88:330–332 (2000)
Schuler GD, Boguski MS, Stewart EA, Stein LD, Gyapay G, Rice K, White RE, Rodriguez-Tome P,
Aggarwal A, Bajorek E, Bentolila S, Birre BB, Butler A, Castle AB, Chiannilkulchai N, Chu A, Clee C,
Cowles S, Day PJ, Dibling T, Drouot N, Dunham
I, Duprat S, East C, Hudson TJ, et al: A gene map
of the human genome. Science 274:540–546
(1996).
Stewart EA, McKusick KB, Aggarwal A, Bajorek E,
Brady S, Chu A, Fang N, Hadley D, Harris M, Hussain S, Lee R, Maratukulam A, O’Connor K, Perkins S, Piercy M, Qin F, Reif T, Sanders C, She X,
Sun WL, Tabar P, Voyticky S, Cowles S, Fan JB,
Cox DR, et al: An STS-based radiation hybrid map
of the human genome. Genome Res 7:422–433
(1997).
50
IV. Identificació i caracterització del gen C15orf5
El gen C15orf5, descrit en l’article següent, constitueix un altre exemple
d’identificació d’un gen novell sense similitud de seqüència a cap proteïna
coneguda en el moment del seu aïllament. En aquesta publicació es presenta
el clonatge de C15orf5. La comparació de la seqüència aminoacídica predita
amb la d’altres gens ja coneguts va indicar que es tractava d’una nova família
de gens. L’anàlisi del seu patró d’expressió en teixits humans indicava un
enriquiment a nivell de cor. El mapatge mitjançant híbrids de radiació va
confirmar la seva localització a 15q23-q24, quedant exclòs de a regió 15q24q26 tractada en la següent part de la tesi (Part II).
51
Ref. DNA Seq. 2001 Jul;12(1):67-9
Title
Identification of C15orf5, a heart-enriched transcript on chromosome 15q23-q24
Running head title
Heart-enriched gene C15orf5
Laura Carim-Todd, Lauro Sumoy, Nuria Andreu, Xavier Estivill and
Mònica Escarceller
Medical and Molecular Genetics Center, Institut de Recerca Oncològica,
Hospital Duran i Reynals, Av. Gran Via s/n km 2,7
L'Hospitalet de Llobregat, 08907 Barcelona, Spain
Correspondence: Lauro Sumoy
Phone: 34-93-260-7775
2
Fax: 34-93-260-7776
e-mail: [email protected]
3
Abstract
We have isolated C15orf5, a novel human gene lacking homology to any
known protein. The C15orf5 gene encodes a transcript of 1,519 nt with an ORF
of 94 amino acids and a predicted protein size of 11.5 kDa. Northern blot
analysis showed enhanced expression of C15orf5 in heart. C15orf5 was mapped
to chromosome 15q23-q24 using the Stanford TNG4 Radiation Hybrid panel.
Keywords: C15orf5, EUROIMAGE, 15q23-q24.
4
The major goals of the Human Genome Project are the identification of all
human genes and the construction of a genome-wide transcript map. The
Consortium for Integrated Molecular Analysis of Human Transcripts and their
Expression (IMAGE) was constituted in 1993 to create, collect and characterize
cDNA libraries from various tissues (Adams et al. 1991; Lennon et al. 1996;
Schuler et al. 1996; Schuler, 1997; Deloukas et al. 1998). Completion to full
length of the sequences of unique cDNA clones represented in dbEST is a key
step toward the characterization of all human genes. The EUROIMAGE
Consortium was established in 1997 with the aim to complete the sequence and
to identify genes involved in human biological processes and inherited diseases,
by correlating precise map location and expression with phenotypic data. Our
laboratory, as a member of this Consortium, is engaged in the isolation and
mapping of novel human genes. We report here the cloning, tissue distribution
and chromosomal localization of the human gene C15orf5.
Among all the clusters we assembled using the EST CAP assembly
program (http://www.tigem.it) and the Sequencher software (GeneCodes
Corporation), we isolated a partial human cDNA sequence belonging to
Unigene cluster Hs.226016 which contained a single open reading frame (ORF).
We fully sequenced, as a cluster representative, the IMAGE clone 137356 (EST
GenBank Acc. No. R38027). Sequences were determined by primer walking
with custom synthesized primers (LifeTech) using the Perkin-Elmer BigDye
reagents on an ABI-377 fluorescent automated sequencer. Since the clone did
not cover the predicted mRNA, the full-length cDNA sequence was obtained
using the rapid amplification of cDNA ends (RACE) method on MarathonReady cDNA from adult human heart (Clontech). For 5’ extension the following
primers were used: G1 (5’ TTCTCTGTGGTGATTTTTGGTTTTGC 3’), G2 (5’
GTTTTGCCCATCTCTTTCCATTTCC
3’)
and
G3
(5’
AGAGGCAAAGACATTAGATAGGAGACC 3’). We also performed 3’ RACE
extension using primers G4 (5’ GAAATGGAAAGAGATGGGCAAAAC 3’), G5
(5’
GGCAAAACCAAAAATCACCACAG
3’)
and
G6
(5’
5
TCACAGCACTTACGGGAGATTTC
3’).
PCR
extended
products
were
subcloned into the pGEM-T easy vector (Promega) and sequenced as above.
The assembly of all different clones gave as a result a total transcript length of
1,519 nt, with an ORF (from nt 345 to 629) encoding a 94 amino acid product
with a calculated mass of 11.5 kDa and an estimated pI=8.3. The 5’ untranslated
region (UTR) contained an in-frame stop codon at nt position 297. Two
polyadenylation signals (AATAAA) were observed at nt 1,378 and nt 1,492 and
a polyA tail at the end (1,503 nt).
The gene was designated C15orf5 following the Human Gene
Nomenclature
Committee
instructions
(http://www.gene.ucl.ac.uk/nomenclature/). C15orf5 nucleotide and protein
sequences are available in GenBank under Acc. No. AF216224.
No significant hit after BLAST homology searching against non redundant
databases was found (NCBI) (http://www.ncbi.nlm.nih.gov/cgi-bin/BLAST/)
(Altschul et al. 1997). To find putative homologues in other species, we
performed BLAST homology searches against “mouse” and “other” dbEST
(NCBI), however, no significant scores were obtained. The analysis with protein
domain identification software did not reveal the presence of any previously
described
relevant
feature
in
(http://www.hgmp.mrc.ac.uk/GenomeWeb/prot-domain.html).
C15orf5
We
have
concluded that C15orf5 could encode for a completely novel protein.
Expression studies of C15orf5 with human tissue northern blots (MTN
Human blot, Clontech) were carried out by hybridization with a specific probe.
In adult tissues, C15orf5 expression showed a 1.4 kb mRNA species (Fig. 1). A
high steady state level of C15orf5 mRNA was observed in heart; and its
presence was detected in skeletal muscle, liver and kidney (Fig. 1).
Chromosomal localization of the human C15orf5 gene was determined by
radiation hybrid mapping using the Stanford TNG4 panel. We used primers F
(5’ CTGTTCTTTTGTCTGATGG 3’) and R (5’ TTGGCTTATCTCTGTAGG 3’)
6
with the following PCR conditions: 1 cycle at 94ºC for 3 min; 35 cycles at 94ºC
for 30 s, 53ºC for 30 s and 72ºC for 1 min; and 1 cycle at 72ºC for 5 min. The gene
was linked to STS SHGC-100054 with a lod score of 5.71 at an approximate
distance of 52 kb. Consistent with this result, by BLAST searching against
“htgs” database at NCBI, we have found that the C15orf5 gene is present in the
genomic sequence of RPCI-11 BAC clone 94P14 (AC016693) which contains
SHGC-100054
(http://genome.wustl.edu/gsc/cgi-
bin/ace/ctc_choices/ctc.ace). Both WI-17323 (belonging to Unigene cluster
Hs.226016) and SHGC-100054 had been mapped previously on chromosome
15q23-q24 between D15S114-D15S115.
In summary, we have identified, characterized and finely mapped within
the 15q23-q24 region, a new human gene: C15orf5. Comparison with previously
described genes at the protein and nucleotide level indicated that C15orf5 is
unique without significant homology to any other known gene family. The
absence of functional domains in the protein gives no clues to predict the
function of this gene. Nevertheless, the fact that C15orf5 shows an enhanced
mRNA expression in heart suggests that it could hold a specific role in this
tissue.
Acknowledgments
We are grateful to A. Puig and D. Otero for technical support with DNA
sequencing. We wish to thank the HGMP Resource Center in Hinxton, UK, and
the RZPD in Berlin, Germany, for supplying us with IMAGE cDNA clones. This
work has been supported by EU Biomed Project No. BMH4-CT97-2284 to X. E
and by CICYT-IN95-0347. M.E. is funded by the Spanish Ministry of Education
(CIDYT contract FPI-070-97) and L.S. by the Catalan autonomous government
(CIRIT-RED contract 1998-64).
7
References
Adams M.D., Kelley J.M., Gocayne J.D., Dubnick M., Polymeropoulos
M.H., Xiao H., Merril C.R., Wu A., Olde B., Moreno R.F., et al. (1991).
Complementary DNA sequencing: expressed sequence tags and human
genome project. Science 252, 1651-6.
Altschul S.F., Maden T.L., Schaffer A.A., Zhang J., Zhang Z., Miller W.,
Lipman, D.J. (1997). Gapped BLAST and PSI-BLAST: a new generation of
protein database search program. Nucleic Acids Research 25, 3389-402.
Deloukas P., Schuler G.D., Gyapay G., Beasley E.M., Soderlund C.,
Rodriguez-Tome P., Hui L., Matise T.C., McKusick K.B., Beckmann J.S.,
Bentolila S., Bihoreau M., Birren B.B., Browne J., Butler A., Castle A.B.,
Chiannilkulchai N., Clee C., Day P.J., Dehejia A., Dibling T., Drouot N., Duprat
S., Fizames C., Bentley D.R., et al. (1998). A physical map of 30,000 human
genes. Science 282: 744-746.
Lennon G., Auffray C., Polymeropoulos M., Soares M.B. (1996). The
I.M.A.G.E. Consortium: an integrated molecular analysis of genomes and their
expression. Genomics 33, 151-2.
Schuler G.D. (1997). Pieces of the puzzle: expressed sequence tags and the
catalog of human genes. Journal of Molecular Medicine 75, 694-69.
Schuler G.D., Boguski M.S., Stewart E.A., Stein L.D., Gyapay G., Rice K.,
White R.E., Rodriguez-Tome P., Aggarwal A., Bajorek E., Bentolila S., Birre B.B.,
Butler A., Castle A.B., Chiannilkulchai N., Chu A., Clee C., Cowles S., Day P.J.,
Dibling T., Drouot N., Dunham I., Duprat S., East C., Hudson T.J., et al. (1996).
A gene map of the human genome. Science 274, 540-6.
Stewart E.A., McKusick K.B., Aggarwal A., Bajorek E., Brady S., Chu A.,
Fang N., Hadley D., Harris M., Hussain S., Lee R., Maratukulam A., O'Connor
K., Perkins S., Piercy M., Qin F., Reif T., Sanders C., She X., Sun W.L., Tabar P.,
8
Voyticky S., Cowles S., Fan J.B., Cox D.R. et al. (1997). An STS-based radiation
hybrid map of the human genome. Genome Res 7:422-33 .
9
Figure legends.
Figure 1. Multiple-tissue northern blot analysis of C15orf5. The 0.7 kb
EcoRI cDNA probe reveals an approximately 1.4 kb size mRNA species. C15orf5
and ß-actin transcripts are indicated. Human multiple-tissue northern blot
(MTN blot, Clontech) was hybridized with a 0.7 kb EcoRI fragment from the
insert of human cDNA IMAGE clone 137356 and to a 2 kb ß-actin cDNA
supplied commercially (Clontech) as control for quantification. Probes were
labeled using a random primer DNA labeling kit (Amersham Pharmacia). Blots
were hybridized overnight at 65ºC in ExpressHyb hybridization solution
(Clontech) and washed at 68ºC in 0.2XSSC/0.5%SDS.
Figura 1 (Carim-Todd et al, 2001)
52