Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
PART I Introducció 19 20 La primera part d’aquest treball fa referència al context històric en el qual es va situar l’inici d’aquesta tesi doctoral. Es pot considerar un exemple de l’importància i dels esforços invertits per la comunitat científica per a desxifrar el contingut gènic humà. A continuació es recullen els resultats obtinguts pel nostre laboratori com a membres del Consorci EuroImage. L’estratègia utilitzada i els resultats obtinguts han contribuït a avançar en el coneixement dels gens continguts en els genomes seqüenciats durant les últimes dècades. I. Heretabilitat, trets genètics i genoma humà La consciència de l’existència d’heretabilitat de trets físics i del comportament va sorgir en l’antiguitat. Aquest fet queda reflectit en l’àmbit de la ramaderia (cria i millora genètica dels animals domèstics) o en l’àmbit agrícola (obtenció de cultius més productius, més resistents…). L’herència de certes característiques fenotípiques era reconeguda com a familiar. Principalment l’estudi de l’herència d’anomalies fenotípiques i malalties va establir els fonaments per a una nova visió de la biologia i la medicina on s’incorporava un nou factor: l’herència i els antecedents familiars. En un primer moment, el coneixement i la definició de diferents modes d’herència es va descriure sense conèixer la base física d’aquesta herència. El coneixement de l’existència dels gens o del material genètic va esclatar quan es van recuperar els estudis de Mendel amb les plantes del pèsol. Aquests estudis i el descobriment de la naturalesa física i molecular de l’agent responsable d’aquesta heretabilitat, l’àcid desoxiribonucleic, DNA, va suposar l’inici d’una revolució en els camps de la medicina i la biologia. Va sorgir un especial interès pel coneixement de les bases moleculars de malalties d’herència mendeliana com per exemple la malaltia de Huntington o l’anèmia de Fanconi. És per això que actualment la majoria de les malalties o alteracions hereditàries estudiades i més conegudes són aquelles causades per un sol gen. En aquest cas un sol gen quan és anòmal és responsable de donar lloc a la malaltia (mutacions puntuals, repeticions…). Aquest tipus de trets són els anomenats monogènics. Actualment, un dels objectius principals de la biomedicina és aconseguir determinar el paper dels gens en caràcters amb patrons d’herència complexos o no mendelians. És el cas d’alteracions com la diabetis, els càncers o moltes malalties mentals. S’hi inclouen també trets fenotípics complexos com l’alçada, 21 el comportament, l’inteligència o la pigmentació de la pell. En aquests casos és probable que més d’un gen i més d’una mutació siguin presents per a que la malaltia o tret fenotípic es manifesti. És evident a més a més, que moltes d’aquestes variacions genètiques actuen com a factors de susceptibilitat no determinants i que l’influència de l’entorn és també un factor a tenir en consideració. Aconseguir discernir entre tots aquests agents i el seu paper en diferents alteracions fenotípiques ha esdevingut essencial per a la biologia i medicina actuals. Una de les eines principals per tal d’aconseguir identificar aquests factors i determinar la seva funció és l’obtenció de la seqüència genòmica humana i d’organismes model completa, acurada i disponible sense restriccions per a la comunitat científica. Amb aquest objectiu es va engegar el Projecte Genoma Humà, objecte de la següent secció, i en el context del qual es desenvolupa la recerca duta a terme en aquesta tesi. II. Context històric: Projecte Genoma Humà La primavera de l’any 2003 és considerada la data oficial de l’obtenció de la seqüència completa del genoma humà. Des del seu inici va ser evident que es tractava d’un esdeveniment que revolucionaria la biologia i obriria nous camps d’aplicació a nivell de la medicina molecular, la biotecnologia, el control ambiental, els recursos energètics o l’avaluació de riscs. La primera publicació que menciona la possibilitat i importància d’obtenir la seqüència completa del genoma humà data de mitjans dels anys 80 (Dulbecco, 1986). La creixent innovació i l’optimització experimental (el clonatge amb cromosomes artificials de llevat (YAC), els mapes genètics d’alta resolució, la seqüenciació automàtica fluorescent, l’algoritme de BLAST per alinear seqüències) va permetre que l’any 1990 el Departament d’Energia (DOE) i els National Institutes of Health (NIH) dels Estats Units iniciessin oficialment el Projecte Genoma Humà (HGP, Human Genome Project) amb l’objectiu final d’obtenir la seqüència nucleotídica completa del genoma humà. La posterior incorporació del Wellcome Trust britànic optimitzant l’ús de cromosomes artificials de bacteris (BAC) per a mapatge i seqüenciació va permetre a finals de l’any 1992 l’obtenció dels mapes físics complets del cromosoma Y (Foote et al., 1992; Vollrath et al., 1992) i del cromosoma 21 (Chumakov et al., 1992). A partir d’aquest moment i durant els anys següents es van aconseguir generar 22 mapes genètics de baixa resolució humans i murins i es va obtenir la primera seqüència completa d’un organisme viu de vida lliure, el genoma del bacteri Haemophilus influenzae (Fleischmann et al., 1995). Al mateix temps es produia un augment significatiu en l’obtenció de dades de seqüència i expressió gràcies a projectes com l’iniciat per l’IMAGE Consortium (Lennon et al., 1996), el RIKEN (Wada, 1994) o el projecte genoma del llevat Saccharomyces cerevisiae (Dujon, 1996). La competència declarada per part del sector privat (Celera Genomics) per a obtenir la seqüència completa del genoma humà va accelerar dràsticament la producció i alliberació de dades de seqüència i mapatge a la comunitat científica. El cromosoma 22 es considera el primer cromosoma humà en ser totalment seqüenciat (Dunham et al., 1999). A mesura que s’anaven obtenint, les seqüències genòmiques provisionals parcials (draft) es posaven a l’abast de la comunitat científica a les bases de dades públiques. Aquesta informació va resultar, i encara ho és avui dia, molt útil per a nombrosos projectes, entre els quals s’inclou aquesta tesi. És important tenir en compte la naturalesa provisional i canviant d’aquesta informació, especialment durant la fase més productiva i competitiva del projecte. En aquest context es situen la major part dels resultats obtinguts en les dues primeres parts d’aquest treball. L’any 2001 es va publicar la seqüència provisional completa del genoma humà representant aproximadament el 90% de la seqüència eucromàtica, és a dir, la corresponent a DNA no repetitiu i, en principi, amb capacitat de transcriure’s (Lander et al., 2001; Venter et al., 2001). Es tractava de seqüència que no arribava a complir els criteris de qualitat establerts per a la seqüència final acabada i per tant, va ser necessari utilitzar les dades amb precaució. Tot i el seu grau de provisionalitat, aquestes dades han resultat molt útils tant a nivell d’estudis genòmics globals com a nivell d’anàlisi de gens particulars. Des d’aquest moment i fins l’any 2003 es va anar obtenint el que s’ha considerat seqüència definitiva acabada. Aquestes dades cobreixen el 99% del DNA eucromàtic i es considera que actualment existeixen menys de 400 discontinuïtats o gaps. L’1% restant no seqüenciat correspón a DNA centromèric i repetitiu, la seqüenciació del qual no és tecnològicament factible actualment. 23 De forma paral.lela i complementària a l’obtenció de la seqüència crua del DNA humà, nombrosos avenços tecnològics s’han produït pel que fa a les eines per a la seqüenciació, aconseguint reduïr-ne el cost econòmic i augmentar el volum i la velocitat de producció de dades. La disponibilitat de la seqüència genòmica humana ha permès començar a avançar en el coneixement de la variabilitat nucleotídica entre individus i en l’aplicació d’eines de genètica comparativa usant els genomes d’altres organismes model seqüenciats (ratolí, rata, Drosophila melanogaster o Caenorhabditis elegans). Paral.lelament, avenços significatius s’han produït en el camp de la bioinformàtica i biologia computacional, com és el desenvolupament d’eines per a la generació, captura i anotació de dades, el desenvolupament de programes per a la representació i anàlisi de similaritat i variació de seqüència, i les millores en el contingut i usabilitat de les bases de dades. Algunes dades concretes obtingudes a partir de la seqüència publicada del genoma humà i algunes incògnites que encara queden per esbrinar es recopilen a les Taules 1 i 2. Taula 1. Algunes dades obtingudes a partir de la seqüència completa del genoma humà. Conté 3 mil milions de parells de bases nucleotídiques. La mida mitjana d’un gen és de 3000 bases. La distrofina és dels gens coneguts el més gran, 2’4 megabases. Més del 50% dels gens identificats tenen funció desconeguda. El 99’9% de la seqüència genòmica és idèntica entre individus. Aproximadament el 2% del genoma conté informació per a codificar proteïna. Com a mínim el 50% del genoma és seqüència repetitiva no codificant. La seqüència repetitiva té un paper en l’estructura i dinàmica dels cromosomes. Són responsables de generar reorganitzacions genòmiques donant lloc a gens completament nous o a noves seqüències gèniques. El genoma humà conté una proporció de seqüència repetitiva major que altres organismes seqüenciats (Caenorhabditis elegans, Drosophila melanogaster o Mus musculus). Més del 40% de proteïnes predites comparteixen similaritat de seqüència amb proteïnes de Caenorhabditis elegans o Drosophila melanogaster. Es considera que l’elevat nombre de tipus de proteïnes humanes en comparació amb altres espècies es deu principalment a mecanismes de splicing alternatiu i de modificació posttraduccional. 24 La majoria de famílies de proteïnes són comuns entre humans, Caenorhabditis elegans o Drosophila melanogaster. La principal diferència recau en el número de membres, molt més elevat en humans. Els gens es troben concentrats en regions genòmiques a l’atzar separades per grans extensions de DNA no codificant. A les regions riques en gens predominen les bases G-C. Les regions pobres en gens presenten un percentatge més elevat de bases A-T. El cromosoma 1 és el més gran i conté el major nombre de gens. El cromosoma Y és el de tamany i contigut gènic menor. S’han identificat més de 3 milions de posicions nucleotídiques amb variabilitat entre humans. Taula 2. Algunes incògnites i dades encara desconegudes sobre el genoma humà. El número exacte de gens, la seva posició i la seva funció. Els mecanismes de regulació gènica. L’organització i estructura dels cromosomes. Els tipus de DNA no codificant, la seva distribució i funció. La coordinació de l’expressió gènica, síntesi proteica i mecanismes post-traduccionals. El proteoma dels organismes: el conjunt de proteïnes i les seves funcions respectives. La conservació proteica entre organismes. Les correlacions entre les variacions nucleotídiques dels individus i trets fenotípics/malalties. Les variacions en la seqüència dels gens com a factor de susceptibilitat. Els gens implicats en l’herència de caràcters complexos i multigènics. Els beneficis i les aplicacions de les dades de seqüència generades a partir del projecte Genoma Humà afecten àrees tan àmplies i diverses com la medicina molecular, la microbiologia, els estudis evolutius i antropològics, la medicina forènsica o l’agricultura. Algunes de les possibles aplicacions en cadascún d’aquests camps s’enumeren a la Taula 3. 25 Taula 3. Aplicacions futures de les dades fruit del Projecte Genoma Humà. Medicina molecular Microbiologia genòmica Avaluació de risc Evolució i antropologia Genòmica forènsica Agricultura Aplicacions futures inclouen millores en el diagnòstic de malalties, en la detecció precoç de possibles predisposicions genètiques, en el disseny de fàrmacs, en la teràpia gènica i sistemes de control de l’acció de fàrmacs o en la síntesi de fàrmacs individuals (farmacogenòmica). S’usen els recursos i eines del projecte genoma humà per a iniciar la seqüenciació massiva de genomes de microorganismes. S’espera obtenir informació referent a noves fonts d’energia, eliminació segura de residus tòxics, detecció de productes contaminants ambientals i comprensió de les vulnerabilitats enfront malalties infeccioses. El coneixement de la variabilitat genètica i el seu paper en referència a la susceptibilitat està permetent avaluar el risc individual enfront agents tòxics com radiacions i substàncies mutagèniques o cancerígenes. De la mateixa manera permetrà reduïr la transmissió vertical de mutacions. La comparació de genomes ha de permetre l’estudi de l’evolució dels organismes vius, establir els corrents migratoris al llarg de la història i determinar edats i dates concretes d’esdeveniments històrics. Conèixer la seqüència genòmica permetrà l’identificació d’individus concrets en un context criminal, en esdeveniments catastròfics o en l’establiment de relacions familiars. A nivell ambiental permetrà l’identificació d’espècies protegides i la detecció d’agents contaminants. A nivell mèdic permetrà l’identificació de compatibilitats tissulars per a transplantaments d’òrgans. La genòmica de plantes i animals impulsarà la creació de varietats resistents, més productives, més nutritives o amb incorporació de vacunes. III. Anàlisi transcripcional del genoma humà Un cop obtinguda la seqüència completa d’un determinat genoma el repte principal resideix en l’identificació de tots els gens presents. Especialment en el cas del genoma humà la dificultat principal per a assolir aquest objectiu es troba en l’extrema complexitat del nostre genoma. La major part dels gens humans acostumen a consistir de diversos exons petits separats per seqüències no codificants de longitud variable (introns) i que fins i tot poden arribar a contenir altres gens. És aquesta una característica que compromet greument la precisió amb la que les eines informàtiques de predicció de gens són capaces d’identificar seqüències gèniques (predicció de novo). L’ús d’eines informàtiques per a l’anàlisi de similaritat de seqüència i per a l’identificació de 26 seqüències específiques de gens (transicions exó-intró, seqüències promotores, dianes de poliadenilació o pautes de lectura oberta) es coneix amb el terme de clonatge in silico. El creixement exponencial de les bases de dades públiques de seqüència evidencia els nombrosos avantatges d’aquesta estratègia però cal tenir en ment que un dels desavantatges principals d’aquestes eines de predicció es troba en l’imprecisió i probabilitat d’error si se’n fa un ús exclusiu o independent. Indicacions i evidències sobre potencials seqüències gèniques poden també obtenir-se mitjançant genòmica comparativa. En aquest cas s’utilitza la comparació d’una seqüència genòmica, l’humana per exemple, amb altres genomes més petits, de menor complexitat i amb menys seqüència no codificant (fugu, llevat, ratolí) amb la finalitat d’identificar regions de conservació i els gens que hi estàn continguts. Taula 4. Comparació i aplicacions de l’mRNA i del cDNA. mRNA cDNA Cadena senzilla Doble cadena Poca estabilitat Estable Manipulació complexa Fàcil manipulació Traducció a proteïna Transcripció a RNA i traducció a proteïna Tot i els avantatges de les eines informàtiques per a l’anàlisi de la seqüència genòmica, és imprescindible obtenir evidència experimental directa sobre la naturalesa gènica d’una determinada seqüència. L’estratègia transcripcional per a l’identificació de seqüències gèniques utilitza com a punt de partida el producte en forma d’RNA missatger (mRNA) o de proteïna, dels gens expressats en una determinada cèl.lula, teixit, organisme o estadi de desenvolupament i permet demostrar empíricament que una determinada seqüència nucleotídica correspón a un gen (Figura 1). Es parteix de la producció de còpies en DNA de l’RNA missatger (cDNA) d’una cèl.lula, teixit o organisme (Taula 4). Els clons de cDNA poden ser aleshores amplificats i seqüenciats (Figura 2). Els avantatges principals de l’identificació de gens seguint aquesta estratègia resideixen en la seva rapidesa relativa per a identificar seqüències transcrites. A més a més, cada clon de cDNA aporta 27 DNA Doble cadena exó RNA precursor AAAAAAAAAAn Cadena senzilla intró mRNA AAAAAAAAAAn Cadena senzilla Transcripció reversa AAAAAAAAAAn cDNA Doble cadena Proteïna Figura 1. Generació de còpies de DNA (cDNA) a partir del RNA missatger (mRNA) generat per la transcripció de gens en organismes eucariotes. informació adicional sobre aquell gen, com l’identificació de seqüència codificadora de proteïna (ja que no contenen introns), informació sobre el patró d’expressió (el teixit o cèl.lules o estat de desenvolupament d’on prové el cDNA analitzat dóna informació valuosa d’on s’expressa el gen corresponent), l’identificació de fenòmens de transcripció alternativa (clons de cDNA Síntesi de la primera cadena de DNA mRNA AAAAAAAAAAn TTTTTTTT Clon de cDNA Tractament amb RNAsa H i síntesi de la segona cadena de DNA (DNA polimerasa I) Lligació en vector adient (amb extrems roms o adaptadors) TTTTTTTT Figura 2. Procediment de transcripció reversa i producció de clons de cDNA. 28 procedents d’un mateix gen que difereixen parcialment en la seva seqüència), i l’identificació de gens homòlegs en altres espècies (ja que només contenen la part del gen més conservada –codificadora- no tenen introns). IV. Consorci IMAGE. Projecte EUROIMAGE L’importància d’aconseguir identificar empíricament seqüències gèniques ha esdevingut cada vegada més evident a mesura que s’han anat obtenint dades de seqüència genòmica crua. El Consorci IMAGE (Integrated Molecular Analysis of Genomes and their Expression) es va iniciar l’any 1993 amb l’intenció de compartir recursos amb l’objectiu d’optimitzar la comprensió del genoma humà partint d’una estratègia d’anàlisi transcripcional (Lennon et al., 1996). Per assolir tal objectiu es va generar una col.lecció de clons de cDNA a partir de llibreries normalitzades pre-existents. Es van establir conjunts o arrays de clons representatius i es van caracteritzar parcialment a nivell de seqüència (ESTs, expressed sequence tags, seqüències de 500 nucleòtids aproximadament, corresponents als extrems dels clons) i mapatge de baixa resolució. L’anàlisi d’aquestes dades de seqüència va permetre agrupar els clons en funció del transcrit del qual provenien. Aquesta informació, els clons i les llibreries usades han estat a l’abast de tota la comunitat científica a través de les bases de dades públiques i dels centres distribuidors de clons. El consorci IMAGE ha contribuït molt notablement a l’identificació de nombrosos gens humans, així com a l’ensamblatge i l’anotació final de la seqüència del genoma humà. Amb l’objectiu de consolidar el treball portat a terme i els recursos generats pel consorci IMAGE, l’any 1997 es va impulsar un nou subprojecte, l’EuroImage (European Integrated Analysis of Genes and their Expression), finançat pel programa BIOMED2 de la Comunitat Europea (Biomed BMH4-CT97-2284). Entre els objectius proposats en el projecte destacaven els següents: • Generació d’una col.lecció mínima no redundant de clons de cDNA corresponents a la majoria dels transcrits humans. • Creació d’una col.lecció ‘master’ de clons de cDNA complets utilitzant els recursos establerts pel consorci IMAGE (llibreries i clons). 29 • Caracterització de la col.lecció ‘master’ de clons de cDNA mitjançant seqüenciació de qualitat, una fiabilitat mínima del 99.99% per a cada cadena i un mínim de tres lectures per cada base nucleotídica. • Mapatge d’alta resolució dels gens identificats en humans i organismes model. • Obtenció dels perfils d’expressió en humans i organismes model per tal d’aprofundir en el coneixement de transcrits específics d’especial interès pel grup de recerca responsable. • Integració de l’informació generada pel projecte en bases de dades públiques disponibles a tota la comunitat científica. Per tal d’assolir els objectius proposats pel Consorci EuroImage es va establir una col.laboració entre vuit grups de recerca europeus complementant recursos, eines i resultats. Els laboratoris participants en el projecte són els llistats a continuació: • Centre National de la Recherche Scientifique, CNRS (Dr Auffray, França) • Max-Planck Institut fur Molekulare Genetik, MPI (Dr Lehrach, Alemanya) • Deutsches Krebsforschungszentrum Stiftung des offentlichen Rechts, DKFZ (Dr Poutska, Alemanya) • Kungl Tekniska Hogskolan, KTH (Dr Uhlen, Suècia) • European Molecular Biology Laboratory, EMBL (Dr Ansorge, Alemanya) • Human Genome Mapping Project Resource Centre, HGMP (Dr Gibson, Gran Bretanya) • Telethon Institute of Genetics and Medicine, TIGEM (Dr Ballabio, Itàlia) • Medical and Molecular Genetics Department, Institut de Recerca Oncològica, IRO (Dr Estivill, Espanya) Enmarcats en el context del projecte EuroImage i com a membres del consorci, el nostre laboratori al Departament de Genètica Mèdica i Molecular de l’Institut de Recerca Oncològica es va centrar en l’anàlisi del contingut gènic de regions cromosòmiques considerades d’especial relevància biomèdica per al departament. Entre aquestes regions d’interès es troba la zona cromosòmica objecte d’anàlisi en la segona part d’aquest treball, la regió q24-q26 del cromosoma 15 humà. 30 V. Aïllament de gens in silico L’obtenció de la seqüència completa crua del genoma humà i altres organismes ha comportat el desenvolupament de noves estratègies per a l’identificació de gens. En el cas de l’aïllament de gens in silico, s’obtè benefici de les eines i dades presents a les bases de dades públiques generades de forma sistemàtica, se n’obté el màxim d’informació, es comprova aquesta informació empíricament i es completa posteriorment en funció dels objectius de l’estudi corresponent (Figura 3). GeneMap i Unigene Mapatge ESTs Teixit Homologies Identificació d’ ORF parcials d’interès Obtenció de la seqüència codificant completa i patró d’expressió Figura 3. Etapes principals de l’estratègia de clonatge i identificació de seqüències transcrites usada en aquest treball. ORF, pauta de lectura oberta; EST, expressed sequence tag. S’acostuma a partir de les bases de dades d’ESTs, seqüències dels extrems dels clons de cDNA, per a identificar potencials seqüències expressades. A partir d’aquest punt els passos seguits per a l’identificació i aïllament del gen o gens corresponents s’esquematitzen tot seguit. 1/ Predicció de gens a partir d’ESTs S’utilitzen dades de mapatge presents a les bases de dades públiques (Genemap, NCBI) per a definir grups d’ESTs representatius de gens no coneguts. S’usen programes bioinformàtics d’aliniament per homologia de 31 seqüència (CAP Assembly, Sequencher, BLAST) i la comparació posterior amb seqüències de les bases de dades públiques (dbEST, GenBank, Unigene). L’objectiu final d’aquest apartat és identificar clons corresponents a un únic gen, no quimèrics i del màxim número de parells de bases possible per tal que continguin el màxim de seqüència codificant del gen corresponent. 2/ Seqüenciació dels clons seleccionats A partir dels clons sel.leccionats en el punt anterior se n’obté la seqüència completa mitjançant l’estratègia de primer walking. Això comporta dissenyar nous oligonucleòtids a partir de cada seqüència parcial obtinguda (500-700 nucleòtids). Es realitza aleshores la següent reacció de seqüència, es repeteix el procediment fins que es completa la seqüència de l’insert i s’obté seqüència Grups d’ESTs sol.lapants Construcció de la seqüencia consens Selecció del clon/clons de major extensió Secuenciació completa (primer walking) cDNA parcial (amb pauta de lectura oberta incompleta) Diseny d’oligos per a la extensió d’extrems de cDNA (RACE) STOP mRNA STOP RT y lligació d’adaptadors aaaaaaa STOP Població enriquida en cDNAs complets STOP STOP PCR1 PCR2 Lligació Secuenciació RACE+clon cDNA= cDNA complet AUG STOP Figura 4. Gràfic mostrant el procés de sel.lecció, seqüenciació i obtenció de clons de cDNA complets. 32 de vector, indicant així, que l’insert ha estat cobert d’extrem a extrem. Les dades de seqüència obtingudes per a cada reacció són processades i editades amb eines bioinformàtiques específiques per a l’ensamblatge i edició de seqüències nucleotídiques com Sequencher (GeneCodes). Per al disseny de seqüències oligonucleotídiques adients pel seu ús en reaccions de seqüenciació s’empren programes com OLIGO o GCG PRIMER (Figura 4). 3/ Detecció d’homologies Les seqüències completes dels inserts dels clons de cDNA seleccionats poden ser analitzades per a detectar seqüències codificadores de proteïna (pautes de lectura oberta) completes o parcials (Sequencher). Tant la seqüència nucleotídica com la seqüència aminoacídica predita permeten cercar homologies a les bases de dades (FASTA, BLAST). En funció del grau d’homologia de seqüència els gens o proteïnes detectades a les bases de dades poden suggerir l’inclusió de la nova seqüència en una determinada classe de gens o proteïnes, així com la seva implicació en determinats processos cel.lulars i l’identificació de gens ortòlegs en altres espècies. 4/ Obtenció de la seqüència codificadora completa de cada gen La gran majoria de clons de les llibreries contenen inserts corresponents a cDNAs parcials que no representen el total de la seqüència codificadora de proteïna del gen. Una vegada cercades les bases de dades amb la seqüència obtinguda en el pas anterior amb l’objectiu de detectar seqüències solapants, cal adoptar procediments moleculars per extendre els clons parcials fins a obtenir el cDNA complet amb una pauta de lectura oberta (ORF) sencera. Alguns d’aquests procediments estàn basats en l’amplificació mitjançant PCR, com és el cas dels experiments de RACE (extensió ràpida d’extrems de cDNA) o la transcripció reversa (RT-PCR), i altres es basen en la hibridació de llibreries de cDNA de teixits o d’òrgans específics. 5/ Predicció de l’estructura i dominis de proteïnes Un cop predita la seqüència codificadora de proteïna a partir de la seqüència completa del cDNA poden identificar-se dominis proteics coneguts i conservats amb altres proteïnes de les bases de dades. S’usen programes de lliure accés com PROSITE (Sigrist et al., 2002), PFAM (http://pfam.wustl.edu/index.html), 33 SMART (Letunic et al., 2004; Schultz et al., 1998) o MOTIF (http://motif.genome.jp) per a identificar dominis proteics. Es pot predir l’estructura secundària de la proteïna putativa amb programes com GENEQUIZ ( A n d r a d e et a l ., 1999), PREDICTPROTEIN (http://cubic.bioc.columbia.edu/predictprotein) o PSIPRED (McGuffin et al., 2000), així com obtenir indicacions sobre la seva funció potencial. 6/ Predicció de l’estructura genòmica La seqüència nucleotídica corresponent a un cDNA no conté seqüència intrònica. Gràcies a aquest fet, un aliniament amb la corresponent seqüència genòmica permet deduir l’estructura exònica-intrònica del gen. La presència de la seqüència genòmica humana completa a les bases de dades públiques facilita enormement aquest procés. 7/ Mapatge De la mateixa manera que en el punt anterior la disponibilitat de tot el genoma humà a les bases de dades públiques permet determinar fàcilment la localització cromosòmica del gen seqüenciat. Un cop coneguda la seva situació cromosòmica és possible analitzar la presència en la regió d’interès de loci responsables de malalties per les quals el gen/gens responsables encara romanen desconeguts. D’aquesta manera és possible identificar gens candidats per a determinades característiques o patologies (McKusick). En el cas de no obtenir correspondència (per exemple per errors de mapatge o per discontinuïtats de seqüència) es pot confirmar experimentalment el mapatge mitjançant diversos mètodes (FISH (hibridació in situ fluorescent) o híbrids de radiació per exemple) 8/ Anàlisi de seqüències adjacents L’anàlisi de les regions genòmiques flanquejants pot permetre identificar potencials seqüències reguladores i promotores. Es poden utilitzar eines de lliure accés com GENSCAN (Burge & Karlin, (http://www.hgmp.mrc.ac.uk/Registered/Webapp/nix). 34 1997) o NIX 9/ Eines i enllaços útils per l’anàlisi in silico (adreces web de setembre 2004) GENERALS NCBI EBI DDBJ ExPASy http://www.ncbi.nlm.nih.gov/ http://www.ebi.ac.uk/ http://www.ddbj.nig.ac.jp/ http://www.expasy.ch/ PROJECTES GENOMA Entrez Genome The Institute for Genome Research (TIGR) Microbial Database Integrated Genomics Inc. NHGRI List of Genetic and Genomic Resources The Sanger Centre Washington University-St.Louis Ohlahoma University Microbial Genome Database http://www.ncbi.nlm.nih.gov/genomes/static/euk_g .html http://www.tigr.org/tdb/mdb/mdb.html http://www.genomesonline.org/ http://www.nhgri.nih.gov/Data http://www.sanger.ac.uk http://genome.wustl.edu http://www.genome.ou.edu/ http://mbgd.genome.ad.jp ANÀLISI DE GENOMES MAGPIE GeneQuiz PEDANT Clusters of Orthologous Groups of Proteins (COGs) Kyoto Encyclopedia of Genes and Genomes (KEGG) What Is There (WIT) http://genomes.rockefeller.edu/magpie http://jura.ebi.ac.uk:8765/ext-genequiz/ http://www.cmbi.kun.nl/swift/genequiz/info_entry.ht ml http://pedant.gsf.de/ http://www.ncbi.nlm.nih.gov/COG http://www.genome.jp/kegg/ http://wit.integratedgenomics.com/IGwit 35 ANÀLISI D’ESTS dbEST home page EST Projects at Washington University The I.M.A.G.E. Consortium UniGene The UniGene build procedure UniGene query engine HomoloGene STACK TIGR Gene Indices TIGR Orthologous Gene Alignment database GeneMap dbSNP Cancer Genome Anatomy Project (CGAP) CGAP Digital Differential Display (DDD) CGAP xProfiler http://www.ncbi.nlm.nih.gov/dbEST/ http://genome.wustl.edu/est/ http://image.llnl.gov/ http://www.ncbi.nlm.nih.gov/UniGene/ http://www.ncbi.nlm.nih.gov/UniGene/build.html http://www.ncbi.nlm.nih.gov/UniGene/query.cgi http://www.ncbi.nlm.nih.gov/HomoloGene/ http://www.sanbi.ac.za/Dbases.html http://www.tigr.org/tdb/tgi.html http://www.tigr.org/tdb/tgi/ego/ http://www.ncbi.nlm.nih.gov/genemap/ http://www.ncbi.nlm.nih.gov/SNP/ http://www.ncbi.nlm.nih.gov/ncicgap/ http://www.ncbi.nlm.nih.gov/UniGene/ddd.cgi?ORG=Hs http://cgap.nci.nih.gov/Tissues/xProfiler ALINIAMENT DE SEQÜÈNCIES BLAST CLUSTAL W dotter FASTA lalign hmmer RepeatMasker seg sim4 Wise package http://ncbi.nlm.nih.gov/BLAST/ http://www.ebi.ac.uk/clustalw/ ftp://ftp.sanger.ac.uk/pub/dotter/ http://www.ebi.ac.uk/fasta/ http://hmmer.wustl.edu/ http://ftp.genome.washington.edu/RM/RepeatMasker.h tml ftp://ncbi.nlm.nih.gov/pub/seg/ http://globin.cse.psu.edu http://www.ebi.ac.uk/Wise2/ 36 PREDICCIONS A PARTIR DE SEQÜÈNCIES DE DNA Banbury Cross FGENEH GeneID GeneMachine GeneParser GENSCAN Genotator GRAIL GRAIL-EXP HMMgene MZEF PROCRUSTES RepeatMasker Sputnik http://igs-server.cnrs-mrs.fr/igs/banbury http://www.softberry.com/berry.phtml?topic=fgenesh &group=programs&subgroup=gfind http://www1.imim.es/geneid.html http://genome.nhgri.nih.gov/genemachine http://beagle.colorado.edu/~eesnyder/GeneParser.ht l http://genes.mit.edu/GENSCAN.html http://www.fruitfly.org/~nomi/genotator/ http://compbio.ornl.gov/tools/index.shtml http://compbio.ornl.gov/grailexp/ http://www.cbs.dtu.dk/services/HMMgene/ http://www.cshl.org/genefinder http://www-hto.usc.edu/software/procrustes http://ftp.genome.washington.edu/RM/RepeatMasker.h tml http://rast.abajian.com/sputnik/ BASES DE DADES I EINES PER ANALITZAR DOMINIS PROTEICS ProDom Pfam ProfileScan http://protein.toulouse.inra.fr/prodom.html http://pfam.wustl.edu http://www.sanger.ac.uk/Software/Pfam/ http://smart.embl-heidelberg.de http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi http://blocks.fhcrc.org http://www.bioinf.man.ac.uk/dbbrowser/PRINTS/PRINTS. html http://www.isrec.isb-sib.ch/software/PFSCAN PREDICCIÓ DE SMART CDD search BLOCKS PRINTS PROPIETATS A PARTIR DE SEQÜÈNCIES D’AMINOÀCIDS Compute pI/MW MOWSE PeptideMass TGREASE SAPS AACompIdent AACompSim PROPSEARCH http://www.expasy.ch/tools/pi tool.html http://srs.hgmp.mrc.ac.uk/cgi-bin/mowse http://www.expasy.ch/tools/peptide-mass.html ftp://ftp.virginia.edu/pub/fasta/ http://www.isrec.isb-sib.ch/software/SAPS form.html http://www.expasy.ch/tools/aacomp/ http://www.expasy.ch/tools/aacsim/ http://www.embl-heidelberg.de/prs.html 37 PREDICCIÓ ESTRUCTURA PROTEICA Nnpredict PredictProtein SOPMA Jpred PSIPRED PREDATOR COILS MacStripe PHDtopology SignalP TMpred DALI FSSP SWISS-MODEL TOPITS http://www.cmpharm.ucsf.edu/~nomi/nnpredict.html http://www.embl-heidelberg.de/predictprotein/ http://pbil.ibcp.fr/ http://www.compbio.dundee.ac.uk/~www-jpred/ http://bioinf.cs.ucl.ac.uk/psipred/psiform.html http://menu.hgmp.mrc.ac.uk/menubin/run?option=predator http://www.york.ac.uk/depts/biol/units/coils/coi lcoil.html http://www.york.ac.uk/depts/biol/units/coils/coi lcoil.html http://www.embl-heidelberg.de/predictprotein http://www.cbs.dtu.dk/services/SignalP/ http://www.ch.embnet.org/software/TMPRED_form.ht ml http://www2.ebi.ac.uk/dali/ http://www2.ebi.ac.uk/dali/fssp/ http://www.expasy.ch/swissmod/SWISS-MODEL.html http://www.embl-heidelberg.de/predictprotein/ RECUPERACIÓ D’INFORMACIÓ A PARTIR DE LES BASES DE DADES Entrez FlyBase GDB GeneCards HomoloGene Kinemage LocusLink MIPS MMDB OMIM PDB Sacch3D SGD VAST YPD http://www.ncbi.nlm.nih.gov/Entrez/ http://flybase.bio.indiana.edu http://www.gdb.org/ http://bioinfo.weizmann.ac.il/cards/ http://www.ncbi.nlm.nih.gov/HomoloGene/ http://www.umass.edu/microbio/rasmol/mage.htm http://www.ncbi.nlm.nih.gov/LocusLink/ http://www.mips.biochem.mpg.de/ http://www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.sht ml http://www.ncbi.nlm.nih.gov/Omim http://www.rcsb.org/pdb/ http://www-genome.stanford.edu/Sacch3D/ http://www.yeastgenome.org/ http://www.ncbi.nlm.nih.gov/Structure/VAST/vast.sht ml http://www.proteome.com/databases/index.html 38 PART I: Objectius • Identificació de nous gens humans en el marc del Projecte Genoma Humà i del Consorci EuroImage a partir de llibreries de cDNA establertes i de les bases de dades i eines bioinformàtiques públiques • Caracterització dels nous gens humans identificats a nivell de la seva seqüència nucleotídica, patró d’expressió, predicció de la proteïna codificada i determinació d’homologies amb altres espècies 39 40 PART I Resultats 41 42 Resultats La participació del nostre grup de recerca en el projecte europeu EuroImage destinat a la seqüenciació de clons de cDNA humans ha permès l’identificació, l’obtenció de la seqüència completa i la caracterització de l’expressió de diversos gens humans desconeguts fins aleshores. Tots els casos presentats a continuació corresponen a gens novells no identificats anteriorment en humans i configuren un recull dels gens identificats i publicats com a resultat de la participació directa del nostre laboratori en el projecte EuroImage. Cadascún d’ells constitueix un exemple de l’estratègia usada per a l’aïllament, anàlisi de l’expressió i identificació d’homologies utilitzada per a la caracterització sistemàtica de gens nous a petita escala en el marc d’un projecte amb l’ambiciós objectiu d’identificar i caracteritzar tots els gens del genoma humà. 43 44 I. Identificació i caracterització del gen humà PDCD9 La publicació següent exposa de quina manera l’anàlisi de transcrits desconeguts permet l’identificació de PDCD9 (programmed cell death 9), un nou gen humà homòleg a la proteïna pro-apoptòtica p52 de Gallus. El nostre estudi va permetre refinar la seva localització cromosòmica a 5q11. Es van obtenir dades sobre el patró d’expressió en teixits humans i es va determinar el grau de conservació a nivell de seqüència proteica entre diferents espècies. La baixa conservació amb altres famílies de proteïnes va indicar que possiblement es tracta d’una nova família de proteïnes amb una funció potencial en processos apoptòtics. Aquestes dades constitueixen el cos principal de l’article publicat l’any 1999 pel nostre grup. 45 Cytogenet Cell Genet 87:85–88 (1999) Cloning, expression, and mapping of PDCD9, the human homolog of Gallus gallus pro-apoptotic protein p52 L. Carim, L. Sumoy, M. Nadal, X. Estivill, and M. Escarceller Centre de Genètica Mèdica i Molecular, Institut de Recerca Oncològica, Hospital Duran i Reynals, Barcelona (Spain) Abstract. We report the sequence, tissue distribution, and chromosome location of a novel gene, PDCD9 (programmed cell death 9). PDCD9 is the mammalian counterpart of the Gallus gallus pro-apoptotic protein p52. The human cDNA has an open reading frame of 1,314 nucleotides and was predicted to encode a protein of 438 amino acids with a calculated mass of 50 kDa. The protein sequences of chicken, mouse, and human PDCD9 are remarkably conserved. PDCD9 mRNA is expressed ubiquitously in adult tissues, displaying a stronger signal in heart, skeletal muscle, kidney, and liver. PDCD9 was mapped to chromosome 5q11. To date, just a fraction of the entire human gene set has been identified. Our laboratory, a member of the EUROIMAGE Consortium, is engaged in the isolation and mapping of novel human genes. The EUROIMAGE Consortium was constituted in 1997 with the objective of completing the cDNA sequence and identifying genes involved in human biology and inherited diseases by correlating precise map locations and gene expressions with phenotypic data (Adams et al., 1991; Lennon et al., 1996; Schuler, 1997; Deloukas et al., 1998). We now report the cloning, tissue distribution, and chromosome location of PDCD9 (programmed cell death 9), the human homolog of Gallus gallus pro-apoptotic protein p52. Sun et al. (1998) reported the purification of protein p52 from chicken embryos and the cloning of its corresponding cDNA. It was also shown that p52 expression in mouse fibroblasts caused apoptotic cell death, upregulation of the c-Jun transcription factor, and activation of the c-Jun N-terminal kinase (Jnk1), presenting p52 as a new cell-death protein. Our results show a striking degree of similarity between PDCD9 and p52, which, together with the lack of homology to other related protein families, suggests the possibility of PDCD9 being one of the proteins associated with apoptotic pathways that have yet to be identified. Apoptosis is a morphologically distinct form of programmed cell death (for a review, see Steller, 1995). It is an active process that plays a major role during cellular differentiation, development, tissue homeostasis, and metamorphosis, as well as in many diseases, including cancer, acquired immunodeficiency syndrome, and neurodegenerative disorders (Thompson, 1995; Vaux et al., 1999). The basic machinery appears to be present in essentially all mammalian cells at all times, but the activation of the cellular suicide program is regulated by many different extracellular and intracellular signals. Numerous genes involved in apoptosis have been cloned, and many of them are highly conserved among different species (Jacobson et al. 1997). Supported by EU Biomed Project No. BMH4-CT97-2284 to X.E. M.E. is funded by the Spanish Ministry of Education (CIDYT contract FPI-070-97) and L.S. by the Catalan autonomous government (RED contract 1998-64). Copyright © 2000 S. Karger AG, Basel Materials and methods Received 5 May 1999; revision accepted 30 July 1999. Request reprints from Dr. Mònica Escarceller, Centre de Genètica Mèdica i Molecular, Institut de Recerca Oncològica, Hospital Duran i Reynals, Autovia de Castelldefels km 2,7, L’Hospitalet de Llobregat, 08907 Barcelona (Spain); telephone: 34-93-260-7775; fax: 34-93-260-7776; e-mail: [email protected]. ABC Fax + 41 61 306 12 34 E-mail [email protected] www.karger.com © 1999 S. Karger AG, Basel 0301–0171/99/0872–0085$17.50/0 Cluster assembly and sequence analysis EST clusters were assembled using the EST CAP assembly program (http://www.tigem.it) and Sequencher software (GeneCodes) for the Macintosh computer. Clones were obtained from the EUROIMAGE distribution centers (DHGP and HGMP). Sequences were determined by primer walking Accessible online at: www.karger.com/journals/ccg with custom-synthesized primers (LifeTech), using Perkin-Elmer BigDye reagents, following the manufacturer’s instructions, on an ABI 377 automated fluorescence sequence analyzer. For each clone, both strands were sequenced with at least three independent reads per base. PDCD9 nucleotide sequence is available from GenBank under accession number AF146192. Sequence comparisons were performed using ClustalW 1.7 (http://dot. imgen.bcm.tmc.edu:9331/multi-align/multi-align.html). Boxed multiple sequence alignments were obtained with the BOXSHADE 3.21 program (http: //www.isrec.isb-sib.ch/software/BOX_form.html). The protein pattern and domain databases Prosite, SMART, and Pfam (http://www.hgmp.mrc.ac.uk/ GenomeWeb/prot-domain.html) were searched for known motifs or functional domains. Northern blot analysis Multiple-tissue Northern blots (MTN-12 blot, Clontech) were hybridized with a 1-kb PCR product corresponding to the 3) region of the human IMAGE clone 1368574 for detection of PDCD9 and with a commercial (Clontech) 2-kb ß-actin cDNA as a control for quantification. Probes were labeled using a random primer DNA labeling kit (BioRad). Blots were hybridized overnight at 65 ° C in ExpressHyb hybridization solution (Clontech) and washed at 68 ° C in 0.2 × SSC, 0.5 % SDS. Fluorescence in situ hybridization (FISH) A previously described protocol (Nadal et al., 1997) was used with some modifications. Briefly, 2 Ìg of PAC clone 273D21 were labeled with bio16-dUTP (Boehringer Mannheim) in a standard nick-translation reaction. Four hundred nanograms of the product were precipitated along with 1 Ìg of Cot-1 DNA (GIBCO BRL) and 1 Ìg of salmon sperm DNA (Sigma) and the pellet resuspended in hybridization mix containing 50 % formamide and 10 % dextran sulfate in 1.5 × SSC. Ten microliters of the hybridization mix was applied to each slide. Slides were incubated overnight in a humid chamber at 37 ° C. Post-hybridization washes were performed in three changes of 50 % formamide, 2 × SSC at 42 ° C, followed by three changes of 2 × SSC at 42 ° C. For signal detection, slides were incubated at 37 ° C with avidin-FITC (Vector Laboratories) for 20 min and washed in three changes of 4 × SSC, Tween 20 at 37 ° C. Slides were mounted with 40 Ìl of antifade solution (Vector Laboratories) containing 150 ng/ml of DAPI. Slides were viewed with an Olympus AH-3 (VANOX) fluorescence microscope. Images were analyzed with the Cytovision system (Applied Imaging). Results and discussion In our effort to identify new genes, we constructed and analyzed in silico unique gene EST clusters on the basis of clone size, chromosomal localization, and tissue expression. Among all clusters studied, we isolated a partial human cDNA sequence with a single open reading frame (ORF). The ESTderived sequence encompassed only nucleotide (nt) 570 to nt 1465 of the definitive PDCD9 sequence. To obtain the complete coding sequence, we selected cDNA clones by screening the Ïgt11 human cDNA library and by BLAST homology searching against dbEST (NCBI) (http://www.ncbi.nlm.nih. gov/cgi-bin/BLAST/) (Altschul et al., 1997). From the results of the search, two human IMAGE clones were chosen for sequencing: 549763 (EST GenBank accession number AA101062) and 1368574 (EST GenBank AA836428). None of the Ïgt11 clones obtained completed the coding sequence, the maximum size clones spanning from nt 814 to nt 1465. Of the two IMAGE clones selected, one, 549763, also revealed a partial coding sequence. Only clone 1368574 represented the full-length cDNA. The human cDNA had an ORF of 1,314 nucleotides (from nt 40 to nt 1354). The 5) untranslated region (UTR) contained an in-frame stop codon at nucleotide position 6, 27 bp up- 86 Cytogenet Cell Genet 87:85–88 (1999) stream of the deduced initiation codon. The 3)-UTR contained a consensus polyadenylation signal ATTAAA (1,441 nt) and a poly(A) sequence at the end (1465 nt). This cDNA sequence was predicted to encode a protein of 438 amino acids with a calculated mass of 50 kDa. BLAST homology searching against nonredundant databases (NCBI) gave a single significant hit with the G. gallus proapoptotic protein p52 (GenBank AF029071; Sun et al., 1998). Nucleotide sequence comparison between chicken p52 and its human homolog showed 70 % identity; this gene was therefore designated PDCD9 (programmed cell death 9) after the G. gallus gene. In the original report (Sun et al., 1998), a fragment of the human protein sequence was presented (amino acids 282 to 407) containing an erroneous stop codon at amino acid position 407, possibly due to the fact that a single EST sequence was considered. By determining the full-length cDNA spanning the entire ORF, we have corrected this error. The deduced human and chicken amino acid sequences are 51 % identical and 61 % similar (Fig. 1). Sun et al. (1998) also reported the partial C-terminal mouse amino acid sequence derived from three ESTs. We extended the coding sequence by performing a BLAST homology search against mouse dbEST (NCBI), which revealed a collection of additional ESTs homologous to PDCD9. The cluster was assembled in a single contig comprising a unique sequence in mouse (UniGene Collection, Mm. 29109 (http://www.NCBI. nlm.nih.gov/UniGene/Hs.Home.html). None of the murine clones selected for sequencing were available because of yeast contamination originating at the distribution sources. Nevertheless, we obtained the complete putative amino acid sequence from the consensus of all ESTs (Fig. 1). Human and mouse PDCD9 have 66 % identity and 76 % similarity at the protein level. Protein domain analysis of the PDCD9, murine Pdcd9, and chicken p52 proteins did not show any known motif or functional domain with significant probability. Northern blot analysis of poly(A) RNA isolated from various tissues (MTN Human 12-lane blot, Clontech), using a 1-kb PCR product corresponding to the 3) region of the human IMAGE clone 1368574 as a probe, revealed a ubiquitously expressed 1.5-kb mRNA species (Fig. 2). A high steady-state level of PDCD9 mRNA was observed in heart, skeletal muscle, kidney, and liver and a lower level in placenta and peripheral blood leukocytes. A barely detectable level of expression was seen in the remaining tissues tested. In addition, three minor higher molecular weight forms (7.5, 6, and 4 kb) were detected, which might have resulted from alternate promoter or polyA site usage or from alternative mRNA splicing. The pattern of PDCD9 mRNA expression differed notably from that of its homolog in chicken, which showed a wide distribution in embryonic and adult tissues. In particular, p52 mRNA was more abundant in embryonic chicken heart and liver, whereas in the adult chicken, a high hybridization signal was detected in testis, brain, heart, kidney, and lung (Sun et al., 1998). To assign the gene encoding PDCD9 to a human chromosome, FISH analysis was performed on metaphase chromosomes prepared from peripheral blood lymphocytes. A suitable probe was obtained by screening of the RPCI[1,3-5] human PAC library using the full-length PDCD9 cDNA. Three posi- Fig. 1. Multiple sequence alignment of the human PDCD9, mouse Pdcd9, and chicken p52 polypeptides. Identical residues are printed in reverse type, and similar residues are shaded. Consensus sequence is shown at the bottom, with identical amino acids in uppercase symbols and similar amino acids in lowercase. Extents of partial amino acid sequences previously published by Sun et al. (1998) are bracketed by ! ... 1 for the human and by !! ... 11 for the mouse polypeptide. Fig. 2. Multiple-tissue northern blot analysis of PDCD9. The 1-kb PDCD9 PCR product was used as a probe, revealing a ubiquitously expressed 1.5-kb mRNA species. PDCD9 and ß-actin transcripts are indicated with arrows. Fig. 3. Localization of PDCD9 to chromosome 5q11 by FISH using the PAC clone 273D21 DNA as a biotinylated probe. The arrows point to the location of the signal on chromosome 5. tive clones were obtained, the clones corresponding to those provided by the Resource Center of the Deutsches Humangenomprojekt (DHGP) in Germany. Among them, PAC 273D21 was chosen and confirmed to contain the PDCD9 gene by hybridization and PCR amplification. Using PAC clone 273D21 DNA as a probe for FISH, we were able to assign the PDCD9 gene to the pericentromeric region (band 5q11) of human chromosome 5. A positive signal on both chromosome homologs was observed in 22 (88 %) of 25 metaphase spreads (Fig. 3). This result is in agreement with the previous mapping to chromosome 5 of STS SHGC-186 in the Radiation Hybrid Stanford G3 panel. Marker SHGC-186 is contained in UniGene cluster Hs. 28555, in which the selected IMAGE clones are included. Searching OMIM (http://www.ncbi.nlm.nih.gov/ htbin-post/Omim), we did not find any known hereditary condition mapping to 5q11 that could be associated with PDCD9. Cytogenet Cell Genet 87:85–88 (1999) 87 The syntenic region in mice, on chromosome 13, also lacks relevant mutations or phenotypes related to Pdcd9. In summary, we have cloned, mapped, and studied the expression of the human homolog of the G. gallus pro-apoptotic protein p52. We have determined that the amino acid sequence is well conserved between human, mouse, and chicken, which suggests the possibility of a similar pro-apoptotic role for PDCD9. The lack of homology with other protein families indicates that PDCD9s could constitute a novel class of apoptotic proteins involved in alternative cell-death pathways that have not yet been defined. However, the differences in adult tissue expression might represent the existence of distinct functions of PDCD9 in human and chicken. Further experiments should be undertaken to elucidate the putative apoptotic role of PDCD9 in humans. Acknowledgements We are grateful to Michael Lynch and Mònica Gratacòs for the screening of the Ïgt11 and PAC libraries. We also want to thank A. Puig and D. Otero for their technical support with the DNA sequencing. We wish to thank the HGMP Resource Center in Hinxton, UK, and the DHGP in Berlin, Germany, for supplying us with IMAGE cDNA and PAC clones. References Adams MD, Kelley DIM, Gocayne JD, Dubnick M, Polymeropoulos MH, Xiao H, Merril CR, Wu A, Olde B, Moreno RF, Kerlavage AR, McCombie WR, Venter JC: Complementary DNA sequencing: expressed sequence tags and human genome project. Science 252:1651–1656 (1991). Altschul SF, Maden TL, Schaffer AA, Zhang J, Zhang Z, Miller W, Lipman, DJ: Gapped BLAST and PSI-BLAST: a new generation of protein database search program. Nucl Acids Res 25:3389–3402 (1997). Deloukas P, Schuler GD, Gyapay G, Beasley EM, Soderlund C, Rodriguez-Tome P, Hui L, Matise TC, McKusick KB, Beckmann JS, Bentolila S, Bihoreau M, Birren BB, Browne J, Butler A, Castle AB, Chiannilkulchai N, Clee C, Day PJ, Dehejia A, Dibling T, Drouot N, Duprat S, Fizames C, Fox S, Gelling S, Green L, Harrison P, Hocking R, Holloway E, Hunt S, Keil S, Lijnzaad P, Louis-Dit-Sully C, Ma J, Mendis A, Miller J, Morissette J, Muselet D, Nusbaum HC, Peck A, Rozen S, Simon D, Slon- 88 im DK, Staples R,. Stein LD, Stewart EA, Suchard MA, Thangarajah T, Vega-Czarny N, Webber C, Wu X, Hudson J, Auffray C, Nomura N, Sikela JM, Polymeropoulos MH, James MR, Lander ES, Hudson TJ, Myers RM, Cox DR, Weissenbach J, Boguski MS, Bentley DR: A physical map of 30,000 human genes. Science 282:744–746 (1998). Jacobson MD, Weil M, Raff MD: Programmed cell death in animal development. Cell 88:347–354 (1997). Lennon G, Auffray C, Polymeropoulos M, Soares MB: The I.M.A.G.E. Consortium: an integrated molecular analysis of genomes and their expression. Genomics 33:151–152 (1996). Cytogenet Cell Genet 87:85–88 (1999) Nadal M, Moreno S, Pritchard M, Preciado MA, Estivill X, Ramos-Arroyo MA: Down syndrome: characterisation of a case with partial trisomy of chromosome 21 owing to a paternal balanced translocation (15;21) (q26;q22.1) by FISH. J med Genet 34:50–4 (1997). Schuler GD: Pieces of the puzzle: expressed sequence tags and the catalog of human genes. J molec Med 75:694–69 (1997). Steller H: Mechanisms and genes of cellular suicide. Science 267:1445–1449 (1995). Sun L, Liu Y, Fremont M, Schwarz S, Siegmann M, Matthies R, Jost JP: A novel 52 kDa protein induces apoptosis and concurrently activates c-Jun N-terminal kinase 1 (JNK1) in mouse C3H10T1/2 fibroblasts. Gene 208:157–166 (1998). Thompson CB: Apoptosis in the pathogenesis and treatment of disease. Science 267:1456–1462 (1995). Vaux DL, Korsmeyer SJ: Cell death in development. Cell 96:245–254 (1999). 46 II. Identificació, caracterització i mapatge del gen humà VPS33B El treball següent descriu el procés d’aïllament i caracterització del nou gen humà VPS33B (vacuolar protein sorting 33B), ortòleg a l’identificat prèviament a rata. L’anàlisi de la seqüència aminoacídica va suggerir una implicació en l’organització i transport de proteïnes i vesícules a la cèl.lula. Es va estudiar el seu patró d’expressió i la seva posició en el genoma humà mitjançant mapatge per híbrids de radiació. Aquests resultats van ser publicats l’any 2000 i van refermar l’importància d’aquests treballs de caracterització preliminar de gens nous. 47 Cytogenet Cell Genet 89:92–95 (2000) Cloning, mapping and expression analysis of VPS33B, the human orthologue of rat Vps33b L. Carim, L. Sumoy, N. Andreu, X. Estivill and M. Escarceller Medical and Molecular Genetics Center, Institut de Recerca Oncològica, Hospital Duran i Reynals, L’Hospitalet de Llobregat, Barcelona (Spain) Abstract. We have identified VPS33B, the human ortholog of rat Vps33b. VPS33B encodes a transcript of 2482 nt with an ORF of 617 amino acids and a predicted protein size of 70.6 kDa. VPS33B contains a Sec-1 domain shared with a family of proteins involved in protein sorting and vesicular trafficking. Enriched expression of VPS33B was observed in testis. VPS33B was positioned at chromosome 15q26.1 by radiation hybrid mapping. Copyright © 2000 S. Karger AG, Basel Our laboratory, a member of the EUROIMAGE Consortium, is engaged in the isolation and mapping of novel human genes. We sequence cDNA clones corresponding to ESTs selected on the basis of chromosome location on the long arm of chromosome 15. Using this approach we have identified VPS33B, the human orthologue of rat Vps33b, a mammalian homologue of yeast Slp1/vps33p (Pevsner et al., 1996). The sorting of vacuolar proteins in the yeast Saccharomyces cerevisiae has become an important genetic model system due to the insight it has given into lysosomal biogenesis in animal cells (Conibear and Stevens, 1995; Wendland et al., 1998). To date, few human homologues of the so called vps (vacuolar protein sorting) yeast genes have been described. Protein transport to the lysosome-like vacuole in yeast is mediated by more than 40 genes in S. cerevisiae. The yeast Vps mutants are implicated in Golgi-to-lysosome trafficking (Conibear and Stevens, 1995; Wendland et al., 1998; Pevsner et al., 1996) and are subdivided into six classes (A–E). Mutations in the so called fourth class C Vps, including Vps33p among others, result in the most severe vacuolar protein sorting and morphology defects. It is believed that Vps gene products physically and functionally interact to mediate a late step in protein transport to the vacuole (Rieder and Emr, 1997). Slp1/Vps33p belongs to the Sec-1 domain family (Halachmi and Lev, 1996). Members of this family are involved in protein sorting, synaptic transmission and general secretion. Some of them are the yeast Sec1, Sly1, Slp1/Vps33p and Vps45; three nematode proteins: Unc-18, and the C. elegans homologues of Sec1 and Sly1; the Drosophila rop and the rat Munc-18/nSec1, mouse Munc18b and Munc18c, and bovine Munc18 and Sec1 (Halachmi and Lev, 1996 and references therein). The Sec1 proteins are mostly hydrophilic and lack a transmembrane domain but are membrane bound proteins. The Sec-1 proteins play a positive role in exocytosis. Materials and methods Supported by EU Biomed Project No. BMH4-CT97-2284 to X.E and by CICYTIN95-0347. M.E. is funded by the Spanish Ministry of Education (CIDYT contract FPI-070-97) and L.S. by the Catalan autonomous government (CIRIT-RED contract 1998-64). Received 1 December 1999; revision accepted 23 February 2000. Request reprints from Mònica Escarceller, Medical and Molecular Genetics Center, Institut de Recerca Oncològica, Hospital Duran i Reynals, Autovia de Castelldefels km 2,7, L’Hospitalet de Llobregat, 08907 Barcelona (Spain); telephone: 34-93-260-7775; fax: 34-93-260-7776; e-mail: [email protected] ABC Fax + 41 61 306 12 34 E-mail [email protected] www.karger.com © 2000 S. Karger AG, Basel 0301–0171/00/0892–0092$17.50/0 cDNA isolation and sequencing Unigene cluster Hs. 26510 was built and analyzed in silico during the EUROIMAGE full-length cDNA sequencing project. It was shown to contain a single open reading frame (ORF) and to share homology with vacuolar protein sorting proteins. ESTs cluster Hs.26510 (http://www.NCBI.nlm. nih.gov/UniGene) was assembled using the EST CAP assembly program (http://gcg.tigem.it/cgi-bin/uniestass.pl) and Sequencher (GeneCodes) sequence assembly software. Additional ESTs corresponding to VPS33B but Accessible online at: www.karger.com/journals/ccg not included in the cluster were found by searching the dbEST database using the BLASTN program (Altschul et al., 1997). IMAGE cDNA clones whose ESTs extended most 5) and 3) in the cDNA were chosen for sequencing: 531662, 2171628, 41400 and 531649. Clones were obtained from the EUROIMAGE distribution centers. Sequence was determined by primer walking using the PerkinElmer BigDye reagents on an ABI PRISM-377 fluorescent automated sequencer and custom synthesized sequencing primers (LifeTech). Full-length cDNA sequence was obtained using the rapid amplification of cDNA ends (RACE) method on Marathon-Ready cDNA from adult human heart (Clontech), according to the manufacturer’s instructions. The following primers were used: G1 (5) AGAGAGTGCTGAGAAGGTGTAAGGC 3)), G2 (5) ATCCACATCAAGAGGCAGCAAAGAG 3)) and G3 (5) AGCCCTCAAAAGTTCTATGCGTGTG 3)) for 5) VPS33B extension. PCR extended products were subcloned into the pGEM-T-easy vector (Promega) and sequenced as above. We sought at least three independently generated fully extended clones to determine the cDNA ends. Sequence comparisons were performed using ClustalW 1.7 (http://dot. imgen.bcm.tmc.edu:9331/multi-align/multi-align.html). Boxed multiple sequence alignments were obtained with the BOXSHADE 3.21 program (http: //www.ch.embnet.org/software/BOX–form.html). To search for known motifs or functional domains, protein pattern and domain databases consulted were Prosite, SMART and Pfam (http://www.hgmp.mrc.ac.uk/GenomeWeb/prot-domain.html). VPS33B nucleotide and protein sequences are available in GenBank under Acc. No. AF201694. The name has been approved by the Human Gene Nomenclature Committee (http://www.gene.ucl.ac.uk/nomenclature/). Northern blot analysis A multiple-tissue Northern blot (MTN II blot, Clontech) was hybridized to a 1.9-kb HindIII-PstI restriction product corresponding to the cDNA insert from IMAGE clone 41400; and to a 2-kb ß-actin cDNA supplied commercially (Clontech) as control for quantification. Probes were labeled using a random primer DNA labeling kit (Amersham Pharmacia). Blots were hybridized overnight at 65 ° C in ExpressHyb solution (Clontech) and washed at 68 ° C in 0.2 × SSC, 0.5 % SDS. VPS33B radiation hybrid mapping To precisely localize the VPS33B gene we used the Stanford TNG4 whole genome radiation hybrid panel (Stewart et al. 1997). Twopoint linkage analysis was performed using the RHMAP-2.0 on the RH Server at the Stanford Human Genome Center (http://www-shgc.stanford.edu/RH/index.html). We used primers F (5) CTCAGTGAGATGCAGGCATC 3)) and R (5) TATCCTGGGAGCAGGAAGTG 3)) which amplify STS14369. The PCR conditions were 1 cycle at 94 ° C for 3 min; 35 cycles at 94 ° C for 30 s, 61 ° C for 30s and 72 ° C for 1 min; and 1 cycle at 72 ° C for 5 min. Results and discussion Cloning of VPS33B, the human orthologue of rat Vps33b Within the EUROIMAGE full-length cDNA sequencing project underway in our laboratory (Lennon et al., 1998) we sequence cDNA clones corresponding to ESTs from the same cluster to identify new genes. The EST contigs that we build and analyze in silico represent unique genes and they are selected on the basis of clone size, chromosome location and tissue distribution. One of the partial human cDNA sequences, belonging to Unigene cluster Hs.26510, contained a single open reading frame (ORF). Additional ESTs not included in the cluster were found by searching the dbEST database using the BLASTN program at NCBI (http://www.ncbi.nlm.nih.gov/ cgi-bin/BLAST/) (Altschul et al., 1997). IMAGE cDNA clones corresponding to the ESTs that extended most 5) and 3) were chosen for sequencing: 531662 (EST GenBank Acc. No. AA074549), 2171628 (EST GenBank Acc. No. AI589203), 41400 (EST GenBank Acc. No. R56540) and 531649 (EST GenBank Acc. No. AA074575). Of the four human clones selected, 2171628 and 531649 were unable to grow in standard conditions and clone 531662 was shown to be miss-assigned and corresponded to an unidentified cluster of ESTs. Only clone 41400 was fully sequenced and extended the ORF obtained with the EST assembly. Since the clone did not cover the entire transcript, the full-length cDNA sequence was obtained by 5) RACE extension (see Methods). The assembly of the different clones gave as a result a total transcript length of 2482 bp (including the polyA tail), with an ORF (from nt 304–2157) encoding a 617 amino acid product with a calculated mass of 70.6 kDa. The 5) untranslated region (UTR) contained an in-frame stop codon at nucleotide position 217. A polyadenylation signal (AATAAA) was observed at nt 2434 and a polyA tail at the end (2458 nt). A single hit was obtained after BLAST homology searching against non redundant nt databases (NCBI): r-vps33b, the “vacuolar protein sorting” homolog from Rattus norvegicus (Pevsner et al., 1996). Nucleotide sequence comparison showed 90 % identity between our gene and rat Vps33b. At the amino acid level, VPS33B showed homology to the family of proteins related to Sec1 (Halachmi and Lev, 1996): after BLAST search, the best hit was r-vps33b with a 96 % identity (97 % similarity) between them (Fig. 1); the second most significant score was rat vps33a, with a 31 % identity (50 % similarity). The hits following were the “vacuolar protein sorting 33” homologues of yeast SLP1/vps33 in Drosophila, Arabidopsis, C. elegans and Aspergillus, as well as SLP1/vps33 itself. Lower scores were observed for rop (Drosophila), vps45 (yeast) and unc-18 (C. elegans ). All these close homologues to VPS33B are known members of the Sec-1 domain family and contain this motif (Halachmi and Lev, 1996). Protein pattern analysis of VPS33B revealed the presence of the domain, extending from amino acid 105 to 612, with a significant score of 3.6e-185 (SMART, http://www. hgmp.mrc.ac.uk/GenomeWeb/prot-domain.html). It has been proposed that the evolution of this gene family parallels the specialization of vesicle trafficking to distinct intracellular compartments (Pevsner et al., 1996). Indeed, loss of function in the yeast genes Sec1, Sly1, Slp1/vps33 and Vps45 results in blocking of protein transport between distinct subcellular compartments, that is, Sly1 from endoplasmic reticulum to Golgi; Sec1 from Golgi to plasma membrane; Vps-45 from Golgi to prevacuolar and Slp1/vps33 from pre-vacuolar to the vacuole (Pevsner et al., 1996; Tellam et al., 1997; and references therein). Because of sequence identity with their yeast counterpart, it has been suggested that rat vps33a and rat vps33b might also participate in vesicular trafficking between the Golgi and the lysosome (Pevsner et al., 1996). Moreover, it is also possible that rat vps33a and rat vps33b localize to distinct intracellular compartments such as lysosomes, endosomes or peroxisomes. Here we suggest, based on the striking amino acid homology shared between human and rat vps33b, that our protein could also be involved in this step in humans. In this context, it will be of great interest to determine the subcellular location of VPS33B in future experiments. Cytogenet Cell Genet 89:92–95 (2000) 93 Fig. 1. Multiple sequence alignments of human VPS33B (VPS33B); rat vps33b (vps33b); rat vps33a (vps33a); the yeast Slp1/vps33b homologs in Drosophila melanogaster (D.mel), Aspergillus fumigatus (A.fum), Arabidopsis thaliana (A.thal) and Caenorhabditis elegans (C.el) and SLP1 yeast polypeptide itself. Identical residues are printed in reverse type, and similar residues are shaded. Expression of VPS33B Expression studies of VPS33B with Northern blots of human tissues (MTN II blot, Clontech), were carried out by hybridizing with a specific probe (see Methods). In adult tissues, basal expression was largely ubiquitous (Fig. 2), showing an mRNA species migrating above the 2.4-kb marker. Remarkably, VPS33B expression was highly enriched in testis. This contrasts with the broad tissue distribution of rat Vps33b, where an equal amount of a 2.8-kb transcript was seen in all rat tissues (Pevsner et al., 1996). We suggest that, even though both orthologs display a high degree of identity, the differences in the expression pattern indicate that the gene could hold a specific and distinct role in humans, perhaps in protein trafficking from Golgi to the acrosome during spermatogenesis. This specificity could be mediated through the interaction with other Fig. 2. Multiple-tissue Northern blot analysis of VPS33B. The 1.9-kb HindIII-PstI restriction product was used as a probe revealing ubiquitous expression: (A) results after an overnight exposure and (B) after a 10 day exposure; (C) ß-actin control probe. 94 Cytogenet Cell Genet 89:92–95 (2000) proteins, the syntaxins and syntaxin-like proteins being good candidates. The genetic interaction between the Sec1-1 family members and genes encoding syntaxin and syntaxin homologues has been shown previously (Bennett et al., 1993; Tellam et al., 1997). Mapping of VPS33B Chromosome location of the human VPS33B gene was determined by radiation hybrid mapping using the Stanford TNG4 panel. The gene was linked to STS SHGC-83061 with a LOD score of 7.49 at an approximate distance of 128 kb. This STS is contained in RPCI-11 BAC 51D4 which in turn contains the alpha-mannosidase II isozyme gene (D15S1173). This is in agreement with the previous mapping of STSs mp2120 and WI-22047 using the Genebridge 4 panel (between D15S202 and D15S157), which are located in 15q26.1 near the Bloom syndrome locus (Deloukas et al., 1998). These STSs are contained in UniGene cluster Hs. 26510, in which the selected IMAGE clones are included. In summary, we have identified, characterized and finely mapped, within the 15q26.1 region, a new human gene, VPS33B. Comparisons with previously described genes at the protein and nucleotide level indicate that VPS33B is the human orthologue of rat Vps33b. The presence of the functional Sec1 domain in the highly conserved amino acid sequence of human and rat vps33b suggests that VPS33B is holding a role in vesicular protein trafficking to the lysosome. Localized expression of VPS33B in testis may account for a specific role of the protein in humans. Acknowledgments We are grateful to A. Puig and D. Otero for technical support with DNA sequencing. We wish to thank the HGMP Resource Center in Hinxton, UK, and the RZPD in Berlin, Germany, for supplying us with IMAGE cDNA clones. References Altschul SF, Maden TL, Schaffer AA, Zhang J, Zhang Z, Miller W, Lipman, DJ: Gapped BLAST and PSI-BLAST: a new generation of protein database search program. Nucl Acids Res 25:3389–3402 (1997). Bennett MK, Garcia-Arraras JE, Elferink LA, Peterson K, Fleming AM, Hazuka CD, Scheller RH: The syntaxin family of vesicular transport receptors Cell 74:863–873 (1993). Conibear E, Stevens TH: Vacuolar biogenesis in yeast: sorting out the sorting proteins. Review. Cell 83:513–516 (1995). Deloukas P, Schuler GD, Gyapay G, Beasley EM, Soderlund C, Rodriguez-Tome P, Hui L, Matise TC, McKusick KB, Beckmann JS, Bentolila S, Bihoreau M, Birren BB, Browne J, Butler A, Castle AB, Chiannilkulchai N, Clee C, Day PJ, Dehejia A, Dibling T, Drouot N, Duprat S, Fizames C, Bentley DR, et al: A physical map of 30,000 human genes. Science 282:744–746 (1998). Halachmi N, Lev Z: The Sec1 family: a novel family of proteins involved in synaptic transmission and general secretion. Review. J Neurochem 66:889– 897 (1996). Lennon G, Auffray C, Polymeropoulos M, Soares MB: The I.M.A.G.E. Consortium: an integrated molecular analysis of genomes and their expression. Genomics 33:151–152 (1998). Pevsner J, Hsu SC, Hyde PS, Scheller RH: Mammalian homologues of yeast vacuolar protein sorting (vps) genes implicated in Golgi-to-lysosome trafficking. Gene 183:7–14 (1996). Rieder SE, Emr SD: A novel RING finger protein complex essential for a late step in protein transport to the yeast vacuole. Mol Biol Cell 8:2307–2327 (1997). Stewart EA, McKusick KB, Aggarwal A, Bajorek E, Brady S, Chu A, Fang N, Hadley D, Harris M, Hussain S, Lee R, Maratukulam A, O’Connor K, Perkins S, Piercy M, Qin F, Reif T, Sanders C, She X, Sun WL, Tabar P, Voyticky S, Cowles S, Fan JB, Cox DR, et al: An STS-based radiation hybrid map of the human genome. Genome Res 7:422–433 (1997). Tellam JT, James DE, Stevens TH, Piper RC: Identification of a mammalian Golgi Sec1p-like protein, mVps45. J biol Chem 272:6187–6193 (1997). Wendland B, Emr SD, Riezman H: Protein traffic in the yeast endocytic and vacuolar protein sorting pathways. Curr Opin Cell Biol 10:513–522. (1998). Cytogenet Cell Genet 89:92–95 (2000) 95 48 III. Identificació i anàlisi de l’expressió del gen C15orf3 La publicació següent constitueix un exemple d’identificació de gens completament nous. Es tracta de seqüències amb pauta de lectura oberta sense homologia a cap seqüència coneguda en aquell moment que permetès inferir la seva funció o implicació en processos cel.lulars concrets. L’article descriu el mapatge de C15orf3 a 15q21.1-21.2, excloent-lo de la regió q24-q26 objecte d’estudi en la Part II d’aquesta tesi. Tot i no presentar similaritat amb cap família de gens ja coneguts, el patró d’expressió ubicu de C15orf3 suggeria un paper universal i general necessari a totes les cèl.lules humanes. Es van identificar els gens ortòlegs a rata i ratolí confirmant que C15orf3 és membre d’una nova família de proteïnes encara no caracteritzades. 49 Cytogenet Cell Genet 88:330–332 (2000) Identification and expression analysis of C15orf3, a novel gene on chromosome 15q21.1→q21.2 L. Carim, L. Sumoy, N. Andreu, X. Estivill and M. Escarceller Medical and Molecular Genetics Center, Institut de Recerca Oncològica, Hospital Duran i Reynals, L’Hospitalet de Llobregat, Barcelona (Spain) Abstract. We have isolated C15orf3, a novel human gene that lacks homology to any known gene family. The C15orf3 gene encodes a transcript of 1676 nt with an ORF of 187 amino acids and a predicted protein product size of 20.8 kDa. Northern blot analysis showed ubiquitous expression in adult tissues. Identification of all human genes and construction of a genome-wide transcript map are two major goals of the Human Genome Project. A large-scale public effort to isolate all human genes started in 1993, when the Integrated Molecular Analysis of Human Transcripts and their Expression (IMAGE) Consortium was formed to create, collect and characterize cDNA libraries from various tissues and different states of normalization (Adams et al., 1991; Lennon et al., 1996; Schuler et al., 1996; Schuler, 1997; Deloukas et al., 1998). In that context, the EUROIMAGE Consortium was constituted in 1997 with the objective to complete the sequence and to identify genes involved in human biological processes and inherited diseases by correlating precise map location and expression with phenotypic data. Our laboratory, a member of this Consortium, is engaged in the isolation and mapping of novel human genes. We report here the cloning, tissue distribution and chromosomal localization of the human gene C15orf3. EST database searching revealed the presence of C15orf3 homologs in rat and mouse. C15orf3 was mapped to chromosome 15q21.1 → q21.2 using the Stanford G3 radiation hybrid panel. Copyright © 2000 S. Karger AG, Basel Material and methods Cluster assembly and sequence analysis EST clusters were assembled using the EST CAP assembly program (http://www.tigem.it) and the Sequencher software for Macintosh (GeneCodes Corporation). Clones were obtained from the EUROIMAGE distribution centers. Sequences were determined by primer walking with custom synthesized primers (LifeTech) using the Perkin-Elmer BigDye reagents on an ABI-377 fluorescent automated sequencer. C15orf3 nucleotide and protein sequences are available in GenBank under Acc. No. AL109701. The name has been approved by the Human Gene Nomenclature Committee (http: //www.gene.ucl.ac.uk/nomenclature/). Sequence comparisons were performed using ClustalW 1.7 (http://dot. imgen.bcm.tmc.edu:9331/multi-align/multi-align.html). Boxed multiple sequence alignments were obtained with the BOXSHADE 3.21 program (http:/ /www.isrec.isb-sib.ch/software/BOX–form.html). To search for known motifs or functional domains, protein pattern and domain databases consulted were Prosite, SMART and Pfam (http://www.hgmp.mrc.ac.uk/GenomeWeb/prot-domain.html). Received 1 December 1999; manuscript accepted 4 January 2000. Northern blot analysis Human multiple-tissue Northern blots (MTN blot, Clontech) were hybridized with a 1-kb HindIII restriction product corresponding to the 5) region of the human IMAGE clone 45620 for detection of C15orf3; and to a 2-kb ß-actin cDNA supplied commercially (Clontech) as control for quantification. Probes were labeled using a random primer DNA labeling kit (BioRad). Blots were hybridized overnight at 65 ° C in ExpressHyb hybridization solution (Clontech) and washed at 68 ° C in 0.2 × SSC, 0.5 % SDS. Request reprints from Mònica Escarceller, Medical and Molecular Genetics Center, Institut de Recerca Oncològica, Hospital Duran i Reynals, Autovia de Castelldefels km 2.7, L’Hospitalet de Llobregat, 08907 Barcelona (Spain); telephone: 34-93-260-7775; fax: 34-93-260-7776; e-mail: [email protected] C15orf3 radiation hybrid mapping To precisely localize the C15orf3 gene we used the Stanford G3 whole radiation hybrid genome panel (Stewart et al., 1997). Two point linkage analysis was performed using the RHMAP-2.0 on the RH Server at the Stanford Supported by EU Biomed Project No. BMH4-CT97-2284 to X.E and by CICYTIN95-0347. M.E. is funded by the Spanish Ministry of Education (CIDYT contract FPI-070-97) and L.S. by the Catalan autonomous government (CIRIT-RED contract 1998-64). ABC Fax + 41 61 306 12 34 E-mail [email protected] www.karger.com © 2000 S. Karger AG, Basel 0301–0171/00/0884–0330$17.50/0 Accessible online at: www.karger.com/journals/ccg Fig. 1. Multiple sequence alignments of the human C15orf3 polypeptide and its mouse and rat homologs. Identical residues are printed in reverse type, and similar residues are shaded. Consensus sequence is shown at the bottom with identical amino acids in the three species marked with asterisks and similar amino acids, or identical in only two species, noted as dots. Human Genome Center (http://www-shgc.stanford.edu/RH/index.html). We used primers F2 (5) GAATGAACCCAAAAGATAGC 3)) and R1 (5) GAGAAGACCCCGTTTGA 3)). The PCR conditions were 1 cycle at 94 ° C for 3 min; 35 cycles at 94 ° C for 30 s, 54 ° C for 30 s and 72 ° C for 1 min; and 1 cycle at 72 ° C for 5 min. Results and discussion A unique transcript named C15orf3 was identified during the analysis of EST clusters within the physical region in 15q21.1 → q21.2, near the Marfan syndrome gene. Through assembly and analysis of ESTs corresponding to the UniGene cluster Hs.75847 we selected human cDNA clones for sequencing. The overlap of IMAGE clones 45620 (EST GenBank Acc. No. H08232) and 222180 (EST GenBank Acc. No. H85350), belonging to this cluster, generated the complete coding sequence of C15orf3. The entire cDNA contained 1676 nt, with an ORF (from nt 25 to 586) encoding a 187 amino acid product with a calculated mass of 20.8 kDa. The 5) untranslated region (UTR) contained an in-frame stop codon at nt position 10. A polyadenylation signal (AATAAA) was observed at nt 1631 and a polyA tail at the end (nt 1654). BLAST homology searching against non redundant databases (NCBI) (http://www.ncbi.nlm.nih.gov/cgi-bin/BLAST/) (Altschul et al., 1997) gave a single significant hit with an uncharacterized mRNA: human PTD014 (GenBank AF092135). Nucleotide sequence comparison showed 100 % identity between our gene and PTD014. Further bibliographic search gave no more information about this gene. To find putative homologues in other species, we performed BLAST homology search against “mouse” and “other” dbEST (NCBI). Two significant hits were obtained: EST GenBank Acc. No. AI836529, included in the cluster Mm. 41921 and EST GenBank Acc. No. AA727412 belonging to Mm. 41906 (UniGene Collection, http://www.NCBI.nlm.nih.gov/UniGene/Hs.Home.html). We assembled both clusters of mouse ESTs homologous to C15orf3 in a single contig corresponding to a unique sequence in mouse. None of the murine clones selected for sequencing were available due to contamination from the distribution sources. Nevertheless, we obtained the complete putative amino acid sequence derived from the EST consensus (Fig. 1). Blast search against other species ESTs, revealed one significant hit with the rat (EST GenBank Acc. No. H35510), however, complete sequencing could not be achieved due to the fact that the clone was not available since it was not included in the IMAGE collection. Fig. 1 shows the partial deduced amino acid sequence of the putative rat gene homologue to C15orf3. Both rodent homologues showed a high degree of similarity in the carboxy terminus of the protein: 94 % identity and 95 % similarity. The same region in human C15orf3 was 80–82 % identical and 88–90 % similar to that of mouse and rat, respectively. Human and mouse products displayed good homology at the most 5) portion of the protein as well. The overall identity human/mouse was 61 % and the similarity 69 % due to a lesser conservation in the middle part of the proteins. We believe that we have found three homologous genes belonging to a new family sharing novel functional motifs. The analysis with protein domain identification software did not reveal the presence of any important feature in C15orf3. Expression studies of C15orf3 with Northern blots of human tissues (MTN human blot, Clontech), were carried out by hybridizing with a specific probe, a 1-kb HindIII restriction product corresponding to the 5) region of the IMAGE clone 45620. In adult tissues, expression was largely ubiquitous (Fig. 2) showing a 1.7-kb mRNA species. A high steady state level of C15orf3 mRNA was observed in most tissues examined: heart, brain, liver, skeletal muscle, kidney and pancreas. A slightly lower level of expression was seen in placenta and lung (Fig. 2). Chromosome location of the human C15orf3 gene was determined by radiation hybrid mapping using the Stanford G3 panel. We determined that the gene was linked to D15S1244 (STS SHGC-14276) with a lod score of 5.84, which is located in 15q21.1→ q21.2. This is in gross agreement with Cytogenet Cell Genet 88:330–332 (2000) 331 the previous mapping of STSs stSG4057, sts-N93791, stsR92213 and WI-21161 using the Genebridge 4 panel (between D15S146 and D15S209) (Deloukas et al., 1998). These STSs are contained in UniGene cluster Hs. 75847, in which the selected IMAGE clones are included. However our results using the higher resolution panel G3 panel positioned the C15orf3 gene a bit more distally, between D15S209 and D15S998. In summary, we have identified, characterized and finely mapped, within the 15q21.1→ q21.2 region, a new human gene, C15orf3. Comparison with previously described genes at protein and nucleotide levels indicated that C15orf3 is unique without significant homology to any other known gene family. The absence of functional domains in the protein gives no clues for predicting the function of C15orf3. Nevertheless, the fact that C15orf3 shows ubiquitous expression indicates that its function may be a general one, required in all human cells. Moreover, we have determined the putative amino acid sequence of two homologous genes of C15orf3 in mouse and rat, suggesting the existence of a new family of mammalian proteins as yet uncharacterized. Fig. 2. Multiple-tissue Northern blot analysis of C15orf3. The 1-kb HindIII restriction product was used as a probe revealing a ubiquitously expressed 1.7-kb mRNA species. C15orf3 and ßactin transcripts are labeled. Acknowledgments We are grateful to A. Puig and D. Otero for technical support with DNA sequencing. We wish to thank the HGMP Resource Center in Hinxton, UK, and the RZPD in Berlin, Germany, for supplying us with IMAGE cDNA clones. References Adams MD, Kelley JM, Gocayne JD, Dubnick M, Polymeropoulos MH, Xiao H, Merril CR, Wu A, Olde B, Moreno RF, et al: Complementary DNA sequencing: expressed sequence tags and human genome project. Science 252:1651–1656 (1991). Altschul SF, Madden TL, Schaffer AA, Zhang J, Zhang Z, Miller W, Lipman, DJ: Gapped BLAST and PSI-BLAST: a new generation of protein database search program. Nucl Acids Res 25:3389–3402 (1997). 332 Deloukas P, Schuler GD, Gyapay G, Beasley EM, Soderlund C, Rodriguez-Tome P, Hui L, Matise TC, McKusick KB, Beckmann JS, Bentolila S, Bihoreau M, Birren BB, Browne J, Butler A, Castle AB, Chiannilkulchai N, Clee C, Day PJ, Dehejia A, Dibling T, Drouot N, Duprat S, Fizames C, Bentley DR, et al: A physical map of 30,000 human genes. Science 282:744–746 (1998). Lennon G, Auffray C, Polymeropoulos M, Soares MB: The I.M.A.G.E. Consortium: an integrated molecular analysis of genomes and their expression. Genomics 33:151–152 (1998). Schuler GD: Pieces of the puzzle: expressed sequence tags and the catalog of human genes. J Mol Med 75:694–698 (1997). Cytogenet Cell Genet 88:330–332 (2000) Schuler GD, Boguski MS, Stewart EA, Stein LD, Gyapay G, Rice K, White RE, Rodriguez-Tome P, Aggarwal A, Bajorek E, Bentolila S, Birre BB, Butler A, Castle AB, Chiannilkulchai N, Chu A, Clee C, Cowles S, Day PJ, Dibling T, Drouot N, Dunham I, Duprat S, East C, Hudson TJ, et al: A gene map of the human genome. Science 274:540–546 (1996). Stewart EA, McKusick KB, Aggarwal A, Bajorek E, Brady S, Chu A, Fang N, Hadley D, Harris M, Hussain S, Lee R, Maratukulam A, O’Connor K, Perkins S, Piercy M, Qin F, Reif T, Sanders C, She X, Sun WL, Tabar P, Voyticky S, Cowles S, Fan JB, Cox DR, et al: An STS-based radiation hybrid map of the human genome. Genome Res 7:422–433 (1997). 50 IV. Identificació i caracterització del gen C15orf5 El gen C15orf5, descrit en l’article següent, constitueix un altre exemple d’identificació d’un gen novell sense similitud de seqüència a cap proteïna coneguda en el moment del seu aïllament. En aquesta publicació es presenta el clonatge de C15orf5. La comparació de la seqüència aminoacídica predita amb la d’altres gens ja coneguts va indicar que es tractava d’una nova família de gens. L’anàlisi del seu patró d’expressió en teixits humans indicava un enriquiment a nivell de cor. El mapatge mitjançant híbrids de radiació va confirmar la seva localització a 15q23-q24, quedant exclòs de a regió 15q24q26 tractada en la següent part de la tesi (Part II). 51 Ref. DNA Seq. 2001 Jul;12(1):67-9 Title Identification of C15orf5, a heart-enriched transcript on chromosome 15q23-q24 Running head title Heart-enriched gene C15orf5 Laura Carim-Todd, Lauro Sumoy, Nuria Andreu, Xavier Estivill and Mònica Escarceller Medical and Molecular Genetics Center, Institut de Recerca Oncològica, Hospital Duran i Reynals, Av. Gran Via s/n km 2,7 L'Hospitalet de Llobregat, 08907 Barcelona, Spain Correspondence: Lauro Sumoy Phone: 34-93-260-7775 2 Fax: 34-93-260-7776 e-mail: [email protected] 3 Abstract We have isolated C15orf5, a novel human gene lacking homology to any known protein. The C15orf5 gene encodes a transcript of 1,519 nt with an ORF of 94 amino acids and a predicted protein size of 11.5 kDa. Northern blot analysis showed enhanced expression of C15orf5 in heart. C15orf5 was mapped to chromosome 15q23-q24 using the Stanford TNG4 Radiation Hybrid panel. Keywords: C15orf5, EUROIMAGE, 15q23-q24. 4 The major goals of the Human Genome Project are the identification of all human genes and the construction of a genome-wide transcript map. The Consortium for Integrated Molecular Analysis of Human Transcripts and their Expression (IMAGE) was constituted in 1993 to create, collect and characterize cDNA libraries from various tissues (Adams et al. 1991; Lennon et al. 1996; Schuler et al. 1996; Schuler, 1997; Deloukas et al. 1998). Completion to full length of the sequences of unique cDNA clones represented in dbEST is a key step toward the characterization of all human genes. The EUROIMAGE Consortium was established in 1997 with the aim to complete the sequence and to identify genes involved in human biological processes and inherited diseases, by correlating precise map location and expression with phenotypic data. Our laboratory, as a member of this Consortium, is engaged in the isolation and mapping of novel human genes. We report here the cloning, tissue distribution and chromosomal localization of the human gene C15orf5. Among all the clusters we assembled using the EST CAP assembly program (http://www.tigem.it) and the Sequencher software (GeneCodes Corporation), we isolated a partial human cDNA sequence belonging to Unigene cluster Hs.226016 which contained a single open reading frame (ORF). We fully sequenced, as a cluster representative, the IMAGE clone 137356 (EST GenBank Acc. No. R38027). Sequences were determined by primer walking with custom synthesized primers (LifeTech) using the Perkin-Elmer BigDye reagents on an ABI-377 fluorescent automated sequencer. Since the clone did not cover the predicted mRNA, the full-length cDNA sequence was obtained using the rapid amplification of cDNA ends (RACE) method on MarathonReady cDNA from adult human heart (Clontech). For 5’ extension the following primers were used: G1 (5’ TTCTCTGTGGTGATTTTTGGTTTTGC 3’), G2 (5’ GTTTTGCCCATCTCTTTCCATTTCC 3’) and G3 (5’ AGAGGCAAAGACATTAGATAGGAGACC 3’). We also performed 3’ RACE extension using primers G4 (5’ GAAATGGAAAGAGATGGGCAAAAC 3’), G5 (5’ GGCAAAACCAAAAATCACCACAG 3’) and G6 (5’ 5 TCACAGCACTTACGGGAGATTTC 3’). PCR extended products were subcloned into the pGEM-T easy vector (Promega) and sequenced as above. The assembly of all different clones gave as a result a total transcript length of 1,519 nt, with an ORF (from nt 345 to 629) encoding a 94 amino acid product with a calculated mass of 11.5 kDa and an estimated pI=8.3. The 5’ untranslated region (UTR) contained an in-frame stop codon at nt position 297. Two polyadenylation signals (AATAAA) were observed at nt 1,378 and nt 1,492 and a polyA tail at the end (1,503 nt). The gene was designated C15orf5 following the Human Gene Nomenclature Committee instructions (http://www.gene.ucl.ac.uk/nomenclature/). C15orf5 nucleotide and protein sequences are available in GenBank under Acc. No. AF216224. No significant hit after BLAST homology searching against non redundant databases was found (NCBI) (http://www.ncbi.nlm.nih.gov/cgi-bin/BLAST/) (Altschul et al. 1997). To find putative homologues in other species, we performed BLAST homology searches against “mouse” and “other” dbEST (NCBI), however, no significant scores were obtained. The analysis with protein domain identification software did not reveal the presence of any previously described relevant feature in (http://www.hgmp.mrc.ac.uk/GenomeWeb/prot-domain.html). C15orf5 We have concluded that C15orf5 could encode for a completely novel protein. Expression studies of C15orf5 with human tissue northern blots (MTN Human blot, Clontech) were carried out by hybridization with a specific probe. In adult tissues, C15orf5 expression showed a 1.4 kb mRNA species (Fig. 1). A high steady state level of C15orf5 mRNA was observed in heart; and its presence was detected in skeletal muscle, liver and kidney (Fig. 1). Chromosomal localization of the human C15orf5 gene was determined by radiation hybrid mapping using the Stanford TNG4 panel. We used primers F (5’ CTGTTCTTTTGTCTGATGG 3’) and R (5’ TTGGCTTATCTCTGTAGG 3’) 6 with the following PCR conditions: 1 cycle at 94ºC for 3 min; 35 cycles at 94ºC for 30 s, 53ºC for 30 s and 72ºC for 1 min; and 1 cycle at 72ºC for 5 min. The gene was linked to STS SHGC-100054 with a lod score of 5.71 at an approximate distance of 52 kb. Consistent with this result, by BLAST searching against “htgs” database at NCBI, we have found that the C15orf5 gene is present in the genomic sequence of RPCI-11 BAC clone 94P14 (AC016693) which contains SHGC-100054 (http://genome.wustl.edu/gsc/cgi- bin/ace/ctc_choices/ctc.ace). Both WI-17323 (belonging to Unigene cluster Hs.226016) and SHGC-100054 had been mapped previously on chromosome 15q23-q24 between D15S114-D15S115. In summary, we have identified, characterized and finely mapped within the 15q23-q24 region, a new human gene: C15orf5. Comparison with previously described genes at the protein and nucleotide level indicated that C15orf5 is unique without significant homology to any other known gene family. The absence of functional domains in the protein gives no clues to predict the function of this gene. Nevertheless, the fact that C15orf5 shows an enhanced mRNA expression in heart suggests that it could hold a specific role in this tissue. Acknowledgments We are grateful to A. Puig and D. Otero for technical support with DNA sequencing. We wish to thank the HGMP Resource Center in Hinxton, UK, and the RZPD in Berlin, Germany, for supplying us with IMAGE cDNA clones. This work has been supported by EU Biomed Project No. BMH4-CT97-2284 to X. E and by CICYT-IN95-0347. M.E. is funded by the Spanish Ministry of Education (CIDYT contract FPI-070-97) and L.S. by the Catalan autonomous government (CIRIT-RED contract 1998-64). 7 References Adams M.D., Kelley J.M., Gocayne J.D., Dubnick M., Polymeropoulos M.H., Xiao H., Merril C.R., Wu A., Olde B., Moreno R.F., et al. (1991). Complementary DNA sequencing: expressed sequence tags and human genome project. Science 252, 1651-6. Altschul S.F., Maden T.L., Schaffer A.A., Zhang J., Zhang Z., Miller W., Lipman, D.J. (1997). Gapped BLAST and PSI-BLAST: a new generation of protein database search program. Nucleic Acids Research 25, 3389-402. Deloukas P., Schuler G.D., Gyapay G., Beasley E.M., Soderlund C., Rodriguez-Tome P., Hui L., Matise T.C., McKusick K.B., Beckmann J.S., Bentolila S., Bihoreau M., Birren B.B., Browne J., Butler A., Castle A.B., Chiannilkulchai N., Clee C., Day P.J., Dehejia A., Dibling T., Drouot N., Duprat S., Fizames C., Bentley D.R., et al. (1998). A physical map of 30,000 human genes. Science 282: 744-746. Lennon G., Auffray C., Polymeropoulos M., Soares M.B. (1996). The I.M.A.G.E. Consortium: an integrated molecular analysis of genomes and their expression. Genomics 33, 151-2. Schuler G.D. (1997). Pieces of the puzzle: expressed sequence tags and the catalog of human genes. Journal of Molecular Medicine 75, 694-69. Schuler G.D., Boguski M.S., Stewart E.A., Stein L.D., Gyapay G., Rice K., White R.E., Rodriguez-Tome P., Aggarwal A., Bajorek E., Bentolila S., Birre B.B., Butler A., Castle A.B., Chiannilkulchai N., Chu A., Clee C., Cowles S., Day P.J., Dibling T., Drouot N., Dunham I., Duprat S., East C., Hudson T.J., et al. (1996). A gene map of the human genome. Science 274, 540-6. Stewart E.A., McKusick K.B., Aggarwal A., Bajorek E., Brady S., Chu A., Fang N., Hadley D., Harris M., Hussain S., Lee R., Maratukulam A., O'Connor K., Perkins S., Piercy M., Qin F., Reif T., Sanders C., She X., Sun W.L., Tabar P., 8 Voyticky S., Cowles S., Fan J.B., Cox D.R. et al. (1997). An STS-based radiation hybrid map of the human genome. Genome Res 7:422-33 . 9 Figure legends. Figure 1. Multiple-tissue northern blot analysis of C15orf5. The 0.7 kb EcoRI cDNA probe reveals an approximately 1.4 kb size mRNA species. C15orf5 and ß-actin transcripts are indicated. Human multiple-tissue northern blot (MTN blot, Clontech) was hybridized with a 0.7 kb EcoRI fragment from the insert of human cDNA IMAGE clone 137356 and to a 2 kb ß-actin cDNA supplied commercially (Clontech) as control for quantification. Probes were labeled using a random primer DNA labeling kit (Amersham Pharmacia). Blots were hybridized overnight at 65ºC in ExpressHyb hybridization solution (Clontech) and washed at 68ºC in 0.2XSSC/0.5%SDS. Figura 1 (Carim-Todd et al, 2001) 52