Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
Desarrollo de algoritmos bioinformáticos para estudios de genómica funcional: aplicaciones en cáncer T ESIS D OCTORAL Celia Fontanillo Fontanillo Director: Dr. Javier De Las Rivas Sanz Salamanca, Febrero de 2013 AUTORIZACIÓN DEL DIRECTOR DE TESIS El Dr. D. Javier DE LAS RIVAS SANZ, con D.N.I. nº 15949000H, Investigador Científico del Consejo Superior de Investigaciones Científicas (CSIC) director del grupo de Bioinformática y Genómica Funcional y profesor del Programa de Doctorado y Master del Centro de Investigación del Cáncer (CiC-IBMCC) de la Universidad de Salamanca (USAL), certifica que ha dirigido la Tesis Doctoral titulada "Desarrollo de algoritmos bioinformáticos para estudios de genómica funcional: aplicaciones en cáncer", presentada por Dña. Celia Fontanillo Fontanillo alumna del programa de Doctorado del CiC-IBMCC de la Universidad de Salamanca; y autoriza la presentación de la misma, considerando completado todo el trabajo e investigaciones realizadas en los últimos años por el doctorando. En Salamanca, a 13 de febrero de 2013 El Director de la Tesis Doctoral, Firma: Dr. Javier De Las Rivas Sanz Investigador Científico del CSIC Centro de Investigación del Cáncer (CiC-IBMCC, USAL/CSIC) Índice general Índice de figuras vii Índice de tablas ix Introducción general: Bioinformática y genómica funcional 1 Objetivos 3 1 Clasificador multiclase basado en expresión génica: geNetClassifier 1.1 Introducción: Transcriptómica y perfiles de expresión génica . . . . . . . . . . . 1.1.1 Microarrays para medir la expresión génica global . . . . . . . . . . . . 1.1.2 Análisis de perfiles de expresión génica para clasificación de muestras . . 1.2 Métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 Métodos de aprendizaje automático: SVM . . . . . . . . . . . . . . . . . 1.2.2 Selección de variables para la clasificación . . . . . . . . . . . . . . . . 1.2.2.1 Método bayesiano empı́rico paramétrico (PEB) para generar un orden de genes . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.3 Normalización y obtención de la señal sumarizada para cada gen . . . . . 1.2.4 Redefinición de las sondas de medida de los microarrays a genes . . . . . 1.3 Desarrollo del algoritmo de clasificación múltiple: geNetClassifier . . . . . . . . 1.3.1 Ranking de genes utilizando PEB . . . . . . . . . . . . . . . . . . . . . 1.3.2 Selección de genes como variables para la clasificación . . . . . . . . . . 1.3.3 Construcción del clasificador y búsqueda de genes marcadores . . . . . . 1.3.3.1 Aplicación del clasificador para la asignación a clase . . . . . . 1.3.3.2 Estimación del error de generalización . . . . . . . . . . . . . 1.3.4 Asociación entre genes marcadores en cada clase . . . . . . . . . . . . . 1.4 Aplicación a datos de leucemia . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.1 Ranking de genes asociados a cada subtipo de leucemia . . . . . . . . . . 1.4.2 Genes seleccionados para cada subtipo de leucemia . . . . . . . . . . . . 1.4.3 Estimación del error de generalización para el clasificador de leucemias . 1.5 Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 6 8 8 8 10 2 Análisis de alteración de número de copias de DNA en cáncer 2.1 Introducción: Alteración del número de copias de DNA . . . . 2.1.1 Definición de alteración del número de copias de DNA 2.1.2 Cuantificación del número de copias de DNA . . . . . 2.1.2.1 Arrays de CGH . . . . . . . . . . . . . . . 2.1.2.2 Arrays de SNPs . . . . . . . . . . . . . . . 31 31 32 32 33 33 iii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 12 13 14 15 16 17 17 19 20 21 22 24 27 28 ÍNDICE GENERAL . . . . . . . . . . . . . 35 36 36 37 38 41 41 42 45 45 46 50 52 3 Análisis combinado de perfiles de expresión génica y de número de copias de DNA 3.1 Introducción: Integración de datos ómicos . . . . . . . . . . . . . . . . . . . . . 3.2 Motivación: Número de copias de DNA (CN) y expresión génica (GE) . . . . . . 3.3 Desarrollo metodológico: Integración de datos de expresión génica y de datos de número de copias de DNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1 Normalización y sumarización . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Segmentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.3 Emparejamiento de los datos de expresión y número de copias de DNA . 3.3.4 Correlación entre niveles de expresión y número de copias de DNA . . . 3.3.5 Alteraciones consistentes y recurrentes en los niveles de CN y GE . . . . 3.3.6 Identificación de regiones genómicas clave en la alteración . . . . . . . . 3.4 Aplicación a un conjunto de muestras de Glioblastoma Multiforme (GBM) . . . 3.4.1 Correlación entre CN y GE en muestras de GBM . . . . . . . . . . . . . 3.4.2 Frecuencia combinada de alteración de CN y GE en muestras de GBM . 3.4.3 Identificación de genes conductores en regiones candidatas para GBM . . 3.5 Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 55 56 4 Algoritmo de análisis biológico funcional: GeneTerm Linker 4.1 Introducción: Análisis biológico funcional . . . . . . . . . . . . . . . . . . . . . 4.1.1 Principales espacios de anotación biológica . . . . . . . . . . . . . . . . 4.1.1.1 Ontologı́a de genes: Gene Ontology (GO) . . . . . . . . . . . 4.1.1.2 Vı́as metabólicas y de señalización: Kyoto Encyclopedia of Genes and Genomes (KEGG) . . . . . . . . . . . . . . . . . . . 4.1.1.3 Estructura y función de proteı́nas: Integrated repository of protein families, domains and functional sites (InterPro) . . . . . . 4.2 Motivación: Problemas del análisis biológico funcional . . . . . . . . . . . . . . 4.3 Desarrollo metodológico del algoritmo . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Paso 1: Filtrado de términos poco informativos . . . . . . . . . . . . . . 4.3.2 Paso 2: Generación de módulos funcionales . . . . . . . . . . . . . . . . 4.3.3 Paso 3: Convergencia de términos . . . . . . . . . . . . . . . . . . . . . 4.3.4 Paso 4: Eliminación de redundancias . . . . . . . . . . . . . . . . . . . 4.3.5 Paso 5: Significación y coherencia de los metagrupos finales . . . . . . . 4.4 Aplicación y validación del algoritmo GeneTerm Linker . . . . . . . . . . . . . . 4.4.1 Comparación del método con otras aproximaciones de anotación funcional 71 71 72 72 2.2 2.3 2.4 2.5 2.1.2.3 Hibridación in situ con fluorescencia, FISH . . . . . . . . . Preprocesamiento: Análisis de muestras individuales . . . . . . . . . . . . . 2.2.1 Cálculo de la señal cruda normalizada . . . . . . . . . . . . . . . . . 2.2.2 Segmentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.3 Discretización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Análisis unificado de conjuntos de muestras . . . . . . . . . . . . . . . . . . 2.3.1 Detección de regiones mı́nimas comunes (MCR) de alteración . . . . 2.3.2 Detección de regiones con puntos de ruptura (breakpoints) recurrentes Aplicación a datos de cáncer colorectal (CRC) . . . . . . . . . . . . . . . . . 2.4.1 Evaluación de los métodos de discretización aplicados a CRC . . . . 2.4.2 Identificación de regiones de alteración recurrente en CRC . . . . . . 2.4.3 Búsqueda de puntos de ruptura frecuentes en CRC . . . . . . . . . . Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iv . . . . . . . . . . . . . 57 57 59 59 60 61 62 63 63 64 66 69 72 75 76 78 79 80 82 82 83 84 88 ÍNDICE GENERAL 4.4.2 4.5 4.6 Validación con conjuntos de datos más amplios y evaluación de la tolerancia al ruido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.3 Aplicación del método a conjuntos de datos experimentales . . . . . . . Implementación de GeneTerm Linker en un servidor web . . . . . . . . . . . . . Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 93 96 96 Conclusiones generales 101 Bibliografı́a 105 Apéndice: Publicaciones cientı́ficas realizadas durante la presente Tesis Doctoral 117 v Índice de figuras 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 1.10 1.11 1.12 1.13 1.14 Esquema del proceso de hibridación de un microarray . . . . . . . . . . . . . . . Diseño de un microarray GeneChip de Affymetrix . . . . . . . . . . . . . . . . . Transformación del espacio de entrada de SVM . . . . . . . . . . . . . . . . . . Vectores soporte para SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Esquemas alternativos para SVM multiclase . . . . . . . . . . . . . . . . . . . . Partes del algoritmo geNetClassifier . . . . . . . . . . . . . . . . . . . . . . . . Esquema con el proceso de selección de genes . . . . . . . . . . . . . . . . . . . Número de genes con tasas de error mı́nimas . . . . . . . . . . . . . . . . . . . Poder discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estrategia de asignación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Validación cruzada doble/anidada (nCV) . . . . . . . . . . . . . . . . . . . . . . Red de interacción para Leucemias Agudas Linfoblásticas . . . . . . . . . . . . Esquema de la hematopoyesis . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribución de probabilidades posteriores de expresión diferencial en 4 subtipos de leucemia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.15 Tasas de error para distintos números de genes seleccionados . . . . . . . . . . . 1.16 Perfiles de expresión de genes asociados a leucemias . . . . . . . . . . . . . . . 1.17 Poder discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 7 9 9 10 14 16 17 18 19 20 22 23 2.1 2.2 2.3 2.4 33 34 35 Arrays de CGH. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Arrays de SNPs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Técnica FISH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Representación de los segmentos de todo el genoma ordenados por valor creciente de log2ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Distribución de densidad de los valores de log2ratios segmentados de un conjunto de muestras de cáncer colorectal . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6 Boxplot de los valores de log2ratios segmentados para un conjunto de muestras de cáncer colorectal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.7 Esquema del algoritmo para la detección de puntos de ruptura recurrentes . . . . 2.8 Curvas de sensibilidad y especificidad para distintos umbrales de discretización . 2.9 Heatmap y frecuencias de alteración de muestras de CRC . . . . . . . . . . . . . 2.10 Regiones con puntos de ruptura recurrentes en CRC . . . . . . . . . . . . . . . . 2.11 Punto de ruptura en el cromosoma 17p11.2 . . . . . . . . . . . . . . . . . . . . 3.1 3.2 Esquema del flujo del análisis integrado de datos de expresión y número de copias de DNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Posibles estados para cada región basados en la categorización de los segmentos de CN y de GE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vii 23 24 25 27 39 40 41 43 46 47 51 52 58 62 ÍNDICE DE FIGURAS 3.3 3.4 3.5 3.6 3.7 Distribución de densidad de los coeficientes de correlación para los datos de GBM Boxplots con las frecuencias de alteración conjunta para CN y GE en GBM . . . Frecuencias de alteración de GE y CN para datos de GBM . . . . . . . . . . . . Esquema de las regiones candidatas en GBM . . . . . . . . . . . . . . . . . . . Esquema de las alteraciones de los cromosomas 7 y 10 en GBM . . . . . . . . . 63 64 65 67 69 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11 Ontologı́as génicas(GO) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tipos de representación de información en KEGG . . . . . . . . . . . . . . . . . Estructura de una familia de proteı́nas en InterPro . . . . . . . . . . . . . . . . . Distribuciones del número de genes anotados a cada término . . . . . . . . . . . Distribuciones del número de genes anotados a cada término . . . . . . . . . . . Esquema del filtrado de términos poco informativos . . . . . . . . . . . . . . . . Resultado de 6 métodos de agrupamiento jerárquico no supervisado . . . . . . . Agrupamiento de Gene-Term sets en módulos funcionales . . . . . . . . . . . . . Convergencia de módulos funcionales en base a los términos . . . . . . . . . . . Eliminación de Geneterm sets redundantes . . . . . . . . . . . . . . . . . . . . . Red de 59 proteı́nas de levadura obtenida mediante datos experimentales de interacción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Red funcional derivada de datos de GeneTerm Linker para 59 proteı́nas de levadura Comparación de F1scores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aplicación web del método GeneTerm Linker . . . . . . . . . . . . . . . . . . . Esquema descriptivo del método de GeneTerm Linker . . . . . . . . . . . . . . . 73 74 75 77 77 79 81 82 83 84 4.12 4.13 4.14 4.15 viii 85 88 91 97 99 Índice de tablas 1.1 1.2 1.3 Número de genes seleccionados para diferenciar cada tipo de leucemia . . . . . . Genes seleccionados para diferenciar cada tipo de leucemia . . . . . . . . . . . . Parámetros de estimación del error de clasificación . . . . . . . . . . . . . . . . 24 26 28 2.1 2.2 2.3 2.4 Umbrales de discretización obtenidos con diferentes métodos. . . . . . . . MCR con delecciones recurrentes en CRC . . . . . . . . . . . . . . . . . . MCR con ganancias o amplificaciones recurrentes en CRC. . . . . . . . . . Regiones con puntos de ruptura recurrentes detectados en muestras de CRC . . . . 46 48 49 50 3.1 3.2 Regiones candidatas sobre-expresadas y ganadas (U-G). . . . . . . . . . . . . . Regiones candidatas infra-expresadas y perdidas (D-L). . . . . . . . . . . . . . . 68 68 4.1 4.2 4.3 4.4 4.5 4.6 Términos sobre-representados en GO . . . . . . . . . . . . . . . . . . . . . . . Proteı́nas de 5 complejos de levadura . . . . . . . . . . . . . . . . . . . . . . . . Resultados de GeneTerm Linker para 5 complejos de levadura . . . . . . . . . . Comparación de resultados con DAVID FAC y GeneTerm Linker . . . . . . . . . Efectos del ruido sobre precisión y recall . . . . . . . . . . . . . . . . . . . . . Resultados del análisis con GeneTerm Linker del set de datos experimental de Alzheimer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Resultados del análisis con GeneTerm Linker del set de datos experimental de cáncer de mama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Resumen de los resultados de GeneTerm Linker para dos conjuntos de datos experimentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 85 87 90 92 4.7 4.8 ix . . . . . . . . 94 95 96 Introducción general: Bioinformática y genómica funcional Podemos definir la bioinformática como una ciencia interdisciplinar que consiste en la aplicación de técnicas computacionales, matemáticas y estadı́sticas a la clasificación y el análisis de información biológica. Desde una perspectiva a más alto nivel, la bioinfomática trata de analizar grandes cantidades de datos para lograr entender problemas tanto de biologı́a fundamental como de aspectos biológicos relacionados con enfermedades. Los avances en bioinformática han estado siempre ligados a los avances técnicos y tecnológicos que posibilitan la adquisición de grandes cantidades de datos biológicos. El primer gran esfuerzo tecnológico fue el International Human Genome Project (HGP) (Watson, 1990) que posibilitó la introducción de instrumentos de secuenciación automatizada de DNA a mediados de los 80, aunque los resultados del primer borrador del genoma humano no vieron la luz hasta el 2001 (Lander et al., 2001; Venter et al., 2001). Este gran paso en la automatización ha hecho posible el desarrollo de tecnologı́as capaces de obtener cantidades masivas de información dando lugar a las denominadas ciencias ómicas: genómica, transcriptómica, metabolómica, proteómica, etc. Se ha pasado ası́ de estudiar entidades biológicas de manera independiente a un estudio holı́stico o global de todos los genes, proteı́nas y biomoléculas. La bioinformática integra diferentes áreas de conocimiento como la estadı́stica, la minerı́a de datos y en general, la teorı́a de la información para desarrollar técnicas capaces de almacenar, analizar y extraer información útil de las grandes cantidades de datos generadas por las tecnologı́as ómicas. Esta ciencia integrativa puede subdividirse a su vez en diferentes áreas dependiendo del problema biológico al que buscan aportar soluciones. Ası́ podemos definir subáreas como la biologı́a estructural, centrada en el análisis y comparación de secuencias, predicción de estructura de proteı́nas y clasificación de estructuras 3D; la biologı́a de sistemas que comprende el modelado de sistemas y procesos biológicos y el análisis de redes biomoleculares complejas; la genómica funcional que incluye la búsqueda y anotación de genes en genomas, los análisis de expresión génica, estudios de regulación de genes, análisis de mutaciones, etc; el análisis de imágenes biomédicas centrado en la automatización del procesamiento, cuantificación y análisis de imágenes clı́nicas especialmente orientado al diagnóstico; la biologı́a evolutiva y genómica comparativa que estudia el origen y los descendientes de los sistemas vivos ası́ como su evolución en el tiempo tomando como base la correspondencia entre genes y otras caracterı́sticas genómicas en diferentes organismos; y la minerı́a de datos biomédicos que utiliza técnicas de lingüı́stica computacional y estadı́stica para organizar de manera automática el conocimiento biomédico generado. 1 Introducción general: Bioinformática y genómica funcional El trabajo de investigación desarrollado en esta memoria de Tesis Doctoral se encuadra fundamentalmente en la subárea de la genómica funcional. El objetivo de la genómica funcional es entender las relaciones que existen entre el genoma de un organismo, incluyendo sus genes, proteı́nas, funciones e interacciones, y el fenotipo de dicho organismo, es decir, la manifestación externa de dicho genotipo. Pretende expandir y sintetizar el conocimiento genómico y proteómico para proporcionar un mejor comprensión de las propiedades de un organismo a nivel celular o sistémico. Una caracterı́stica fundamental de la genómica funcional es su aproximación global, que normalmente involucra técnicas de masivas de alto rendimiento en lugar de la aproximación tradicional de análisis gen a gen. La genómica funcional estudia la variación en la abundancia de los genes y sus productos génicos, como mRNAs y proteı́nas, en una muestra biológica. Esta variación puede ser estudiada a lo largo del tiempo, como por ejemplo durante el desarrollo de un organismo, en diferentes lugares, como las diferencias entre distintas partes del cuerpo o tipos celulares, o en diferentes estados biológicos o patológicos que afectan a genes, cromosomas, RNA o proteı́nas. En la presente memoria se ha profundizado en diferentes aspectos de la genómica funcional orientados a la mejor comprensión de caracterı́sticas y mecanismos de desarrollo tumoral aplicados a diferentes tipos de cáncer. El primer capı́tulo se centra en el análisis de los cambios en la abundancia de los genes en múltiples estados, de manera que sea posible la diferenciación y clasificación en base a la variación de dichos genes. Un aspecto importante en el análisis de estas variaciones es la búsqueda de relaciones y asociaciones entre los genes que ayudarán en la identificación de los procesos o funciones desreguladas en cada uno de los tipos patológicos estudiados. La posibilidad de entender cómo una mutación u otro tipo de alteración genómica conduce a la expresión de un determinado fenotipo tiene implicaciones muy importantes a la hora de entender enfermedades complejas en las que la inestabilidad cromosómica es elevada, como es el caso de la mayorı́a de los procesos tumorales. En el segundo capı́tulo de la presente Tesis Doctoral se estudiarán las alteraciones somáticas en el DNA, es decir, cambios en el DNA adquiridos durante la vida de un organismo que no provienen su la lı́nea germinal. En el caso de cáncer, el análisis de estas alteraciones proporcionará información sobre el desarrollo y progresión tumoral, lo que puede ayudar a un diseño más eficaz de marcadores moleculares trasladables a la clı́nica. En la mayorı́a de tumores, el número de alteraciones genómicas es muy elevado. Sin embargo, no todas las mutaciones tienen el mismo tipo de penetrancia ni afectan por igual en la manifestación de un determinado fenotipo. Una de las herramientas de las que dispone la genómica funcional para la discriminación de las diferentes mutaciones es la integración de datos. El análisis de las alteraciones cromosómicas con sus efectos sobre los niveles de expresión de los genes y sobre la abundancia de las proteı́nas codificadas permite identificar aquellas alteraciones con efectos más significativos sobre un sistema biológico estudiado. Es por ello que la integración de diferentes capas de información provenientes de estudios genómicos, transcriptómicos y proteómicos resulta mucho más útil que el estudio independiente de cada una de ellas. El tercer capı́tulo plantea la integración de datos genómicos y transcriptómicos en la identificación de los elementos desencadenantes de los procesos tumorales. Conocer cuáles son las causas de una determinada patologı́a tumoral ayudará al desarrollo de tratamientos y terapias que mejoren la supervivencia de los pacientes que la padecen. Por último, otro de los aspectos fundamentales de la genómica funcional es la identificación de las funciones o procesos biológicos asociados a los estados analizados, ya sean los procesos activos en cada etapa del desarrollo de un organismo, en diferentes lugares o tipos celulares o procesos desregulados en diferentes estados patológicos. En el cuarto capı́tulo se abordará la identificación y asignación de funciones y procesos biológicos a estados estudiados con técnicas genómicas. 2 Objetivos El objetivo general de esta Tesis Doctoral es el desarrollo y aplicación de algoritmos y métodos bioinformáticos para el análisis de datos biológicos procedentes de diversas plataformas genómicas de tipo microarrays de alta densidad, ası́ como su integración e interpretación para obtener una visión global de los genes y procesos biológicos alterados. Estos métodos se aplicarán a varios estudios experimentales concretos de cáncer sobre muestras humanas de pacientes. De modo más especı́fico, se proponen los siguientes cuatro objetivos: 1. Diseño y desarrollo de un clasificador multiclase para diferenciar varios tipos y subtipos patológicos, basado en análisis de microarrays de expresión génica derivados de muestras clı́nicas de pacientes. Integración en un algoritmo que explora los datos de expresión y los parámetros de clasificación para construir redes de genes marcadores de cada tipo o subtipo biológico estudiado. Para todo ello se utilizarán datos procedentes de microarrays de oligos alta densidad para muestras de mRNA, que miden simultáneamente la expresión de la mayorı́a de los genes del genoma humano. 2. Desarrollo de un método y un flujo de trabajo optimizado para el análisis cuantitativo de alteraciones genómicas del número de copias de DNA (Copy Number Alterations, CNA) ası́ como para la detección de puntos de ruptura (breakpoints) en el genoma. Para esto se utilizarán datos procedentes de microarrays de oligos alta densidad de DNA, es decir, microarrays genómicos que detectan variaciones y polimorfismos en el genoma humano. 3. Desarrollo de un método de análisis integrado de datos de microarrays de expresión (mRNA) y datos de microarrays genómicos (DNA); y estudio de la correlación entre las alteraciones genómicas en número de copias (CN) y las alteraciones transcriptómicas de la expresión génica (GE). 4. Desarrollo de un algoritmo robusto para análisis biológico funcional basado en asociación recı́proca múltiple de genes y términos derivados de diferentes espacios de anotación biológica. Dicho algoritmo se centrará sobre todo en la eliminación de redundancias y en la simplificación de los resultados que se obtienen por las técnicas clásicas de análisis de enriquecimiento funcional (Functional Enrichment Analysis). En todos los casos, estos métodos se desarrollarán trabajando con muestras humanas de pacientes correspondientes a varios tipos de cáncer (leucemias, cáncer de colon, glioblastomas), que provienen de series experimentales publicadas y de trabajos concretos realizados en colaboración con distintos grupos clı́nicos y experimentales del CiC-IBMCC/USAL/HUS. 3 Capı́tulo 1 Diseño y construcción de un clasificador multiclase para subtipos patológicos basado en expresión génica: geNetClassifier 1.1 Introducción: Transcriptómica y perfiles de expresión génica El transcriptoma es el conjunto total de tránscritos (RNA) de una determinada especie derivados de la transcripción de su DNA genómico. La transcripción principal corresponde a los locus génicos que codifican para proteı́nas, de los cuales se derivan los RNAs mensajeros codificantes (denominados clásicamente como mRNAs ó protein coding RNAs). También existen otros tipos de RNAs que no son codificantes para proteı́nas (denominados en general ncRNAs), cuyas funciones son muy variadas y se están caracterizando mejor en los últimos años: tRNAs, rRNAs, snRNAs, miRNAs, lncRNAs, lincRNAs, etc. En todos los organismos vivos existe una asociación directa entre la información genómica codificada en el DNA, la información transcrita a RNA y el fenotipo o caracterı́sticas de los individuos. Las herramientas clásicas para la cuantificación y estudio de los mRNAs codificantes han sido y siguen siendo ampliamente utilizadas en los laboratorios de biologı́a molecular, como por ejemplo las técnicas de Northern blot, RT-PCR, ESTs, SAGE, etc. Estas técnicas analizan el mRNA de manera individual o para un conjunto pequeño de genes; sin embargo, hasta la aparición de técnicas genómicas y transcriptómicas globales –como los microarrays– no fue posible el estudio de todo el transcriptoma a gran escala (Schena et al., 1995). Más recientemente las técnicas de secuenciación masiva del transcriptoma (principalmente RNA-seq) junto con otras técnicas globales están permitido una mejor caracterización de distintos transcritos derivados de cada locus génico. Esta caracterización incluye las estructuras detalladas de exones/intrones, las isoformas activas, ası́ como la múltiple variabilidad (i.e. polimorfismos) que existe en los genomas y transcriptomas de organismos complejos como el humano. 5 Clasificador multiclase basado en expresión génica: geNetClassifier Figura 1.1: Esquema del proceso de hibridación de un microarray - El proceso de hibridación de un microarray comprende 6 fases (i) extracción de los mRNA con colas poli-A; (ii) la transcripción reversa in vitro para dar las cadenas de cDNA complementarias; (iii) el marcaje con moléculas fluorescentes; (iv) la fragmentación de las secuencias; (v) la hibridación en el microarray y lavado de restos no unidos; y (vi) la lectura de la fluorescencia con un scanner de alta resolución. (Fuente: www.affymetrix.com) Los estudios de expresión global (llamados a menudo estudios de genómica funcional) se centran primeramente en el análisis de los genes codificantes y sirven para construir perfiles de expresión de los genes conocidos del genoma (i.e. ”gene expression profiles”) en las muestras biológicas en las condiciones estudiadas. En este capı́tulo nos centraremos principalmente en la construcción y análisis de este tipo de perfiles en muestras clı́nicas obtenidas de pacientes con distintas patologı́as. Desde el punto de vista tecnológico, en la caracterización de los perfiles de expresión en diferentes tipos celulares, tejidos o fenotipos patológicos los dispositivos microarrays y las técnicas de ultrasecuenciación –i.e. nuevas técnicas de secuenciación masiva, NGS– han demostrado obtener resultados coherentes (Malone and Oliver, 2011). En comparación con las técnicas de ultrasecuenciación, los microarrays de oligos –especialmente los de la plataforma Affymetrix, Inc.– han sido usados en numerosos estudios biomédicos publicados. El mayor grado de madurez de los microarrays de oligos, de los que se conocen y han sido estudiadas las posibles fuentes de ruido y desviación para las que se han desarrollado toda una serie de algoritmos y técnicas estadı́sticas robustas de determinación de señal y correción de ruido, hacen que estos microarrays sigan siendo una fuente de datos muy utilizada. También, hoy por hoy, la diferencia de precios entre las dos tecnologı́as –microarrays versus ultrasecuenciación– hace que para el análisis de series largas, con más de 20 o 30 muestras, los arrays sigan siendo una metodologı́a más asequible a la hora de obtener perfiles de expresión génica. 1.1.1 Microarrays para medir la expresión génica global Los microarrays de oligonucleótidos de DNA son dispositivos que incluyen colecciones de miles de moléculas de oligonucleótidos de DNA de un organismo concreto inmovilizadas sobre un soporte sólido formando una micromatriz en la que la localización de cada oligo es conocida. Estos oligos con una secuencia especı́fica de DNA son conocidos como sondas. El primer paso para la utilización de los microarrays de expresión es la extracción del mRNA de una muestra. Este mRNA es fragmentado y marcado con una molécula fluorescente antes de ser depositado sobre la superficie del array. Una vez depositados los fragmentos marcados, éstos hibridarán con las sondas complementarias inmovilizadas. De esta manera, cuando el array es iluminado las moléculas fluorescentes de los fragmentos que han hibridado en determinadas regiones o puntos de la micromatriz emiten luz que puede ser escaneada y cuantificada (Figura 1.1). 6 Capı́tulo 1 Figura 1.2: Diseño de un microarray GeneChip de Affymetrix - Esquema que representa la estructura del array Human Genome U133A de Affymetrix. Este array incluye conjuntos de 11 pares de sondas agrupados en un probeset que representa un mRNA. Cada par de sondas está formado por un PM y un MM cada uno con miles de copias en una única celda. (Fuente: www.affymetrix.com) El soporte en el que se inmovilizan las sondas depende de la compañı́a que fabrica los arrays, siendo cristal o silicio para Affymetrix (http://www.affymetrix.com) o Agilent (http://www.agilent.com) y microesferas para Illumina (http://www.illumina.com). Los más populares y más usados entre los arrays de oligonucleótidos son los GeneChip desarrollados por Affymetrix (Irizarry et al., 2003a). Cada uno de estos microarrays contiene entre 40 y 60000 conjuntos de sondas (llamados probesets) con secuencias de todo el transcriptoma de la especie estudiada, representando en el caso de humano unos 25000 genes. Cada conjunto de sondas (probeset) está a su vez constituı́do por entre 11 y 16 sondas de oligonucleótidos distintas que corresponden a distintas regiones codificantes del gen que representan. Finalmente, para cada sonda de secuencia especı́fica existe un oligo denominado perfect match (PM, i.e. oligo de 25 nucleótidos que se corresponde exactamente con una sección de la molécula de mRNA de interés) junto a un oligo llamado mismatch (MM, i.e. oligo de 25 nucleótidos que se construye cambiando el nucleótido central de la secuencia del PM). El propósito de estas sondas MM de control es permitir la cuantificación del ruido de fondo y la estimación de hibridaciones inespecı́ficas. Un ejemplo de este tipo de arrays es el Human Genome U133A de Affymetrix, cuyo diseño puede verse en la figura 1.2. En las nuevas versiones de los arrays este diseño con MM y PM ha sido sustituido por sondas PM únicamente. Entre los principales objetivos para los que se utilizan este tipo de microarrays destacan: 1. La búsqueda de genes que sufren cambios significativos en sus niveles de expresión en dos estados diferentes. Es decir, análisis de la expresión diferencial entre dos estados. 2. La clasificación de muestras basada en los perfiles de expresión de sus genes. Es decir, construcción de perfiles de expresión normalizados para cada muestra a lo largo de todos los genes y búsqueda de grupos de muestras similares de acuerdo a esos perfiles. 3. La búsqueda de patrones o grupos de genes relacionados que cambian su expresión de manera conjunta en una serie de muestras o condiciones. Es decir, construcción de perfiles de expresión normalizados para cada gen a lo largo de las muestras y búsqueda de pares de genes que co-expresan de acuerdo a esos perfiles. 7 Clasificador multiclase basado en expresión génica: geNetClassifier 1.1.2 Análisis de perfiles de expresión génica para clasificación de muestras Como se ha indicado en el apartado anterior, los microarrays que miden la expresión génica global pueden ser utilizados para la clasificación de muestras de estados o subestados biológicos concretos. Para ello se debe proceder a la construcción de perfiles de expresión normalizados para cada muestra a lo largo de todos los genes y, basados en esos perfiles, buscar grupos de muestras similares. En este capı́tulo presentaremos el diseño y construcción de un clasificador para múltiples clases que permita diferenciar tipos y subtipos biológicos o patológicos basado en datos de expresión génica. El algoritmo se denomina geNetClassifier y está diseñado para construir clasificadores transparentes y para obtener las redes de genes asociadas a cada clase a partir de datos procedentes de microarrays de expresión global. El método se basa en técnicas de aprendizaje automático (machine learning) que permiten extraer conocimiento de un conjunto de muestras y extrapolar tal conocimiento a la clasificación de nuevas muestras o individuos problema. Esta clasificación se construye de modo que no sea una caja negra de toma de decisiones, sino que proporcione información acerca de la influencia o valor de cada gen en la clasificación. De este modo, los genes seleccionados contituirán el punto de partida para la identificación de marcadores moleculares de los estados estudiados. En las siguientes secciones se introducen brevemente conceptos clave en el desarrollo del algoritmo; se comentan las diferentes técnicas de aprendizaje automático alternativas para la construcción de clasificadores y se describe someramente la técnica empleada en el algoritmo (Máquinas de Vector Soporte, SVM), ası́ como el método Bayesiano Empı́rico Paramétrico (BEP) utilizado en la selección de genes. Finalmente, se detalla también cada uno de los pasos que constituyen el algoritmo geNetClassifier y se presenta como ejemplo de aplicación la clasificación y caracterización de 4 tipos de leucemia diferentes. 1.2 Métodos 1.2.1 Métodos de aprendizaje automático: SVM La disciplina del aprendizaje automático o machine learning incluye técnicas y metodologı́as destinadas a la búsqueda y establecimiento de patrones que permitan identificar las caracterı́sticas de un estado o un evento a partir de un conjunto estructurado de datos empı́ricos medidos para dicho evento. El establecimiento preciso de estos patrones permitirá luego la realización de predicciones automáticas sobre el estado o evento en cuestión. Los problemas de predicción y búsqueda de patrones son frecuentes en el análisis de datos de alta dimensionalidad. Éste es el caso de los datos procedentes de microarrays en los que se mide la expresión de miles de genes simultáneamente en un conjunto de muestras. Diversos algoritmos han sido aplicados con éxito a la búsqueda de genes marcadores de estado y a la consecuente clasificación de estados biológicos y patológicos. Algunos de los algoritmos de clasificación más utilizados en estudios que analizan datos genómicos o transcriptómicos son: (i) Análisis lineal discriminante (Linear Discriminant Analysis, LDA); (ii) K-vecinos más próximos (K-Nearest Neighbours, kNN); (iii) Redes neuronales (Neural Networks, NN); y (iv) Máquinas de Vector Soporte (Support Vector Machines, SVM). Una amplia revisión que incluye los fundamentos y descripción de estos métodos ası́ como su aplicabilidad a estudios genómicos se puede encontrar en (Gentleman et al., 2005). 8 Capı́tulo 1 Figura 1.3: Transformación del espacio de entrada de SVM - La aplicación de una función de transformación φ del espacio de entrada en un espacio de caracterı́sticas de más dimensiones permite una separación lineal de las clases. (Modificado de (Keyvanrad and HomayounpourM.M, 2011)) La mayorı́a de los métodos de aprendizaje automático citados presentan problemas con datos de alta dimensionalidad. Sin embargo, SVM permite trabajar sin problemas con este tipo datos. Esta caracterı́stica unida a los rendimientos demostrados en el análisis de datos procedentes de microarrays de expresión (Brown et al., 2000; Furey et al., 2000) hacen de SVM una metodologı́a adecuada para el tratamiento de los perfiles de expresión génica. Las máquinas de vector soporte son un conjunto de algoritmos de aprendizaje automático supervisado destinados a la clasificación. El objetivo de estas técnicas es obtener el hiperplano óptimo capaz de separar dos clases. Muchos problemas no son separables mediante un hiperplano de manera sencilla por lo que SVM realiza una transformación previa de los vectores de entrada (n-dimensionales) en vectores de dimensión más alta en los que el problema de separación pueda resolverse linealmente. Es decir, los objetos del espacio de entrada son mapeados a un nuevo espacio de caracterı́sticas que tiene mayor dimensionalidad utilizando un conjunto de funciones (kernels), de tal forma que en lugar de buscar una curva compleja que los separe puedan ser separados por medio de un hiperplano 1.3. De todos los hiperplanos posibles SVM elige aquel que maximiza la separación entre las dos clases. Este hiperplano es definido por medio de una serie de instancias de entrenamiento que actúan como lı́mites, denominadas vectores soporte (support vectors).Las nuevas instancias se clasifican de acuerdo al lado del hiperplano en el que se encuentran. Una representación del hiperplano de separación con los vectores soporte se puede ver en la figura 1.4. Figura 1.4: Vectores soporte para SVM - El método SVM binario selecciona el hiperplano (lı́nea en negrita) que maximiza el margen entre las dos clases. Este hiperplano es determinado por ciertas instancias utilizadas en el entrenamiento que sirven de frontera (vectores soporte marcados con cı́rculos). 9 Clasificador multiclase basado en expresión génica: geNetClassifier Las SVM fueron inicialmente diseñadas para la clasificación binaria, aunque han sido extendidas a la clasificación de múltiples clases utilizando dos aproximaciones fundamentales (Statnikov et al., 2005): 1. One-Versus-Rest (OVR): Es conceptualmente la SVM multiclase más sencilla. Se basa en la construcción de k clasificadores binarios: clase 1 frente al resto, clase 2 frente al resto, ... clase k frente al resto. La función de decisión global elige la clase que se corresponde con el valor máximo de las k funciones de decisión binarias (winner-takes-all). 2. One-Versus-One (OVO): Este método implica la construcción de SVM binarios para cada par de clases, en total µ ¶ k k(k − 1) = 2 2 La función de decisión global asigna cada instancia a la clase que tiene el mayor número de votos según una estrategia de mayorı́as (max wins strategy). Se ha demostrado que si el problema multiclase es no-separable y algunos de los subproblemas binarios son separables el rendimiento de clasificación OVO es mejor que el rendimiento de clasificación OVR (Kressel, 1999). En la figura 1.5 se muestra un ejemplo de ambas aproximaciones. Figura 1.5: Esquemas alternativos para SVM multiclase - SVM multiclase aplicado a la separación de 3 clases. (a) OVR construye 3 clasificadores que separan cada clase individualmente del resto de las clases. (b) OVO construye también 3 clasificadores, pero separa clase 1 frente a clase 2, clase 1 frente a clase 3 y clase 2 frente a clase 3. (Modificado de (Statnikov et al., 2005)) 1.2.2 Selección de variables para la clasificación Los análisis de expresión procedentes de datos de microarrays parten tı́picamente de un conjunto de decenas o cientos de muestras en las que se han medido varios miles de genes (en torno a 20000 genes). Debido a la alta dimensionalidad de este tipo de datos, en los algoritmos de aprendizaje supervisado, y más concretamente en los de clasificación, es necesario hacer una pre-selección de los genes como variables para evitar el problema del sobreajuste o sobreentrenamiento (overtraining) (Guyon et al., 2002). Para evitar el sobreajuste, la reducción del número de variables (Feature Subset Selection) (Bell and Wang, 2000) se ha convertido en un paso requerido en el entrenamiento de clasificadores con datos de muy alta dimensión. Aunque no hay un método especı́fico que se haya demostrado el mejor para realizar esta tarea, las aproximaciones son fundamentalmente de dos tipos: 10 Capı́tulo 1 1. Indirecta o filter: hace uso de heurı́sticos para determinar el subconjunto de variables óptimo, es decir, establece una regla matemática que es capaz de guiar el proceso de búsqueda hacia una solución optimizada. 2. Directa o wrapper: cada posible subconjunto de variables candidato es evaluado directamente en el modelo de clasificación de modo exhaustivo. La exploración de todas las posibles combinaciones de variables es computacionalmente muy costosa y no mejora en exceso la exactitud o precisión del clasificador (Inza et al., 2004). Esto ha propiciado que la aproximación de filtrado (i.e. el método indirecto) esté mucho más extendida para la selección de genes en la clasificación de datos de microarrays. Dentro de las posibles estrategias de filtrado para ayudar a la selección la más común es ordenar los genes en base a análisis de expresión diferencial entre clases, lo cual permite ordenar los genes por los valores de cambio entre clases o por la significación estadı́stica de tales cambios. A continuación se describe el método que usamos en este trabajo para generar ese orden de genes (gene rankig). 1.2.2.1 Método bayesiano empı́rico paramétrico (PEB) para generar un orden de genes El ordenamiento o ranking de los genes que constituye el primer paso de la aproximación de filtrado para la selección de variables se realiza en base a la expresión diferencial de cada uno de los genes en cada clase analizada. La aproximación estándar para la búsqueda de genes diferencialmente expresados consiste en probar una hipótesis para cada gen utilizando variantes de los estádisticos t o F. Dada la muy elevada cantidad de variables testadas, los p-valores proporcionados por estos estadı́sticos deben ser corregidos con alguno de los métodos de corrección para contrastes múltiples (multiple testing) (Tusher et al., 2001). Por otro lado, el número de muestras o de réplicas biológicas disponibles es habitualmente limitado y muchas veces no es suficiente a la hora de estimar las diferencias en los niveles de expresión. Por ello, si en lugar de tratar cada gen independientemente se analizan los niveles de expresión del conjunto de genes simultáneamente es posible extraer información acerca de la variabilidad de estos genes. Los métodos bayesianos empı́ricos (Empirical Bayes, EB) utilizan la variabilidad del conjunto de genes y por tanto se adaptan fácilmente a problemas en los que el conjunto de variables es más alto que el número de muestras o individuos. En general los métodos paramétricos clásicos se centran en el control de la proporción esperada de falsos positivos (False Discovery Rate, FDR) para dar un valor de significación a cada variable gen, mientras que los métodos EB logran el ordenamiento o ranking de las variables genes en base a sus patrones de expresión utilizando probabilidades posteriores. El primer método bayesiano utilizado con datos de expresión génica fue un método bayesiano empı́rico paramétrico basado en modelos jerárquicos que fue empleado para detectar cambios en la expresión génica para un único array de cDNA (Newton et al., 2001). Este método fue extendido para múltiples condiciones o clases (Kendziorski et al., 2003) y, a continuación refinado para evitar la asumpción de un coeficiente de variación constante para todos los genes (Lo and Gottardo, 2007). Esta última formulación incluye una estimación de los parámetros del modelo con un algoritmo de esperanza-maximización (Expectation-Maximization, EM). El paquete de Bioconductor (www.bioconductor.org) EBarrays proporciona una implementación de estos métodos en R. El método bayesiano empı́rico paramétrico (Parametric Empirical Bayesian method, PEB) calcula las probabilidades bayesianas o probabilidades posteriores de patrones de expresión diferencial para múltiples condiciones o clases. Este método busca inicialmente un modelo que caracterice la distribución de probabilidad de las medidas de expresión de un gen j en un conjunto de muestras xj = (xj1 , xj2 , . . . , xjI ). Con la hipótesis de partida de que las muestras son intercambiables 11 Clasificador multiclase basado en expresión génica: geNetClassifier podemos plantear las medidas xij como desviaciones aleatorias de una distribución observada fobs (· | µj ). Cuando se comparan los valores de expresión en dos estados, el conjunto de muestras 1, 2, . . . , I se divide en dos subconjuntos s1 y s2 . Se pueden plantear entonces dos hipótesis: la hipótesis nula inicial en que la media de los valores de expresión para cada grupo sea la misma (µj1 = µj2 ), es decir, expresión equivalente EEj , o que las medias sean distintas (µj1 6= µj2 ), es decir, exista expresión diferencial DEj . Un gen EE tendrá valores xj = (xj1 , xj2 , . . . , xjI ) de acuerdo a una distribución f0 (xj ) = Z ÃY I ! fobs (xij | µ) π(µ)dµ i=1 (1.1) Y para un gen DE los valores xj = (xj1 , xj2 ) siguen una distribución f1 (xj ) = f0 (xj1 )f0 (xj2 ) (1.2) Si p es el porcentaje de genes DE, entonces 1 − p es el porcentaje de genes EE y la distribución marginal de los datos serı́a: pf1 (xj ) + (1 − p)f0 (xj ) (1.3) Aplicando el teorema de Bayes la probabilidad posterior de expresión diferencial del gen j se obtiene mediante la ecuación: pf1 (xj ) (1.4) pf1 (xj ) + (1 − p)f0 (xj ) Para extender la aplicación a más de dos condiciones basta con generalizar 1.3 para m condiciones m X pk fk (xj ) (1.5) k=0 1.2.3 Normalización y obtención de la señal sumarizada para cada gen El preprocesamiento de los microarrays de expresión constituye un paso fundamental que repercute directamente sobre todos los análisis posteriores. Es por ello necesaria una exploración de los métodos de normalización y obtención de la señal sumarizada para cada gen del microarray. Es importante también tener en cuenta cuáles son las entidades biológicas que van a constituir el punto de partida de los algoritmos, y, si es necesario, redefinirlas para adecuarlas a los objetivos buscados. La cuantificación de la cantidad de mRNA en una muestra es calculada a partir de la señal fluorescente de hibridación obtenida del microarray. Esta señal está afectada por la fluorescencia inespecı́fica del propio array, que será necesario corregir para eliminar el ruido de fondo. Existen también otras fuentes de variación que pueden influir en las mediciones de los niveles de expresión como pueden ser: diferencias en la cantidad de mRNA total hibridado en distintas muestras, eficiencia de la hibridación, propiedades ópticas del scanner, etc. A la hora de comparar microarrays es necesario tener en cuenta estas fuentes de variación en cada uno de ellos. La normalización es el término para describir la eliminación de esa variación. Es 12 Capı́tulo 1 decir, se trata de eliminar el efecto de la tecnologı́a o de artefactos en las mediciones de fluorescencia. También se debe tener en cuenta que para calcular la intensidad del conjunto de sondas (probeset) que miden cada gen en el microarray es necesario integrar o sumarizar el conjunto de medidas diferentes que corresponden al mismo mRNA. Para la ejecución de estos 3 pasos (eliminación del ruido de fondo, normalización y sumarización o integración de las sondas del mismo probeset/gen) exiten diferentes métodos. Algunos de los algoritmos más utilizados son: 1. MAS5 (Liu et al., 2003): Es el método original propuesto por Affymetrix. Es un método paramétrico que evalúa cada array de manera independiente y utiliza tanto las sondas PM (Perfect Match) como las MM (MisMatch). 2. RMA (Irizarry et al., 2003b): Utiliza la información del conjunto de arrays en lugar de evaluar array por array e incluye una normalización no paramétrica basada en cuantiles. Utiliza únicamente las sondas PM. 3. dChip (Li and Wong, 2001): También multiarray aunque optimizado para réplicas técnicas. Hay disponibles dos variantes, una que utiliza únicamente PM y otra que utiliza tanto PM como MM. 4. PLIER (Affymetrix, 2005): Desarrollado por Affymetrix para mejorar el anterior, MAS5. Está basado en la generación de modelos para el análisis de múltiples muestras simultáneamente. Permite la utilización de modelos para PM y MM y para PM únicamente. La diferencia en los valores de sumarización obtenidos con estos métodos para las mismas muestras unido a la complejidad de la evaluación de los algoritmos ha motivado una gran cantidad de trabajos orientados a la comparación de las diferentes alternativas, (Irizarry et al., 2003a, 2006; Millenaar et al., 2006; Qin et al., 2006) entre otros. De estos estudios se puede extraer que, en general, los algoritmos que utilizan únicamente PM tienen una menor varianza y por tanto mayor precisión. Este hecho unido a la buena correlación de los datos normalizados con RMA con datos de RT-PCR ha motivado la decisión de utilizar RMA para el preprocesamiento de datos de microarrays de expresión (Millenaar et al., 2006). 1.2.4 Redefinición de las sondas de medida de los microarrays a genes Además de las fuentes de ruido comentadas anteriormente otro aspecto que afecta al análisis de los microarrays de expresión se deriva de la definición arbitraria de conjuntos de sondas (probesets) para la medida de los genes. La mayorı́a de los análisis de datos procedentes de microarrays identifican como genes un conjunto predeterminado de sondas de oligonucleótidos definidas por el fabricante. La arquitectura conocida de muchos genes humanos está en constante evolución y va cambiando con el tiempo al aumentar el conocimiento, con lo que la referencia para los genes y transcritos utilizada en la definición de los conjuntos de sondas del microarray no se corresponde con la versión más actualizada y refinada del genoma. Esta situación se ve agravada con la existencia de ciertos conjuntos sondas (probesets) definidos como distintos pero que mapean a un mismo gen, provocando redundancia. Todo ello aumenta bastante la imprecisión que la asignación de los valores de expresión a los genes. Para evitar esta fuente de ruido adicional se han redefinido los genes re-mapeando cada una de las sondas del microarray sobre una versión actualizada del transcriptoma humano obtenida de Ensembl (http://www.ensembl.org). De esta manera cada gen queda definido por todo el conjunto de sondas del array que mapean de manera exclusiva en los lı́mites del locus génico conocido correspondiente. Esta redefinición se ha llevado a cabo utilizando los ficheros proporcionados en 13 Clasificador multiclase basado en expresión génica: geNetClassifier la sección Probe Mapping de la herramienta bioinformática GATExplorer (Risueno et al., 2010) (http://bioinfow.dep.usal.es/xgate/mapping/mapping.php). 1.3 Desarrollo del algoritmo de clasificación múltiple: geNetClassifier El análisis de los perfiles de expresión de genes en distintos tipos de tejidos, bajo diferentes condiciones o en distintos estados patológicos está fundamentalmente orientado a la búsqueda de marcadores biológicos para dichas situaciones. Estos marcadores biológicos serán aquellos genes que permitan distinguir, bien solos o bien en combinación con otros, los diferentes estados o clases comparadas. En esta sección se presenta geNetClassifier, un algoritmo diseñado para la búsqueda de genes marcadores que permitan diferenciar estados patológicos. El algoritmo diseñado se centra en la búsqueda de estas firmas moleculares, sin embargo analiza también las relaciones existentes entre los genes caracterı́sticos identificados. La figura 1.6 presenta un esquema con los pasos fundamentales del algoritmo junto con los diferentes tipos de información o resultados que se obtendrán a partir de los perfiles de expresión. Figura 1.6: Partes del algoritmo geNetClassifier - Representación esquemática de los pasos fundamentales del algoritmo. En verde aparecen resaltados los principales resultados buscados y en gris las métricas o caracterı́sticas en las que se apoyan. El primer paso de geNetClassifier consiste en el establecimiento de un ranking de los genes basado en las diferencias de expresión entre los estados. Este ranking de genes corresponde, como se ha indicado en la sección anterior, a la ordenación de variables previa a la exploración y selección que realizará el clasificador. De este modo, el ranking sirve como punto de partida para la selección del número de genes óptimo que permita distinguir un estado del resto de los estudiados. Esta selección de genes propios de cada estado se utilizará fundamentalmente en la obtención de tres tipos de resultados: 14 Capı́tulo 1 1. Probabilistic Disease Assigment o asignación de nuevos individuos a cada una de las clases o estados estudiados. 2. Disease Signature o firma molecular caracterı́stica de cada uno de los estados patológicos. El proceso de clasificación no será únicamente una caja negra de toma de decisiones sino que proporcionará información acerca de la importancia en la clasificación de cada una de las variables exploradas, es decir, su poder discriminante (Discriminant Power). Ası́, las variables más importantes, es decir, los genes con mayor influencia, constituirán el punto de partida para el análisis de marcadores de los estados estudiados. 3. Disease Networks o redes de asociación entre los genes candidatos a ser marcadores para cada uno de los estados patológicos. La selección de variables proporcionará el punto de partida para el estudio de las relaciones entre las variables o genes que se realizará mediante dos tipos de análisis: (a) análisis de la relación entre genes mediante medida de la coexpresión (gene coexpression). (b) análisis de la interacción entre genes mediante medida de la información mutua entre ellos (mutual information). En las siguientes subsecciones se detallan y comentan cada uno de los pasos del algoritmo desarrollado. 1.3.1 Ranking de genes utilizando PEB Como se ha comentado en la sección 1.2.2, el elevado número de variables o caracterı́sticas comparado con el número de muestras en los datos procedentes de microarrays de expresión hace necesaria una reducción de las mismas para evitar el sobre-entrenamiento cuando se utilizan algoritmos de aprendizaje supervisado. Para ello se ha optado una aproximación de filtrado. En la implementación desarrollada a cada una de las variables o genes se le asigna un coeficiente de relevancia que establece un ranking entre ellas. Ası́ las variables predictivas quedan ordenadas respecto a las clases seleccionándose las k primeras para inducir con ellas. En las primeras posiciones del ranking aparecerán las variables que despejan una mayor cantidad de incertidumbre en el problema, mientras que en las zonas finales estarán aquellos atributos sin aparente relación con el problema abordado. Para establecer el ranking de los genes se utiliza el método Bayesiano Empı́rico Paramétrico (Parametric Empirical Bayes method, PEB) (Lo and Gottardo, 2007) basado en el análisis de la señal de expresión. Los fundamentos teóricos de este método han sido presentados en la sección 1.2.2.1. PEB busca los genes que presentan una expresión diferencial significativa cuando se comparan las muestras en un estado frente a los demás (One Versus Rest, OVR) y devuelve las probabilidades posteriores de expresión diferencial para cada uno de los genes en cada estado. Además el algoritmo implementado para geNetClassifier calcula la diferencia de la media de expresión de cada gen en cada estado respecto al resto. Utilizando estos dos estadı́sticos, la probabilidad posterior y la diferencia de medias, los genes son ordenados en base a su relevancia. Para lograr una mayor especificidad el ranking se construye con la condición de que cada gen no puede estar presente en más de una lista siendo asignado únicamente a la lista del estado en el que es más relevante. Con ello se consigue que no haya solapamiento entre los genes de cada estado. 15 Clasificador multiclase basado en expresión génica: geNetClassifier 1.3.2 Selección de genes como variables para la clasificación El objetivo de este paso del algoritmo es la selección del número de genes mı́nimo que permita construir el clasificador óptimo. El problema se centra en el establecimiento de un punto de corte que seleccione un número concreto de los genes con mejores posiciones en el ranking para ser utilizados como variables en la construcción del clasificador y lograr la menor tasa de error posible. El algoritmo diseñado para establecer el número mı́nimo de genes que proporcionan el menor error de clasificación consiste en la construcción de clasificadores con un número creciente de genes, comenzando con un gen para cada clase y añadiendo un gen más en cada paso tomado por orden en el ranking. Para cada uno de los clasificadores construidos se evalúa la tasa de errores utilizando validación cruzada. El número de genes seleccionado se corresponderá con aquel que alcance la tasa de error mı́nima. Este algoritmo aparece representado en la figura 1.7. Repeat n times Start Gene List -> Error Gene List -> Error ... Gene List -> Error Get List With Min Error Min Error Gene List Gene Ranking Calculate Cross Validation Error SVM Class 1 ... Class X ... Class N Gene 11 Gene X1 Gene N1 Gene 12 Gene Xj Gene N2 ... ... Gene Xn TRUE ... Gene List Max Iterations? OR CV Error = 0? Add Gene to Gene List FALSE Gene Xj Get Class With Max Error Get Next Gene In Class Class X Figura 1.7: Esquema con el proceso de selección de genes - Las flechas continuas representan el flujo de ejecución y las flechas discontinuas representan el acceso o la escritura de datos. El número de genes seleccionado varı́a ligeramente en diferentes ejecuciones debido a la aleatorización de las muestras en la validación cruzada. Para lograr una mayor estabilidad todo el proceso se repite un número n de veces (n = 6 por defecto). Finalmente el número de genes óptimo elegido será el mayor número de genes seleccionado en cada una de las iteraciones, excluyendo aquellos considerados atı́picos (outliers). El hecho de tomar este número de genes en lugar de la media o el número mı́nimo aumenta la sensibilidad del predictor y permite la segregación de muestras que, con un número menor de genes, no habrı́an podido ser correctamente clasificadas. Un ejemplo del número de genes seleccionado en cada iteración para cada clase se puede ver en la figura 1.8 que corresponde a la clasificación de muestras en cinco clases: cuatro tipos de leucemias y una quinta clase normal no leucemia. Las barras sólidas representan el número de genes finalmente elegido para cada una de las clases: 4 para ALL, 11 para AML, 1 para CLL, 8 para CML y 9 para NoL. Este número de genes serán tomados por orden del ranking establecido y serán las variables utilizadas en la construcción del clasificador final. 16 Capı́tulo 1 Figura 1.8: Número de genes con tasas de error mı́nimas - Las barras representan para cada clase el número de genes que han proporcionado las tasas de error mı́nimas en 6 iteraciones del algoritmo. Cada color representa una iteración y las barras sólidas el número de genes final seleccionado. 1.3.3 Construcción del clasificador y búsqueda de genes marcadores El método de aprendizaje automático seleccionado para la clasificación ha sido SVM. Las principales caracterı́sticas que han llevado a esta elección han sido comentadas en la sección 1.2.1. Se ha utilizando la implementación para multiclase One-Versus-One (mcSVM-OvO) con kernel lineal proporcionada en el paquete de R e1071. El método SVM es transparente, es decir la utilización de este tipo de clasificador nos permite obtener información acerca del papel de cada gen (cada variable) en la clasificación y la importancia del mismo en el establecimiento de las fronteras entre las diferentes clases. De esta manera podemos ahondar en la biologı́a subyacente a la clasificación. Al utilizar una aproximación OvO, la SVM define un conjunto de vectores soporte para la separación de cada par de clases. Estos vectores soporte incluyen los coeficientes de Lagrange para cada coordenada o cada gen. Utilizando una combinación de estos coeficientes podemos obtener una medida del poder discriminatorio de cada gen respecto a cada par de clases. Una representación de este poder o valor discriminante para el gen VPREB1 puede verse en la figura 1.9 donde cada barra representa los coeficientes de Lagrange apilados en cada clase. De este modo, se puede definir el parámetro ”poder discriminante”(discriminant power) de cada gen como la diferencia entre las clases con los valores máximos de la suma sus coeficientes de Lagrange. En el gráfico aparace representado como la diferencia entre la mayor barra (que indica la clase que mejor marca) y la siguiente barra más cercana. Esta distancia se corresponde a la separación entre las dos lı́neas rojas marcadas en la figura 1.9. Este poder discriminante es un nuevo parámetro clave que nos permite identificar los genes que mejor distinguen las clases de entre todos los utilizados en la clasificación y, de este modo, aporta información adicional respecto a los genes seleccionados. 1.3.3.1 Aplicación del clasificador para la asignación a clase Una vez seleccionados los genes que se utilizarán como variables en el clasificador, éste es entrenado con las muestras disponibles para la identificación del estado o fenotipo de un nuevo individuo 17 Clasificador multiclase basado en expresión génica: geNetClassifier Figura 1.9: Poder discriminante Representación del poder discriminante para el gen VPREB1 como la diferencia entre los dos valores mayores de la suma máxima de los coeficientes de Lagrange de los vectores soporte para cada clase. o muestra. El método SVM utilizado proporciona las probabilidades de asignación de una muestra problema a cada una de las clases, sin embargo, muchas veces resulta difı́cil distinguir a cuál de las clases es posible asignar la muestra. Por ello se ha desarrollado dentro del algoritmo de clasificación un paso que tiene en cuenta estas probabilidades de asignación, pero también el número de clases a distinguir y la probabilidad de confusión con el resto. Para asignar una muestra a una clase determinada se deben cumplir dos condiciones: 1. La probabilidad de asignación proporcionada por el clasificador deber ser al menos el doble que la probabilidad al azar. 2. La diferencia de probabilidad con la siguiente clase más probable debe ser también mayor que 0.8 veces la probabilidad al azar. Por ejemplo, para asignar una muestra a una determinada clase en un clasificador que trata de discernir entre 5 clases, la probabilidad de asignación debe ser al menos del 40 % (2∗20 %) y la mı́nima probabilidad de confusión con otras clases tiene que ser del 16 % (0.8 ∗ 20 %). Es decir, si la probabilidad de asignación a 2 de las clases es del 50 % y del 40 % respectivamente, esa muestra no será asignada. Esta situación es equivalente a la acción de un experto cuando no emite un juicio debido a que no está seguro. Utilizando esta estratégia no todas las muestras serán identificadas o incluidas dentro de alguna de las clases, sin embargo se logra que el número de falsos positivos o error de tipo I (False Positives, FP) disminuya. El objetivo buscado es un equilibrio entre los FP y el call rate o porcentaje de asignación de las muestras: Call rate = Asignados Asignados + No Asignados (1.6) La figura 1.10 muestra una representación de la probabilidad de asignación a la clase más probable frente a la diferencia de las probabilidades entre las dos clases más probables. Esta representación permite ver los efectos de la variación de los umbrales de asignación establecidos. Con los umbrales establecidos por defecto 5 muestras, de un total de 50, quedarı́an sin asignar a ninguna clase 18 Capı́tulo 1 (not-assigned), disminuyendo el call rate, pero sin incrementar el número de falsos positivos ya que la muestra en rojo, erróneamente clasificada no es asignada. Figura 1.10: Estrategia de asignación - Probabilidades de asignación de un conjunto de muestras a la clase más probable frente a la diferencia entre las dos clases más probables. Las lı́neas verticales representan los umbrales utilizados en el algoritmo para el caso de 5 clases. Se presenta la asignación de 50 muestras. 1.3.3.2 Estimación del error de generalización La estimación del error de generalización de un clasificador mediante validación cruzada (Cross Validation, CV) una vez que han sido seleccionados los parámetros y variables óptimas en un determinado estudio es un estimador sesgado el error real del clasificador puesto que deja fuera de dicha estimación todo el proceso de selección y ajuste de parámetros y variables. Para lograr un estimador independiente que tenga en cuenta todo el proceso se han desarrollado estrategias más robustas de estimación del error de generalización basadas en la aplicación de métodos de validación cruzada durante la construcción de los clasificadores. En concreto, la validación cruzada anidada o doble (Double-Nested Cross Validation, nCV) reduce considerablemente el sesgo y proporciona una estimación del error del método de clasificación mucho más ajustada a la que se corresponderı́a con un conjunto de datos independiente (Varma and Simon, 2006). En la nCV se simula una validación independiente añadiendo un segundo bucle de CV sobre el inicial utilizado para la estimación del número óptimo de genes. Un ejemplo simplificado para entender el funcionamiento es el mostrado en la figura 1.11. El conjunto de datos total se divide en r grupos mutuamente excluyentes (r-Fold Cross Validation). El error es estimado en el bucle externo (outer loop) y el bucle interno (inner loop) determina el valor óptimo de los parámetros/variables, 19 Clasificador multiclase basado en expresión génica: geNetClassifier Split Samples Outer Loop Training Set Sample 1 Sample 2 ... Sample k-1 Sample 3 Sample k+1 Sample k Sample k+2 ... Sample n Split Samples Inner Loop Test Set Sample i Test Set ... Sample j Training Set Sample j+1 ... Sample n-1 Adjust Parameters Sample j+2 Sample n Figura 1.11: Validación cruzada doble/anidada (nCV) - Simplificación del esquema de nCV implementado. Comprende dos bucles, un bucle interno para la estimación del número de variables a utilizar en la clasificación y otro externo para la evaluación y estimación del error de generalización. Evaluate Train Generalization Error en nuestro caso el número de genes. Es importante resaltar que para obtener una estimación válida del error de generalización todos los pasos del algoritmo, incluyendo la selección de genes, tienen que estar integrados dentro de la estrategia de CV. La estimación del error de generalización se basa en el cálculo de tres parámetros: 1. Sensibilidad o tasa de verdaderos positivos (True Positive Rate, TPR) sensibilidad(T P R) = TP TP + FN (1.7) 2. Especificidad o tasa de verdaderos negativos (True Negative Rate, TNR) especif icidad(T N R) = TN TN + FP (1.8) 3. Coeficiente de correlación de Matthews que mide de modo equilibrado el balance entre verdaderos y falsos positivos y negativos (Matthews Correlation Coefficient, MCC). TP ∗ TN − TP ∗ FN M CC = p (T P + F P )(F P + F N )(T N + F P )(T N + F N ) (1.9) 1.3.4 Asociación entre genes marcadores en cada clase Entre los genes situados en las cabeceras del ranking de expresión diferencial aparecen algunos con perfiles de expresión similares. Estos genes asociados o relacionados podrı́an considerarse variables redundantes y poco útiles en la clasificación.De hecho la eliminación de variables dependientes para reducir el conjunto de variables de entrada óptimo para la clasificación sin que 20 Capı́tulo 1 se reduzca, a priori, el rendimiento del clasificador constituye un tema muy estudiado (Ding and Peng, 2005; Liu et al., 2009, 2011). Sin embargo, estas asociaciones entre genes marcadores pueden resultar muy útiles desde el punto de vista biológico. La identificación de conjuntos de genes asociados desregulados de la misma manera en un estado patológico puede ayudar en la identificación de los procesos o funciones en los que es posible que estén cooperando. El estudio de estas asociaciones se aborda desde dos perspectivas complementarias. Por un lado se analiza la co-modulación de los genes mediante un análisis de coexpresión. Por otro lado se analiza la cantidad de información que un gen puede aportar sobre la modulación de otro mediante el análisis de la información mutua entre cada par de genes. El análisis de coexpresión está basado en el cálculo de la correlación de Pearson entre cada par de genes: n P (Xi − X)(Yi − Y ) i=1 s r=s (1.10) n n P P (Yi − Y )2 ( Xi − X)2 i=1 i=1 La interacción o dependencia entre cada par de genes ha sido estimada mediante el cálculo de la información mutua: XX P (x, y) I(X; Y ) = P (x, y) log (1.11) P (x)P (x) y∈Y x∈X Las correlaciones e interacciones calculadas entre cada par de genes permiten la construcción de redes de genes basadas en la asociación gen a gen. La identificación de módulos con alta densidad de conexiones permite descubrir grupos de genes que pueden estar siendo modulados conjuntamente o bien implicados en el mismo proceso biológico. En el ejemplo de la figura 1.12 se muestra la red construida para un tipo de leucemia. En esta red se aprecia un módulo o grupo de genes sobre-expresados (en rojo) y otro conjunto más pequeño de genes reprimidos o infra-expresados (en verde). La mayorı́a de las asociaciones entre genes corresponden en este caso a coexpresión (lineas azules). 1.4 Aplicación a datos de leucemia Las leucemias constituyen un conjunto de enfermedades caracterizadas por una proliferación hematopoyética anómala. Ciertos tipos de células sanguı́neas se multiplican a un ritmo superior al normal y no se diferencian de modo adecuado, dando lugar a masas neoplásicas que impiden el desarrollo de los demás tipos celulares hematológicos. Dependiendo de la evolución de la enfermedad y de la lı́nea celular a la que afectan las leucemias se pueden clasificar en agudas (A) o crónicas (C), mieloides (ML) o linfoides (LL). Las leucemias agudas se caracterizan por un aumento muy rápido de las células inmaduras, lo que impide que la médula ósea pueda producir las sanas correctamente. La crónica sin embargo, se distingue porque aunque puede producir las células maduras, éstas siguen siendo de alguna forma más numerosas y además defectuosas. Su progresión puede llevar meses o incluso años y suele darse principalmente en ancianos (i.e. personas mayores de 65 años). Las leucemias linfoides, se denominan ası́ porque las células afectadas son aquellas que dan lugar a los linfocitos. Las mieloides, afectan a los mielocitos, que posteriormente se desarrollan 21 Clasificador multiclase basado en expresión génica: geNetClassifier Figura 1.12: Red de interacción para Leucemias Agudas Linfoblásticas - Red de genes obtenida calculando correlaciones e información mutua. En verde genes reprimidos en ALL y en rojo sobreexpresados. Aparecen representados con cuadrados los genes utilizados para la construcción del clasificador con tamaño en función del poder discriminante. en glóbulos rojos, blancos o plaquetas. Un esquema del proceso de diferenciación de las células sanguı́neas puede verse en la figura 1.13. Según lo descrito, existen cuatro grandes clases de leucemias que son las siguientes: 1. 2. 3. 4. Leucemia linfoblástica aguda (Acute Lymphoblastic Leukemia, ALL) Leucemia mieloide aguda (Acute Myeloid Leukemia, AML) Leucemia linfocı́tica crónica (Chronic Lymphocytic Leukemia, CLL) Leucemia mieloide crónica (Chronic Myeloid Leukemia, CML) En esta sección se aplicarán los algoritmos desarrollados sobre un conjunto de 50 muestras humanas de pacientes con leucemia analizados con microarrays de expresión de Affymetrix modelo HG U133 plus 2.0. Este conjunto consiste en 10 muestras de cada uno de los tipos principales descritos: ALL, AML, CLL y CML; más un conjunto de 10 muestras de individuos sanos (NoL). Con la aplicación de los algoritmos desarrollados se pretende encontrar la firma molecular génica propia de cada uno de estos tipos de leucemia y construir un clasificador que permita diferenciar los diferentes subtipos. El clasificador proporcionará datos acerca de los genes que constituyen dicha firma molecular candidatos a ser biomarcadores en cada una de las clases. 1.4.1 Ranking de genes asociados a cada subtipo de leucemia El análisis de las probabilidades posteriores de los genes calculadas con PEB en el primer paso del algoritmo permite comparar las diferentes clases o estados patológicos estudiados proporcionando un tamaño aproximado de las firmas moleculares para cada uno de ellos. Observando el número 22 Capı́tulo 1 Figura 1.13: Esquema de la hematopoyesis - Evolución y diferenciación de las células sanguı́neas en las dos lı́neas principales mieloide y linfoide a partir de las células madre hematopoyéticas (HSCs) que se encuentran en la médula ósea. (Fuente: www.genome.gov). de genes con probabilidades posteriores por encima de un umbral común (por ejemplo 0.75), podremos comparar los estados patológicos y distinguir cuáles están asociados con la desregulación de una mayor cantidad de genes y por tanto de procesos. ● ● ● ● 0.8 1.0 En el ranking de genes para los 4 subtipos de leucemia se puede observar que el número de genes asociados a cada uno ellos es muy diferente. La figura 1.14 muestra la distribución de genes ordenados en base a las probabilidades posteriores de expresión diferencial para cada subtipo de leucemia. Tan sólo 308 genes están asociados a AML con una probabilidad posterior mayor que 0.75, mientras que para la misma significación estadı́stica CLL incluye más de dos mil. Esto sugiere que en AML están afectados procesos muy concretos, mientras que CLL serı́a una enfermedad más sistémica, con más genes afectados y procesos desregulados. ● 0.6 ● 0.4 ● ALL (1116 genes) AML (308 genes) CLL (2028 genes) CML (1043 genes) NoL (217 genes) ● ● 0.2 Posterior Probability Threshold=0.75 ● ● ● ● 0.0 ● 0 500 ● ● ● ● ● ● ● ● ● ● 1000 ● ● ● 1500 ● ● ● ● ● 2000 Gene Rank Figura 1.14: Distribución de probabilidades posteriores de expresión diferencial en 4 subtipos de leucemia - Genes ordenados en base a su probabilidad posterior para cada uno de los subtipos de leucemia. En la leyenda se indica el número de genes con probabilidad posterior > 0.75. 23 Clasificador multiclase basado en expresión génica: geNetClassifier 1.4.2 Genes seleccionados para cada subtipo de leucemia Como se ha descrito, el algoritmo de clasificación utiliza el orden de los genes en el ranking para guiar la selección de variables que servirán para distinguir cada uno de los subtipos patológicos o clases. El clasificador que obtuvo una mayor precisión para la diferenciación de los 4 subtipos de leucemias ha sido construido con 34 genes distribuidos entre las clases como indica la tabla 1.1. ALL 8 AML 5 CLL 4 CML 4 NoL 13 Tabla 1.1: Número de genes seleccionados para diferenciar cada tipo de leucemia La figura 1.15 presenta la evolución de las tasas de error de clasificación que se han obtenido con un número creciente de genes añadidos en el proceso de selección de variables. Cada uno de los colores representa una iteración de este proceso de selección. Como se observa los errores son estables en cada una de las iteraciones con tasas de error similares para el mismo número de genes. Figura 1.15: Tasas de error para distintos números de genes seleccionados - Tasas de error observadas en el proceso de validación de los clasificadores de leucemias construidos con un número creciente de genes. Cada color representa una de las n iteraciones (n=6). La tabla 1.4.2 contiene la lista con los genes marcadores de cada subtipo de leucemia seleccionados por el clasificador. Además del nombre del gen la tabla incluye: (i) la posición que ocupa en el ranking en la clase a la que ha sido asociado; (ii) el valor de la probabilidad posterior calculada con PEB; (iii) la diferencia entre el nivel de expresión medio del gen en las muestras de la clase que discrimina y el nivel medio de expresión en el resto de muestras; y (iv) el poder discriminante de cada gen derivado del clasificador. El valor de la probabilidad posterior de expresión diferencial aparece siempre como 1 en la tabla debido a los lı́mites de representación numérica en la aproximación a 1 (0.9999...) 24 Capı́tulo 1 Figura 1.16: Perfiles de expresión de genes asociados a leucemias - Niveles de expresión de los genes con mejor probabilidad posterior de expresión diferencial en cada subtipo de leucemia (VPREB1, HOXA9, TYMS y GJB6). Cada barra representa el nivel de expresión de un gen en una muestra. Las muestras están agrupadas de 10 en 10 en cada subtipo de leucemia. 25 Clasificador multiclase basado en expresión génica: geNetClassifier Gene VPREB1 ZNF423 DNTT EBF1 PXDN S100A16 CSRP2 SOCS2 HOXA9 MEIS1 CD24L4 ANGPT1 CCNA1 AC079767.3 TYMS FCER2 NUCB2 GJB6 PRG3 LY86 AC091062.1 IGHV3-23 IGLV3-19 IGKV4-1 IGLV1-47 FGF13 IGLV3-25 IGHV3-9 NMU SMPDL3A KLRB1 RNF182 RFESD SLC25A21 Ranking position 1 2 3 4 5 6 7 8 1 2 3 4 5 1 2 3 4 1 2 3 4 1 2 3 4 5 6 7 8 9 10 11 12 13 Class ALL ALL ALL ALL ALL ALL ALL ALL AML AML AML AML AML CLL CLL CLL CLL CML CML CML CML NoL NoL NoL NoL NoL NoL NoL NoL NoL NoL NoL NoL NoL Posterior probability 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Mean expression difference 6.33 5.10 6.89 5.42 5.04 4.34 4.05 4.54 4.44 3.28 -4.49 2.74 2.56 6.51 -5.52 4.59 -5.61 5.25 4.98 -2.20 2.43 3.49 2.74 2.66 2.35 2.69 2.47 2.11 1.97 1.95 2.23 1.84 2.37 1.49 Discriminant power 9.74 12.77 8.58 10.50 8.31 11.12 8.98 7.77 7.78 10.84 -2.99 10.03 10.15 11.83 -10.49 7.65 -10.95 6.40 5.95 -4.22 3.68 4.85 5.81 3.10 3.76 -1.50 -2.49 4.94 4.42 4.74 4.71 2.36 5.61 8.24 Tabla 1.2: Genes seleccionados para diferenciar cada tipo de leucemia Los perfiles de expresión del primer gen de la tabla para cada clase (VPREB1, HOXA9, TYMS y GJB6) se pueden ver en la figura 1.16, donde las lı́neas verticales representan el nivel de expresión del gen en cada una de las muestras. Cada uno de estos genes tiene una probabilidad posterior de expresión diferencial calculada con el método PEB. Además, el clasificador proporciona el poder discriminante, comentado en la sección 1.3.3. El orden de los genes establecido en base a la probabilidad de expresión diferencial no tiene porqué coincidir exactamente con el orden basado en el poder discriminante. Sin embargo ambas medidas pueden utilizarse conjuntamente para analizar los genes de interés en cada subtipo de leucemia analizado. Ası́ por ejemplo la probabilidad posterior de expresión diferencial del gen VPREB1 en ALL es muy alta, sin embargo su poder discriminante en el clasificador no lo es tanto (de hecho es menor que el poder discriminante de otros genes que están más abajo en el ranking). La figura 1.17 muestra el poder discriminante de los genes que ocupan las 4 primeras posiciones del ranking para AML, ordenados de izquierda a derecha. En este gráfico también se aprecia que MEIS1, homólogo humano de un gen murino conocido por su papel en el desarrollo de leucemia mieloide (Moskow et al., 1995; Smith et al., 1997) es el gen que mejor diferencia AML del resto, aunque sea HOXA9 el que presenta una mayor probabilidad posterior. La interacción entre ambos 26 Capı́tulo 1 genes ha sido además reportada en células mieloides indicando que sobre-expresión de ambos genes es sufiente para la inducción de leucemia mieloide en ratones (Shen et al., 1999). Figura 1.17: Poder discriminante - Representación que muestra el parámetro definido como poder discriminante para los genes que ocupan las 4 primeras posiciones del ranking de expresión diferencial para AML. 1.4.3 Estimación del error de generalización para el clasificador de leucemias En la figura 1.15 se observa que el error cometido al clasificar los 4 tipos de leucemias siempre tiende a 0 o está muy cerca de 0 cuando se llega a un número óptimo suficiente de genes. Esta estimación del error con validación cruzada es una medida aproximada que, muchas veces, puede ser optimista respecto a los valores reales de clasificación con muestras independientes. Una estimación más robusta es la validación cruzada anidada (nCV) descrita en 1.3.3.2. En la tabla 1.4.3 se proporcionan los valores de sensibilidad, especificidad y el coeficiente de correlación de Mathew (MCC) para cada una de las clases, ası́ como el call rate o porcentaje de muestras clasificadas utilizando nCV. 27 Clasificador multiclase basado en expresión génica: geNetClassifier ALL AML CLL CML NoL Sensibilidad 100 100 100 100 100 Especificidad 100 100 100 100 100 MCC 100 100 100 100 100 Call Rate 90 80 90 100 90 Tabla 1.3: Parámetros de estimación del error de clasificación 1.5 Discusión Los perfiles de expresión génica derivados de datos de microarrays han sido ampliamente utilizados para construir clasificadores o predictores utilizando diferentes técnicas de aprendizaje automático (machine learning, ML). Una de las aplicaciones principales de esta tecnologı́a es la clasificación de tipos y subtipos de enfermedades. El problema fundamental que surge en este escenario es la identificación de las mejores caracterı́sticas para la clasificación, es decir aquellas que no solamente reduzcan al mı́nimo los errores cometidos sino que tengan un sentido biológico coherente con las enfermedades analizadas. De hecho la mayorı́a de los métodos funcionan como una caja negra respecto a las entidades biológicas tras la clasificación, y por tanto no resultan útiles en la identificación de los procesos biológicos subyacentes. Por otro lado, los métodos de clasificación más frecuentemente usados son binarios –es decir, para asignación entre dos clases– y no suelen permitir la opción de no-asignación que se darı́a cuando hay duda en el sistema experto, como sucede frecuentemente en las asignaciones dadas por expertos humanos. En este capı́tulo se ha propuesto un algoritmo diseñado para la construcción de clasificadores multiclase que permitan identificar qué genes están asociados a cada una de las clases y en qué grado. El método incluye la posibilidad de no-asignación y, además, proporciona para cada clase una red de genes derivada que facilita la interpretación de los procesos biológicos asociados. Estas redes pueden ser estudiadas mediante el análisis de los módulos o conjuntos de genes más conectados o relacionados. La definición de las entidades que van a ser utilizadas como variables es un aspecto que normalmente no se tiene en cuenta en los trabajos centrados en la clasificación de estados patológicos a partir de datos genómicos. La mayorı́a de estos trabajos toma los niveles de expresión de los probesets como variables en lugar de los genes en su definición biológica más exacta. Si el punto de partida del método se corresponde a entidades definidas arbitrariamente la dificultad de encontrar el procesos coherentes en los resultados obtenidos se ve incrementada. De este modo, una redefinición y mapeo de las sondas directamente sobre los loci génicos reduce parte del ruido inherente a la tecnologı́a genómica utilizada, solucionando inconsistencias como el hecho de que los valores de los probesets asociados a un mismo gen presente niveles de expresión diferentes. El análisis de los genes asociados a cada una de las clases proporciona una idea general acerca de la complejidad de las enfermedades estudiadas. Aquellas con un número alto de genes significativamente asociados es probable que afecten a procesos o funciones más generales o a un mayor número de ellos. Además se proporciona información del poder discrimiante de cada uno de los genes de manera complementaria a la significación encontrada mediante el análisis de expresión diferencial, lo que da una idea independiente de la relevancia de cada gen en la clasificación. Una de las técnicas más utilizadas para la selección de variables es la identificación y eliminación de las asociaciones o dependencias entre las mismas para minimizar las redundancias, criterio MRMR (Minimum Redundancy-Maximum Relevance) (Ding and Peng, 2005). En la teorı́a general 28 Capı́tulo 1 de aprendizaje computacional (ML) se plantea que eliminando estas redundancias se mantiene el poder predictivo y se disminuye el número de variables necesarias para la clasificación. El método propuesto permite la identificación y la eliminación de estas asociaciones, sin embargo la información de las relaciones entre los genes es mantenida y utilizada en la construcción de redes de interacción como un paso más hacia la interpretabilidad biológica de los resultados. En conclusión el algoritmo desarrollado geNetClassifier proporciona un método de clasificación robusto asegurado mediante validación cruzada anidada y centrado en el acceso transparente a las entidades biológicas que clasifican. El algoritmo multiclase propuesto constituye una ventaja frente a las aproximaciones tradicionales focalizadas en la minimización de los errores de clasificación sin tener en cuenta su interpretabilidad. 29 Capı́tulo 2 Análisis de alteración de número de copias de DNA en cáncer 2.1 Introducción: Alteración del número de copias de DNA El presente capı́tulo se centra en el análisis del DNA genómico humano, concretamente en el análisis de las alteraciones de número de copias de DNA que sufren las células en determinadas patologı́as o situaciones de transformación. En inglés estas alteraciones se denominan habitualmente Copy Number Alterations y se citan con el acrónimo CNA. En esta sección se definen los conceptos básicos de CNA y las plataformas genómicas experimentales de tipo microarrays que permiten la cuantificación de este tipo de datos de una manera global. Las siguientes secciones de este capı́tulo describen el flujo de trabajo y metodologı́as desarrolladas para el análisis de CNA. En los últimos años han sido desarrollados numerosos métodos para la normalización y segmentación como CRMAv2 (Bengtsson et al., 2009) o CBS (Venkatraman and Olshen, 2007). Sin embargo, el consenso de metodologı́as para lograr un análisis robusto de series con múltiples muestras para datos de número de copias no es tan firme como las metodologı́as actualmente usadas para datos de expresión. Por este motivo el capı́tulo se divide en dos secciones diferenciadas: (i) primero sobre el preprocesamiento y normalización de muestras individuales; (ii) segundo sobre el análisis unificado de conjuntos de muestras. Además, dentro del análisis unificado se han desarrollado algoritmos para la detección de las regiones mı́nimas de alteración recurrente (Minimal Common Regions, MCR) ası́ como para la detección de regiones con puntos de ruptura recurrentes (Recurrent Breakpoint Regions, RBR). Por último, el trabajo incluye los resultados de la aplicación de los algoritmos diseñados a la identificación de regiones alteradas en muestras humanas de cáncer colorectal (Colo-Rectal Cancer, CRC). Este análisis permite identificar de forma consistente las regiones más significativamente alteradas en CRC. 31 Análisis de alteración de número de copias de DNA en cáncer 2.1.1 Definición de alteración del número de copias de DNA La gran mayorı́a de los organismos eucariotas metazoos –incluyendo todos los mamı́feros– son organismos diploides. Esto significa que sus células tienen dos copias del genoma completo, es decir, dos copias de cada una de las moléculas de DNA que constituyen los cromosomas. En el caso del ser humano las células somáticas normales cuentan con 46 cromosomas, 23 pares de cromosomas, de los cuales 22 pares son iguales (llamados autosomas) y un par son los cromosomas sexuales (llamados heterocromosomas X e Y) que son iguales en la mujer (XX) y diferentes en el hombre (XY). La diploidı́a celular se mantiene bien controlada en las células somáticas durante su replicación. De este modo, en la división de la célula en dos células hijas –que es el proceso conocido como mitosis–, cada molécula de DNA es replicada y cada nueva célula hija recibe una copia de ese DNA. Algunas veces durante este proceso se producen errores que conllevan cambios en las moléculas de DNA y por tanto en el genoma. Hay diferentes tipos de errores que pueden ir desde modificaciones de secuencia en una única base nucleotı́dica (Single Nucleotide Polymorphism, SNP) a alteraciones que pueden afectar a todo un cromosoma. Algunos de estas modificaciones como mutaciones puntuales, translocaciones o inversiones no afectan al número de copias de DNA, sin embargo otras modificaciones sı́ pueden afectarlo. En este capı́tulo nos centraremos únicamente en aquellas alteraciones que pueden modificarlo. Una alteración del número de copia de DNA (Copy Number Alteration, CNA) es el incremento o disminución patológica de una parte del genoma que puede abarcar desde un cromosoma entero a un segmento de pocos cientos o miles de pares de bases. Las CNAs son de dos tipos principales: • Ganancias o amplificaciones en las que un segmento de DNA se replica más de una vez, con lo que el número de copia total de DNA correspondiente a esa región es mayor que 2 (siendo, com se ha indicado, el estado normal en los autosomas diploide, 2 copias). • Pérdida o deleción en la que un segmento de DNA se pierde, con lo que el número de copias totales de DNA en esa región pasa a ser 1 ó 0 (según se haya perdido una o ambas copias) . Las CNAs están involucradas en el desarrollo y progresión de diferentes tipos de enfermedades complejas, especialmente en cáncer. La amplificación de una región genómica que codifica un oncogén (Oncogene) o la deleción de una región que codifica un gen supresor tumoral (Tumor Suppressor Gene, TSG) puede contribuir a la transformación de una célula en tumoral. De este modo, mediante el estudio de estas CNAs es posible identificar aquellas regiones cuya alteración juega un papel importante en el desarrollo y progresión de la enfermedad. El fin último de la detección del número de copias de DNA es establecer las regiones cromosómicas asociadas al estado patológico y, en particular en cáncer, asociadas a la progresión tumoral, a la supervivencia de los enfermos o las posibilidades de éxito de determinados tratamientos (Kallioniemi, 2008). 2.1.2 Cuantificación del número de copias de DNA Existen diferentes plataformas experimentales que permiten la cuantificación de las CNAs midiendo los valores de número de copias de un genoma en posiciones concretas. Por un lado están las técnicas genómicas de gran escala y análisis masivo, como los microarrays de número de copias de DNA, y por otro las técnicas especı́ficas de pequeña escala que permiten estudiar un número reducido de regiones concretas, como la hibridación y marcaje con sondas fluorescentes in situ (Fluorescence In Situ Hybridization, FISH). En cuanto a los microarrays, hay dos tipos principales que permiten la cuantificación del número de copias: los arrays de CGH (Comparative Genomic 32 Capı́tulo 2 Hybridization, aCGH) y los arrays de SNPs (oligonucleotide-based Single Nucleotide Polimorfism arrays). 2.1.2.1 Arrays de CGH En los arrays de CGH cadenas largas de DNA con localizaciones genómicas conocidas están inmovilizadas en cada spot del array. El DNA de la muestra problema (test sample) -muestra del tumor en el caso de estudios de cáncer- junto con el de una muestra de referencia normal (reference sample), marcados con diferentes fluoróforos, se hibridan sobre el chip. Normalmente estos arrays son de tipo ”dos-colores.o ”dos-canales”(two-channel arrays), mezclándose la muestra problema y la referencia tras el marcaje respectivo de cada una con un tipo de fluoróforo (por ejemplo los cyanine: verde Cy3 y rojo Cy5). Las intensidades de fluorescencia de ambas muestras se miden y se comparan calculando la relación entre ellas, es decir, el ratio normalmente transformado a escala logarı́tmica (log-ratio). Este ratio es un valor que permite estimar la diferencia en el número de copias entre las dos muestras hibridadas para una determinada localización en el genoma. La figura 2.1 muestra una representación esquemática del proceso de hibridación en este tipo de arrays. Reference DNA Test DNA Hybridizeto arrays Cy5 Block repeats with COT-1 DNA Block repeats with COT-1 DNA Cy3 Cy5 Cy3 Detect and quantify signals Test DNA Spurious signal Duplication Reference DNA 1.5 1.0 0.5 Deletion Figura 2.1: Arrays de CGH. - Representación esquemática de la hibridación de microarrays de CGH de tipo ”dos-colores”(Cy3 y Cy5). Modificado de (Feuk et al., 2006). Si, por ejemplo, el número de copias en un determinado locus es mayor en el tumor que en la referencia una mayor cantidad de moléculas de DNA tumoral hibridarán en el spot del micorray que representa ese locus, mientras que, comparativamente, la cantidad de moléculas de la referencia será menor. Las localizaciones de estos loci se corresponderán con genes que probablemente estén asociados con dicho tumor. El análisis de este tipo de datos siempre se realiza de una manera comparativa tomando los ratios (test / referencia) y nunca cuantificando los valores absolutos de hibridación de una única muestra. 2.1.2.2 Arrays de SNPs Los arrays de SNPs fueron inicialmente diseñados para detectar polimorfismos en el DNA genómico en una población. Los polimorfismos de un único nucleótido (Single Nucleotide Polimorfism, 33 Análisis de alteración de número de copias de DNA en cáncer llamados SNPs, son las variaciones más frecuentes en el genoma y se definen como variaciones de una única base en la secuencia de DNA en al menos un 1 % de la población. Los arrays de SNPs disponibles en el mercado son microarrays de oligonucleótidos de alta densidad. Estos arrays son de tipo ün-color.o ün-canal”(single-channel arrays). En su diseño, descrito de modo básico, constan de una superficie sólida de material inerte que hace de soporte sobre el que se inmovilizan de modo ordenado (en pequeñas áreas bien definidas) cadenas cortas de DNA de hebra simple (oligonucleótidos) con secuencias especı́ficas del DNA o del genoma que se quiere testar. Sobre estas micro áreas o celdas, que son de miles a cientos de miles en un array, se hibrida una muestra del DNA problema preparado adecuadamente con pasos de digestión, amplificación, fragmentación y marcaje. La fluorescencia que marca la muestras permite una lectura y cuantificación precisa, realizada con aparatos diseñados para ello. La figura 2.2 tomada de Affymetrix Genome-Wide Human SNP Array 6.0 data sheet muestra de manera esquemática el proceso de hibridación de un array de SNPs. Este tipo de arrays de SNPs han demostrado un mejor rendimiento que aCGH en la detección de ganancias o pérdidas de una sola copia de diferentes tamaños genómicos (Hehir-Kwa et al., 2007). Figura 2.2: Arrays de SNPs. - Representación esquemática de la hibridación de microarrays de SNPs de tipo ün-color”. (Fuente: www.affymetrix.com) Para cada uno de los SNPs, el microarray contiene sondas para interrogar cada uno de los alelos (A y B) pudiendo corresponder a 3 formas: monocigótica AA, heterocigótica AB ó monocigótica BB. La cuantificación de cada alelo independientemente se debe a que estos microarrays fueron diseñados para la detección del ”genotipo”de cada SNP; es decir, el genotipado de miles de polimorfismos simples a la vez. El análisis del genotipo permite estudiar la susceptibilidad de cada individuo a determinadas enfermedades cuando éstas están ligadas a ciertos genes (expression Quantitative Trait Loci, eQTL). También estos microarrays pueden ser utilizados para buscar la combinación de diferentes SNPs como marcadores genéticos en estudios llamados de .asociación genómica”(Genome Wide Association Studies, GWAS). En todos estos tipos de estudios el problema principal es que se necesitan siempre cientos o miles de muestras, y por ello de microarrays, para lograr un análisis estadı́stico robusto. Sin embargo, en los últimos años los arrays de SNPs han sido utilizados de modo muy eficiente en la determinación del número de copias de DNA. 34 Capı́tulo 2 Figura 2.3: Técnica FISH - Esquema del método de hibridación in situ con fluorescencia. (Fuente: National Human Genome Research Institute, NHGRI, www.genome.gov). Otra ventaja que presenta la utilización de los arrays de SNPs aplicados al cálculo del número de copias es la posibilidad de detección de la pérdida de heterocigosidad (Loss of Heterozygosity, LOH). La LOH ocurre cuando de los dos alelos presentes de un gen uno está mutado y el alelo normal se pierde. Por ejemplo, si se produce una mutación maligna en un gen supresor tumoral que hace que este gen ya no sea funcional y la segunda copia funcional del gen desaparece, es posible que se desencadene un proceso tumoral. Si el gen que presenta esta LOH tiene un número de copias normal diploide (copy-neutral LOH) es posible detectarlo mediante arrays de SNPs, pero no mediante arrays de CGH. Existen diferentes plataformas y compañı́as que proporcionan arrays de SNPs con caracterı́sticas similares como Affymetrix, NimbleGen, Illumina o Agilent. El flujo de trabajo desarrollado para este tipo de datos ha sido diseñado y probado con arrays de SNPs de Affymetrix. Sin embargo, una vez realizada la normalización en el preprocesamiento de los datos, que es dependiente de la plataforma y del tipo de arrays, el resto de los algoritmos desarrollados pueden ser aplicados independientemente del tipo especı́fico de array y plataforma utilizados. 2.1.2.3 Hibridación in situ con fluorescencia, FISH La hibridación in situ con fluorescencia (Fluorescence In Situ Hybridization, FISH) es una técnica de marcaje de cromosomas mediante la cual los cromosomas son hibridados con sondas que emiten fluorescencia y que, gracias a ello, permiten la visualización y distinción de los cromosomas ası́ como de las anomalı́as que puedan presentar. La técnica FISH se basa en la utilización de fragmentos de DNA de secuencia especı́fica, denominados sondas, que corresponden a regiones concretas del genoma y que son etiquetados con una sustancia fluorescente. Estas sondas marcadas se unen por hibridación especı́fica al DNA y permiten identificar los cromosomas y regiones cromosómicas correspondientes utilizando microscopı́a fluorescente. Un esquema de FISH puede verse en la figura 2.3. Esta técnica se emplea sobre todo para la detección de grandes deleciones, duplicaciones o translocaciones en células tumorales ya que se realiza sonda a sonda y no a escala genómica. La técnica de FISH tiene una resolución mucho menor que cualquiera de los arrays comentados anteriormente de cara al mapeo de alteraciones en todo el genoma; sin embargo, ha sido una técnica muy utilizada en estudios citogenéticos y actualmente es todavı́a muy usada como técnica experimental de validación de series de pacientes para pequeños conjuntos de sondas especı́ficas seleccionadas. 35 Análisis de alteración de número de copias de DNA en cáncer 2.2 Preprocesamiento: Análisis de muestras individuales El preprocesamiento de los datos tiene un efecto significativo en el aumento de la resolución en la detección de alteraciones de número de copias de DNA alcanzable con las diferentes plataformas de microarrays de oligonucleótidos de alta densidad (Hehir-Kwa et al., 2007). El preprocesamiento incluye las operaciones preliminares sobre los datos de fluorescencia hasta llegar a obtener un valor que cuantifique el número de copias de DNA para cada región. Se lleva a cabo de manera independiente para cada una de las muestras y sin establecer asociaciones con la enfermedad estudiada o con ningún tipo de variable. Comprende tres pasos principales: (i) cálculo de la señal cruda normalizada, (ii) segmentación y (iii) discretización. 2.2.1 Cálculo de la señal cruda normalizada El primer paso en el análisis de número de copias de DNA es la obtención del número de copia estimado de cada sonda a partir de los datos de fluorescencia del dispositivo microarray usado. Este paso lo denominamos cálculo de la señal cruda normalizada (normalized raw signals), y se puede a su vez subdividir en varios pasos que son muy dependientes del tipo de dispositivo y tecnologı́a genómica que se use en el estudio. Incluye las correcciones respecto al ruido y a las distintas desviaciones posibles en la señal. Una vez minimizadas estas desviaciones mediante métodos de corrección y normalización, la señal de las diferentes sondas hibridadas será más fácilmente comparable. Como se ha indicado, los métodos concretos aplicados en este paso son muy dependientes de la tecnologı́a de cuantificación de DNA utilizada y del tipo de dispositivos empleados (fabricante, modelo, etc). Sin embargo, se pueden establecer, de manera general, un conjunto de procesamientos diferentes: 1. Eliminación de la señal de fondo o background: estima y sustrae la hibridación residual inespecı́fica que puede presentar cada array o cada una de las zonas del array. 2. Normalización interna del array: intenta corregir las diferencias entre la señal de las diversas sondas para hacerlas comparables. 3. Sumarización: suma de modo robusto las señales múltiples para asignar un único valor a cada región genómica teniendo en cuenta los valores de las sondas que mapean en la misma. Existen varios algoritmos que implementan variaciones sobre estos pasos entre los que cabe destacar dChip (Li and Wong, 2001), CNAG (Nannya et al., 2005), CRMA (Bengtsson et al., 2008) o CRMAv2 (Bengtsson et al., 2009) como los más utilizados. En este trabajo se ha utilizado CRMAv2, diseñado especı́ficamente para los arrays de SNPs de Affymetrix e implementado en el paquete de R aroma.affymetrix (http://www.aroma-project.org). Este método de cálculo de la señal cruda normalizada incluye concretamente los siguientes pasos (Bengtsson et al., 2009): 1. Estimación y corrección de la hibridación cruzada entre la señal de los pares de sondas de los distintos alelos para un mismo SNP, que son medidos por el valor Perfect Match del alelo A (PMA) y el Perfect Match del alelo B (PMB). 2. Estimación de la afinidad de cada sonda basada en su secuencia de aminoácidos mediante el ajuste de un modelo de afinidad para cada array usando sólo un subconjunto de sondas con valores neutrales de número de copia. Los valores de intensidad son corregidos en base a la suma de los efectos individuales de cada aminoácido en cada posición de la sonda. 3. Sumarización de la señal de las k sondas réplica que existen para cada SNP j en cada muestra i en cada uno de los alelos (A y B): θij . Esta sumarización puede realizarse mediante un modelo aditivo si las sondas para un SNP son réplicas idénticas: θijA = mediank (P Mijk ) 36 Capı́tulo 2 θijB = mediank (P Mijk ) θij = θijA + θijB O bien mediante un modelo multiplicativo en el que se tiene en cuenta la afinidad de cada sonda, si dichas sondas no son réplicas exactas sino que la posición del SNP está desplazada un número de nucleótidos dentro de la sonda: P Mik = φk ∗ θi + ξik 4. Corrección de los efectos debidos a la diferente longitud de los fragmentos de PCR. Este efecto surge al utilizar dos enzimas de restricción distintos en la fragmentación de las muestras. 5. Cálculo del número de copia crudo para cada SNP relativo a la referencia no alterada: CNij = log2 (θij /θRj ), donde θij y θRj son los valores de la señal sumarizadas de las sondas para cada SNP en las muestras problema y en las referencias, respectivamente. Como resultado de este proceso de cálculo de la señal normalizada obtenemos para cada SNP el valor estimado de su número de copia CNij , al que nos referiremos como log2ratio crudo. 2.2.2 Segmentación Los métodos de segmentación constituyen una familia de algoritmos que han sido aplicados recientemente a datos genómicos. Un algoritmo de segmentación divide un conjunto ordenado de datos en regiones de elementos adyacentes con valores similares. A cada uno de los segmentos identificados se les asigna un único valor que representará a todos los elementos en la región. Cada perfil genómico de número de copias puede verse entonces como una sucesión de segmentos que representan regiones homogéneas en el genoma. La aplicación de este paso en el preprocesamiento es posible debido a dos caracterı́sticas principales de los datos de número de copias de DNA. En primer lugar, por la naturaleza de los datos de número de copias de DNA, ya que existe una relación entre las sondas próximas en el genoma. En segundo lugar, porque el proceso biológico subyacente es discreto con valores de 1 copia de la región, 2 copias, 3 copias ... (deleción o amplificación de las regiones cromosómicas de DNA) mientras que la señal que lo mide es contı́nua. Aprovechando estas caracterı́sticas es posible reducir parte del ruido inherente a la tecnologı́a y a la heterogeneidad de las células en una misma muestra mediante el agrupamiento de sondas adyacentes en los estados de número de copia posibles. Teniendo en cuenta esta asociación los algoritmos de segmentación parten de la suposición de que dos regiones del genoma adyacentes tienen el mismo número de copias a no ser que se haya producido alguna alteración. La idea intuitiva de cambio de estados ha llevado al desarrollo de varios métodos basados en modelos de Markov ocultos (Hidden Markov Models, HMM) (Fridlyand et al., 2004), sin embargo existen también otras aproximaciones metodológicas para las búsquedas de estos cambios de estado. Entre los algoritmos más utilizados para la segmentación se encuentran Circular Binary Segmentation (CBS) (Olshen et al., 2004) (Venkatraman and Olshen, 2007), PennCNV (Wang et al., 2007), CGHseq (Picard et al., 2005) y GLAD (Hupé et al., 2004) entre otros. Como método de segmentación utilizado para el preprocesamiento de los datos previo a la aplicación de los algoritmos desarrollados se ha utilizado CBS, evaluado en estudios independientes que estiman su precisión frente a otros algoritmos (Willenbrock and Fridlyand, 2005; Lai et al., 2005). La idea fundamental de CBS es considerar cada cromosoma como un anillo cerrado con los dos extremos del cromosoma unidos. Cada uno de estos anillos se divide en dos partes comparando el 37 Análisis de alteración de número de copias de DNA en cáncer valor del número de copia de cada una con un t-test: Zij = (Sj − Si )/(j − i) − (Sn − Sj + Si )/(n − j + i) p 1/(j − i) + 1/(n − j − i) (2.1) para cada par de posiciones i, j. Sk es la suma de los log2ratio crudos desde el primer SNP hasta el k-ésimo. Si el valor máximo de Zij está por encima de un umbral calculado mediante bootstrap, entonces i y j delimitan un segmento. El método es utilizado de manera recursiva hasta que no se identifica ningún otro segmento. Se ha utilizado la versión implementada en el paquete de R DNAcopy que realiza modificaciones en el bootstrapping optimizando el tiempo de procesamiento. Cada uno de los segmentos identificados queda descrito con la mediana de los log2ratios para los SNPs incluidos en el mismo. En este trabajo nos referiremos a estos valores resultado de la segmentación como log2ratio segmentados o valores del número de copias segmentado (sCN). 2.2.3 Discretización Uno de los pasos clave del pre-procesamiento para el análisis del número de copia consiste en la discretización de los estados de las regiones cromosómicas siendo, para muestras diploides al menos de tres estados básicos: deleción o pérdida (loss) (<2 copias), no cambio o normal (neutral) (=2 copias) y ganancia (gain) (>2 copias). A estos estados se les puede añadir otro cuarto estado de amplificación (amplification) (>3 copias) para distinguir ganancias más drásticas con un número de copias superior a tres. La asignación a estos estados constituye un tema abierto en los análisis de la alteración del número de copias de DNA y no existe aún un método que haya sido ampliamente admitido o que presente una clara ventaja frente al resto. La mayorı́a de los estudios de CNAs en cáncer se basan en la dispersión de los datos respecto a un valor de centralidad, que se espera que sea un valor de no cambio de número de copia o normal. Ası́ establecen umbrales basados en las desviaciones estándar sobre la media, como es el caso de (Aguirre et al., 2004) o (Tonon et al., 2005) que definen las ganancias y pérdidas como log2ratios > 4 desviaciones estándar sobre el cuantil 50 % de los datos. Esta asignación puede realizarse directamente sobre los log2ratios crudos como en el caso anterior o aplicarse sobre datos segmentados. Los investigadores Willenbrock and Fridlyand (Willenbrock and Fridlyand, 2005) determinaron que la discretización sobre valores previamente segmentados o suavizados es preferible frente a la asignación directa sobre los log2ratios crudos. En el trabajo mencionado estiman la variabilidad experimental con un estadı́stico más robusto, la desviación absoluta de la mediana (MAD, Median Absolute Deviation). Calculan este estadı́stico para las diferencias entre los valores de log2ratios segmentados (sCN) y crudos (CN). Ası́, para cada SNP i (i = 1, . . . , n) tenemos Xi = |sCNi − CNi |, cuya desviación absoluta de la mediana serı́a: M AD = mediani (|Xi − median(X)|) (2.2) Calculados los valores de MAD, dichos autores establecen entonces un umbral de 3 veces la MAD (aunque utilizan 2.5 en el conjunto de datos real) para la asignación de ganancias, pérdidas o no cambio. Otros trabajos que analizan alteraciones genómicas en cáncer, como (Fridlyand et al., 2006), utilizan también este valor MAD para la discretización. 38 Capı́tulo 2 Figura 2.4: Representación de los segmentos de todo el genoma ordenados por valor creciente de log2ratio - Los puntos rojos representan los valores de log2ratio de los datos segmentados (sCN). Los puntos grises representan los valores de log2ratio crudos (CN) para cada sonda en cada segmento. (a) Segmentos en una única muestra. (b) Segmentos para un conjunto de muestras tumorales. Atendiendo únicamente a los valores segmentados (sCN) es posible postular que aquellas regiones en las que no se ha producido ninguna alteración el valor medio del segmento se corresponderá con un log2ratio en torno a 0, que indicarı́a el no cambio. Los segmentos con valores de log2ratio > 0 se corresponderán con regiones ganadas y los segmentos con valores < 0 se corresponderán a su vez con regiones perdidas en la muestra problema frente a la referencia. Como se puede apreciar en la parte (a) figura 2.4 si ordenamos los segmentos de acuerdo a sus log2ratios de modo creciente, de menor a mayor, se observa una función con saltos. Es razonable asumir que estos saltos se corresponden con un número de copias particular (Olshen et al., 2004). Sin embargo, al ordenar los segmentos no sólo de una muestra sino de todo el conjunto de muestras los escalones se suavizan (figura 2.4 (b)). Este suavizado, en el que sucede una pérdida de escalones y umbrales claros, puede ser más evidente cuando los datos provienen de muestras clı́nicas debido principalmente a la variabilidad de los individuos, a la heterogeneidad de los tumores analizados o a la diferencia en los porcentajes de infiltración tumoral (es decir, a la existencia de diferentes porcentajes de células tumorales en cada una de las muestras). Cuando se produce este efecto de suavizado, sin que se pueda determinar una causa concreta conocida, la identificación de los umbrales se puede realizar mediante a una búsqueda analı́tica de los puntos de inflexión de la curva. Junto a la aproximación descrita para la búsqueda de umbrales, la discretización se puede acometer de otro modo planteándola como un problema de agrupamiento (clustering) de los segmentos en los tres estados posibles predefinidos de número de copias de DNA: ganancia, normalidad y pérdida de la región genómica. Para lograr esta discretización basada en agrupamiento, proponemos la aplicación de un algoritmo de agrupamiento no supervisado con un número de estados predefinidos como es k-means (Lloyd, 1982). Este algoritmo se puede considerar una variante del algoritmo de Esperanza-Maximización (Expectation-Maximization, EM) en el que para un conjunto de observaciones (valor medio de los (1) (1) segmentos) (x1 , x2 , ..., xn ) y dado un conjunto inicial de semillas m1 , ..., mk procede en dos 39 Análisis de alteración de número de copias de DNA en cáncer Figura 2.5: Distribución de densidad de los valores de log2ratios segmentados de un conjunto de muestras de cáncer colorectal - Histograma y distribución de densidad de log2ratios segmentados. Marcados en verde, gris y rojo los intervalos del histograma catalogados como pérdidas, normalidad y ganancias respectivamente. pasos independientes: 1. Paso E (o paso de asignación), en el que cada segmento es asignado a la media más cercana: (t) Si (t) (t) = {xp : kxp − mi k ≤ kxp − mj k∀1 ≤ j ≤ k} (2.3) 2. Paso M (o paso de actualización), en el que se recalcula la media que será el centroide de cada clúster: X 1 (t+1) mi = (t) xj (2.4) |Si | (t) xj ∈Si De esta manera los segmentos se agrupan en k clústers, donde k es el número de estados de número de copias de DNA a considerar. La figura 2.5 muestra la distribución de densidad de los valores de log2ratios segmentados en el que se diferencian con distintos colores las regiones que incluyen los estados de ganancia (gained, rojo), normalidad (neutral, gris) y pérdida (lost, verde) de copias de DNA. El número de clústers o grupos buscado puede variar, incluyendo por ejemplo estados para deleciones (pérdida total de la región cromosómica) y amplificaciones (ganancia de más de 1 copia de DNA para una región) además de los 3 estados definidos anteriormente. Conviene mencionar que si se establecen únicamente 3 grupos, debido a la naturaleza del algoritmo de k-means que busca el centroide de cada clase, es necesario tener en cuenta la existencia de regiones con un número muy alto de copias (más de 3 ó 4). Estas regiones pueden modificar en el centroide del estado de ganancia provocando el desplazamiento del grupo y la modificación del umbral esperado. Es necesario descartar las regiones extremas o atı́picas para que no afecten en exceso al establecimiento de umbrales. La determinación de estas regiones o outliers se lleva a cabo utilizando la definición de (Tukey, 1977) que considera outliers a aquellos valores comprendidos fuera del rango definido por: [Q1 − k(Q3 − Q1 ), Q3 + k(Q3 − Q1 )] 40 (2.5) Capı́tulo 2 donde Q1 y Q3 son los cuartiles inferior y superior de las distribución de log2ratios y k es una constante definida como k = 1,5. Gráficamente estos valores extremos pueden verse representados en la figura 2.6. Figura 2.6: Boxplot de los valores de log2ratios segmentados para un conjunto de muestras de cáncer colorectal. - Representados en azul los puntos considerados outliers según la regla de Tukey. 2.3 Análisis unificado de conjuntos de muestras La localización de alteraciones en el número de copias de DNA en muestras individuales como la realizada en los pasos anteriores constituye sólo el inicio en la determinación de regiones y genes crı́ticos en una enfermedad. Para extraer conclusiones extrapolables sobre genes desregulados en una determinada enfermedad o en condiciones particulares la determinación de las alteraciones en muestra individual no es suficiente, y es necesario el análisis simultáneo de un conjunto de muestras. Para este análisis unificado se han desarrollado algoritmos que detectan regiones alteradas recurrentemente (Minimal Common Regions, MCR), o regiones con puntos de ruptura recurrentes (Recurrent Breakpoints Regions, RBR) y algoritmos para el análisis diferencial de regiones alteradas. 2.3.1 Detección de regiones mı́nimas comunes (MCR) de alteración Las regiones más fuertemente asociadas a un estado patológico son aquellas que están alteradas de manera recurrente o común en los individuos o muestras de dicho estado. Es probable que las alteraciones más frecuentes sean las que producen los cambios funcionales importantes para la progresión y el desarrollo de la enfermedad, mientras que las alteraciones que ocurren en un pequeño subconjunto de muestras se deban a efectos individuales no comunes sin relevancia para el proceso patológico. Bajo esta hipótesis el análisis de las CNA en una determinada enfermedad se centrará en la búsqueda de regiones comunes o recurrentes, más concretamente de las regiones mı́nimas alteradas de forma recurrente en el conjunto de muestras (Minimal Common Regions, MCR). Para la búsqueda de las MCR se ha diseñado un método basado en la frecuencia de alteración de la regiones similar al propuesto en (Aguirre et al., 2004) y (Tonon et al., 2005). La selección de las MCR comprende los siguientes pasos: 1. Asignación de la frecuencia de alteración de cada región cromosómica, de modo independiente para las ganancias y para las pérdidas. 2. Selección de aquellas regiones con una frecuencia de alteración por encima de un umbral (zscore > 2,1) como regiones significativas candidatas a ser MCR. Serán descartados aquellos cromosomas que no contengan ninguna región significativa. 41 Análisis de alteración de número de copias de DNA en cáncer 3. Búsqueda de los picos o sub-regiones con mayor recurrencia en las regiones significativas como regiones candidatas. 4. Se identificarán como MCR las regiones candidatas con una frecuencia de al menos el 80 % de la frecuencia de alteración máxima en el cromosoma y que comprendan al menos 5 sondas. La caracterización de estas regiones comunes comprende también la anotación de la amplitud de la alteración utilizando para ello la mediana del valor de log2ratio de la región en las muestras que presentan la alteración (es decir, aquellas cuyos log2ratios están por encima o por debajo del umbral de discretización) considerando también de modo independiente las ganancias/amplificaciones y las pérdidas/deleciones. 2.3.2 Detección de regiones con puntos de ruptura (breakpoints) recurrentes Las CNAs no siempre tienen como objetivo la desregulación de un gen incluido en la región alterada, muchas veces el objetivo es la desregulación del gen o locus génico en la frontera de dicha. Un ejemplo es el gen de fusión TMPRSS2-ERG en cáncer de próstata (Tomlins et al., 2005). Este gen de fusión es el resultado de una deleción en el cromosoma 21 en la que los dos genes implicados se sitúan en los extremos de la región. Los lı́mites de las regiones con cambios en el número de copias determinan localizaciones en las que se ha producido la ruptura del cromosoma, pero existen también otros reordenamientos como traslocaciones e inversiones en los que no se modifica “aparentemente” en el número de copias. Sin embargo, incluso en el caso de este tipo de reordenamientos balanceados se producen pequeñas deleciones en las regiones adyacentes (Kolomietz et al., 2001; Watson et al., 2007). Esto hace posible el análisis de los puntos de ruptura a partir de los datos de arrays de SNPs. Definimos entonces punto de ruptura o breakpoint como la transición de un estado de número de copia (ganancia, no cambio o pérdida) a otro. A partir de esta definición y de manera análoga a las MCR establecemos las regiones con puntos de ruptura recurrentes como aquellas regiones cromosómicas que de manera recurrente o frecuente presentan transiciones de un estado a otro en las diferentes muestras. El estudio y determinación de estas regiones con puntos de ruptura recurrentes es importante a la hora de identificar genes que posiblemente estén alterados en la enfermedad. Para ello hemos diseñado un algoritmo que analiza la densidad de puntos de ruptura e identifica regiones cromosómicas con alta densidad en base al número de muestras diferentes que presentan puntos de ruptura en la misma región. La determinación de las regiones con puntos de ruptura recurrentes se realiza para cada cromosoma independientemente. La figura 2.7 esquematiza el proceso de definición de regiones candidatas con puntos de ruptura recurrentes en el cromosoma 17 para un conjunto de muestras de cáncer. El proceso consiste en los siguientes pasos: 1. Cálculo del número total de puntos de ruptura N que corresponden a cualquier transición de estado (ganancia/neutral/perdida) en todas las muestras. 2. División del cromosoma en intervalos del mismo tamaño. El número de intervalos K se determina mediante la regla de Sturges 3. Cálculo de la frecuencia de puntos de ruptura en cada intervalo. En el cálculo de estas frecuencias se asignarán pesos diferentes si una misma muestra presenta varios puntos de ruptura dentro del mismo intervalo. 42 Capı́tulo 2 Figura 2.7: Esquema del algoritmo para la detección de puntos de ruptura recurrentes - Puntos de ruptura en el cromosoma 17 para muestras de cáncer colorectal representadas en sus localizaciones cromosómicas (puntos rojos). Las barras azules representan las frecuencias de puntos de ruptura en el intervalo cromosómico ponderadas teniendo en cuenta que una muestra puede presentar varios puntos de ruptura. El recuadro rojo señala el intervalo con una probabilidad de puntos de ruptura significativamente diferente al resto de intervalos y las lı́neas verticales discontinuas representan la región extendida a los intervalos adyacentes del intervalo seleccionado. 4. Determinación de los intervalos con una frecuencia significativamente diferente del resto de intervalos. Estos intervalos significativos se expandirán a los intervalos adyacentes para constituir las regiones candidatas a contener los puntos de ruptura recurrentes. 5. Refinamiento de las regiones candidatas mediante la aplicación recursiva del método. Estas regiones candidatas serán divididas en intervalos del mismo tamaño recalculándose las frecuencias ponderadas de puntos de ruptura en cada uno de ellos. El algoritmo procederá hasta que no existan diferencias significativas en las frecuencias de los intervalos. La región candidata será entonces marcada como RBR. El algorimo desarrollado se presenta en mayor detalle en el siguiente pseudocódigo, que recibe como parámetros de entrada S, P y B definidos como: • S = {s1 , . . . , sm }, Un conjunto de m muestras definidas por las localizaciones de sus puntos de ruptura respectivos si = {b1 , ..., br }. • P = [p1 , p2 ], Las posiciones de inicio y fin de la región genómica que se va a considerar. Al comienzo del algoritmo corresponde a las posiciones de inicio y fin del cromosoma de estudio. m S si = {b1 , . . . , bn }, El conjunto de las localizaciones genómicas (loci) de todos los • B= i=1 puntos de ruptura n en la región delimitada por P . Al comienzo del algoritmo este conjunto corresponde a todos los puntos de ruptura del cromosoma de estudio. 43 Análisis de alteración de número de copias de DNA en cáncer Algorithm 1 Algoritmo para la detección de regiones con puntos de ruptura recurrentes procedure D IVIDE I NTERVAL(P,n) K ← 1 + 3,22 log |B| R ← (p2 − p1 )/K P1′ ← [p1 , p1 + R) for i = 2 to K − 1 do Pi′ ← [p1 + (i − 1)R, p1 + iR) end for ′ ← [p + (k − 1)R, p ] PK 1 2 ′ } return P ′ = {P1′ , . . . , PK end procedure ⊲ Divide the interval according to the Sturges rule ⊲ Range of the intervals procedure R ECURRENT B REAKS(S, P, B) P ′ ← D IVIDE I NTERVAL(P ,|B|) m ← |S| K ← |P ′ | for i = 1 to K do Bi′ ← {b ∈ B/b ⊂ Pi′ } for j = 1 to m do xij ← count({b ∈ sj /b ⊂ Pi′ }) end for m P log(xij + 1) d-scorei ← ⊲ |B| = n: total number of breakpoints ⊲ Total number of samples ⊲ K: number of intervals ⊲ Weighted frequency j=1 end for for i = 1 to K do zi ← (d-scorei − mean(d-score))/sd(d-score) end for if notAny(z > 2) then ⊲ Recursivity end condition return P else breakRegions ← ∅ for i = 1 to K do if zi > 2 then regionStart ← i while zi > 2 do i←i+1 end while regionEnd ← i breakRegions ← breakRegions ∪ [regionStart, regionEnd] end if end for for all breakRegions do ′ ′ ⊲ Extend candidate region to adjacent intervals ∪ PregionEnd+1 P ← PregionStart−1 ′ ′ B ← BregionStart−1 ∪ BregionEnd+1 return R ECURRENT B REAKS(S, P , B) end for end if end procedure 44 Capı́tulo 2 2.4 Aplicación a datos de cáncer colorectal (CRC) El cáncer colorectal o cáncer de colon (Colo-Rectal Cancer, CRC) es el segundo tipo de cáncer más frecuente en los paı́ses desarrollados. Este tipo de cáncer se suele desarrollar lentamente durante muchos años. La mayorı́a comienzan como un pólipo o abultamiento en la mucosa del intestino grueso y crecen hacia el centro del colon o el recto transformándose un adenocarcinoma o tumor maligno. El desarrollo comprende cuatro etapas diferenciadas que se caracterizan por el tamaño del tumor, cuánto ha penetrado en la mucosa, si ha invadido órganos adyacentes y cuántos ganglios linfáticos ha afectado. Los órganos adyacentes más frecuentemente afectados por los procesos metastásicos del cáncer de colon son el hı́gado y los pulmones. La estratégia de análisis y los métodos desarrollados comentados en las secciones 2.2 y 2.3 han sido aplicados a un conjunto de datos de cáncer colorectal con metástasis en el hı́gado. Este conjunto de datos experimentales consiste en un total de 23 muestras de tumores primarios metastásicos además de otras 23 muestras de las metástasis respectivas en hı́gado que fueron hibridadas en microarrays de SNPs (250K Affymetrix SNP Mapping NspI, StyI arrays). Como controles se hibridaron muestras pareadas de la sangre periférica de los mismos pacientes. Más información sobre los datos y detalles sobre su obtención se encuentran en (Sayagués et al., 2010) y (Muñoz Bellvis et al., 2012). 2.4.1 Evaluación de los métodos de discretización aplicados a CRC El establecimiento de los umbrales para la discretización es un paso crı́tico en el análisis de CNA, puesto que los estados definidos constituyen el punto de partida en los análisis de recurrencia posteriores. En nuestro estudio sobre tumores primarios metastásicos de CRC, la evaluación y determinación de los umbrales de ganancia, pérdida y normalidad se ha realizado estableciendo como Gold Standard datos del número de copia de diversas regiones cromosómicas obtenidas experimentalmente mediante FISH (2.1.2.3). Los datos de FISH se correponden al uso de 45 sondas hibridadas para cada muestra, distribuidas a lo largo de los 22 autosomas humanos. De estas 45 sondas se han seleccionado 24 que mapean en al menos 10 SNPs para obtener unos resultados comparables a los datos de los arrays de SNPs. Para esta comparación se ha tomado la mediana de los SNPs que mapean en cada una de las sondas para cada array, discretizándolo en los 3 estados definidos: ganancia, pérdida o no cambio. Para establecer el valor óptimo de los umbrales de determinación de ganancias y pérdidas se han construido curvas de sensibilidad y especificidad incrementando progresivamente los umbrales. Estas curvas pueden verse en la figura 2.8. El punto en el que se cruzan las curvas de sensibilidad y especificidad representa el umbral c cuyo valor maximiza conjuntamente las dos funciones. Este umbral c puede estimarse como el valor que minimiza la diferencia entre la sensibilidad y la especificidad, es decir, el umbral para el cual la diferencia entre ambos parámetros se hace cero (Minimized Difference Threshold, MDT) (Jimenez-Valverde and Lobo, 2007). Los valores obtenidos para el parámetro MDT en las muestras de CRC analizadas se corresponde con un umbral en torno a 0.06 para la determinación de ganancias (Gain threshold) y en torno a -0.07 para la determinación de pérdidas (Loss threshold). Como se aprecia en la tabla 2.4.1 los umbrales óptimos derivados de los datos de FISH no difieren demasiado de los umbrales establecidos por los métodos comentados en la sección 2.2.3 que son: (i) cálculo de la desviación absoluta de la mediana (MAD); (ii) agrupamiento en 3 estados (pérdida, no cambio y ganancia de número de copias) sin eliminar outliers; (iii) agrupando en 3 estados con eliminación de outliers y (iv) agrupamiento en 4 estados (incluyendo amplificación). Sin embargo, si se consideran únicamente 45 Análisis de alteración de número de copias de DNA en cáncer Figura 2.8: Curvas de sensibilidad y especificidad para distintos umbrales de discretización Curvas de especificidad, sensibilidad y valor absoluto de la diferencia de ambas marcando el punto en el que se minimiza esta diferencia (Minimized Difference Threshold, MDT): (a) umbrales para la determinación de pérdidas y (b) umbrales para la determinación de ganancias. 3 estados sin eliminar los outliers, el umbral de ganancias se ve afectado por las amplificaciones y se sobreestima (valor 0.16) produciéndose una desviación mayor respecto al valor óptimo observado experimentalmente. Minimized Difference Threshold (MDT) (i) Median Absolute Deviation (MAD) (ii) Three states with outliers (iii) Three states without outliers (iv) Four states Loss threshold -0.07 -0.10 -0.08 -0.07 -0.10 Gain threshold 0.06 0.10 0.16 0.06 0.08 Loss Sensitivity /Specificity 0.84 / 0.83 0.74 / 0.89 0.82 / 0.86 0.84 / 0.83 0.74 / 0.89 Gain Sensitivity /Specificity 0.83 / 0.85 0.76 / 0.91 0.53 / 0.98 0.83 / 0.85 0.79 / 0.87 Tabla 2.1: Umbrales de discretización obtenidos con diferentes métodos. Con el estudio descrito tenemos una clara estimación del grado de especificidad y sensibilidad esperados para unos umbrales determinados de ganancia y pérdida. La elección de unos umbrales que optimicen a la vez tanto la especificidad y como la sensibilidad puede no ser siempre la mejor opción, ya que en muchos casos interesa tener una especificidad no menor del 95 % (es decir, no admitir más de un 5 % de falsos positivos). Por ello, en el análisis concreto del conjunto de muestras de CRC se ha optado por una aproximación más conservadora estableciendo el umbral en el valor que obtiene una especificidad del 95 % (ver lı́nea azul en la figura 2.8). De este modo, se determinó usar como umbrales 0.09 y -0.09 para ganancias y pérdidas, respectivamente. 2.4.2 Identificación de regiones de alteración recurrente en CRC Como se ha mencionado previamente, la probabilidad de que una región cromosómica contenga genes crı́ticos para una enfermedad está relacionada con la recurrencia de la alteración en los individuos con dicha enfermedad. El análisis de la frecuencia de alteración de las regiones es muy importante a la hora de encontrar regiones que contengan genes ”conductores” que dirijan el desarrollo y progresión de la enfermedad. 46 Capı́tulo 2 Los análisis de recurrencia de alteración se realizaron con el conjunto de muestras de CRC citado, incluyendo en este caso datos de 20 pacientes. La figura 2.9 a presenta un heatmap con los valores de log2ratio segmentados (sCN) para cada muestra. En el heatmap se aprecia que hay ciertas regiones que aparecen frecuentemente alteradas en la mayorı́a de muestras. Esto se aprecia mejor en el mapa con las frecuencias de alteración para cada región mostrado en la figura 2.9 b. Son particularmente interesantes los picos con las frecuencias más altas, calculados con el algoritmo de búsqueda de MCR (Minimal Common Regions) comentado en la sección 2.3.1. Las MCR con ganancia de número de copias o amplificación se corresponden, para los tumores de CRC, a regiones localizadas en los cromosomas: 7, 8q, 13q y 20q, (con un incremento del número de copias en más del 60 % de los tumores). Por su parte, los cromosomas 1p, 8p, 17p y 18 presentan pérdidas muy recurrentes (presentes en más del 70 % de los tumores para 1p, 17p y 18 y más del 65 % para 8p). Figura 2.9: Heatmap y frecuencias de alteración de muestras de CRC - Resumen con las alteraciones más frecuentes encontradas en CRC. El eje x representa las localizaciones genómicas en cada uno de los cromosomas situados en orden creciente uno a continuación de otro. (a) Heatmap con los valores de número de copia (log2ratio segmentados) en cada región para cada muestra de CRC. (b) En rojo (por encima de 0), frecuencias de ganancias de número de copias de DNA; en verde (por debajo de 0), las frecuencias de pérdida de número de copias de DNA. La mayorı́a de estas MCR se corresponden con regiones pequeñas (< 1Mb) que contienen al menos un gen candidato a ser explorado como gen de interés. Bastantes de estos genes han sido previamente asociados con CRC o con metástasis tumoral. Las tablas 2.4.2 y 2.4.2 contienen estas regiones < 1Mb para las ganancias y las pérdidas de número de copia respectivamente. En estas tablas se muestra información más detallada sobre la localización de la región, su tamaño y el 47 Análisis de alteración de número de copias de DNA en cáncer número de SNPs que incluyen, la recurrencia (mostrada como porcentaje de muestras que presentan alteración), la mediana del log2ratio segmentado en las muestras que presentan la alteración y los sı́mbolos identificativos de los genes incluidos en la región. Region Region length (Kb) Number of SNPs Recurrence ( % samples) Median log2ratio Chr1: 7334675 - 7347651 Chr1: 26131131 - 26191419 Chr1: 26194668 - 26738275 13 60 544 7 16 70 70 74 70 -0.21 -0.18 -0.19 Chr1: 29528243 - 29633233 Chr1: 29894172 - 29922153 Chr1: 30778256 - 30843796 Chr8: 198834 - 392556 Chr8: 400640 - 539716 Chr8: 11285446 - 11566690 Chr8: 23264737 - 23277681 Chr8: 23295574 - 23519768 Chr8: 29372156 - 29426943 Chr8: 31294142 - 31566697 Chr8: 32105734 - 32675812 Chr8: 32692415 - 33064331 Chr17: 5965727 - 6261243 Chr17: 6634969 - 6666473 Chr17: 10693238 - 11021844 Chr17: 14234746 - 14967525 Chr17: 14984724 - 15082587 Chr17: 19622919 - 20156497 Chr17: 20792902 - 20844368 Chr18: 41130655 - 41494986 Chr18: 44872826 - 45204796 Chr18: 45410728 - 45497910 Chr18: 45654114 - 46036475 Chr18: 46252199 - 46288353 Chr18: 46291648 - 46467497 Chr18: 69742176 - 69938053 Chr18: 74952886 - 75029618 105 28 66 194 139 281 13 224 55 273 570 372 296 32 329 733 98 534 51 364 332 87 382 36 176 196 77 17 17 28 46 29 85 8 68 15 41 196 67 73 12 89 214 18 66 8 134 32 29 144 12 53 38 18 70 70 70 70 70 65 70 65 65 65 70 65 74 74 78 78 78 74 74 91 87 91 91 91 87 87 87 -0.20 -0.21 -0.18 -0.26 -0.26 -0.17 -0.16 -0.17 -0.17 -0.17 -0.15 -0.15 -0.21 -0.22 -0.22 -0.23 -0.23 -0.23 -0.23 -0.20 -0.21 -0.21 -0.21 -0.22 -0.22 -0.23 -0.23 Genes PAFAH2 PAFAH2, SCARNA17, SCARNA18, EXTL1, TRIM63, PDIK1L, GRRP1, ZNF593, CNKSR1, CATSPER4, CCDC21, UBXN11, CD52, AIM1L, ZNF683, LIN28, DHDDS, HMGN2 FAM87A, FBXO25 FBXO25, C8orf42 C8orf12, C8orf13, BLK, C8orf14 LOXL2, ENTPD4, SLC25A37 NRG1 WSCD1 TEKT1 PMP22 ULK2, AKAP10, CYTSB USP22 SLC14A2 MYO5B, CCDC11 MAPK4 FBXO15 - Tabla 2.2: MCR con delecciones recurrentes en CRC El mismo algoritmo de detección de regiones mı́nimas comunes ha sido aplicado a las muestras de las metástasis en hı́gado de los mismos pacientes. Se han identificado MCR con ganancia en el número de copias en regiones localizadas en los cromosomas 7p, 8q24, 13q y 20q con incremento del número de copias de DNA en más del 70 % de las muestras. A su vez se han identificado también regiones con pérdidas recurrentes en los cromosomas 1p (70 %), 8p23 (70 %), 17p (90 %), 18q22 (95 %) y 22q13 (70 %). En estas regiones se localizan oncogenes y genes supresores tumorales previamente asociados con procesos metastáticos. Las tablas con la información a cerca de las regiones identificadas y sus genes no se han añadido en la memoria por simplicidad, pero se muestran detalladamente en las tablas 1 y 2 en (Muñoz Bellvis et al., 2012): ”Unique genetic profile of sporadic colorectal cancer live metastasis versus primary tumors as defined by high-density single-nucleotide polymorphism arrays” que ha sido añadido como apéndice en la presente memoria. En el análisis de MCR se detectan también regiones más extensas (> 1Mb) recurrentemente alteradas que comprenden decenas de genes en los cromosomas 8q, 17p y 22q. Estas regiones están descritas en más detalle en (Sayagués et al., 2010). En estas regiones de mayor tamaño no es posible identificar aquellos genes que puedan ser candidatos a dirigir el proceso tumoral utilizando únicamente la información del número de copias de DNA. Para esta discriminación e identificación 48 Capı́tulo 2 Region Region length (Kb) Number of SNPs Recurrence ( % samples) Median log2ratio Chr7: 6633026 - 6709622 Chr7: 7957012 - 7981482 Chr7: 8109452 - 8142826 Chr7: 8255230 - 8280496 Chr7: 9676276 - 9690241 Chr7: 10461770 - 10486412 Chr7: 12514442 - 12576898 Chr7: 12579777 - 12725149 Chr7: 20303440 - 20340777 Chr7: 20660167 - 20868295 Chr8: 86214670 - 86946337 77 24 33 25 14 25 62 145 37 208 732 11 10 11 10 8 8 9 20 14 37 52 70 70 70 74 70 74 74 70 70 70 65 0.18 0.18 0.20 0.18 0.20 0.18 0.18 0.20 0.20 0.18 0.20 Chr8: 87377186 - 87789535 Chr8: 88872540 - 89066702 Chr8: 91686333 - 91735940 Chr8: 94759374 - 95077320 412 194 50 318 65 24 10 44 65 65 65 65 0.20 0.20 0.22 0.20 Chr8: 95294349 - 95435061 Chr8: 95593385 - 95776644 Chr8: 101919388 - 102577101 Chr8: 122649759 - 122760879 Chr8: 125380146 - 125811489 141 183 658 111 431 28 36 69 21 87 65 65 61 61 61 0.19 0.20 0.23 0.22 0.21 Chr8: 128638191 - 128724583 Chr8: 129180096 - 129268067 Chr8: 130906244 - 131222249 Chr8: 133845345 - 133868639 Chr8: 133882656 - 133900665 Chr8: 133913690 - 133953202 Chr8: 134275461 - 134665414 Chr8: 135527585 - 135836235 Chr8: 136498075 - 136866133 Chr8: 137055200 - 137091177 Chr13: 71257370 - 71353336 Chr13: 73603130 - 73627939 Chr13: 74972248 - 75117835 Chr13: 76352482 - 76366765 Chr13: 78098212 - 78143588 Chr13: 78805700 - 79077299 Chr13: 79621013 - 79845948 Chr20: 29309964 - 29460709 86 88 316 23 18 40 390 309 368 36 96 25 146 14 45 272 225 151 25 43 35 9 6 10 113 97 74 12 17 10 26 11 7 46 40 22 65 65 65 65 65 61 61 65 65 65 74 78 78 78 78 78 78 78 0.23 0.21 0.23 0.23 0.23 0.22 0.23 0.20 0.20 0.21 0.25 0.25 0.25 0.25 0.25 0.21 0.21 0.25 Chr20: 33776127 - 33954944 Chr20: 37766095 - 38339016 Chr20: 43550795 - 43804853 179 573 254 21 131 82 78 83 78 0.28 0.24 0.25 Chr20: 44503157 - 44574807 Chr20: 46929063 - 47265311 72 336 20 55 78 78 0.28 0.26 Chr20: 51015479 - 51116032 Chr20: 54234467 - 54365833 101 131 25 40 78 78 0.25 0.26 Genes ZNF316, ZNF12 GLCCI1 ICA1 ICA1 SCIN SCIN, ARL4A, SNORA64 ITGB8 ABCB5, SP8 LRRCC1, E2F5, CA13, CA1, CA3, CA2 WWP1, FAM82B, CPNE3, CNGB3 WDR21C TMEM64 RBM12B, C8orf39, TMEM67, PPM2C GEM KIAA1429, RBM35A YWHAZ, GRHL2 HAS2 TMEM65, TRMT12, RNF139, TATDN1, NDUFB9, MTSS1 mir-1208 FAM49B, SNORA25, ASAP1 PHF20L1 PHF20L1, TG WISP1, NDRG1, ST3GAL1 ZFAT KHDRBS3 DACH1 KLF12 COMMD6, UCHL3, LMO7 KCTD12 C13orf7 RBM26, NDFIP2 SPRY2 DEFB115, DEFB116, DEFB117, DEFB118, SNORA40, DEFB119 RBM39, PHF20, COX7BP2 HSPEP1 SPINT3, SPINLW1, WFDC8, WFDC9, WFDC10, WFDC11, WFDC13, SPINT4 ZNF663, ZNF840, ZNF334 ARFGEF2, SNAP23P, CSE1L, STAU1 TSHZ2 MC3R Tabla 2.3: MCR con ganancias o amplificaciones recurrentes en CRC. 49 Análisis de alteración de número de copias de DNA en cáncer resulta necesario incluir información adicional. En los últimos años se han realizado numerosos esfuerzos en integración de datos de diferente procedencia, como por ejemplo la integración de información genómica de número de copias de DNA con información transcriptómica de expresión génica (mRNAs). La integración de esta información heterogénea puede ayudar en la separación de los genes cuya CNA afecta fuertemente a su nivel de expresión y ası́ poder identificar y discriminar únicamente subconjuntos de genes mejor definidos dentro de regiones alteradas extensas. 2.4.3 Búsqueda de puntos de ruptura frecuentes en CRC Las localizaciones genómicas en las que se producen cambios en el número de copias de DNA (puntos de ruptura) de manera recurrente en el conjunto de muestras de una patologı́a son a priori regiones importantes especialmente afectadas por las alteraciones de CN. De este modo, la identificación de regiones de cambio o ruptura frecuente en las muestras de CRC puede permitir la identificación de genes clave en la progresión de esta enfermedad. Para identificar dichas regiones con puntos de ruptura frecuente sobre el conjunto de tumores de CRC se ha aplicado el algoritmo diseñado y explicado anteriormente en la sección 2.3.2. Las regiones identificadas se muestran en la tabla 2.4.3. La tabla contiene el número de SNPs que comprende cada región identificada junto con el número total de puntos de ruptura y, entre paréntesis, el número de muestras diferentes que presentan dichos puntos de ruptura en esa región. Se muestra también el número total de SNPs en el cromosoma ası́ como el número total de puntos de ruptura de las muestras en ese cromosoma. Finalmente, utilizando una distribución hipergeométrica se calcula p-valor de enriquecimiento significativo un puntos de ruptura para cada una de estas regiones respecto a cada cromosoma total. En la figura 2.10 se representan las 4 regiones con puntos de ruptura recurrentes más significativas. Chromosome band Chromosomal position(Kb) SNPs in region Breakpoints (samples) Breakpoints in chromosome SNPs in chromosome p-value 1p12 4p16.1 7p22.3 8p11.23 10p15.3 17p11.2 20p12.1 116620 - 123939 7984 - 10259 141 - 837 35498 - 38405 102 - 695 20156 - 22976 13875 - 16089 716 513 49 386 103 182 550 12 (9) 13 (7) 11 (6) 10 (8) 7 (6) 18 (15) 16 (9) 254 155 201 173 178 133 145 40083 32252 25734 27421 28431 11233 12378 1.51E-03 1.11E-06 1.10E-13 1.44E-04 3.71E-06 3.64E-12 4.71E-04 Tabla 2.4: Regiones con puntos de ruptura recurrentes detectados en muestras de CRC De las regiones identificadas en CRC, aquella que presenta un mayor número de puntos de ruptura con una mayor significación estadı́stica es la región que comprende el cromosoma 17p11.2: 18 puntos de ruptura en 15 muestras diferentes que incluyen al menos un punto de ruptura. Este punto de ruptura ha sido estudiado en profundidad en (González-González et al., 2012) donde se valida con otro conjunto más amplio de muestras de CRC utilizando FISH y con otro conjunto independiente de 119 muestras de CRC metastático (Poulogiannis et al., 2010) obtenidas de la base de datos pública GEO (GSE12520) (http://www.ncbi.nlm.nih.gov/geo). En este trabajo se demuestra el valor pronóstico del punto de ruptura detectado y la sonda diseñada para su detección. La figura 2.11 tomada de (González-González et al., 2012) muestra el diseño de esta sonda utilizada para detectar la ruptura recurrente observada en el cromosoma 17 (región 17p11.2). 50 Capı́tulo 2 Figura 2.10: Regiones con puntos de ruptura recurrentes en CRC - RBR más significativas en CRC: (A) región 1p12, (B) 8p12, (C) 17p11.2 y (D) 20p12.1. 51 Análisis de alteración de número de copias de DNA en cáncer Figura 2.11: Punto de ruptura en el cromosoma 17p11.2 - Representación esquemática de la sonda diseñada para la detección del punto de ruptura del cromosoma 17p11.2 mediante FISH. 2.5 Discusión El desarrollo de plataformas genómicas experimentales que permiten la cuantificación del número de copias de DNA a lo largo de genomas completos ha hecho posible el análisis sistemático de las alteraciones en número de copias (CNA) en diferentes tipos de cáncer (Beroukhim et al., 2010). De hecho, una caracterı́stica común a un gran número de oncopatologı́as malignas y procesos tumorales es la alta inestabilidad genómica que se observa comparada con células normales, que provoca desde alteraciones de brazos completos de cromosomas a alteraciones focales que comprenden unos pocos genes. En este capı́tulo se ha diseñado y desarrollado un flujo de trabajo completo para el análisis de las alteraciones del número de copias de DNA, es decir, para análisis de CNA. En este flujo de trabajo se han utilizado metodologı́as y algoritmos ampliamente validados y aceptados como CRMAv2 (Bengtsson et al., 2009) y CBS (Venkatraman and Olshen, 2007), asi como nuevos algoritmos diseñados ad hoc. En concreto se han explorado diferentes técnicas para la discretización de los datos en estados de ganancia (gain), no alteración (NA) y pérdida (loss) y se ha implementado un algoritmo basado en el agrupamiento con kmeans y la eliminación de los outliers como elementos atı́picos que distorsionan la discretización. En la detección de regiones recurrentes de alteración se han desarrollado dos tipos de algoritmos. Por un lado, se ha desarrollado una estrategia para la detección de regiones mı́nimas comunes (MCR), definidas como las regiones cromosómicas más pequeñas que contienen una determinada alteración (ganancia o pérdida) en un porcentaje significativo de las muestras de una enfermedad o estado. Esta estrategia está basada en métodos implementados en diferentes trabajos, especialmente (Aguirre et al., 2004). Por otro lado, se ha desarrollado también un algoritmo para la detección de regiones con puntos de ruptura recurrentes (RBR), es decir, regiones cromosómicas en las que es más probable que se produzcan fallos en la replicación, con rupturas y recombinaciones, asociadas a las cuales se originen alteraciones en el número de copias de DNA. Estas rupturas recurrentes suelen estar asociadas con enfermedades concretas y, en cáncer, con subtipos patológicos definidos. Los algoritmos diseñados, integrados en el marco de trabajo descrito, han sido aplicados con éxito a un conjunto de muestras humanas de cáncer colorectal (CRC) metastásico. En este conjunto de datos se han identificado regiones con un aumento del número de copias de DNA en más del 60 % de las muestras en los cromosomas 7, 8q, 13q y 20q (regiones ganadas significativamente), ası́ como regiones en las que se han perdido una o varias copias de DNA con una recurrencia de más del 65 % en los cromosomas 1p, 8p, 17p y 18 (regiones perdidas significativamente). La mayorı́a 52 Capı́tulo 2 de estas regiones han sido previamente detectadas en otros estudios similares de CRC metastásico (De Angelis et al., 1999), (Diep et al., 2003), (Höglund et al., 2002), (Diep et al., 2006), confirmando la validez de los análisis. Además, se han detectado nuevas regiones con alteraciones recurrentes que contienen genes asociados con cáncer, muchos de los cuales han sido descritos con relación a la patogénesis del CRC y con procesos metastásicos. Estas regiones están comentadas de forma más detallada en la discusión de trabajo (Sayagués et al., 2010) titulado Mapping of genetic abnormalities of primary tumours from metastatic CRC by high-resolution SNP arrays y que se adjunta en esta memoria. El algoritmo de detección de MCR ha sido aplicado también con éxito al conjunto de muestras de metástasis en hı́gado, identificando regiones comunes alteradas de la misma manera en los tumores primarios y sus respectivas metástasis. Estas regiones comunes incluyen ganancias de los cromosomas 7, 8q, 13q y 20 y pérdidas en 1p, 8p, 17p, 18 y 22q que comprenden prácticamente todas las regiones identificadas alteradas en los tumores primarios. Sin embargo, también se han encontrado diferencias entre ambos conjuntos de datos que obedecen por un lado a un aumento de la frecuencia de alteración respecto a la frecuencia detectada en los tumores primarios y por otro lado a la adquisición de nuevas alteraciones como deleciones en los cromosomas 4 y 10q y amplificaciones en los cromosomas 5p y 6p. Estas nuevas alteraciones incluyen 11 genes asociados previamente con el proceso metastásico de CRC (Muñoz Bellvis et al., 2012) y podrı́an estar asociadas bien con el proceso metastásico en sı́ o con la adaptación de las células metastásicas al microentorno en el hı́gado. Finalmente, el algoritmo diseñado para la detección de puntos de ruptura ha posibilitado la determinación de las regiones cromosómicas más inestables asociadas al CRC. Entre las regiones detectadas destaca la región del cromosoma 17 que comprende la banda 17p11.2. Este punto de ruptura ha sido validado con un conjunto de muestras de CRC más amplio e independiente en (González-González et al., 2012). Esta región detectada está caracterizada por una arquitectura compleja con repeticiones en bajo número de copias denominadas LCRs (Low Copy Repeats) que, aparentemente, influyen en la inestabilidad genómica y facilitan los reordenamientos genómicos (Sharp et al., 2006; Carvalho and Lupski, 2008). Esta inestabilidad provoca que muchas veces, durante la división del centrómero en la mitosis y meiosis se produzcan alteraciones y cruzamientos, llevando a que la división se realice en el plano transversal en lugar de en el vertical. Esto provoca que uno de los brazos del cromosoma original se pierda y el otro se duplique dando lugar a un isocromosoma con dos brazos genéticamente idénticos entre sı́ pero en sentido inverso (Barbouti et al., 2004). El isocromosoma del brazo largo del cromosoma 17 ha sido asociado con diferentes tipos de tumores como el meduloblastoma, donde es la alteración más frecuente (50 %, (Biegel, 1997)), linfoma no-Hodgkin (NHL), leucemia mieloide aguda (AML), leucemia linfoide crónica (CLL) y sı́ndromes mielodisplásicos (MDS) (Babicka et al., 2007; Scheurlen et al., 1999). La amplificación del cromosoma 17q (el punto de ruptura 17p11.2 conlleva normalmente una pérdida del brazo p del cromosoma y una ganancia del brazo q del mismo) es un factor de mal pronóstico en la gran mayorı́a de los casos reportados. Sin embargo, hasta ahora la presencia de este isocromosoma no habı́a sido asociada con la supervivencia en cáncer colorectal metastásico. 53 Capı́tulo 3 Análisis combinado de perfiles de expresión génica y de número de copias de DNA 3.1 Introducción: Integración de datos ómicos Las tecnologı́as genómicas y proteómicas de gran escala (como los microarrays de alta densidad) han posibilitado la cuantificación de caracterı́sticas celulares globales a diferentes niveles biomoleculares, como pueden ser los niveles de expresión génica (Schena et al., 1995), el número de copias de DNA (Pollack et al., 1999), la expresión de proteı́nas (Haab et al., 2001), la metilación del DNA (Yan et al., 2000), etc. Cada uno de estos tipos de datos proporciona una visión de los procesos celulares desde un punto de vista diferente aunque complementario. La integración de varias de estas capas de datos proporciona una visión global más completa y detalla que la que puedan ofrecer cada unas de las capas por separado. El presente capı́tulo está enfocado a la integración de dos de estas capas de datos ”ómicos”: el número de copias de DNA y los perfiles de expresión génica. Esta integración tiene como objetivo discernir las alteraciones germinales que influyen en la aparición y progresión de numerosas patologı́as malignas, es decir, que están frecuentemente asociadas a las transformaciones que suceden en los procesos tumorales. Como la introducción a los datos de expresión y de número de copias de DNA, ası́ como a las técnicas de cuantificación y medida de los mismos han sido ya presentadas en los capı́tulos 1 y 2 respectivamente; en este capı́tulo se presentan directamente las ventajas derivadas de dicha integración junto con los problemas que han motivado el desarrollo del algoritmo implementado. A continuación se detalla la motivación de este trabajo y se describen cada uno de los pasos llevados a cabo para la integración, ası́ como los métodos empleados para el análisis conjunto de los datos. Para finalizar se muestran los resultados obtenidos con el algoritmo diseñado aplicado a un conjunto de datos de Glioblastoma Multiforme. 55 Análisis combinado de perfiles de expresión génica y de número de copias de DNA 3.2 Motivación: Número de copias de DNA (CN) y expresión génica (GE) El análisis de datos de expresión ha sido utilizado con éxito en la identificación de rutas moleculares (pathways) y en la identificación de subgrupos o subtipos diferentes de cáncer (Tusher et al., 2001; Subramanian et al., 2005). Sin embargo, en la caracterización de genes conductores el consenso entre diferentes firmas moleculares publicadas en estudios independientes es muy escaso (Ein-Dor et al., 2005; Fan et al., 2006; Sims, 2009). Por el contrario, los análisis publicados sobre las alteraciones en número de copias del DNA (CNAs) para una misma enfermedad suelen ser bastante consistentes, identificando regiones similares aunque varı́en en tamaño o estén ligeramente desplazadas (Beroukhim et al., 2010; Bignell et al., 2010). Las alteraciones genómicas pueden ser por tanto predictores más fiables y estables en la localización de genes conductores, ya que normalmente implican la amplificación o delección de oncogenes y genes supresores tumorales con un papel importante en la carcinogénesis. La principal desventaja del análisis de CNA es que normalmente da como resultado regiones genómicas de gran amplitud en las que pueden llegar a incluirse un gran número de loci génicos. Aparecen ası́ dificultades para separar aquellos genes de la región cuya desregulación causa y promueve el desarrollo del tumor, que denominaremos genes conductores (driver genes), de aquellos otros genes que acompañan al estado transformado patológico o que incluso simplemente están accidentalmente situados en la región con CNA pero que no tienen un efecto causal sobre la enfermedad, que denominaremos genes pasajeros (passenger genes). La clave de los estudios de genómica funcional que buscan biomarcadores para distintas enfermedades o estados biológicos patológicos es encontrar los genes que son verdaderamente causales. En ciertos casos genes situados en regiones con modificación en el número de copias de DNA no presentan cambios en sus niveles de expresión, o viceversa, genes que presentan alteraciones en sus niveles de expresión no modifican su número de copias de DNA (gene dosage). Akavia y colaboradores postulan que los genes conductores deberı́an presentar ambas caracterı́sticas: estar amplificados y sobre-expresados o delecionados e infra-expresados (Akavia et al., 2010). Otros autores demostraron que los genes que están consistentemente sobre-expresados en regiones genómicas amplificadas son necesarios para el desarrollo tumoral de las células, de modo que amplificación y sobre-expresión recurrentes marcan genes que pueden ser utilizados como potenciales dianas terapéuticas (Bernard-Pierrot et al., 2008; Natrajan et al., 2009). De este modo, una estrategia eficaz para disminuir el número de genes pasajeros y ayudar a diferenciarlos de los genes conductores consiste en la integración de información del número de copias de DNA junto con datos de expresión génica. En los últimos años han surgido numerosas aproximaciones a este tipo de integración (Pollack et al., 2002; Kotliarov et al., 2009; Akavia et al., 2010; Turner et al., 2010; Kim et al., 2011). Estas aproximaciones han demostrado la utilidad de dicha integración a la hora de identificar genes conductores basándose en la hipótesis de que los cambios de expresión en los genes asociados a una determinada enfermedad están frecuentemente inducidos por alteraciones genómicas. La idea fundamental que subyace en este tipo de análisis es la identificación de alteraciones recurrentes y genes cuyos perfiles de expresión estén asociados (correlacionados normalmente) con dichas alteraciones. Sin embargo, la mayorı́a de estos trabajos buscan las relaciones entre los genes de una manera individual; es decir, utilizan los valores de expresión basándose en una estrategia gen a gen sin tener en cuenta las localizaciones cromosómicas de estos genes. La aproximación que se propone en este capı́tulo está basada sin embargo en una exploración global de la relación entre el número de copias de DNA y los niveles de expresión génica. Nues56 Capı́tulo 3 tra aproximación se apoya en la hipótesis de que deberı́a existir un comportamiento común a los genes que están bajo la influencia de CNAs (Ortiz-Estevez et al., 2011). Para analizar este comportamiento común se propone la aplicación de un algoritmo de segmentación a los dos tipos de datos (i.e. número de copias CN y expresión génica GE) de manera independiente. Del mismo modo que los algoritmos de segmentación identifican conjuntos de SNPs contiguos en el genoma con el mismo número de copias de DNA; la aplicación del algoritmo de segmentación a los valores de expresión génica permitirá identificar conjuntos de genes con expresión similar en regiones genómicas y reducir posibles efectos de regulación génica que no estén relacionados con la localización cromosómica. En (Ortiz-Estevez et al., 2011) se analiza la correlación entre los dos tipos de datos segmentados (CN y GE) y se demuestra que dicha segmentación mejora las correlaciones encontradas utilizando los genes de modo independiente. Sin embargo, no se propone una metodologı́a para el análisis y la discriminación de las regiones candidatas y de los genes conductores identificados en las mismas. 3.3 Desarrollo metodológico: Integración de datos de expresión génica y de datos de número de copias de DNA El presente capı́tulo describe el desarrollo de un método para la integración de datos procedentes de microarrays de expresión y de microarrays de DNA basado en las localizaciones cromosómicas de ambos tipos de datos publicado en (Fontanillo et al., 2012). Para una mayor facilidad de lectura abreviaremos los datos de expresión génica como GE y los datos de número de copias de DNA como CN. El flujo de análisis propuesto se encuentra representado de manera esquemática en la figura 3.1 que incluye el preprocesamiento propuesto en (Ortiz-Estevez et al., 2011). En el flujo de trabajo se muestra que ambos tipos de datos se preprocesan de manera independiente y se aplica un algoritmo de segmentación de manera también independiente a CN y GE. Una vez obtenidos los valores de número de copia de DNA segmentados y los valores de expresión segmentados se realiza la integración de ambos tipos de datos. El análisis de la asociación entre ambos permitirá seleccionar las regiones candidatas junto con los genes alterados en cada una de ellas. 3.3.1 Normalización y sumarización En los capı́tulos previos se ha comentado la importancia del preprocesamiento en el análisis de datos de GE procedentes de microarrays (1) y datos de CN procedentes de microarrays de SNPs (2). En el flujo de análisis conjunto de ambos tipos de datos el preprocesamiento se realiza de forma independiente para ambos. Por un lado, los datos de GE son preprocesados con RMA (Irizarry et al., 2003a) y, por otro, los datos de CN son preprocesados con CRMA (Bengtsson et al., 2009). Para ambos algoritmos es necesario un fichero de descripción del array (Chip Definition File, CDF) que contiene información sobre el mapeo de las sondas del array. Las sondas de los arrays de expresión serán agrupadas para cada locus génico utilizando el mapeo proporcionado por GATExplorer (http://bioinfow.dep.usal.es/xgate) (Risueno et al., 2010) y las sondas de los arrays de SNPs serán agrupadas para cada uno de los SNPs mapeados segun las asignaciones proporcionadas por Affymetrix usando la plataforma aroma.affymetrix (http://www.aroma-project.org). 57 Análisis combinado de perfiles de expresión génica y de número de copias de DNA Figura 3.1: Esquema del flujo del análisis integrado de datos de expresión y número de copias de DNA - Los pasos iniciales de preprocesamiento y segmentación incluidos en el recuadro gris han sido adaptados de (Ortiz-Estevez et al., 2011). El resto de pasos incluyen el análisis de la correlación entre la señal segmentada de expresión y de número de copias y las frecuencias de alteración conjunta. 58 Capı́tulo 3 3.3.2 Segmentación Llamamos segmentación al proceso de dividir un conjunto de datos ordenado en regiones de elementos adyacentes que tienen valores similares. A cada una de estas regiones se le asigna un valor que representa a todos los datos que pertenecen a la misma. Entre los diferentes algoritmos de segmentación comentados en 2.2.2, se ha utilizado CBS (Circular Binary Segmentation) (Venkatraman and Olshen, 2007). Dicho algoritmo ha sido aplicado a los datos de GE y de CN de manera independiente. Al igual que en el preprocesamiento de los datos de CN descrito en 2.2.1, el número de copias de cada región viene determinado por la comparación con una muestra sana de referencia (log2ratio de señal de la muestra tumoral alterada versus la señal de la muestra de referencia normal), en los datos de GE se han utilizado también los valores de expresión relativos a muestras sanas pareadas (log2ratio de los niveles de expresión de los genes en la muestra tumoral versus los niveles de expresión en la muestra de referencia normal). Esto permite discernir aquellos genes en los que se produce un cambio en los niveles de expresión en el tumor, de los genes cuyos valores de expresión son altos en cualquier célula independientemente de si es tumoral. Para datos de CN los algoritmos de segmentación proporcionan una buena estimación del número real de copias de DNA, ya que se centran en la búsqueda de los puntos de ruptura donde se producen estos cambios. En contraposición, la segmentación de GE no es el mejor estimador para el nivel de expresión propio de un gen, sino una medida indirecta de los efectos sobre la expresión de mecanismos de regulación relacionados con la localización genómica. Al suavizar los valores de expresión de cada gen teniendo en cuenta la expresión de los genes adyacentes se están considerando sobre todo los efectos asociados a la localización de los genes en el genoma, como pueden ser la alteración del número de copias de la región u otros mecanismos epigenéticos como la metilación del DNA o la descondensación de la cromatina. De esta manera, se suavizan o enmascaran los mecanismos de control transcripcional especı́ficos de un gen no asociados a su locus genómico. La segmentación de datos de expresión plantea un problema añadido que no está presente en los datos que provienen de arrays de SNPs. Un SNP es un único punto con una localización concreta en el genoma, sin embargo un gen para el que se tiene un único valor de expresión puede ocupar desde unos pocos cientos hasta decenas de miles de pares de bases. Para los algoritmos de segmentación cada uno de estos genes tiene que ser considerado de manera puntual, por lo que para la segmentación se ha utilizado como localización concreta el punto medio del locus génico independientemente del número de pares de bases en las que se extienda el gen. 3.3.3 Emparejamiento de los datos de expresión y número de copias de DNA El proceso para emparejar los datos de GE y CN no es trivial puesto que las sondas e identificadores utilizados en ambos tipos de datos no son los mismos ni tienen la misma distribución a lo largo del genoma. La aproximación mayoritaria es la tomada en (Turner et al., 2010) que asigna a cada gen presente en el microarray de expresión el valor de CN correspondiente a un valor de centralidad, media o mediana, de los SNPs localizados en el locus de dicho gen. Sin embargo, ocurre que, dependiendo del tipo de array de SNPs utilizado, únicamente un porcentaje de los genes asociados contienen algún SNP. 59 Análisis combinado de perfiles de expresión génica y de número de copias de DNA En (Kotliarov et al., 2009) extienden esta definición y toman para cada probeset definido en el microarray de expresión el valor de la media de los SNPs localizados en una ventana de 1 Mbp alrededor del centro de dicho probeset logrando ası́ una mayor cobertura. Esta aproximación presenta el inconveniente de que los SNPs tomados para cada uno de los probesets pueden solaparse. Además sigue siendo necesaria también la realización de una equivalencia posterior entre probeset y gen. La segmentación tanto de los datos de expresión como de número de copias de DNA hace posible una nueva aproximación. El algoritmo implementado aprovecha la ventaja de los datos segmentados en los que ya no se dispone de información puntual de cada sonda en posiciones concretas, sino que las regiones o segmentos abarcan todo el genoma completo. Cada una de los segmentos calculados para cada tipo de datos está definido por la media del conjunto de SNPs o del conjunto de genes incluidos en cada uno de ellos. De esta manera, es posible asignar a cada gen un valor de expresión y de número de copias de DNA correspondiente al valor del segmento en el que se encuentra. Si en un locus hay uno o más puntos de ruptura que dan lugar a varios segmentos con valores diferentes para un mismo gen, se asignará a dicho gen el valor del segmento que incluya una mayor proporción del locus génico. Utilizando los datos segmentados se construyen dos matrices con los valores de CN segmentados (sCN) o con los valores de GE segmentados (sGE), respectivamente. De esta manera sCNij se corresponde con el valor del número de copias para el gen i en la muestra j y sGEij con el valor de expresión del gen i en la muestra j. 3.3.4 Correlación entre niveles de expresión y número de copias de DNA En la integración de los datos de expresión y de número de copias de DNA la determinación de la influencia de las CNAs sobre los niveles de expresión de los genes incluidos en las regiones alteradas adquiere un papel importante. Como se ha indicado al principio de este capı́tulo, varios estudios han demostrado que las CNAs pueden estar relacionadas con modificaciones similares en los niveles de expresión de algunos genes especı́ficos (Pollack et al., 2002; Kotliarov et al., 2006; Bungaro et al., 2009). En el análisis integrado desarrollado, la cuantificación de la influencia o asociación entre CN y GE se realiza mediante el cálculo de los coeficientes de correlación de Pearson entre los valores segmentados obtenidos: sCN y sGE. Ası́, para cada gen i el coeficiente de correlación se define como: n P (sCNij · sGEij ) − n · sCNi · sGEi ri = j=1 n · σsCNi · σsGEi (3.1) La utilización únicamente del coeficiente de correlación basado en datos segmentados permite la detección de regiones donde existe una fuerte influencia de las CNAs sobre los valores de expresión. Sin embargo, la segmentación sobre GE reduce la sensibilidad y no permite identificar fácilmente aquellas CNAs que afecta a un número muy reducido de genes o a genes cuyos loci están muy distantes. En el cálculo de sCN las sondas de los arrays de SNPs están homogéneamente distribuidas en el genoma, con la sola excepción de algunas regiones bien localizadas (como los centrómeros donde la densidad de sondas es mucho menor que en el resto). En el cálculo de sGE esto no sucede ası́, existen regiones genómicas en las que la densidad de genes es muy baja y la variabilidad de su expresión muy alta. Es por ello que los segmentos obtenidos para los datos de expresión son más extensos y consecuentemente, existe una mayor dificultad en la detección 60 Capı́tulo 3 de puntos de ruptura. Este hecho reduce la sensibilidad en la detección de regiones muy pequeñas afectadas por las CNAs y plantea un problema en la búsqueda de correlaciones para aquellos genes en regiones de densidad génica baja y con mucha variabilidad en la expresión de genes cercanos. Para aunmentar la sensibilidad y evitar la pérdida de estas regiones en el análisis de las correlaciones, el algoritmo realiza una búsqueda de genes cuyos valores de expresión difieren significativamente de la media del segmento en el que se encuentran. Se seleccionan aquellos genes que son considerados outliers en su segmento en un porcentaje de las muestras (por defecto un tercio de las mismas). Una vez identificados estos genes se recalculan las correlaciones entre los valores de sCN y sus valores de expresión sin segmentar. Se recuperan ası́ ciertos genes aislados pero significativos que se comportan de modo independiente a sus genes más cercanos, que de otro modo habrı́an quedado ocultos en la segmentación. 3.3.5 Alteraciones consistentes y recurrentes en los niveles de CN y GE Según la hipótesis de la presión selectiva las alteraciones que confieren a la célula tumoral una ventaja sobre el resto son mantenidas, con lo que las alteraciones comunes observadas en un elevado número de muestras serán probablemente más importantes en el desarrollo de la enfermedad que aquellas que se producen en un número muy pequeño de muestras, aunque sean de una intensidad mayor. A la hora de identificar regiones clave buscaremos por tanto aquellas que se producen de manera recurrente y consistente. Esta alteración recurrente”significa alterada en una alta proporción de los individuos, y çonsistente”significa alterada de la misma forma en ambos tipos de datos (es decir, una ganancia en CN que conlleve una sobre-expresión de los genes en la región o una pérdida en CN que conlleve una infra-expresión de los genes en la región). De esta manera se discriminará aquellos genes pasajeros que o bien no ven modificada su expresión o bien esta expresión está regulada por otros factores independientes del número de copias de DNA. Para acometer la búsqueda de estas alteraciones consistentes y recurrentes se realiza un análisis basado en la estratificación en categorı́as de los segmentos en ambos tipos de datos. De este modo, las regiones genómicas se clasifican en diferentes categorı́as dependiendo de los valores de CN y de GE. En los datos de CN las categorı́as en las que se discretizan los segmentos también son 3: 1. Ganancia en el número de copias de DNA (3 copias o más) (Gained, G) 2. Pérdida en el número de copias de DNA (1 copia o menos) (Lost, L) 3. Sin cambios en el número de copias de DNA (2 copias) (No Changed, N) Los segmentos de GE son discretizados en 3 categorı́as: 1. Regulados sobre-expresados (Up-regulated, U) 2. Regulados infra-expresados o reprimidos (Down-regulated, D) 3. Sin cambios en la expresión (No Changed, N) La combinación de los dos tipos de estratificaciones permite la discretización de las regiones genómicas en 9 categorı́as representadas en la tabla de contingencia presentada en la figura 3.2. La discretización de los datos en estos 9 estados se realiza a partir de los valores de sGE y de sCN para cada gen en cada una de las muestras obtenidos del emparejamiento de los dos tipos de datos explicado en la sección 3.3.3. La determinación de los estados o categorı́as establecidos es independiente para cada tipo de datos y se realiza de forma análoga a la descrita en el capı́tulo 2 61 Análisis combinado de perfiles de expresión génica y de número de copias de DNA Figura 3.2: Posibles estados para cada región basados en la categorización de los segmentos de CN y de GE - De acuerdo a las categorı́as establecidas para los datos de número de copias de DNA (Ganancia, Pérdida y No Cambio) y de expresión (Sobre-expresión, Infra-expresión y No Cambio) las regiones pueden clasificarse en 9 estados diferentes mostrados en la tabla de contingencia. en la sección 2.2.3. Esto es, tomando las distribuciones de los valores de expresión y de número de copias para el conjunto de genes mapeados en ambos tipos de datos se identifican los valores atı́picos u outliers de estas distribuciones, que se eliminarán para el cálculo de los umbrales. A continuación se utiliza un algoritmo de agrupamiento (K-means) en 3 clases o clústers para cada tipo de datos de manera independiente. Se establecen como umbrales de ganancia y pérdida y sobre-expresión e infra-expresión los lı́mites o fronteras entre las clases determinadas por el algoritmo de agrupamiento. Utilizando estos umbrales para cada muestra se clasifican los genes en las 9 categorı́as descritas. De estas 9 categorı́as resultan interesantes aquellas que implican la alteración consistente en ambos tipos de datos, es decir, cuando la sobre-expresión (up U) está asociada con un aumento del número de copias de DNA (gain G) y cuando la infra-expresión génica (down D) está asociada con la pérdida (loss L) de alguna de las copias de DNA. Estas categorı́as (U-G y D-L) están marcadas en rojo y verde respectivamente en la tabla de contingencia de la figura 3.2. El algoritmo buscará aquellos genes que de manera recurrente se encuentran en estas categorı́as en la mayorı́a de las muestras. Es decir, se buscarán patrones comunes de modulación de los genes mediante el análisis de todas las muestras. La determinación de los patrones recurrentes o comunes se realiza mediante el análisis de las distribuciones de frecuencias empı́ricas para las categorı́as U-G y D-L mencionadas anteriormente. En estas distribuciones se identifican aquellos genes con una frecuencia de alteración por encima del cuantil 90 (C90 ). A partir de los genes identificados se establecen las regiones genómicas recurrentemente alteradas de manera que cada una de estas regiones estará formada por los genes en localizaciones cromosómicas contiguas con una frecuencia de alteración U-G y D-L por encima del umbral establecido. Cuando existan dos de estas regiones recurrentes separadas por 3 o menos genes serán combinadas en una única región con los lı́mites de comienzo y fin marcados por el inicio de la primera región y el fin de la segunda respectivamente. 3.3.6 Identificación de regiones genómicas clave en la alteración El método desarrollado identifica por un lado regiones candidatas con una alta correlación entre CN y GE y por otro lado las regiones recurrentemente alteradas de forma consistente entre las 62 Capı́tulo 3 50000 Not Correlated Correlated (r>0.60) Number of gene loci 40000 Figura 3.3: Distribución de densidad de los coeficientes de correlación para los datos de GBM - En morado se representa el número de genes totales, considerando todas las muestras, con correlaciones significativas (r ≥ 0.60) entre los niveles de expresión génica y el número de copias de DNA para los datos de GBM. En azul se representa el número de genes con correlaciones no significativas (r ≤ 0.60). 30000 20000 10000 0 − 0 .2 0 .0 0 .2 0 .4 0 .6 0 .8 Correlation Coefficient (r) 1 .0 muestras testadas para ambos tipos de datos. Una región genómica será definida como clave en el desarrollo y progresión tumoral si y sólo si cumple ambas condiciones. Es decir, la frecuencia de alteración de la región es elevada y además la CNA determina la desregulación de los genes asociados a la misma. Estas regiones clave son regiones candidatas a contener los genes conductores causales asociados con la enfermedad o el tipo de cáncer analizado. 3.4 Aplicación a un conjunto de muestras de Glioblastoma Multiforme (GBM) El método diseñado ha sido aplicado a un conjunto de datos sobre muestras de Glioblastoma Multiforme (GBM), que es el tumor más común y de peor pronóstico de los tumores del sistema nervioso central con una mediana de supervivencia de aproximadamente 14 meses (Furnari et al., 2007). Los datos para el análisis con el algoritmo desarrollado han sido tomados del estudio (Kotliarov et al., 2006) que consta de 64 muestras de tumores de pacientes de GBM de los que se han hibridado tanto microarrays de DNA como microarrays de expresión. En concreto, para DNA se ha utilizado el modelo Genechip Human Mapping 100K de Affymetrix y para el análisis de los niveles de expresión génica el Genechip Human Genome U133 Plus 2.0. A parte de las muestras tumorales y para tener una referencia con la que poder comparar se han hibridado también arrays de ambos tipos con 21 muestras no tumorales de cariotipo normal, tomadas de resecciones del lóbulo temporal de paciences epilépticos. 3.4.1 Correlación entre CN y GE en muestras de GBM Aproximadamente el 55 % de los 21281 genes humanos mapeados (versión h37 del Genome Reference Consortium, GRC) en ambos tipos de datos están relacionados con un coeficiente de correlación de Pearson r > 0.60, correspondiente con un p-valor ajustado con el método de Bonferroni 63 Análisis combinado de perfiles de expresión génica y de número de copias de DNA Number of samples Figura 3.4: Boxplots con las frecuencias de alteración conjunta para CN y GE en GBM - Distribuciones de densidad del número de muestras de GBM asignadas a cada una de las 9 categorı́as (U-G, N-G, DG, U-N, N-N, D-N, U-L NL D-L) para todos los loci génicos humanos. <0.005. El elevado porcentaje de genes correlacionados muestra la influencia del número de copias de DNA sobre los valores de expresión de los genes. Siendo más astringente en la selección del umbral mı́nimo de correlación la cobertura se ve reducida al 26 % de los genes para un umbral de correlación r > 0.70 y a un 6 % de los genes para un r > 0.80. La figura 3.3 muestra el número de loci génicos para los diferentes valores de correlación, en la que se aprecia que la mayorı́a presenta correlaciones significativas entre los datos sCN y sGE. Se consideran regiones con valores de correlación significativa aquellas regiones formadas por al menos dos loci génicos contiguos en los que el coeficiente de correlación es mayor de 0.60 (r > 0.60) correspondiente con un p-valor < 0.005 (corregido mediante el método de Bonferroni). 3.4.2 Frecuencia combinada de alteración de CN y GE en muestras de GBM Partiendo de los datos emparejados de sCN y sGE se han estratificado los genes en las 9 categorı́as representadas en la tabla de contingencia 3.2. La figura 3.4 presenta las distribuciones del número de muestras en cada categorı́a para todos los genes. Como cabrı́a esperar, la categorı́a de no cambio (N-N) es la más frecuente. La mayorı́a de los genes no presentan ninguna alteración ni en el número de copias de DNA ni en sus niveles de expresión, mientras que en categorı́as como D-G o U-L (correspondientes a tendencias opuestas entre GE y CN) no existen apenas genes (tan sólo 4) y además presentan esta tendencia en un número muy pequeño de muestras (siempre en menos de 5 muestras). Por otro lado, en las categorı́as de interés, es decir, regiones donde se produce una sobre-expresión colocalizada con una ganancia de CN (U-G) o una infra-expresión colocalizada con una pérdida de CN (D-L), se observa que un número reducido de genes aparece alterado en ambos tipos de datos en un porcentaje elevado de las muestras (más de 30 muestras de las 64 analizadas). El análisis de las distribuciones de frecuencias empı́ricas en estas categorı́as permite establecer un umbral correspondiente al cuantil del 10 % de frecuencias superiores. La determinación de los loci más frecuentemente asignados a estas categorı́as se corresponde con los genes que aparecen alterados en el 20 % y el 17 % de las muestras para las categorı́as U-G y D-L, respectivamente. 64 Capı́tulo 3 Figura 3.5: Frecuencias de alteración de GE y CN para datos de GBM - Porcentaje de muestras alteradas en cada localización genómica para cada cromosoma ordenados del 1 al 22, uno a continuación de otro. En rojo y rosa el porcentaje de muestras con sobre-expresión y aumento CN respectivamente. El porcentaje de muestras con infra-expresión está marcado en verde y con una disminución del número de copias de DNA en verde claro superpuesto. Las lı́neas azules marcan una frecuencia de alteración en el 25 % de las muestras. 65 Análisis combinado de perfiles de expresión génica y de número de copias de DNA Se establecen como regiones candidatas aquellas formadas por uno o más loci contiguos con frecuencias de alteración por encima de los umbrales establecidos. Estas regiones candidatas se corresponden con regiones en los cromosomas 7, 19 y 20 para U-G y regiones en los cromosomas 10, 13 y 22 para D-L. En la representación esquemática de estas alteraciones en la figura 3.5 se observan como las mayores frecuencias se localizan en dichos cromosomas. En la figura también se puede ver que la mayorı́a de las CNAs y los cambios de expresión se superponen en el genoma, lo que indica una fuerte asociación entre ambos tipos de datos, reportada también en (Ortiz-Estevez et al., 2011). Existen sin embargo algunas regiones (como el brazo p del cromosoma 6 o el cromosoma 21) en las que se observa que la sobre-expresión de los genes situados en estos loci no se corresponde con un aumento de CN. Se puede suponer que esta no correspondencia debe obedecer otros mecanismos de regulación transcripcional distintos en los que no se produce esa asociación entre CN y GE. 3.4.3 Identificación de genes conductores en regiones candidatas para GBM Como se ha descrito anteriormente, el método desarrollado identifica como regiones candidatas aquellas que presentan una alta correlación entre los valores de CN y GE y que, además, están frecuentemente alteradas en el mismo sentido de manera consistente. La figura 3.6 muestra una visión global de estas dos caracterı́sticas para cada región en los 22 autosomas humanos. En ella se representan el porcentaje de muestras con alteraciones (el área rosa representa el porcentaje de muestras U-G y el área verde el porcentaje de muestras D-L) y la correlación (r) entre los valores de CN y GE (en azul correlaciones no significativas, r ≤ 0.60, y en rojo correlaciones significativas, r > 0.60) para las muestras de GBM. Imponiendo esta doble condición se obtienen las regiones alteradas de manera recurrente y consistente que se corresponden con los cromosomas 7, 10, 13q, 14q, 20 y 22q. Las regiones candidatas obtenidas son consistentes con las alteraciones previamente descritas. Por ejemplo, en el trabajo (de Tayrac et al., 2009), donde se reportan ganancias en los cromosomas 7 (73 %) y 20 (16 %) y pérdidas en 10 (58 %), 13q (31 %) y 22q(21 %); y en el trabajo de (Ruano et al., 2006) en el que también se identifican como regiones clave los cromosomas 7, 10, 13 y 20. Los regiones más significativas identificadas se muestran de manera detallada en las tablas 3.4.3 y 3.4.3, tanto para las regiones que muestran ganancia y sobre-expresión como para las regiones que muestran pérdida e infra-expresión, respectivamente. Estas tablas contienen información acerca del tamaño de la región (posiciones de comienzo y fin en Megabases (Mb)), frecuencia media de alteración de la región (porcentaje de muestras) y valor medio de la correlación (r) entre los valores de sCN y sGE. Las correlaciones calculadas con los valores de expresión sin segmentar para los genes con valores de expresión muy diferentes del resto de su segmento aparecen marcadas con *. Además se indica el número de genes totales que comprende la región y se señalan los genes previamente asociados con algún tipo de cáncer (según el censo de genes de cáncer del Sanger Center: Cancer Gene Census List, http://www.sanger.ac.uk/genetics/CGP). Las alteraciones más importantes y frecuentes en Glioblastoma son la amplificación del cromosoma 7 y la delección del cromosoma 10 (Ohgaki et al., 2004), hecho que corrobora las frecuencias de alteración encontradas en los datos analizados. Los resultados para estos cromosomas obtenidos con el método propuesto han sido ampliados en la figura 3.7. Las alteraciones abarcan prácticamente los cromosomas completos en más del 50 % de las muestras, aunque también se observa que existen pequeñas regiones en las que la influencia de las alteraciones en el número de copias no se corresponde con la desregulación de la expresión génica (son pequeñas zonas con correlaciones no significativas indicadas como puntos azules). 66 qqq q qq qq q q qq qq qqq q qq qqq q qqqq q q q q q qq qqq q qqq qq qq qqqqq qqq qqqqq qq q qq qqq q qq qq q q q qq q q qq qq qqqq q qqqqq qqqqqq q q q q qqq qqq q qqq qqq q qqqq q q qq qq q q q qqqq q qq q qqqqq qqqq qq q q qq qqqqqqq qqq q qqqq qq q qq qq qqqqq qqqq q qq q qq q qq q qq qqq q q q q q q q qqq qqqqq qqq q qq q q q q q qqq qq qqqqqqq qq qq qq q qq q qq qqqqq qqq q qqqq q q q qqq q qq q q q q q qq qqqqqqqq qqq qqq q qqq q q qqqqqqqq q q q qqq q q qqqq qqqq qq qqqq qq qq qq q q qq q q q qqq q qqq qqq qq q qqq qq qqq qq q q qqqq q q q q qq qqqq qqqqq qqq q qqq q qq qqqqq qqqq q q qq qqq qqqqqq qq qq qq q q q q qq qqq q q qq q q qqqq qqqq q q qq qqq qqqqqq qq q qq qqqq q q q q qqqqq q q q qqqq q qq q q qqqq q q q qq qqq qqq qq q qq q q q q q q q q qq q q q qqq qqqqq qqqq q qqqqqq qqqqqq q qqqq q qqqq q qq qqqqqq qqqqqq qq q qq q q qq q qq q q q q q q q qq q qq qqq q q qqqq q q qq qq q q q q q q qq q q qqq qq q qqqq q q q qqq q q qqqq q q q qqqq qqqqqqq qq q q qq qqqqqqqq q qq q qqqq qqqqq qqq qqqqqqqqq qq qqqqq qq qq q q qqqqq qq qq q qqq q qq qq qqq qqqq q q q q qq q qq qqq qq qqq qqq q q qq qq q q qq q q q q q qq q q q qq qqqqqqqqqqqq qqq qqq q q q qq q qq q qq q q qqqqqq qqqqq q q q q qq qqqq qqqqq qqqq qqq qq qqq q q q q q q q q q q qq qqqqq qqq qqqq q qqqqqq q qq q q qqq qqqqq qq q q qqq qqq qqqqqqqqqqq qq q q qq q qqqq qq qq qqq q qq q q qq q q q q q q qq q qq qqq qq q qq q qqqqq qqq qqqqqq qqq qqqqq q q qq qq q q q q q q q q qqqqqqqqq qqqqqq q q q q qq q qq q q q qqq qqq qqqq q qq qqqq q qqqqqqq q qq qqqqq q qqqq qqqq qq q qqqqqqq qqqq q q qq qqq q qq q q qq q q q qq qq q q q qqqqqqqqq qqq qq q qqq qq q qqq qq qq qqq q q q qqqqqq q q qqq q qq q q q qqqqqq q qq q q qqqqqqqqqq qqqqqqq q q qq q q qq q q q qq qq qqq qqqq q q qqqqqqq qqq q q qqqqq q qqqq q q qqqqqqq qqqqqqq qq q qq q qqq q q qqq qqqqqqq qqqq qqq q qqqqqqq q qqqqqqqqqqq qq qqq qqqqq q qqqq qq qq qq q qqq qq qqq q qqqq qqqq qq q q qqq qqqq qq qqq qqqqqq q qq q qqq qqq qq qqqqqqqqqq qqq qq qq q q q qqq q qqq q qqq qqqq qq q qqqqq qq qq q qqqq q qqqqq qqq qq qqq qqq q q q qqqqqq q q q q qq qqqq q qqq q qqq q q qqqqq qq qqqq qqq qqqq qq qq qqq q qq qqqqqq qq qq q q qqqqq q q q qqqq q qqqq qq q q q qqqq q q q qqq q q q q q q qq qq qqqq qq qq qq q q qq q qqqq qqqqqq qqqqqq qqq qqqq qqq qq q qq q qqqqqqqqqq q qqq qqq q q qq q qqqq qqqqqq qqq q q qq q qqqqqq q qqqqq qq qq qqq qqq qq q q qq qqqqq q qq q qqqq qq qqqqqqq qq qq qqq q q q qq q q q q q qq qq qq qqq q qqqq qq qqq qqq q q qqqq q qqq qqqqqq qq qqqqqq q qqqqq q q q q qqq qqq qq qq q q qq q q q q q qq qq qq q qqq q q qq qq q qqqq qqqq qqqq q qqq qqqqq q q q qq q q q q qq q qqq qqqq qq qqq qq q qqq q qqq q q qqq qq qq q qqq qqqqqq q qqq qqq q q q qqqqqqq q q qqqq q q q q q q q q q q q qqqqq q q qq qq q q q q q qq q q q q q qqqq q qq qqqq q q q qq q qq qqqqqq q q qq qq qqq qqq q qqqqqqq qqqq qq q qqqqq qqq qqq q qq qqq q qqq qqq qq qq qq qqqqq qq q qq q q q q q q qq qqqq qq q qqq qq q q qqqqq q q q qqq q 3 qqqq q qq q qq q qqqqq q qqqq q qq q qqq q qq q q qq q qqq q qqq qqq qqq qq qqqq q q qq q q qqq q qq qqqqqq q q qq q q q qq q q q qq qqq qq q qqqqqqqq qqq qq qqqqq q q q q qq q q qq qqqqq q q qqqq qq qq 2 q qq qqqqqqqqq qq q qqqqqq q qq qqq q q q q q q q q qqqq q qqq qq qqqqqqqqqq qqq q q qq qqqq qq qq qq q q q qqq qqq q q qqqq q qq q qqqqq q q q qqq qqqqq qq q q qqqqqqqq qqqqqqqqqq qq q qq qqqqq q q q q qq qqq q qqqq q qqq q q qqq q qq q qq q qqq q qqqq q q qq q qqq qqq qq qq qq qqqqq qq qqqq qq q qqqqqqqqq qqqqqqq qqqq qq qq q q qq qqqqqq q q qqqqqqqqq qq q q qqqq qqq qqq q q q q qq q qqq qq q qq q qq q qqq q q q q qqq qq q q qq q qq qqqqq q qqqq qqqqqq q qq qqqqq qqq q qqq qqq q q q q q qq q qq qqqqqq qqqqq q q q q q q qqqqqqqq qq qqq q q qqq qq qqqqqqqqqqqq qqq q qqqq q qq qq q q qqq qqq q qq q qqq qqqqqqq qqqqqqq q q qq q qqq q qq qqqqqqq qqqqq q qqqq qqq qqqqqq q q qqqqq qqqq q q q q qq qq qqqqq qqqqq q qqq qqq qqqqq qqqq qqqqqqq qqqqq q q qq q q qq q q q qqqqqqqqqq q qqqqq qq qqqqq qqqqq qq qqq qq qq qq q qq qq q qq qq qq q q q q qq q q q q q qqq q qqq q q q qqq q qqq q q q qq qq qq qq q q q qqq qqqq q qq q q qq q q q q q qqq qqqq q q qq q q q qq qq qqq qq qq q q qq qqqq q q q qq q q q q q q q q q qq qq q qq qq q q qq q qqq q qqqqqq qqq q q qqq qqq q q q qqqq q qq qq q qqq q q q qq qqq qqqq qqqq qq qq qqq q qq q qq qqqqqqq qq qqq qqqq qq q qq qqq qqqqqqqq qqqq qq q qqqqqqqq qq qq q qq q qq q qqq qqq qqq qq q q q qq qq qq q q qqq qqq qqqqqq qqqq q qqqq q q qqq qqq q q q q q qqqq q qqqqqq qq qqqq q qqq q q qq q qqqqqqqqq qq q q qqq qq qqqqqq qqqqqqq q q q q q q q qqqqqqqqqq qqq qqqqqqqqq qqq qqqqqqqqqqqqqqqqqqqq qqq qqq q q q q qqqqq qqqqqq q qq q qqqqqq qqqqqq qqqqqq qq qqqqqq q qqqqq q q qqqq qq q qqq q q qqqqq qq qqqq qq q q qqqqqqq qqqq q qq qq qqqq qq qq qq qq qqq q qq q q q q qq q q qq qq q q q q q q qq qqq qqqqqqqqqqq qqqqqq q qq qqqq q q qqq qqqq qq qq q q qqq qqq q qqq q qqqqq q qq qqqqqq qq q qqq q qqqq q q qqqqqqq q qqqq qqq qqqq qq q q q q q q q q q q q q q q qqq q qqqqqqq q qq q qqqq qqqqqq qqqqqq qq qqqq q q qq qq q q q q qq qqq qqqq qqqqqqqqqqq q qq qq qq q q q qq q qq qqqqqq q q qqqq q q q q qq q q qqq q q q qqqq qq q q qqqqqq qq qqq qq qq q qqq q qqqqqqqqqqqq q q qqqq qqq qq qqqq q q qqqq q q qqqq qq q qq qq qq qqq q q q q qq q qq qq q qqqqqq q qqqqqqqqq qqqqq q q q q qqqqqq 7 q q qqqq q q q q q q qq qq qqq qq q q q qqq qqqqqq qqqqqq q qq qq qq qq qq q q q 6 q q q q q q q q qq q q q qq q qqqq q qq q qqqq qq qq q qqqq qq qq q q q q q q q qqqq qqqq qqqqq qqq qqqqqqqqqq q qqq q q qq q q q q q qq qqqqqq q qq qqq q q q q qqqqqqqqq q qqq qqqq qqqq q qq qqq qqq q q q qqqq q q q q q q qqqq q qqqq q qq qqq q q q q qqqqq qqq q qq q qqq q q q qqq q qqqq qq q q qqq qq q qqqqqqqqqq qq qqq q qqqq qqqqq qqqq qqqqqq q qqqqq qq qq q qq qqq q q q qqqq qqq qqqqqq qq q q qqq qqqq q q q qq qq q q qq q qq qq qqq 5 q qqqqq q qqq qq q q qqqq q q q q qq qq qq qqq q qq qqqqqqqqqqqqqqq q q qqq qqq qq qq qqqq qqqqqq qq qq q q q q qqqq qqqqqq q qqqq q q q q qq q qqq q qq q qq qq qqqq qqq q q qqq qq qqqqqqq qqqq q qqq q qqqq q q qq qq qqqqqqqq qq q qq qqqqqqq q qq qqq q q qq qq qq qq q qq q q q qq qq q q qq qq q qqqq qq qq qqqqq qqqqq qq qqqq qq qqqq qqqqq q qq qqqqqqqqqqqqqq qqqq qqqq q qqq qq q q qqqq qqq q q qq qqqqqqqqqqq qq q q qq q qq qqqq q qqq qq qqqqqqq q q q qq qqqq qqq qqqqqqq qqq qqqq qq q q qq qqqqqq q q q q q qqq q qqqqqq qq qqq q qqqqq q q qqqq q qqq q qqq qqq q qq q q qq q q qqq qq qqq 4 q q q q qq q qqq q qq qq qq q q qqqqq q q q qq q qq qqqqqqqqqq q qq q qq q qq qqq q q qq q q qq qq qq qqqq q qqqq qq q q qq qqq q q qqqqq q q q qqqqqqqq qqqqqqqqq q qqqq qq qqqqqqqqq q qq qq q qqqq q qqqqqqqqq q qqqq q q qqqqq q qqqq q qqqqqq qq qqqqqqqq qq qqqqqqq qq q qq qq qqqqqqq qqqq qqqqq qqqqqqq q q q qqqq qq qqq qq qqqqq q q qqq qqqq qqqq qqqq qqqqqq q qqqq qqq qqq qq qqqq qq qq q qqqqqq q q qq qqqqqq q qqq qq q q q q q q q qq qqq qq q q qqqqqq q qqqqqq qqq qqq qqq q q q q qqq q qqq qqq qqqq q qqqqqq q q qqqqqqqqq q qqqqq qqqq q qqq q q q qqq q q q qqq q q q q q q q qq q qqq q q qq qqqqqqqq qq 8 q qq qqq q qqqqqqqq q qqqqqqqq qq qq qqqqqqqq qqq q q qq qq q qqq q qqqq q qq qqq q qq q q qq q qq q qq q qqqqqqqq q qq q qq qqqq q q qq q q q q q qqqqqqqq qq qq q qqq qq qqqqq q q q q q q q q q q q qqq q q qq q q q q qqqqqqqq q qq qqqq qqq qq qq q q qq qq q qqq qqq qqq qq qq q q qqqq qqqqq qq qq qqq q qqq q qqqqqqq q q q q qqqqqq qqq q qq q qqqqq q qqqqqq qq qq q q qqq q qqqqqqqq q qq qq qq qq qq qqqqqq q qqq qq qq qqqqqqqqq qq qqqqqqqqqq q qqqqqqqq qqq q q q qqqqq q qq qqqq q q q qq q qqqqqq q q q q q q qqqqqqqqqq q qqqq qq q q q q qq qq q qq qq q q q q qqqq q q q q qq q q qq q q q q 9 qq qqq qq qqqqq q q qqqq qq q qq qqqqq q qqq q q qqqq qqq q qq qq qq qqq q qq q q q q q qqq qq qqq q qq qqqq qqqqqq qqq q qqqq qqqqq q q qqq qq qqq q q qqq qqqqq qqqq qq q qq q qqqqqq qqqqqqqq qqq qqqqqqqqqqq qq qqq qqqqqqqqqqqq qqq qqqqqq q qqq qqqqq q q q q q qqq q q qq qq q q q qq q q qqq qqq qqqq qq q q q qqq q qq q q q qqq qq qq qq qq q q q qqqqq qq qqqqq q qqq q q q qq q qqqqqqqqqqq q qqq qqq qqq q q qq q q q q q qqqq qqqqqqqq q qq q q q q qqqq qqq qqq qqqq qqq qq qqqqq qqq qq qqqqqqqqq q qq qq q q qqqq qqqqqqq q qqqq q qqqqq q q q q qq q q q q q qqq qqq qqqqq qq qqq q q q qqqq q q qqqqqqqqqq qq q qq qqqqq qqqq qq qqqqqq qq qq qq q qqq qqqq qqq 10 qqqq q qq qq q q q q q q q q q q q qq q qq qq qqq q q qq qqqqq qqqq qq q q qqqq q qqqqq q qqq q qqqqq q q qqqq q qqqq qqqqq qqqq q qqqqqq q q q q q q q q q q q q q q qq qq qq q q q q qq q qqq q q q qq q qqq q q q qq qq q q q q q q qqq q qqqq qq q q qqq qqqqqq q q qqqq qqq qqqqq q qqq q q qq q q q q qq q qq qq q qq q qq qqqq q qq q q q qqqqqqq qqqq q qqq qqqqqqqq qq q qqq q qqqqqq qqqq q qq q qq qq q q q q qqq qq q qq q q q q qqqq qq q q q qq q qq q qq qqqq qq q q q q q q qq q qq q qq q q q q qqqq q qq q q q q q q q q q q q q qq q qqqqqq q qq qq q q q q q qq q q qq q q qqq q qqq q q qq qqqq q qq qqqq q q q q qqqqq q q qq qq qqqqq q qqqq q q qq q qqqqqq qqq qq qqqqqq qqqq qqqqq q qq q qqqqqqqq q qq qqqqqq q qqqqqq qqqq qq q q qqq qqqqqqq qqqq q q q qq q q q q qqq qqq qq qqq q 11 qqqqqq qqq qqq q qqqqq qq q qq q qq qqqq qqqqqqq q q q q q qq q q q qq q qq q qqq qqqq q q q q qq qqq q q q qqq qq q q q qqqq q qqq q q q qqqqqqq q qqq qqqq q q q q q qqqqqqq qq q qq q qq qq q q q q qq qq qqqqqqq qq qq q qqq qq q qq q qq qqq qq q q q q q qqqqqq qq qqqqqq q q q q qq q qqq qqqqq qqq q qqqqqqq qq q q qqq qq q q q qq qqq q qq q qq qq q q q qq q q qq qq q qq q q q q q qq q q q qq q q q q q qqq q q q qq qq qqqq q qqq qq q qq q q qq q q q q q q q qq qq qq q q q q q q q qqqq q q q qqq qqq qq q q q q qqqqq q qq q q qqq qqq qq q qqqqq q qq q q qq qq q qqqq q q q q qq q q q q q q qq q qqqqqq q qq qq q q qq q qq qq qqq qq qqq qqq q qqqq qq q q q qqq qq qqq qqqq qqq q qqq q qq qqq q q q q qqqqq qq qqq q q q q qqq q q qq qq q qqqqqq qqqq q q qq qqq qqq q q qq q qq qq q q qq qq q qq qqqq qqqq q qq q q q q q q q qqq q qqqq q qqqqq qq qq q qq q q q q qq qq qq qq q qq qq 12 q q q qq q q q q qq qqq q q q q q qqqqqqq qq qqqqq qq qqqq qq qq qq q q q qqqq q qqqqq qqqqq q qqqqq q q qqqq qq qq qq qqq qqq q q qqqqqqq qqqq qqqqqq q qq qqqqqq qqqq qqqqq q q qqqqqq qqq qqq qq qqq qq qqqqqqq qq q qq q q q qq qqq qqq q qq q q q qqq qq qqq q q qqqqqq qqqq q qqqqq q qq q q qq q qqqqqqq q q q q 13 q q q q q qq q q q q q q qqq q qqq q q q q q q qqq qq qq q q q q q q q qq qqq qq q q qq q q q q qqq q q q q q qqqqqqq q q qqq qqq qq q q qq qqq qqqqq qqq q q qq q q q qqq q qq qq qq qqq qqq q qqq qqq qq qqqqq qqq q qq q qq qqq qqq qqqqqqqqqqq qq q qqqqqqq q qqqq qqq qq qq q qqqq qqq qq qqq q q q q qq q qqqq qqq qq qqqqqq q qqq qq qq qqq q qqqqqqq q qq q qq q q qq q q q qqq qqq qqq q qqq qqqq q qqqqq q qqqqqqqqqq qqq qqqqqq q qqq qqq q 14 q qq q qqqq qqq qqqqqq q q q q q q qq qqqqq qq q q qqqq q q q q q qqq q q q qq q qq qq qq q q qqq q qqqqqqqq qqq qq q q q qqqqqqq qqqqqq qqqq qq qq q qq qqq qqqqq q qqq q q q q q q qq q q q q q qq qqq qqq qqqqqq q q qqq q qqq q q qq qqq q qqqq q q qq qq q qqqq q qqqq qq q qqq q q q q q q qqqqqq q qqqqqqqqqqq qqqqq q qq qq q q q q qq q qqq q qqqqqq q qq q qqqqqq qqq q qq q qq qq q q qq q q qq qq qq qq qqqqqqq q q q qqqqq q qqqq qqqqq qq q qqqqqqq q qqqqqq qqqqq q qqq q qqqqq qq q q qq qqqqqqqqq qqqqq q qqqqq qqq qqq qq qq qq q q 15 qq qqqq q q qqqqq q qq qqqq qq q q qq q q qq q qq q qq q q qq q q q q q qq q q q q qq q q q q q q q q q qqq q q q q qq qq qq qqq qqqq qq qqqqqqq q q q q qq q q q q q qq q q q q q q q qq q qqqq qqqqqq q qqq q q q qqqqqqq q qq qqq q q qq qq qq q q q qqqq qq q q qqq qqqq qq qq q qq q qqq q q q qqqq q q q q q q q qq qq q q q qqqqq q q qqqqqqqqqqq qqqq qq qqqqq q qq q qq q q q qq q qq q qq q qqq q qq qqq qqqqqq q qq q q qq q q q qq q q q q q qqqqq q q qq qqqqq q qqq q qqq q qqqqq q q q qq qqq q q q q q qqqqq q q q q q q q q q q q qq q q qq q qq qq qq q q qq qq qq q q qqq qqqqqqq 16 q q q q qqqq qqq q q qqq qq q q qqqqqq q q qq q qq q q qq qq qqq q qq q qqqq qqq qqqqqq qqqq qqqq qq qq qqqqq qq q qq q qqq q qq q q q q q qqqq q q q q q qqq q q q qqqqqqq q q qq qq q qqqq qq qqqqqq qqq q q qq qq qqq qq qq q qqqqq q q q qqqq qq qq qq qqq qq q q q qqqqqq q qq qqqq q qq q qqq qq q qqqq q q qq q q q q q q q qqq q q q q q q q q q q qq q q q q q q q q q q q q q q q qq q q q qqqqqqqqq qq qqq qq q q qqqq q qqqq q q q q q q qq q q q q q q qq q qq qqq q qq qq qq 17 qq qq qqq q q q q q q q qq q q q q qq qqqqqqqqq qqqqq qqq qq q q q qqqq qq q qq q q q q qq qqq q q q q q qq q qq qqqq qqq qqqqqq qqq q q q q q q q qq qq q q q q q qq q qqq q q qq qq q q qq q qqq qq q q qqq q qq qqq qqqqqqq qqqqqqqqq qqq qqqq q qqq qqq q qqq q q qqq q qqq q qqqqqqq qqqqq q q qqqqq q q qq q qq qqqqqqqqqqqq q qqqq qqqqq qq qqq qqq q qq qq qqq qq qqqqqqqqqq qq qq q qqqqqq q q q qqqq qqqq qqq qqqqqqq qqq qq q qq qqq q q q qqqq qq qqq qqqqq q q qq q q q 18 qqqqqq q q q q q q q q qq q q q q q q q q q q q q q q q qq q q q q q qq q qq q q q q q q qqqq q q q q q qq qq qq q qq q qq q q qqq q q qq q qq q q q qqqq q q q q qqqq qq qqq q q qq q q q qq q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q qqq q q qq qqqq qq qq q q qqq qqq q q q q q qq q q q q q q q qq q qqqq q q qq q q q q qqq q qq q qqq qq q q qq q qqqq q qq q q qqq qqqq q q qqq q q qq q q q q q q q q q q q q qqq q q q qq q q q qq qq q qqq q q qq q qq qqqq q qq q q q q qq qq q qq qq q qqqqq q q q q q q qq q q q q q q qq q q q qq qq qq qqq q q qq q q qq q qq qqqqqq qq qq q q qq q q q q qq qqq q q qq qq q q qqq q qq q q q q q q q q q qq q qqqqqq q q qq q q qq q qq qqqqq qq qq qqq q qqqq q q q q qqqqqqqq q qqqqq q 19 q q qq q qqq qqqq qqqq q qq qq qqqqqqq qqqq q q q q q qq q q qqqq q qqq qq q qq q qq q qqq qq q qq q q q qq q qq qqqqqqqq q qqq q q q q qq qq q q q qq q q q qq qq q qq qqq qq q q qq q qqq qq qq qqqq qq q q q q q qqq qqq q qq qqqqq qqq q q q q q qq qqqqq qqqq qqq qqqqqq qq qqq q 20 qqqqq qqqqq qqqq qqq qq q q qqq q qq qqqq 21 q q qqqqq qq q qq qqq q qq q qq q q q qqqq q qqqq qqqq qqq qq qqqqq qqq q q q q qqq q qq q qqqqqqqqq qqq q qq qq qqqq qq q q q qq qqq q qq q q q qqq qqqqq q q q q qq q qq qq qq q qqqq q qq q q q qq q qqq q qqq qqqq qq qqq q q qqqq q q qq qqqq q q qqq q q q qqqq qqqqq qqqq q q q qqq qqqqq qq q qq q q q q qq qq qqq qqq qq q q qqq q q q qq q qqqqqq q q q qqq q qq q qqq q q qq qqq qqqq q qq q q q qqq qqq q qq qqqqq qqqq qq 0.0e+00 5.0e+07 22 1.00 0.75 0.50 0.25 0.00 1.00 0.75 0.50 0.25 0.00 1.00 0.75 0.50 0.25 0.00 1.00 0.75 0.50 0.25 0.00 1.00 0.75 0.50 0.25 0.00 1.00 0.75 0.50 0.25 0.00 1.00 0.75 0.50 0.25 0.00 1.00 0.75 0.50 0.25 0.00 1.00 0.75 0.50 0.25 0.00 1.00 0.75 0.50 0.25 0.00 1.00 0.75 0.50 0.25 0.00 1.00 0.75 0.50 0.25 0.00 1.00 0.75 0.50 0.25 0.00 1.00 0.75 0.50 0.25 0.00 1.00 0.75 0.50 0.25 0.00 1.00 0.75 0.50 0.25 0.00 1.00 0.75 0.50 0.25 0.00 1.00 0.75 0.50 0.25 0.00 1.00 0.75 0.50 0.25 0.00 1.00 0.75 0.50 0.25 0.00 1.00 0.75 0.50 0.25 0.00 1.00 0.75 0.50 0.25 0.00 1 Correlation\Frequency Capı́tulo 3 1.0e+08 1.5e+08 2.0e+08 2.5e+08 Chromosomal position Figura 3.6: Esquema de las regiones candidatas en GBM - Gráfico de los 22 autosomas. El eje X representa las localizaciones genómicas en cada cromosoma. Los puntos azules y rojos diferencian las correlaciones no significativas (r ≤ 0.60) y significativas (r > 0.60). Las áreas rosa y verde señalan el porcentaje de muestras en las categorı́as U-G y D-L respectivamente. 67 Análisis combinado de perfiles de expresión génica y de número de copias de DNA Chr Cytobands Start (Mb) End (Mb) Frequency U-G ( %) Correlation (average r) Number of genes 7 7 7 7 7 p22.3-p21.3 p21.2,p21.1 p21.1 p15.3,p15.2 p15.2 14 13981 20736 22277 26682 12407 18582 20825 26373 27830 54 48 50 50 50 0.75 0.83 0.81 0.85 0.68 70 15 2 21 15 7 7 7 7 7 7 7 7 7 7 p14.3 p14.3,p14.2 p14.1-p12.1 p11.2 p11.2 p11.2 p11.2-q11.21 q11.22-q21.2 q21.2,q21.3 q22.1-q34 29901 34693 37857 54820 55087 55572 57270 69661 92738 98456 33407 36658 50759 54827 55275 56044 66582 91852 97976 141707 50 48 50 59 61 59 57 58 57 56 0.78 0.72 0.72 0.77 * 0.77 * 0.70 0.66 0.68 0.72 0.71 25 8 63 1 1 5 18 104 32 278 7 20 q34-q36.3 p13-q13.33 141955 73 158879 62897 56 26 0.75 0.83 121 464 Cancer genes CARD11, PMS2 ETV1 HNRNPA2B1 HOXA11, HOXA13, HOXA9 IKZF1 SEC61G EGFR (VOPP1) SBDS ELN, HIP1, AKAP9 MET, SMO, BRAF, CREB3L2, PIK3CG EZH2, MLL3, PIP Tabla 3.1: Regiones candidatas sobre-expresadas y ganadas (U-G). Chr Cytobands Start (Mb) End (Mb) Frequency D-L ( %) Correlation (average r) Number of genes 10 10 10 10 10 p13-p12.2 p12.1-p11.22 p11.2 q11.22,q11.23 q21.1-q23.1 16746 25190 38239 49204 59989 24410 47922 38265 53405 82352 60 60 61 63 64 0.64 0.63 0.60 * 0.68 0.65 28 79 1 42 130 10 10 10 10 q23.1, q23.31-q23.33 q24.1 q24.1-q26.3 84191 91498 97391 98081 87743 97024 97763 134474 66 67 66 69 0.66 0.62 0.62 0.67 7 36 4 196 13 13 13 q12.13,q12.2 q12.2,q12.3 q13.3-q21.2 27693 28367 35882 28017 30382 61059 28 30 35 0.60 0.61 0.73 5 12 103 13 13 13 13 14 q22.2-q31.1 q32.1-q33.2 q33.3 q34 q11.2-q24.2 76452 95813 108171 110423 19686 80913 106131 108931 111549 70583 37 33 28 23 18 0.63 0.64 0.95 0.89 0.75 13 34 4 8 315 14 14 22 q24.2,q24.3 q24.3,q31.1 q11.1-q13.33 73223 77826 16158 76275 80673 51225 17 17 25 0.69 0.75 0.73 44 9 398 Genes MLLT10 KIF5B, RET ZNF25 NCOA4 CCDC6, FAM22B, MYST4, PRF1 LGI1 FGFR2, NFKB2, SUFU, TCF7L2, TLX1, MXI1, VTI1A CDX2, FLT3 FOXO1, LCP1, RB1 BCL2L2, CCNB1IP1, NIN, NKX2-1 BCR, CHECK2, CLTCL1, EWSR1, MN1, MYH9, NF2, PDGFB, SMARCB1 Tabla 3.2: Regiones candidatas infra-expresadas y perdidas (D-L). 68 LHFP, Capı́tulo 3 1.00 qqq qqqqqqq q qqqqqq qq q q 0.75 q qqq qq q qq q qq qqqqq qqq q q qq q qq qqq q q q qq q qqqqq q q qq q q qq qqqqqq qqqqqq qq q q q q qq qq qqqqqqqqq q qqqq q q qqqqqq q q qqqqqqqqqq qq qqqq qqqqq qq q q q qq qqqq qqqq q qq qqq q qqq qqqqqq qq q q qq qqq qq qqq qqqqqqqqqq qq qqq q q q q q q qqq q qqqqqqqqqq q q qq qqqq q q q q qq q q qq q qq q qqq qq qq q qq q q q qqqqqqq qqq qqqqqq q q q q q qqq qqqq qq qqqq qqq q qq q q qq qqqqq q qq q q qqqq q q q q q qq q qq qqqqq qqqqq qqqqq qqq qq q q q q qqqqqqqqqqqqq qq qqqqqq qqqqq qqqqqqqq qqqq qqqq q q qqqqq q q q qqqq qq q q qqq qq q q qq qqq qq q qqq q q q q q qqq qq q qqqqqq qq qq q q qqqqqq qqqqqqqqqqqq qqqq q q q q q qqqqq q q qqqq q qqq qqq q q qq q q qqq qqqq q qq q qqqqq q qqqqqq qq q qq q qqqq q qqqq q qq qqq q qqqq qq q q qqqqq q qqq q q q q q q q qqq qqqqq qqq qq qqqqqqqqqqqq qqqqqq q qq qqq q q q q q qqq qqq q q q q 0.25 q q q qq qq q 0.00 1.00 0.75 0.50 qqq qq qq qq qqq qq q q qqqq qq q qqqqqqq q q q qq qqq qqq qqq qqq qqqq qq qq q qq q q q q qqqqq qq qq qq q qq qqqq qq qq qq q qq qqqqq qqqq q qqq q qqqqq q qqqq qqq qq q q qqqqqqqqqqq qqqqqq q qqqq q qq q qqq q q q qqq qqqqqqqq q qqq qqqq qq qq q q qqqqqq qq qq q q qq qqqqq qqqqq q q q qqqqqqqqqqqq qqq q qqqqqq q qq q q qq q q qqqqqqqqq qq q q q qqqq q qq qqqq qq qqqq q qq q q qq q qq qqqq q q qq q qq q q q q qqq q qqq qqq q q qq qqq qq q qqqqq qqq qqq qqq qqqq qq qqqqqq qqqqq qq qqq qqqq q q q q qq q qqqqqq q qqqqqq q qq q qq q q qqqqqqqqqqqqqqq q q qqqqq qqq qqqqq q qqqqq q qqqq q qq q q q q q q qqq qqqqqq qqq qqqq q q qq q qqqqq qqq qqqq qqqq q qqqqqqq qqqqq qq qq qq qqqqqq qq qq q qq qqqqqqqqq q q qq q q qqq q qq q q qqqq q qqq qq q q qq q q q q qq q q 10 Correlation \ Frequency q q q q q q 7 0.50 q q qq q q qq qq 0.25 q q q qq q 0.00 0.0e+00 5.0e+07 1.0e+08 1.5e+08 Chromosomal position Figura 3.7: Esquema de las alteraciones de los cromosomas 7 y 10 en GBM - Vista detallada de los cromosomas 7 y 10. El eje X representa las localizaciones genómicas en cada cromosoma. Los puntos azul y rojo representan las correlaciones no significativas (r ≤ 0.60) y significativas (r > 0.60), respectivamente. Las áreas rosa y verde señalan el porcentaje de muestras en las categorı́as U-G y D-L. La alteración de estos dos cromosomas está fundamentalmente asociada con la sobre-expresión del gen EGFR y la infra-expresión del gen PTEN, respectivamente. El gen EGFR se encuentra sobre-expresado y su locus con un incremento en el número de copias de DNA en más del 60 % de las muestras analizadas y constituye la alteración más frecuente en GBM. Esta alteración de EGFR se asocia con genes en loci cercanos que regulan su función. Ası́ por ejemplo, VOPP1 (conocido como ECOP: (EGFR coamplified and overexpresed protein) aparece también alterado muy significativamente y está en la región adyacente a EGFR (ver tabla 3.4.3), aunque no es un gen anotado en el censo de genes de cáncer (por ello se incluye entre paréntesis). La alteración de PTEN en GBM es más discutida. Revisiones como (Reifenberger and Collins, 2004) señalan que la alteración de este gen aparece en aproximadamente la mitad de los GBM de novo, pero en sólo un 10 % de los GBM desarrollados a partir de gliomas de menor grado. La variabilidad en las frecuencias de alteración publicadas para PTEN en diferentes subtipos de GBM concuerda con la variabilidad en perfiles de expresión y de número de copias observados para PTEN en las muestras de GBM analizadas. Además, el nivel de expresión de este gen no se ve afectado en gran medida por las CNAs en su locus: la correlación observada entre GE y CN es tan sólo de r = 0.38. Estos hechos señalan que PTEN quizás no sea el mejor macador genómico que caracteriza GBM y también por ello no lo detecten nuestros análisis de modo consistente. Por otro lado, la alteración de este gen ha sido asociada también a la pérdida de genes supresores tumorales adicionales en el cromosoma 10, como LGI1 (Chernova et al., 1998) y MXI1 (Wechsler et al., 1997), que si se observan alterados y están incluidos en la tabla. 3.5 Discusión La integración de datos genómicos de número de copias de DNA junto con datos transcriptómicos de expresión génica facilita la identificación de genes conductores implicados en el desarrollo de enfermedades complejas en las que la inestabilidad genómica juega un papel fundamental, como es el caso del cáncer. En este capı́tulo se ha presentado un método para la identificación de alteraciones en CN asociadas a cambios diferenciales en GE comunes en la aparición o desarrollo de un estado patológico. El método se propone también como herramienta útil para la búsqueda de genes conductores causales de un proceso tumoral bajo la hipótesis de que los cambios de ex69 Análisis combinado de perfiles de expresión génica y de número de copias de DNA presión asociados a un determinado tipo de cáncer son inducidos frecuentemente por alteraciones genómicas. La utilización de algoritmos de segmentación sobre lo datos de expresión reduce los efectos sobre los niveles de expresión génica no relacionados con sus localizaciones cromosómicas. Mediante la segmentación las señales de sobre-expresión o infra-expresión de genes en loci muy cercanos se suavizan y por ello si los efectos de la regulación no están vinculados a las posiciones genómicas tienden a cancelarse. La relación entre CN y GE que se mantiene tras la segmentación será por tanto aquella principalmente asociada a la localización genómica. Tras estos análisis, las discrepancias que puedan seguir existiendo entre los cambios en CN y los cambios de GE serán debidas a otros tipos de regulación, como: regulación epigenética, metilación de DNA o metilación, acetilación y fosforilación de histonas (Wilson et al., 2006; Jones and Baylin, 2007), etc. El análisis de las regiones donde existen estas discrepancias constituye un punto de partida para descubrir otro tipo de regulaciones, abriendo la puerta a la integración por ejemplo de datos epigenéticos como la realizada en (Stransky et al., 2006). En todo caso, el análisis previo de CN y GE utilizando segmentación tiene la ventaja de reducir los efectos de regulación no asociados a la localización genómica. Otra ventaja del método desarrollado derivada de la utilización de algoritmos de segmentación es la posibilidad de integrar datos provenientes de arrays de diferente resolución sin tener que recurrir al mapeo de sondas de un array a otro y al promediado de sondas con la consiguiente pérdida de información y cobertura. El método de integración de datos y análisis ha sido aplicado a datos de cáncer GBM identificándose regiones con alteraciones recurrentes de CN en las que se enmarcan genes cuya alteración es clave en el desarrollo de la enfermedad. Los resultados obtenidos son consistentes con alteraciones previamente publicadas en otros trabajos (de Tayrac et al., 2009; Ruano et al., 2006). La presencia de oncogenes y genes supresores tumorales previamente conocidos y asociados con la aparición y progresión de GBM en los resultados obtenidos avala el método desarrollado. El resto de regiones candidatas y genes identificados pueden constituir un punto de partida para la validación de nuevos genes conductores de GBM y estudios posteriores de la progresión de la enfermedad. Aunque la utilización de datos de GE reduce el tamaño y el número de regiones candidatas respecto a las que se obtendrı́an únicamente utilizando datos de CN, en muchas de las regiones resultantes en el análisis de GBM la mayorı́a de los genes ven alterada su expresión y no es difı́cil elegir de entre ellos un gen conductor concreto. Por un lado, es posible que estas regiones contengan varios de genes conductores, cada uno de ellos contribuyendo en parte de manera individual al desarrollo tumoral, pero que en conjunto tengan un efecto oncogénico aditivo. Por otro lado, también es posible que algunos de los genes con cambios significativos en sus perfiles de expresión sean simplemente genes pasajeros cuya sobre-expresión o infra-expresión no confiera una ventaja para el origen del tumor. La discriminación o determinación de genes conductores frente a genes pasajeros únicamente podrı́a hacerse mediante estudios funcionales examinando los efectos de la combinación de alteraciones entre ellos. 70 Capı́tulo 4 Algoritmo de análisis biológico funcional: GeneTerm Linker 4.1 Introducción: Análisis biológico funcional El presente capı́tulo está centrado en la búsqueda y el análisis de las funciones y procesos en los que están implicados conjuntos de genes derivados generalmente de experimentos de alto rendimiento a gran escala. Cuando se estudian las caracterı́sticas de una enfermedad o las consecuencias de la aplicación de un estı́mulo sobre una célula u organismo, este estudio no concluye generalmente con una lista de los genes diferencialmente expresados o alterados junto con sus p-valores. A menudo los investigadores recorren esa lista escogiendo manualmente aquellos genes que les resultan más interesantes para el proceso estudiado y dirigen la interpretación de los resultados hacia procesos conocidos. Para evitar el sesgo y proporcionar una aproximación más exhaustiva y dirigida por los datos es necesario un análisis de los pathways o funciones (Khatri et al., 2012). Este análisis se denomina análisis de enriquecimiento funcional (Functional Enrichment Analysis). Sin embargo, muchas veces este tipo de análisis no es aplicado debido a que los resultados obtenidos con la mayorı́a de las herramientas disponibles son incluso más difı́ciles de interpretar y resumir que la lista de genes inicial. Es común que tras realizar un análisis de enriquecimiento funcional sobre una lista de varios cientos de genes se obtengan varias listas con cientos de funciones enriquecidas, tras lo cual el investigador termine eligiendo de nuevo de esas listas aquellas funciones que le resultan más interesantes. En este capı́tulo se hace una breve introducción de conceptos necesarios para entender el análisis de enriquecimiento funcional planteando sus principales desventajas y necesidades de mejora. Se describe a continuación el método desarrollado para la simplificación de los resultados obtenidos con las herramientas de enriquecimiento funcional, GeneTerm Linker, que facilita la interpretación de las funciones biológicas sobre-representadas. Se muestran también los resultados de la validación del método con conjuntos de genes seleccionados ası́ como su aplicación a datos de experimentales. 71 Algoritmo de análisis biológico funcional: GeneTerm Linker 4.1.1 Principales espacios de anotación biológica El análisis de enriquecimiento funcional está basado en la utilización de bases de datos de anotaciones biológicas que incluyen grupos de genes asociados a funciones biológicas especı́ficas como vı́as de señalización celular, vı́as metabólicas, procesos celulares, etc. Esta información caracterı́stica de los genes es necesario que pueda ser consultada de una manera sencilla y automática. Entre las bases de datos más utilizadas en este tipo de análisis se encuentran Gene Ontology (GO), Kyoto Encyclopedia of Genes and Genomes (KEGG) y UniProt. 4.1.1.1 Ontologı́a de genes: Gene Ontology (GO) Gene Ontology o GO (Ashburner et al., 2000; Consortium, 2010) es un repositorio de atributos de genes y sus productos con un vocabulario controlado que constituye, hoy por hoy, una de las principales bases de datos de conocimiento biológico. Debido a que una parte importante de los genes que especifican las funciones biológicas básicas están compartidos por todos los organismos eucariotas, el conocimiento del papel de una proteı́na en un organismo puede ser extrapolado a otros organismos. Basándose en esta premisa, el trabajo del GO Consortium consistió en producir un vocabulario controlado y estructurado que describiese el papel de los genes y sus productos dentro de cualquier organismo. Para ello se crearon tres ontologı́as independientes: (i) Procesos biológicos (Biological Process, GO-BP), se refiere a un objetivo biológico en el que contribuye el gen. Un proceso está compuesto por un conjunto de funciones moleculares que, a menudo, implican una transformación quı́mica o fı́sica. Ejemplos de proceso biológico se consideran ‘crecimiento celular y mantenimiento’ o ‘transducción de señales’. (ii) Funciones moleculares (Molecular Functions, GO-MF), se define como una actividad bioquı́mica de un producto génico. Describe la actividad realizada, pero no dónde ni cuándo sucede. Ejemplos de funciones moleculares pueden ser ‘enzima’ o ‘kinasa’. (iii) Componentes celulares (Cellular Components, GO-CC), se refiere al lugar de la célula donde está activo un determinado producto génico. Ejemplos pueden ser ‘retı́culo endoplásmico’ o ‘nucleosoma’. Las relaciones entre los genes o productos génicos con los términos de la ontologı́a no son unı́vocas sino de tipo uno a muchos, permaneciendo ası́ fiel a la realidad biológica en la que un mismo gen o proteı́na puede verse involucrado en más de un proceso simultáneamente. Un ejemplo de términos y relaciones en las tres ontologı́as puede verse en la figura 4.1 La ventaja de usar ontologı́as es la capacidad de representar no sólo las entidades, sino también las relaciones existentes entre ellas. El desarrollo y uso de un vocabulario biológico controlado y estructurado en GO representa el conocimiento biológico actual y a la vez permite organizar los nuevos conocimientos que sean añadidos con posterioridad. Además permite el acceso de forma más sencilla a la información, tanto para las personas como para las herramientas computacionales construidas para su manejo. 4.1.1.2 Vı́as metabólicas y de señalización: Kyoto Encyclopedia of Genes and Genomes (KEGG) La enciclopedia KEGG, Kyoto Encyclopedia of Genes and Genomes es una base de datos que contiene información de las funciones a alto nivel de un sistema biológico como la célula, el organismo y el ecosistema, integrando información que va desde un nivel molecular hasta genómico 72 Capı́tulo 4 Figura 4.1: Ontologı́as génicas(GO) - Ejemplo de representación de los 3 espacios de categorı́as ontológicas que incluye Gene Ontology (GO). (Kanehisa and Goto, 2000). La parte más completa de KEGG corresponde a las vı́as y rutas metabólicas y de señalización (pathways). Ésta es la parte que se utilizará en el presente capı́tulo como espacio de anotación. El diseño global actual de KEGG es modular, integra hasta 16 bases de datos diferentes que se incluyen dentro de 3 categorı́as más generales (Kanehisa et al., 2010) (Kanehisa et al., 2012): (i) Información genómica (Genomic Information), que consiste en bloques de construcción moleculares formados por genes y proteı́nas. (ii) Información quı́mica (Chemical Information), que incluye biomoléculas pequeñas (metabolitos y productos/sustratos celulares), reacciones entre ellas y otras estructuras quı́micas derivadas de estas reacciones. (iii) Información de sistemas (Systems Information), que integra los bloques de información anteriores en diagramas de interacciones moleculares, reacciones y redes relacionales. Incluye los mapas de vı́as y rutas moleculares, jerarquı́as funcionales, enfermedades (entendidas como alteraciones de las rutas) y drogas (entendidos como alteradores de las rutas). Como se puede ver, la mayor parte de la información contenida en KEGG es modular y gradual, esto es, unos paquetes de información son construidos a partir de otros hasta llegar a contener información de las funciones sistémicas de la célula o el organismo. Todo el conocimiento experimental de esas funciones sistémicas es añadido y organizado de tres formas diferentes: como un mapa de las rutas metabólicas y de señalización (Pathway map), como listas de componentes biomoleculares (Simple list), o como datos estructurados de una manera jerárquica (Hierarchical list). Un ejemplo asociado a la leucemia mieloide crónica puede verse en la figura 4.2 tomada de (Kanehisa et al., 2010). 73 Algoritmo de análisis biológico funcional: GeneTerm Linker 74 Figura 4.2: Tipos de representación de información en KEGG - El ejemplo muestra (a) el pathway para leucemia mieloide crónica (hsa05220), (b) los elementos asociados con leucemia mieloide crónica en KEGG DISEASE (H00004) y (c) parte de la estructura jerárquica para la clasificación de enfermedades humanas (br08402). Adaptado de (Kanehisa et al., 2010). Capı́tulo 4 4.1.1.3 Estructura y función de proteı́nas: Integrated repository of protein families, domains and functional sites (InterPro) La función de cada proteı́na está intrı́nsecamente ligada a su estructura. La secuencia primaria de aminoácidos que la integra, los plegamientos secundario, terciario y cuaternario, ası́ como su interacción con otras proteı́nas y otras biomoléculas para formar macroestructuras más complejas (complejos proteicos) definen sus caracterı́sticas y funciones. En este sentido es importante encontrar patrones en su estructura puesto que pueden estar ligados a determinados comportamientos o funciones celulares. Una fuente de información para obtener este tipo de datos es InterPro (Hunter et al., 2012). InterPro (www.ebi.ac.uk/interpro/) es una base de datos de familias de proteı́nas establecidas en base a modelos y patrones que integran información de alineamientos de secuencias e identificación de dominios y de sitios funcionales. Está estructurado también de manera jerárquica, como se puede apreciar en la figura 4.3 en la que se muestra la estructura de la familia de proteı́nas tirosina quinasa. Figura 4.3: Estructura de una familia de proteı́nas en InterPro - El ejemplo muestra la estructura jerárquica de la familia de proteı́nas tirosina quinasa en InterPro. (Fuente: www.ebi.ac.uk/interpro). InterPro está formado por un consorcio de bases de datos independientes que son: PROSITE (Hulo et al., 2008), PRINTS (Attwood et al., 2003), Pfam (Finn et al., 2010), ProDom (Bru et al., 2005), SMART (Letunic et al., 2012), TIGRFAMs (Haft et al., 2003), PIRSF (Nikolskaya et al., 2006), SUPERFAMILY (Wilson et al., 2009), PANTHER (Mi et al., 2010) y Gene3D (Lees et al., 2012). Cada una de estas bases de datos utiliza metodologı́as y algoritmos diferentes, ası́ como diferentes tipos de información biológica de proteı́nas para inferir patrones. Todas estas bases de datos tienen un tamaño similar, sin embargo difieren en contenido y pueden considerarse complementarias. La integración de estas bases de datos se realiza de forma manual por expertos evitando duplicidades y redundancias. Ası́, esta integración y unificación proporciona una mayor cobertura además de unos resultados más fiables y permite, en algunos casos, buscar las relaciones biológicas existentes entre los diferentes patrones constituyentes. 75 Algoritmo de análisis biológico funcional: GeneTerm Linker 4.2 Motivación: Problemas del análisis biológico funcional El análisis de enriquecimiento funcional, normalmente citado como Functional Enrichment Analysis (EA) (Huang et al., 2009a), facilita la tarea de inferir implicaciones funcionales en conjuntos de genes o conjuntos de proteı́nas que cooperan. El problema de las técnicas de enriquecimiento subyace en la redundancia de sus resultados, incluyendo, en muchos casos, información trivial que puede contribuir a enmascarar otras realidades biológicas más relevantes presentes en el estudio realizado. El análisis de enriquecimiento funcional clásico no se centra en la solución de los problemas derivados de la repetitividad y el solapamiento de los diferentes espacios de anotación. Ası́ por ejemplo podemos encontrar frecuentemente problemas como: (i) Redundancia: Existen numerosos términos redundantes, repetidos en los diferentes espacios de anotación (por ejemplo GO:0007049: cell cycle y KEGG hsa04110: cell cycle) o términos equivalentes con el mismo significado biológico (por ejemplo GO:0007049: cell cycle y GO:0022402: cell cycle process). (ii) Imprecisión: Sesgo causado por la anotación demasiado frecuente de términos genéricos, inespecı́ficos, poco precisos en los espacios de anotación (por ejemplo GO:0050789: protein binding que incluye alrededor del 40 % de los genes de Homo Sapiens anotados en GO-MF). (iii) Falta de anotación: Carencias en la anotación de genes ampliamente conocidos, como es el caso de NRAS, que no está anotado al término GO:0043410: positive regulation of MAPKKK cascade, y, sin embargo, es parálogo al gen HRAS que cumple un papel importante en la vı́a de señalización de MAPK kinasas. En este marco, se plantea la necesidad de solventar los problemas descritos y otras dificultades que surgen a la hora de interpretar los resultados derivados de análisis biológicos funcionales complejos. Lograr una simplificación de estos resultados es fundamental, pero para ello es necesario realizar un análisis exhaustivo de los espacios de anotación. De este modo, como paso previo antes de acometer los problemas detectados en la mayorı́a de las herramientas de enriquecimiento, se han analizado y comparado las distribuciones de frecuencias de los términos biológicos en las dos bases de datos más utilizadas para anotación: GO en sus tres espacios de anotación y KEGG (ambas comentadas previamente en 4.1.1). En estas bases de datos las funciones están anotadas con términos especı́ficos que describen los roles biológicos utilizando vocabularios controlados y estructurados. Estos vocabularios no son estáticos en el tiempo sino que evolucionan de forma natural modulando su significado, tal y como lo hace el lenguaje cotidiano. Un ejemplo de esta modulación puede ser la pérdida de significado que experimentan algunos términos al convertirse en términos populares utilizados en gran variedad de contextos. El análisis del número de genes asignados a cada término revela que las distribuciones no son homogéneas. La figura 4.4 presenta las distribuciones de densidad del número de genes por término. En el caso de GO más del 50 % de los términos tienen asignados menos de 4 genes, algo que no sucede en KEGG, con una distribución más homogénea semejante a una campana de Gauss. Centrando la atención en la diferencia de longitudes de las colas de las distribuciones se observa la presencia de términos con miles de genes anotados en GO que aparecen como términos atı́picos o outliers de las distribuciones (representados como cı́rculos en los boxplots de la figura 4.5. En la tabla 4.2 se resumen los tres términos con un mayor número de genes para GO-BP, GO-MF, GO-CC junto con el número de genes anotados para Homo sapiens en cada uno. El término más utilizado en GO-BP está asociado con aproximadamente el 6 % de los genes humanos (término GO:0007165 Signal transduction: 1872 genes asignados). Estos términos, como es el caso de GO:0005515: Protein binding, son los elementos atı́picos en la distribución, que están sobrerepresentados y pueden ser considerados como términos promiscuos y poco informativos, de76 Capı́tulo 4 Análisis del número de genes anotados a cada término en los espacios de anotación Figura 4.4: Distribuciones del número de genes anotados a cada término - Cada color representa un espacio de anotación diferente mostrado en la leyenda. El número de genes por término está representado en escala logarı́tmica. La zona ampliada corresponde a términos que se asignan a un gran número de genes. Figura 4.5: Distribuciones del número de genes anotados a cada término - Se presentan los boxplots de las distribuciones de número de genes anotados a términos GO-BP, GO-MF, GO-CC (en color rojo) y KEGG (en color verde) para Homo sapiens. 77 Algoritmo de análisis biológico funcional: GeneTerm Linker masiado generales para proporcionar información clara y útil por ellos mismos en unos resultados de análisis funcional. Categorı́a GO-BP GO:0007165 GO:0006355 GO:0045449 GO-MF GO:0005515 GO:0046872 GO:0008270 GO-CC GO:0005634 GO:0005737 GO:0016021 Términos # Genes Signal transduction Regulation of transcription, DNA dep. Regulationof transcription 1872 1063 987 Protein binding Metal ion binding Zinc ion binding 6618 2759 1956 Nucleus Cytoplasm Integral to membrane 4877 4457 4109 Tabla 4.1: Términos sobre-representados en los tres espacios de anotación de GO. 4.3 Desarrollo metodológico del algoritmo De forma general, los métodos de enriquecimiento funcional buscan patrones frecuentes de asociación entre los genes y las descripciones o funciones anotadas en bases de datos biológicas. Estos patrones pueden ser analizados como conjuntos de elementos (itemsets) frequentes. Una definición formal de un conjunto de elementos frecuentes, frequent itemset, podrı́a ser: Dado un conjunto de ı́tems I = {i1 , ..., in } y una base de datos de transacciones T = {t1 , ..., tm } donde cada transacción es un subconjunto de I, F ⊆ I es un conjunto de ı́tems frecuente si está incluido en un número de transacciones mayor que un umbral dado, ε. En el contexto biológico de enriquecimiento funcional se pueden establecer equivalencias e identificar los términos en los espacios de anotación como ı́tems y los genes como las transacciones que los soportan. De esta manera los resultados de las herramientas de enriquecimiento funcional, entendidos como frequent itemsets pueden simplificarse como un conjunto de términos asociados a un conjunto de genes con un score o un p-valor que es derivado del análisis de enriquecimiento e indica la fortaleza de la asociación. Formalmente definimos cada uno de estos conjuntos genes-términos o GeneTerm sets como una tupla: Ei =< Gi , Ai , pi > donde Ei es el GeneTerm set i-ésimo de los resultados, Gi es un conjunto de genes {g1 , g2 , . . . , gn }, Ai es un conjunto de términos o anotaciones biológicas {a1 , a2 , . . . , an } y pi es el p-valor. En términos de enriquecimiento se puede decir que Ai es el conjunto de términos sobre-representados en una lista de genes y Gi es el conjunto de genes que soporta esa sobre-representación con un p-valor pi . La mayorı́a de las herramientas de análisis de enriquecimiento funcional, bien de tipo GSEA, Gene Set Enrichment Analysis) (Subramanian et al., 2005) o análisis de enriquecimiento tradicionales, proporcionan largas de listas de GeneTerm sets derivadas del análisis de diferentes espacios de anotación. Estas listas contienen términos y funciones redundantes y muchas veces demasiado genéricas que enmascaran parte de las funciones más especı́ficas y no permiten extraer conclusiones biológicas significativas de una manera sencilla. 78 Capı́tulo 4 En este contexto proponemos un método basado en la búsqueda y construcción de “metagrupos” de genes y términos. Estos “metagrupos” estarán compuestos por GeneTerm sets seleccionados y relacionados, minimizando la influencia de términos y anotaciones redundantes y poco informativas, y de optimizando la significación biológica de los resultados de enriquecimiento. En los siguientes apartados se describen los cincos pasos secuenciales de los que consta el método propuesto. 4.3.1 Paso 1: Filtrado de términos poco informativos Tal y como se muestra en la sección 4.2, aquellos términos con un número de genes asociado mucho mayor que el que cabrı́a esperar en un determinado espacio de anotación incorporan información poco útil por sı́ solos, mientras que pueden estar enmascarando otros patrones interesantes menos frecuentes, pero aún ası́ significativos. Una vez analizado cada espacio de anotación disponible para cada organismo e identificados los términos poco informativos, el primer paso consiste en eliminar aquellos Geneterm sets que incluyen únicamente estos términos poco informativos. Es decir, dado un elemento Ei del conjunto de resultados de enriquecimiento será eliminado si y sólo si el conjunto de términos Ai está compuesto únicamente por los denominados “términos poco informativos”. Sea R = {a1 , . . . , ar } el conjunto de términos poco informativos, Ei =< Gi , Ai , pi > será filtrado ⇔ Ai ⊆ R. De este modo, si el Geneterm set contiene una combinación de este tipo de términos junto con otros que no pertenecen a esta categorı́a no será eliminado puesto que los términos poco informativos pueden resultar útiles para matizar la información proporcionada. En este paso se produce una reducción considerable en el número de Geneterm sets puesto que filtra elementos no descriptivos por sı́ solos aunque los mantiene siempre y cuando maticen la información. La figura 4.6 contiene una representación esquemática del proceso para dos términos poco informativos, C y K. Figura 4.6: Esquema del filtrado de términos poco informativos - Los términos C y K han sido identificados como poco informativos en sus respectivos espacios de anotación y por ello los GeneTerm sets en los que aparecen solos son eliminados. 79 Algoritmo de análisis biológico funcional: GeneTerm Linker 4.3.2 Paso 2: Generación de módulos funcionales El segundo paso del método se centra en la agrupación de Geneterm sets similares para formar módulos funcionales que faciliten la interpretación de los resultados de enriquecimiento. Es posible encontrar clústers coherentes de itemsets relacionados de manera que el conjunto total sea más fácilmente entendible (Toivonen et al., 1995). Por un lado se han desarrollado algoritmos basados en el agrupamiento de ı́tems (Lent et al., 1997; Liu et al., 1999). Sin embargo, la aplicación del coeficiente de similitud de Jaccard utilizado para medir la distancias entre los conjuntos de transacciones que soportan los itemsets obtiene mejores resultados que las medidas de similitud calculadas en base a los ı́tems (Gupta et al., 1999). Apoyados en estos estudios, para el agrupamiento de itemsets frecuentes en este paso del algoritmo se utilizan las medidas de similitud basadas en transacciones (es decir, genes en el contexto de Geneterm sets). Estas medidas capturan mejor las interacciones entre los conjuntos de items y son robustas e independientes del tamaño de los datos. Además en el algoritmo desarrollado se ha tenido en cuenta el p-valor, la fortaleza de la asociación entre las transacciones y los ı́tems (es decir, entre los genes y los términos). Para ello, para cada Geneterm set Ei se crea un vector vi como sigue: vi = (δ(g1 , Gi ), δ(g2 , Gi ), . . . , δ(gM , Gi ), M × pi ) donde: δ(gk , Gi ) = ½ 1 0 gk ∈ Gi gk ∈ / Gi (4.1) y M es el número total de genes en el conjunto de Geneterm sets. De esta manera el vector vi contiene 1 en la posición k-ésima si el gen k está incluido en el conjunto de genes del Geneterm set Ei y 0 en caso contrario. Además se añade el p-valor ponderado por el número total de genes M en la coordenada M + 1 del vector. Las distancias entre cada par de vectores vi son calculadas usando la distancia Coseno, generalización para vectores no binarios derivada de la distancia de Jaccard empleada en (Gupta et al., 1999) y (Plasse et al., 2007): D(Ei , Ej ) = 1 − cos(~ vi , v~j ) = 1 − vi · v j kvi kkvj k (4.2) Una vez que las distancias han sido calculadas para cada par de Geneterm sets Ei y Ej es necesario utilizar un algoritmo de agrupamiento que nos permita definir metagrupos preliminares. Se ha utilizado el método Ward (Ward, 1963) de agrupamiento jerárquico puesto que el conjunto de Geneterm sets es homogéneo, sin valores extremos que puedan alterar el agrupamiento. Como se desprende de los resultados obtenidos en la comparación de diferentes métodos de aglomerativos realizada en (Plasse et al., 2007), los grupos obtenidos con el método Ward son equilibrados con un número de elementos muy similar. La figura 4.7 muestra los árboles jerárquicos obtenidos con diferentes algoritmos de agrupamiento. Cada uno de los extremos u hojas del árbol se corresponde con un Geneterm set. En los diferentes árboles se observa un agrupamiento similar, sin embargo el método Ward proprorciona grupos más compactos y definidos. A la hora de definir los grupos se considera un punto de corte heurı́stico basado en la profundidad del árbol. Inicialmente se establece como umbral el 20 % de la altura del árbol generado, pero 80 0.0 0.2 0.4 0.6 0.8 1.0 0.0 8 5 2 4 36 47 87 91 92 83 46 60 62 76 63 81 61 77 82 89 18 16 32 28 41 71 93 85 88 86 58 72 66 78 95 90 80 74 54 9 14 3 0 1 84 53 70 36 47 2 4 5 8 29 39 24 64 0.1 0.2 0.4 0.5 0.6 95 0.0 28 41 18 16 32 86 45 50 34 49 15 22 33 57 23 42 38 13 25 74 53 84 5 87 91 92 46 60 62 76 82 89 61 77 83 63 81 21 31 40 15 22 33 57 19 26 7 11 24 64 23 42 38 13 25 29 39 45 50 35 52 67 34 49 36 47 53 70 84 2 4 5 8 9 14 3 0 1 0.4 Height 0.6 0.8 1.0 0.0 85 88 2 4 5 8 71 93 95 78 80 54 53 84 0.4 65 75 0.6 1.0 85 88 95 90 66 6 10 12 17 20 27 37 48 51 69 55 68 30 43 44 59 79 94 80 78 58 72 21 31 40 19 26 7 11 34 49 15 22 24 64 33 57 23 42 38 13 25 29 39 45 50 67 35 52 9 14 3 0 1 0.8 71 93 56 73 90 66 0.2 36 47 87 91 92 83 46 60 62 76 63 81 61 77 82 89 18 16 32 28 41 86 70 74 15 86 54 74 70 53 84 Capı́tulo 4 65 75 55 68 30 43 44 59 20 27 6 10 12 17 37 48 51 69 56 73 79 94 58 72 0.2 10 Average Method 95 54 70 Complete Method 3 0 1 9 14 71 85 88 Centroid Method 19 26 7 11 21 31 40 67 35 52 74 0 67 34 49 33 57 35 52 23 42 38 13 25 15 22 24 64 21 31 40 19 26 7 11 86 29 39 45 50 80 78 58 72 56 73 6 10 12 17 20 27 90 66 65 75 95 37 48 51 69 79 94 55 68 30 43 44 59 85 88 28 41 18 16 32 93 87 91 92 71 46 60 83 63 81 61 77 62 76 82 89 36 47 2 4 5 8 84 70 74 53 3 0 1 54 9 14 Height 0.3 36 47 61 77 82 89 62 76 63 81 83 46 60 93 87 91 92 18 16 32 28 41 56 73 79 94 80 78 58 72 90 66 65 75 6 10 12 17 20 27 37 48 51 69 30 43 44 59 55 68 0.8 86 54 3 0 1 9 14 0.6 71 88 85 93 91 92 87 83 89 61 77 82 81 62 76 63 46 60 18 16 32 28 41 67 52 45 29 39 50 49 38 35 34 33 64 57 23 42 13 25 24 21 31 40 22 15 11 7 19 26 56 73 79 94 80 78 58 72 90 66 65 75 6 10 20 27 12 17 69 68 59 55 51 37 48 44 30 43 Height 0.0 0.4 Ward Method 65 75 6 10 12 17 20 27 37 48 51 69 55 68 30 43 44 59 56 73 79 94 0.2 Single Method 19 26 7 11 33 57 15 22 21 31 40 23 42 38 13 25 24 64 34 49 29 39 45 50 67 35 52 Mc Quitty Method 81 Figura 4.7: Resultado de 6 métodos de agrupamiento jerárquico no supervisado - Visualización del agrupamiento de Geneterm sets con seis métodos de agrupamiento no supervisado. 2 4 5 8 Algoritmo de análisis biológico funcional: GeneTerm Linker si éste no es suficiente para lograr al menos una división de los datos, se incrementa el umbral un 10 % en la altura iterativamente hasta lograr la agrupación de al menos 2 Geneterm sets en el clúster. De este modo, no se fuerza el establecimiento de un número de grupos predefinido, sino que se agrupan solamente aquellos Geneterm sets que representen información verdaderamente relacionada, módulos funcionales de genes y términos. Conviene notar que el modelo implementado se basa en la utilización agrupamiento jerárquico no supervisado con el método de Ward, sin embargo es independiente del algoritmo concreto utilizado pudiéndose implementar otras versiones cambiando el método de agrupamiento. Figura 4.8: Agrupamiento de Gene-Term sets en módulos funcionales - Representación esquemática del proceso del algoritmo en el que se logra el agrupamiento de Geneterm sets en módulos funcionales o metagrupos preliminares. El proceso correspondiente a este paso del algoritmo está representado esquemáticamente en la figura 4.8. 4.3.3 Paso 3: Convergencia de términos Todo el proceso de agrupamiento está dirigido por las transacciones, es decir, los genes de los Geneterm sets. Ası́ cada módulo funcional contiene anotaciones biológicas con información de los procesos en los que participan los genes que lo forman. Sin embargo, es frecuente encontrar diferentes grupos de genes implicados en los mismos procesos biológicos o funciones. Uno de los objetivos del método propuesto es establecer una correspondencia recı́proca entre los genes y los términos biológicos, por lo que es necesario tener en cuenta también dichos términos a la hora de definir módulos funcionales más generales. Para ello, una vez realizado el agrupamiento preliminar basado en los genes, el método combina los clústers que están involucrados en funciones similares agrupando recursivamente los que comparten los mismos términos biológicos. Se construyen ası́ módulos funcionales donde la convergencia de genes y términos está maximizada. El proceso se representa esquemáticamente en la figura 4.9. 4.3.4 Paso 4: Eliminación de redundancias Una vez generados los módulos funcionales es todavı́a posible compactar y reducir más su tamaño sin disminuir la información proporcionada eliminando aquellos Geneterm sets redundantes en cada uno. 82 Capı́tulo 4 Figura 4.9: Convergencia de módulos funcionales en base a los términos - Representación esquemática de la convergencia de módulos funcionales (i.e. los metagrupos preliminares derivados del agrupamiento) que se realiza teniendo en cuenta los términos biológicos que los componen. Toivonen y colaboradores (Toivonen et al., 1995) proponen el concepto de cover de un conjunto de reglas de asociación como el mı́nimo subconjunto que contiene todas las relaciones presentes en el conjunto original. Es posible extender este concepto a un módulo funcional de Geneterm sets con la idea de mantener la completitud de los datos eliminando redundancias sin perder información. En este contexto no sólo es necesario mantener las anotaciones o combinaciones de anotaciones enriquecidas, sino también conservar todos los genes que soportan dicho enriquecimiento. Cada módulo funcional contiene un conjunto de Geneterm sets, que a su vez están formados por un conjunto de términos y un conjunto de genes. De esta manera podemos decir que el módulo queda definido por la unión de los genes y términos de los Geneterm sets que lo constituyen. Sin embargo, no todos los Geneterm sets añaden información. Aquellos cuyo conjunto de genes y anotaciones está incluido en otros Geneterm sets del mismo módulo resultan redundantes. El cover de un módulo será entonces un subconjunto de sus Geneterm sets que garantice su completitud, es decir, que mantenga la descripción del módulo intacta. Formalmente, dado un módulo Γ = {E1 , E2 . . . En } y un subconjunto ∆ ⊆ Γ, decimos que: ∆ es cover de Γ ⇐⇒ ( [ γ(Ek ) = Ek ∈∆ [ γ(Ek )) ∧ ( Ek ∈Γ [ Ek ∈∆ α(Ek ) = [ α(Ek )) (4.3) Ek ∈Γ donde: γ(Ei ) = Gi y α(Ei ) = Ai En la búsqueda del cover es importante tener en cuenta la significación o fortaleza de la asociación entre los genes y los términos. Para ello los Geneterm sets del metagrupo son ordenados por su p-valor eliminando consistentemente aquellos con peor p-valor y que no añaden ningún gen o término nuevo al módulo. La figura 4.10 muestra esquemáticamente este proceso, al final del cual se consiguen los módulos funcionales finales o metagrupos. 4.3.5 Paso 5: Significación y coherencia de los metagrupos finales Una vez obtenidos los módulos funcionales o metagrupos finales y establecido su cover es posible estimar su relevancia, calidad y coherencia. Para conocer la relevancia o significación estadı́stica 83 Algoritmo de análisis biológico funcional: GeneTerm Linker Figura 4.10: Eliminación de Geneterm sets redundantes - Representación esquemática del proceso del algoritmo en el que se eliminan los Geneterm sets redundantes en cada uno de los módulos funcionales construidos en el paso anterior. de los metagrupos finales se aplica un test hipergeométrico en el que se tienen en cuenta los genes que los caracterizan y los genes anotados a cada uno de los Geneterm sets que lo forman. A la hora de estimar la calidad de los metagrupos funcionales es importante evaluar su compactación, es decir, la homogeneidad dentro del grupo y la proximidad o separación de los diferentes grupos entre sı́. El coeficiente Silueta (Silhouette coefficient) es una medida de validación de resultados de agrupamiento que tiene en cuenta ambos parámetros. Este coeficiente varı́a entre -1 y 1 de manera que valores cercanos a 1 nos indican que el módulo está bien definido, es homogéneo o compacto y está suficientemente diferenciado del resto. De la misma manera un valor de Silueta negativo o cercano a 0 indicarı́a que el módulo es difuso y algunos de sus Geneterm sets podrı́an estar agrupados igualmente en otros módulos. Una vez obtenidas estas medidas definimos formalmente metagrupo como la tupla Mi =< Gi , Ti , pi , si > donde Gi es la unión de todos los genes de los Geneterm sets que forman el módulo Gi = {g1 , g2 , . . . , gm }, Ti es la unión de los términos de los Geneterm sets del modulo Ti = {t1, t2, . . . , tn }, pi es el p-valor obtenido con el test hipergeométrico, y si el coeficiente Silueta para dicho módulo. Adicionalmente se han calculado otras medidas de caracterización del metagrupo como el diámetro, distancia máxima entre los Geneterm sets del módulo, o el coeficiente de similitud, que es la media de las similitudes entre cada par de Geneterm sets. 4.4 Aplicación y validación del algoritmo GeneTerm Linker En este apartado se presentan los resultados de validación del método descrito que hemos denominado: GeneTerm Linker. Para validar la capacidad del método propuesto para encontrar metagrupos de genes y anotaciones funcionalmente relacionados se han utilizado varios conjuntos de datos. En primer lugar, se ha utilizado un conjunto de 59 proteı́nas nucleares de levadura (Saccharomyces cerevisiae) que constituyen 5 complejos bien definidos mostrados en la tabla 4.4. Estos 5 grupos de genes/proteı́nas han sido bien caracterizados mediante métodos experimentales de detección de interacciones proteı́na-proteı́na y constituyen un conjunto que ha sido también usado para encontrar regiones densamente conectadas en redes de interacción de proteı́nas (Bader and Hogue, 2003). La figura 4.11 muestra la red de interacción de proteı́nas generada para este conjunto de datos, construida utilizando la base de datos APID y la herramienta APID2NET (Prieto and De Las Rivas, 2006) y (Hernandez-Toro et al., 2007) respectivamente. APID se utilizó como fuente de información sobre los datos experimentales conocidos para las interacciones y APID2NET como herramienta bioinformática de visualización integrada en Cytoscape (www.cytoscape.org). 84 Capı́tulo 4 Complex (Member proteins) a. mRNA cleavage and polyadenylation specificity factor complex Number of proteins 13 (CFT1, CFT2, FIP1, GLC7, MPE1, PAP1, PFS2, PTA1, PTI1, REF2, RNA14, YSH1, YTH1) b. anaphase-promoting complex 11 (APC1, APC2, APC4, APC5, APC9, APC11, CDC16, CDC23, CDC26, CDC27, DOC1) c. proteasome, 19/22S regulator complex 12 (RPN1, RPN2, RPN3, RPN5, RPN6, RPN8, RPN10, RPN11, RPN13, RPT1, RPT3, RPT6) d. U6 snRNP complex 11 (DCP1, KEM1, LSM1, LSM2, LSM3, LSM4, LSM5, LSM6, LSM7, LSM8, PAT1) e. SAGA complex 12 (ADA2, GCN5, HFI1, NGG1, SGF11, SGF29, SGF73, SPT3, SPT7, SPT8, SPT20 TRA1) Tabla 4.2: Proteı́nas de levadura seleccionadas que constituyen 5 complejos bien definidos Figura 4.11: Red de 59 proteı́nas de levadura obtenida mediante datos experimentales de interacción - Los nodos representan las 59 proteı́nas y los enlaces se corresponden con las interacciones experimentales obtenidas de APID. En cada nodo están marcados con diferentes colores los términos biológicos asignados en GO-BP e InterPro a cada proteı́na. 85 Algoritmo de análisis biológico funcional: GeneTerm Linker Bajo la premisa de que las proteı́nas de un complejo deberı́an estar anotadas a las mismas funciones biológicas, el método de análisis recı́proco de genes y términos desarrollado, GeneTerm Linker, deberı́a ser capaz de reconstruir 5 módulos utilizando únicamente anotaciones sobre la estructura y funciones de los 59 genes individualmente. Para probar esta hipótesis se realizó un análisis de enriquecimiento funcional de los 59 genes utilizando GeneCodis (Nogales-Cadenas et al., 2009) donde se seleccionaron las bases de datos de anotación Gene Ontology (Biological Process, Molecular Function y Celular Component), InterPro y KEGG, con un soporte mı́nimo de 4 genes y utilizando un test hipergeométrico con corrección por FDR para calcular el enriquecimiento. Los resultados de GeneCodis fueron 127 Geneterm sets, de los cuales 31 contenı́an únicamente anotaciones poco informativas descritas en la sección 4.3.1. La aplicación de GeneTerm Linker simplificó y organizó los resultados en 5 metagrupos con un total de 49 Geneterm sets. Los resultados obtenidos pueden verse en detalle en el material suplementario de Fontanillo et al. (2011). El resumen del análisis de enriquecimiento funcional en 5 metagrupos facilita la visualización y su interpretación. La tabla 4.4 muestra los genes que forman cada metagrupo, sus p-valores, los valores Silueta y los términos o anotaciones asociados a cada uno de ellos. Los p-valores obtenidos con el test hipergeométrico son muy significativos y los valores de Silueta altos (> 0,5) reflejando que los metagrupos encontrados son compactos y constituyen unidades diferenciadas. Como se puede observar en esta tabla los metagrupos se corresponden con los complejos analizados e incluyen de modo casi exacto los genes descritos para cada uno (ver 4.4). Las principales funciones y roles biológicos de cada complejo están representadas en el conjunto de anotaciones respectivo, donde algunos de los términos son sinónimos como en el metagrupo 3 GO:0000502:Proteasome complex y KEGG:03050:Proteasome y otros complementarios como GO:0046540:U4/U6 tri-snRNP complex e IPR:001163:Like-Sm ribonucleoprotein (LSM) domain. 86 Met. Genes g(t) G(u) P-valor Silueta Términos GLC7, REF2, YTH1, FIP1, PAP1, PFS2, CFT1, RNA14, PTI1, PTA1, MPE1, CFT2, YSH1 13(59) 15(7103) 2.26E-26 0.529 mRNA cleavage and polyadenylation specificity factor complex (CC), mRNA polyadenylation (BP), mRNA cleavage (BP), RNA 3’-end processing (BP), transcription termination (BP), mRNA cleavage factor complex (CC), metal ion binding (MF), termination of RNA polymerase II transcription, poly(A)-coupled (BP), termination of RNA polymerase II transcription, poly(A)-independent (BP) 2 CDC23, APC5, CDC16, APC2, APC1, DOC1, APC9, APC11, APC4, CDC27, CDC26, GLC7, TRA1 11(59) 11(7103) 4.85E-24 0.823 Cell cycle-yeast (KEGG), modification-dependent protein catabolic process (BP), ubiquitin-protein ligase activity (MF), sister chromatid segregation (BP), protein ubiquitination (BP), spindle elongation (BP), anaphase-promoting complex (CC), cyclin catabolic process (BP), anaphase-promoting complex-dependent (BP), metaphase/anaphase transition (BP), Ubiquitin mediated proteolysis (KEGG) 3 RPN13, RPN8, RPN1, RPT1, RPN3, RPN10, RPN11, RPN2, RPN5, RPT3, RPT6, RPN6, APC2, DOC1 14(59) 90(7103) 8.11E-15 0.609 Ubiquitin-dependent protein catabolic process (BP), proteasome complex (CC), Proteasome (KEGG), proteasome storage granule (CC), proteasome regulatory particle, lid subcomplex (CC), proteasome regulatory particle, base subcomplex (CC), endopeptidase activity (MF), enzyme regulator activity (MF) 4 LSM5, DCP1, PAP1, LSM3, LSM8, LSM6, LSM1, LSM4, LSM7, LSM2, PTA1, KEM1, PAT1, YSH1 14(59) 93(7103) 1.31E-14 0.750 RNA degradation (KEGG), tRNA processing (BP), U4/U6 x U5 tri-snRNP complex (CC), ribonucleoprotein complex (CC), nuclear mRNA splicing (BP), Like-Sm ribonucleoprotein (LSM) domain (IPR), Like-Sm ribonucleoprotein (LSM)-related domain (IPR), nuclear-transcribed mRNA catabolic process (BP), U6 snRNP (CC), Spliceosome (KEGG), small nucleolar ribonucleoprotein complex (CC), RNA splicing (BP), cytoplasmic mRNA processing body (CC), RNA catabolic process (BP) 5 NGG1, HFI1, TRA1, SPT20, SGF29, SPT7, SGF73, SPT8, SGF11, GCN5, SPT3, ADA2, RPN6, CFT2 14(59) 142(7103) 5.26E-12 0.570 SAGA complex (CC), chromatin modification (BP), histone acetylation (BP), SLIK (SAGA-like) complex (CC), RNA polymerase II transcription factor activity (MF), transcription cofactor activity (MF), positive regulation of transcription (BP), histone acetyltransferase activity (MF), Ada2/Gcn5/Ada3 transcription activator complex (CC), transcription factor TFIID complex (CC), DNA-directed RNA polymerase II (CC), transcription coactivator activity (MF), ER-nuclear signaling pathway (BP), transcription from RNA polymerase II promoter (BP) 87 1 Tabla 4.3: Resultado del análisis independiente con GeneTerm Linker de 59 proteı́nas nucleares de levadura Capı́tulo 4 Algoritmo de análisis biológico funcional: GeneTerm Linker De forma más visual la figura 4.12 muestra una red funcional que ha sido construida utilizando sólo los resultados de GeneTerm Linker. En esta red funcional los nodos corresponden a los genes y los enlaces representan que dos genes están en el mismo Geneterm set (enlace negro) o en el mismo metagrupo pero no en el mismo Geneterm set (enlace gris). En esta figura se aprecia mejor cada uno de los metagrupos obtenidos por el algoritmo, y las relaciones funcionales entre los genes que los constituyen. Figura 4.12: Red funcional derivada de datos de GeneTerm Linker para 59 proteı́nas de levadura - La figura muestra la red funcional obtenida a partir de los metagrupos encontrados por GeneTerm Linker a partir de 59 proteı́nas de levadura. Los metagrupos o módulos funcionales quedan bien definidos y se descubren 7 proteı́nas que hacen de puente entre varios de los módulos. 4.4.1 Comparación del método con otras aproximaciones de anotación funcional Existen numerosas aproximaciones bioinformáticas y métodos para el análisis de enriquecimiento funcional (Huang et al., 2009a), (Khatri et al., 2012), sin embargo la búsqueda de módulos funcionales derivados de análisis de enriquecimiento ha sido poco explorada. La herramienta más utilizada para este tipo de análisis modular es Functional Annotation Clustering, que pertenece a la plataforma bioinformática DAVID (DAVID Bioinformatics Resources) (Huang et al., 2009b), 88 Capı́tulo 4 denominada DAVID FAC en adelante. Esta herramienta realiza el agrupamiento de las anotaciones enriquecidas en una lista de genes basándose en el grado de co-asociación entre los genes de la lista inicial de partida. Hemos comparado el método GeneTerm Linker desarrollado en este trabajo con la herramienta DAVID FAC utilizando el mismo conjunto de 59 proteı́nas que constituyen los 5 complejos de levadura analizados en el apartado 4.4. Con ambas herramientas se seleccionaron los mismos espacios de anotación: KEGG, los tres espacios de GO e InterPro; con soporte mı́nimo de 4 genes. El resto de parámetros en la herramienta de DAVID FAC se mantuvieron con sus valores por defecto en una de las pruebas y en otra ejecución se ajustaron hasta obtener 5 módulos. Aunque esta última opción no se corresponde con un análisis estándar puesto que se conocen a priori el número de módulos a definir, su realización se consideró oportuna para obtener una comparación en el mejor de los supuestos posibles para DAVID FAC. Para comparar los resultados obtenidos con ambas herramientas se construyó una matriz de coocurrencias de los genes/proteı́nas como se describe en (Halkidi et al., 2001). De esta manera para cada par de genes g1 y g2 existen cuatro posibilidades: (a) Si g1 y g2 pertenecen al mismo complejo y son asociados en el mismo metagrupo o módulo obtenido se consideran verdaderos positivos (T P ) (b) Si g1 y g2 pertenecen al mismo complejo y no son incluidos en el mismo metagrupo o módulo obtenido se consideran falsos negativos (F N ) (c) Si g1 y g2 no pertenecen al mismo complejo y son incluidos en el mismo metagrupo o módulo obtenido se consideran falsos positivos (F P ) (d) Si g1 y g2 no pertenecen al mismo complejo ni están en el mismo metagrupo: se consideran verdaderos negativos (T N ) A partir de estos conceptos básicos que definen el grado de acuerdo entre lo esperado y lo observado, podemos definir los siguientes parámetros estadı́sticos para evaluar los métodos: Exactitud o estadı́stico Rand: Rand = (T P + T N )/(T P + T N + F P + F N ) (4.4) Coeficiente de Jaccard: J = T P/(T P + F P + F N ) (4.5) En la tabla 4.4.1 se muestran los resultados de los análisis realizados con GeneTerm Linker y DAVID FAC. Como se puede observar GeneTerm Linker recupera mejor los módulos buscados consiguiendo medidas de exactitud y coeficiente de Jaccard mejores que DAVID FAC. Incluso ajustando los valores de los parámetros en DAVID FAC para obtener el número de grupos deseado se obtienen menos T P y más F P . 4.4.2 Validación con conjuntos de datos más amplios y evaluación de la tolerancia al ruido Las técnicas ómicas de alto rendimiento generan gran cantidad de datos que permiten el análisis de estadios biológicos en situaciones experimentales especı́ficas. Estas técnicas permiten la aproximación al problema analizado desde un punto de vista ómico o global, sin embargo sacrifican a cambio parte de su precisión. Debido a esto, las listas de genes obtenidas tras estos análisis a gran escala incluyen genes falsos positivos que aparentemente no guardan una relación funcional con 89 Algoritmo de análisis biológico funcional: GeneTerm Linker Grupos buscados Grupos encontrados Combinaciones de genes TP FN FP TN Coeficiente de Jaccard Exactitud Rand GeneTerm Linker 5 5 1711 320 82 0 1309 0.769 0.952 DAVID FAC (por defecto) 5 15 1711 320 1179 0 212 0.213 0.311 DAVID FAC (5 grupos) 5 5 1711 254 132 66 1259 0.562 0.884 Tabla 4.4: Análisis comparativo de resultados obtenidos con DAVID FAC y GeneTerm Linker utilizando el set de datos de 59 proteı́nas de levadura correspondientes a 5 complejos. el resto. La existencia de estos falsos positivos ha motivado la evaluación de GeneTerm Linker para enfrentarse a estas situaciones de ruido. Para demostrar estas capacidades hemos validado el método frente a tres series de datos biomoleculares sobre genes/proteı́nas que se han recolectado procedentes de 3 repositorios de diferente naturaleza biológica. Además estas series contienen datos de varias especies: (a) Complejos CORUM: Complejos de proteı́nas identificados en mamı́feros tomados de la base de datos CORUM (http://mips.helmholtz-muenchen.de/genre/proj/corum) (Ruepp et al., 2010). (b) Vı́as SGD:Vı́as de señalización y vı́as metabólicas de levadura tomadas de la base de datos sobre rutas biomoleculares incluida en SGD (http://www.yeastgenome.org) (Engel et al., 2010). (c) Enfermedades OMIM: Genes implicados en enfermedades humanas tomados de la base de datos de OMIM (http://www.ncbi.nlm.nih.gov/omim) (Hamosh et al., 2005). De estas bases de datos se seleccionaron complejos/vı́as/enfermedades con al menos 8 genes anotados tomando de entre ellos 10 grupos aleatorios de cada repositorio, es decir, un total de 30 conjuntos de referencia. Cada conjunto seleccionado fue analizado utilizando GeneTerm Linker evaluando cuántos de los genes asociados a cada complejo/vı́a/enfermedad están incluidos en el metagrupo más significativo recuperado. Para evaluar la tolerancia al ruido cada conjunto es analizado no sólo con los genes que lo componen sino añadiendo genes seleccionados al azar entre el conjunto total de cada repositorio. De esta manera se han introducido dos niveles de ruido: 20 % y 60 %; de manera que si por ejemplo un complejo analizado está formado por 10 genes, a la hora de introducir un 20 % de ruido se añaden otros 2 genes más tomados al azar de la base de datos de todos los complejos. Los resultados utilizando GeneTerm Linker sobre los conjuntos de referencia se muestran en la tabla 4.4.2, que presenta en cada fila los datos del metagrupo más significativo encontrado por el algoritmo además de su coincidencia con el correspondiente conjunto de referencia. Como ejemplo, en el caso del primer complejo “C complex spliceosome” está compuesto por 80 genes a los que se ha añadido un 20 % de ruido extra conteniendo en total 96 para ser analizados. El metagrupo más significativo encontrado por GeneTerm Linker contiene 68 genes de los cuales los 68 pertenecen al complejo (es decir son verdaderos positivos, TP). Siguiendo los mismos pasos se calcularon los resultados para los 30 conjuntos de referencia. Como los genes que pertenecen a cada conjunto de referencia son conocidos es posible calcular los 90 Capı́tulo 4 ı́ndices de precisión y exhaustividad (precision and recall) del método. En un escenario de recuperación de información se define precisión como el número de elementos relevantes obtenido respecto al total de resultados recuperados; es una medida de la exactitud y fidelidad. Por otro lado, el ı́ndice de exhaustividad (recall) se define como el número de elementos relevantes recuperados respecto al total de elementos relevantes (los que deberı́an haber sido recuperados); es por tanto un indicador de la completitud. Una medida más general se puede obtener combinando las dos anteriores con una media armónica de ambas que se denomina medida F (F-measure o F1 score). Estadı́sticamente estos parámetros están relacionados con los errores de tipo I y tipo II y se definen del siguiente modo: P recision = T P/(T P + F P ) (4.6) Recall = T P/(T P + F N ) (4.7) F1 score = 2 ∗ (P recision ∗ Recall)/P recision + Recall) (4.8) Los resultados del análisis, mostrados en la tabla 4.4.2, indican que la precisión media tanto para complejos como vı́as (pathways) o enfermedades con un nivel de ruido del 20 % es cercana al 100 % (100 %, 97.80 %, 99.74 % respectivamente). El método es por tanto preciso y robusto frente a las perturbaciones, recuperando en cada metagrupo la mayorı́a de la señal funcional incluida en los conjuntos originales probados. Se observa también en esta tabla que el número de genes de los conjuntos de referencia no afecta a las tasas de error del método ya que la precisión y el recall no se ven asociados con dicho tamaño. Figura 4.13: Comparación de F1scores - F1score medios para los 10 conjuntos analizados en las bases de datos CORUM, OMIM y SGD introduciendo un 20 % y un 60 % de ruido En la figura 4.13 se muestra el F1 score medio para los 10 conjuntos de cada repositorio introduciendo porcentajes de ruido del 20 y 60 %. Como se puede observar, el hecho de añadir genes no relacionados con cada conjunto en el análisis no tiene una especial influencia a la hora de recuperar los grupos funcionales. Sin embargo, sı́ que se observan diferencias entre las bases de datos utilizadas pasando de valores de recall medio por encima del 90 % para los complejos (CORUM) a valores entorno al 65 % en el caso de las enfermedades (OMIM). Esta observación es coherente con las expectativas, ya que desde el punto de vista biológico molecular se ha de esperar un descenso de la coherencia y compactación funcional de las unidades cuando pasamos de CORUM a SGD y a OMIM. Resulta claro que la cohesión y la similitud funcional de genes asociados en un complejo multiproteı́na con relaciones estructurales y funcionales de tipo molecular es mucho mayor que la que cabrı́a esperar en una vı́a metabólica en la que existe asociación funcional y no estructural. Y ésta a su vez es aún mayor que la cohesión funcional de los genes de una enfermedad donde la asociación entre los genes es muchas veces heurı́stica, observacional o fenomenológica y no realmente asociada a una causa molecular conocida. 91 Algoritmo de análisis biológico funcional: GeneTerm Linker Genes Genes Genes TP iniciales analizados metagrupo Precision ( %) Recall ( %) F1score ( %) Complejos (CORUM) C complex spliceosome Mediator (transcriptional coactivator) Proteasome (20S/26S) RNA polymerase II (RNAPII) F1F0-ATP synthase, mitochondrial DAB, transcription preinitiation complex Exosome eIF3 complex Nup 107-160 nuclear pore subcomplex CENP-A NAC-CAD kinetochore complex 80 32 22 26 16 16 11 13 9 13 96 39 27 32 20 20 14 16 11 16 68 28 22 24 14 16 11 11 9 13 68 28 22 24 14 16 11 11 9 13 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 85.00 87.50 100.00 92.31 87.50 100.00 100.00 84.62 100.00 100.00 91.89 93.33 100.00 96.00 93.33 100.00 100.00 91.67 100.00 100.00 22 22 19 35 12 11 14 17 19 18 27 27 23 42 15 14 17 21 23 22 22 23 16 21 12 11 13 13 11 10 22 22 16 21 12 11 13 12 11 9 100.00 95.65 100.00 100.00 100.00 100.00 100.00 92.31 100.00 90.00 100.00 100.00 84.21 60.00 100.00 100.00 92.86 70.59 57.89 50.00 100.00 97.78 91.43 75.00 100.00 100.00 96.30 80.00 73.33 64.29 51 84 44 11 23 25 19 8 37 13 62 101 53 14 28 30 23 10 45 16 39 31 19 11 11 11 9 7 9 5 38 31 19 11 11 11 9 7 9 5 97.44 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 74.51 36.90 43.18 100.00 47.83 44.00 47.37 87.50 24.32 38.46 84.44 53.91 60.32 100.00 64.71 61.11 64.29 93.33 39.13 55.56 Vı́as/Pathways (SGD) Gluconeogenesis TCA cycle, aerobic respiration Sphingolipid metabolism Biosynthesis of purine nucleotides Lipid-linked oligosaccharide biosynthesis Ergosterol biosynthesis Superpathway of glucose fermentation Fatty acid biosynthesis, initial steps Inositol phosphate biosynthesis Folate biosynthesis Enfermedades (OMIM) Retinitis pigmentosa Deafness Cardiomyopathy Epidermolysis bullosa Congenital disorder of glycosylation Muscular dystrophy Glycogen storage disease Leigh syndrome Acute Leukemia Diabetes mellitus Tabla 4.5: Efectos de la introduccion del 20 % de ruido sobre la precision y el recall 92 Capı́tulo 4 4.4.3 Aplicación del método a conjuntos de datos experimentales La validación de GeneTerm Linker en las secciones previas se ha realizado con conjuntos de datos seleccionados con resultados conocidos a priori que permiten evaluar el método y estimar errores y precisión. Sin embargo, para aceptar la utilidad mas práctica y general es necesaria su validación en escenarios tı́picos de análisis de enriquecimiento como pueden ser análisis de genes diferencialmente expresados o análisis de listas de genes derivadas de otros tipos de técnicas genómicas. Para demostrar la utilidad del método en ejemplos de datos experimentales reales se han seleccionado las firmas moleculares obtenidas en dos estudios de diferente naturaleza: 1. Estudio de Alzheimer: Análisis del desarrollo de ovillos neurofibrilares marcadores primarios de la enfermedad de Alzheimer (Dunckley et al., 2006). En este estudio se identifican 225 Affymetrix probesets como posibles genes implicados en el desarrollo neurofibrilar. 2. Estudio de Cáncer: Progresión del cáncer de mama a través del análisis de los genes que correlacionan con los diferentes estadı́os patológicos de la enfermedad (Ma et al., 2003). En este estudio se identifican 174 genes marcadores para el pronóstico de la enfermedad. Estas dos firmas moleculares fueron analizadas con GeneTerm Linker para encontrar los procesos biológicos subyacentes en cada estudio. Los resultados se muestran en las tablas 4.4.3 y 4.4.3 para los datos de Alzheimer y cáncer de mama respectivamente. En el caso del estudio de Alzheimer las funciones que aparecen más claramente están relacionadas con el transporte de iones de sodio y potasio, las vı́as de señalización de calcio, actividad post-sináptica, enfermedad de alzheimer y vı́as de señalización de Wnt y GnRH. Las funciones más sobre-representadas en la firma molecular de la progresión del cáncer de mama son la ubiquitinación y degradación de proteı́nas en el proteasoma, regulación de apoptosis, mitosis y meiosis con presencia de genes en los microtúbulos y cinetocoro y vı́as de señalización de EGF. Ambas firmas funcionales son coherentes con las caracterı́sticas patológicas de cada enfermedad, es decir, con los procesos neurodegenerativos o con los procesos tumorales, demostrando que GeneTerm Linker es capaz de encontrar genes y funciones asociados de modo relevante y preciso. 93 94 Silueta P-valor Términos CACNA1C, CACNA1D, HCN1, HCN3, KCNB1, KCNJ9, KCNMA1, KCNV1, KCTD2, SCN2A, SCN3A, SCN3B 0.55 4.50E-10 ADD3, ATP2B1, CACNA1C, CACNA1D, CALM3, CAMK2D, CHRM1, GAP43, P2RX5, PLCB1, SLC3A2, SNTA1 ANO3, CHRM1, GABBR2, GABRB3, GRIA3, MCHR1, P2RX5, TSPO APOE, CACNA1C, CACNA1D, CALM3, CAMK2D, FZD3, KCNMA1, MAPK8, MAPT, PLCB1, PPP1R14A, PRKG1, SORT1 0.42 1.01E-07 Ion transport (IPR), voltage-gated ion channel activity (MF), sodium ion transport (BP), potassium ion transport (BP), voltage-gated potassium channel activity (MF), voltage-gated potassium channel complex (CC) Calmodulin binding (MF), Calcium signaling pathway (KEGG), calcium ion transport (BP) 0.41 1.55E-03 0.30 4.33E-07 CACNA1C, CHRM1, GABBR2, GABRB3, GAP43, GRIA3, HOMER1, KCNMA1, LZTS1, NRXN3, SEPT3, SNTA1, SYNGR1 ACTN1, APOE, CACNA1C, CACNA1D, CALM3, CHRM1, CNTN4, CNTNAP1, CUX2, CXCL12, DDN, ECHDC1, FAT3, GAP43, HCN1, HHIP, ICAM2, KCNMA1, LRRFIP1, LZTS1, MAPK8, MAPT, MTSS1, MYO9A, NLGN4X, NPTXR, NRCAM, NRXN3, NTNG1, PAK7, PDCD6, PLCB1, PRKCI, RASGRP1, ROBO2, RUNX1T1, S100A16, SCN2A, SCN3A, SELPLG, SLC3A2, SORT1, STRC, SYNGAP1, THY1, TRPS1, VWF, WASF2 0.26 2.34E-10 -0.05 3.61E-20 Postsynaptic membrane (CC), Neuroactive ligand-receptor interaction KEGG), ion channel activity (MF) Calcium signaling pathway (KEGG), Long-term potentiation (KEGG), GnRH signaling pathway (KEGG), Alzheimer’s disease (KEGG), Vascular smooth muscle contraction (KEGG), Melanogenesis (KEGG), Neurotrophin signaling pathway (KEGG), Wnt signaling pathway (KEGG) Postsynaptic membrane (CC), postsynaptic density (CC), synapse (CC), synaptic transmission (BP) Cell adhesion molecules (KEGG), integrin binding (MF), response to calcium ion (BP), cell projection (CC), cell surface (CC), Concanavalin A-like lectin/glucanase, subgroup (IPR), Concanavalin A-like lectin/glucanase (IPR), apical plasma membrane (CC), external side of plasma membrane (CC), IQ calmodulin-binding region (IPR), MAPK signaling pathway (KEGG), SH3 domain binding (MF), enzyme binding (MF), dendrite (CC), axon (CC), catalytic activity (MF), Axon guidance (KEGG), Focal adhesion (KEGG), transcription repressor activity (MF), Regulation of actin cytoskeleton (KEGG) Tabla 4.6: Resultados del análisis con GeneTerm Linker del set de datos experimental de Alzheimer Algoritmo de análisis biológico funcional: GeneTerm Linker Genes Genes 95 Silueta P-valor Términos PLK1, PSMA7, PSMB2, PSMB3, PSMD12, UBE2C 0.73 2.04E-06 IL2RA, ING4, IP6K2, MCM6, POLL, RRM2, TOP2A AURKA, BUB1, KIF11, PBK, PLK1, SCYL2, UBE2C BIRC5, CDCA8, CENPA, ESPL1, HJURP, NDC80, SKA2, SMC1A, TOP2A ANLN, AURKA, BIRC5, CDC25B, CDCA8, CEP55, ESPL1, GABARAP, KIF11, NUSAP1, RACGAP1, SKA2 AURKA, BUB1, ESPL1, HJURP, NDC80, NUSAP1, PGR, PLK1, SMC1A BUB1, CCNA2, CDC25B, ESPL1, MCM6, PGR, PLK1, SMC1A, UBE2C ANLN, AURKA, BIRC5, BUB1, CCNA2, CDC25B, CDCA3, CEP55, CKS2, KIF11, NDC80, PBK, PLK1, SKA2, TOP2A, UBE2C BRE, CBX7, CENPA, DNALI1, HDAC7, ING4, KIF11, KIF5C, L3MBTL, RAD51, RAG2, SATB1, SFPQ, SMC1A, TOP2A, WDR5 ANLN, ARPC1A, B3GNT3, BCL2, CDKN3, CHST10, EFEMP2, ESPL1, FBLN2, FOXO4, FZD5, GABARAP, ING4, LRRC59, LTBP3, MARCKS, MASP2, NDFIP2, NUDT21, PLAGL1, PLK1, SLC27A1, SLC35B1, SPCS3, ZMPSTE24 0.60 0.52 0.32 4.81E-04 7.75E-06 1.80E-08 Regulation of ubiquitin-protein ligase activity during mitotic cell cycle (BP), anaphase-promoting complex-dependent proteasomal ubiquitin-dependent protein catabolic process (BP), proteasome complex (CC), Proteasome (KEGG) DNA replication (BP), positive regulation of apoptosis (BP) Mitosis (BP), protein kinase activity (MF) Chromosome segregation (BP), chromosome, centromeric region (CC), chromosome (CC) 0.32 9.49E-12 Spindle microtubule (CC), mitosis (BP), cytokinesis (BP), spindle (CC), microtubule binding (MF) 0.25 1.52E-10 0.22 5.79E-08 Oocyte meiosis (KEGG), condensed chromosome kinetochore (CC), mitotic sister chromatid segregation (BP), kinetochore (CC), Cell cycle (KEGG) Mitosis (BP), Cell cycle (KEGG), Progesterone-mediated oocyte maturation (KEGG) 0.08 2.15E-13 Mitosis (BP), spindle organization (BP), phosphoinositide-mediated signaling (BP) -0.02 1.52E-09 -0.03 1.97E-12 DNA repair (BP), chromatin binding (MF), chromatin modification (BP), microtubule motor activity (MF) Calcium ion binding (MF), EGF-like calcium-binding (IPR), EGF-like calcium-binding (IPR), EGF-type aspartate/asparagine hydroxylation site (IPR), EGF calcium-binding (IPR), microsome (CC), cell cycle arrest (BP), actin cytoskeleton (CC), centrosome (CC), Golgi membrane (CC) Tabla 4.7: Resultados del análisis con GeneTerm Linker del set de datos experimental de cáncer de mama Capı́tulo 4 Algoritmo de análisis biológico funcional: GeneTerm Linker El hecho de simplificar y agrupar los genes y los términos en metagrupos facilita en gran manera la interpretación de los resultados. En la tabla 4.4.3, que resume los resultados de estos análisis, se puede observar cómo el número de Geneterm sets obtenidos con la herramienta de enriquecimiento antes de aplicar GeneTerm Linker es demasiado alto para una interpretación inmediata de los resultados. El uso de GeneTerm Linker reduce significativamente (de 101 a 59 y de 103 a 68) el número de Geneterm sets, manteniendo todas las funciones encontradas inicialmente y estableciendo asociaciones entre los términos que, de otra manera, quedarı́an ocultas. Firma génica (publicada) Genes identificados Grupos DAVID FAC Metagrupos GeneTerm Linker GeneTerm sets iniciales GeneTerm sets redundantes GeneTerm sets finales Alzheimer Dunckley et al. (2006) 225 Affymetrix probesets 176 genes 58 6 101 42 59 Cáncer de mama Ma et al. (2003) 200 genes 174 genes 68 10 103 35 68 Tabla 4.8: Resumen de los resultados de GeneTerm Linker para dos conjuntos de datos experimentales 4.5 Implementación de GeneTerm Linker en un servidor web GeneTerm Linker está diponible como herramienta web que permite a cualquier usuario acceder al método y utilizarlo de modo sencillo con sus listados de genes o proteı́nas problema. La aplicación bioinformática está disponible en http://gtlinker.cnb.csic.es y http://cicblade.dep.usal.es:8000. En la figura 4.14 se presenta una captura de pantalla de la página de entrada a la herramienta. Internamente la aplicación está implementada en los lenguajes de programación R (http://www.rproject.org) y Ruby (http://ruby-lang.org) y está asociada a la aplicación de análisis de enriquecimiento funcional GeneCodis (http://genecodis.cnb.csic.es) a través de su Web Service. La asociación de GeneTerm Linker a una herramienta de enriquecimiento previa es necesaria porque, como se ha explicado en el desarrollo, el método realiza un análisis post-enriquecimiento de las relaciones genes-términos encontradas. En este sentido GeneTerm Linker podrı́a acoplarse a cualquier salida de una herramienta de análisis de enriquecimiento. La asociación con GeneCodis se ha implementado para facilitar la utilización práctica de GeneTerm Linker y para permitir que los investigadores usuarios puedan partir de la lista cruda inicial de genes/proteı́nas problema sin necesidad de pasar por el paso intermedio de enriquecimiento. Finalmente, indicar que en el sitio web de GeneTerm Linker se incluye una ayuda para su uso con detalles respecto al método y el modo de ver e interpretar los resultados. 4.6 Discusión La anotación funcional se ha considerado el cuello de botella de los estudios biomédicos desde la aparición de las técnicas masivas de producción de datos biomoleculares (Medrano-Soto et al., 2008; Llewellyn and Eisenberg, 2008). Para muchos de los genes estudiados mediante estas técnicas no se conocen o no se han anotado funciones especı́ficas y otros han sido anotados únicamente en base a homologı́a, asignando funciones conocidas a secuencias similares. Esta falta de conocimiento preciso, los errores introducidos muchas veces en las anotaciones por homologı́a y la 96 Capı́tulo 4 Figura 4.14: Aplicación web del método GeneTerm Linker - Captura de pantalla de la página de inicio de GeneTerm Linker en la que se introducen los datos básicos esenciales: listado de genes, lista de referencia (opcional), organismo, espacios de anotación que se quieren utilizar y soporte mı́nimo para construir los Geneterm sets. 97 Algoritmo de análisis biológico funcional: GeneTerm Linker utilización frecuente de términos “de moda” poco informativos son dificultades añadidas a las que las herramientas de enriquecimiento deben enfrentarse. En este capı́tulo se ha propuesto un nuevo método bioinformático de análisis funcional denominado GeneTerm Linker que pretende solventar o minimizar los efectos descritos. El método ha sido desarrollado especialmente para la combinación de múltiples espacios de anotación con el objetivo de eliminar redundancias y reducir la complejidad de los resultados de anotación funcional automática. La caracterización funcional de listas de genes/proteı́nas derivadas de técnicas ómicas deberı́a proporcionar idealmente menos conjuntos de genes/proteı́nas anotados que el número de elementos que contiene la lista inicial (Merico et al., 2010). Sin embargo, las herramientas actuales no proporcionan resultados sencillos ni fácilmente interpretables. El método propuesto en este capı́tulo intenta minimizar este problema proporcionando un resultado simplificado y preciso, donde los genes y términos están agrupados en metagrupos evaluados por su significación, coherencia funcional y similitud. Además la herramienta puede facilitar la inferencia de relaciones funcionales entre genes que no han sido anotadas especı́ficamente en ninguna base de datos, pero que, sin embargo, aparecen implı́citas cuando se analizan los genes que pertenecen a un mismo metagrupo. En la figura 4.15 se muestra un esquema con los fundamentos que guiaron el desarrollo de la herramienta. La potencia del método radica en su capacidad para combinar múltiples fuentes de anotación sin depender de su estructura interna a la hora de proporcionar resultados simplificados. Las aproximaciones de la simplificación de los resultados de enriquecimiento mediante la búsqueda de asociaciones basadas en la estructura jerárquica de las bases de datos de anotación (sobre todo aplicadas en Gene Ontology) consiguen una mejora de los resultados, sin embargo no son extrapolables a otros espacios de anotación con diferente estructura y organización. GeneTerm Linker hace posible la integración de múltiples espacios incluyendo tanto GO como KEGG, InterPro, etc. Una contribución complementaria de este estudio es el análisis comparativo de los espacios de anotación utilizados. En la sección 4.2 se muestra que KEGG es más estable y contiene menos términos atı́picos. Estas diferencias son debidas fundamentalmente al “recurado” exhaustivo por expertos de KEGG y al hecho de que GO muchas veces anote términos muy generales para su aplicación en organismos muy diversos. Esta falta de especificidad y la utilización masiva de términos que se hacen demasiado populares (como Signal transduction o Regulation of transcription, influye en gran medida en la calidad de los resultados de enriquecimiento. Como conclusión, es posible afirmar que se ha construido una herramienta innovadora cuyo valor radica en proporcionar una solución coherente y simplificada al problema de la anotación funcional, pero que al mismo tiempo permite ahondar en la naturaleza de los resultados para descubrir nuevas relaciones. Para lograr esto la herramienta construida va un paso más lejos que las herramientas de enriquecimiento actuales permitiendo la integración bases de datos heterogéneas y eliminando los problemas derivados de la utilización de términos redundantes o poco informativos. Para más información se puede consultar el artı́culo publicado sobre GeneTerm Linker titulado: ”Functional analysis beyond enrichment: non-redundant reciprocal linkage of genes and biological terms”, que se adjunta en esta memoria (Fontanillo et al., 2011). 98 Capı́tulo 4 Figura 4.15: Esquema descriptivo del método de GeneTerm Linker - Esquema que describe el problema y el objetivo del método de GeneTerm Linker ilustrándolo como herramienta de postenriquecimiento e indicando los parámetros en los que se apoya para construir los metagrupos de genes y co-anotaciones de múltiples términos biológicos. 99 Conclusiones generales El objetivo fundamental de la genómica funcional es entender cómo funciona el genoma en su conjunto mediante el análisis de la expresión de todos y cada uno de sus genes y de los múltiples factores que regulan o influyen la expresión de los mismos. La recolección sistemática de información y datos procedentes de tecnologı́as genómicas experimentales globales a gran escala proporciona un punto de partida para desvelar la actividad del genoma y el comportamiento de los sistemas vivos asociado a su genoma. Se trata de expandir el alcance de la investigación biológica desde el estudio de genes individuales al estudio de todos los genes de una célula en un momento determinado. Desde esta perspectiva en la presente memoria de Tesis Doctoral se han abordado el desarrollo de distintos métodos y algoritmos bioinformáticos y su aplicación a series de datos de estudios en cáncer obtenidos por diversas técnicas genómicas. A continuación se hace un resumen de las cuatro partes del trabajo desarrollado y se proponen una conclusiones finales a modo de sumario. En el capı́tulo 1 se han utilizado perfiles de expresión derivados de datos de microarrays que permiten diferenciar tipos o subtipos de enfermedades ası́ como identificar una firma molecular propia de cada uno de los estados. Se ha desarrollado el algoritmo geNetClassifier que, mediante el análisis de estos perfiles de expresión, proporciona un método de clasificación multiclase robusto, evaluado mediante validación cruzada anidada y centrado en el acceso transparente a las entidades biológicas. Este clasificador realiza una asignación probabilı́stica de nuevas muestras a cada uno de los estados, de manera que permite reducir el número de falsos positivos y lograr una mayor semejanza con el proceso de decisión que llevarı́a a cabo un experto. Además de identificar los genes marcadores para cada enfermedad, el algoritmo analiza las relaciones entre dichos genes de manera que se facilita la creación de redes de genes asociados a cada subtipo patológico y la identificación de los procesos biológicos desregulados en cada estado en los que cooperan dichos genes marcadores. Los procesos tumorales están dirigidos habitualmente por la acumulación de alteraciones en el DNA, normalmente con incrementos y disminuciones en el número de copias de DNA. En el capı́tulo 2 se ha implementado un flujo de trabajo completo para el análisis de estas alteraciones. Los algoritmos diseñados se basan en la discretización de los valores cuantitativos continuos del número de copias de DNA obtenidos mediante arrays de SNPs en 3 estados: amplificación (o ganancia), deleción (o pérdida) y no cambio. A partir de esta discretización se han desarrollado dos algoritmos que buscan alteraciones recurrentes propias de determinadas patologı́as. El primer algoritmo identifica regiones mı́nimas con alteraciones comunes en un conjunto de muestras, que se corresponderán con las alteraciones germinales o más importantes implicadas en el desarrollo de las patologı́as, normalmente procesos tumorales. El segundo algoritmo identifica las regiones con puntos de ruptura, es decir, en las se producen frecuentemente los cambios en el estado de número de copias, normalmente asociadas con el desarrollo tumoral. Utilizando estos algoritmos 101 Conclusiones generales se han identificado regiones alteradas candidatas a marcadores moleculares de cáncer colorectal metastático. Además se ha descubierto un punto de ruptura en el cromosoma 17p11.2 relacionado con la supervivencia de los pacientes con este tipo de tumor metastático. El análisis de las alteraciones genómicas del número de copias de DNA proporciona una información valiosa para comprender el origen y desarrollo tumoral, sin embargo, no todas las alteraciones definidas producen los mismos efectos sobre la expresión génica. La integración de estos datos junto con los perfiles de expresión génica facilita la identificación de genes conductores claves en el desarrollo y progresión tumoral. En el capı́tulo 3 se ha presentado un método para la identificación de alteraciones en el número de copias de DNA asociados a cambios en la expresión génica. El método propuesto permite la integración de datos procedentes de microarrays de RNA y de DNA que tienen diferente resolución y reduce, gracias a la segmentación, los efectos de regulación no asociados a la localización genómica. De este modo, se consiguen identificar genes conductores en regiones genómicas candidatas que refinan los resultados obtenidos analizando por separado ambas capas de información. Por último, en el capı́tulo 4 se ha propuesto un método bioinformático de análisis de enriquecimiento funcional que permite la combinación de múltiples espacios de anotación con el objetivo de eliminar redundancias y reducir la complejidad de los resultados de anotación funcional automática. Se ha desarrollado una herramienta web con el método propuesto que facilita la interpretación de los resultados de enriquecimiento mediante el filtrado de términos generales identificados en el análisis de diferentes espacios de anotación y posibilita la inferencia de relaciones funcionales entre genes pobremente anotados. De modo global, el trabajo descrito en esta memoria proporciona un conjunto de herramientas y algoritmos que permiten estudiar la asociación entre genotipo y fenotipos patológicos. Estudiando las alteraciones genómicas y los cambios en la expresión génica es posible comprender mejor las funciones y procesos que están teniendo lugar en las células y que, de alguna manera, están impulsando el desarrollo tumoral o patológico. El análisis de datos procedentes de técnicas genómicas como los microarrays de expresión y de SNPs permite identificar genes marcadores o causales y ahondar en los mecanismos que rodean la aparición y la progresión de enfermedades complejas como el cáncer. La profundización en el conocimiento de las enfermedades puede traducirse en tratamientos mejor dirigidos y más especı́ficos, ası́ como en un diagnóstico precoz que posibilite una mejor calidad de vida y una mejora de la supervivencia de los pacientes. Como aporte adicional las herramientas y algoritmos desarrollados en este trabajo son independientes de la tecnologı́a utilizada para la cuantificación de las señales génicas y genómicas y, por ello, pueden ser fácilmente adaptables a otras técnicas experimentales en auge como las nuevas técnicas de secuenciación masiva simplemente adaptando el preprocesamiento de los datos. Finalmente, como CONCLUSIONES FINALES resumidas del trabajo se puede decir: 1. La aplicación de métodos de aprendizaje automático (machine learning) transparentes basados en datos de expresión génica global permite construir sistemas expertos (i.e. clasificadores) capaces de diferenciar subtipos de enfermedades e identificar las entidades biomoleculares que los definen. Además, el análisis de los parámetros internos de estos sistemas expertos permite derivar nuevas caracterı́sticas de las entidades biomoleculares, como es el poder discriminante de los genes. 2. La búsqueda sistemática a nivel genómico de alteraciones recurrentes en el número de copias de DNA en muestras de pacientes con tipos de cáncer especı́ficos permite identificar regiones del genoma que incluyen genes cuya alteración es clave para el desarrollo de esos 102 procesos tumorales. Esta estrategia se ha demostrado eficaz un estudio de cáncer colorectal metastásico. 3. El desarrollo de métodos bioinformáticos integrativos de varios tipos de señales genómicas, como son los cambios de expresión génica y la alteración del numero de copias, se ha demostrado eficaz cuando se siguen estrategias coherentes y paralelas de procesado de ambos tipos datos basadas en la co-localización genómica de las señales. 4. La anotación biológica y análisis de enriquecimiento funcional de listas de genes marcadores derivadas de datos genómicos se ve optimizada cuando se exploran simultáneamente múltiples espacios de anotación, se evitan redundancias y se filtran términos poco informativos. Además, estas estrategias facilitan encontrar módulos funcionales con grupos de genes y términos asociados. 103 Bibliografı́a Affymetrix, I. (2005). Guide to probe logarithmic intensity error (PLIER) estimation. Technical report. 13 Aguirre, A. J., Brennan, C., Bailey, G., Sinha, R., Feng, B., Leo, C., Zhang, Y., Zhang, J., Gans, J. D., Bardeesy, N., Cauwels, C., Cordon-Cardo, C., Redston, M. S., DePinho, R. A., and Chin, L. (2004). High-resolution characterization of the pancreatic adenocarcinoma genome. Proc Natl Acad Sci U S A, 101(24):9067–72. 38, 41, 52 Akavia, U. D., Litvin, O., Kim, J., Sanchez-Garcia, F., Kotliar, D., Causton, H. C., Pochanard, P., Mozes, E., Garraway, L. a., and Peér, D. (2010). An integrated approach to uncover drivers of cancer. Cell, 143(6):1005–17. 56 Ashburner, M., Ball, C. A., Blake, J. A., Botstein, D., Butler, H., Cherry, J. M., Davis, A. P., Dolinski, K., Dwight, S. S., Eppig, J. T., Harris, M. A., Hill, D. P., Issel-Tarver, L., Kasarskis, A., Lewis, S., Matese, J. C., Richardson, J. E., Ringwald, M., Rubin, G. M., and Sherlock, G. (2000). Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nat Genet, 25(1):25–9. 72 Attwood, T. K., Bradley, P., Flower, D. R., Gaulton, A., Maudling, N., Mitchell, A. L., Moulton, G., Nordle, A., Paine, K., Taylor, P., Uddin, A., and Zygouri, C. (2003). PRINTS and its automatic supplement, prePRINTS. Nucleic Acids Res, 31(1):400–2. 75 Babicka, L., Ransdorfova, S., Brezinova, J., Zemanova, Z., Sindelarova, L., Siskova, M., Maaloufova, J., Cermak, J., and Michalova, K. (2007). Analysis of complex chromosomal rearrangements in adult patients with MDS and AML by multicolor FISH. Leuk Res, 31(1):39–47. 53 Bader, G. D. and Hogue, C. W. (2003). An automated method for finding molecular complexes in large protein interaction networks. BMC Bioinformatics, 4(1):2. 84 Barbouti, A., Stankiewicz, P., Nusbaum, C., Cuomo, C., Cook, A., Höglund, M., Johansson, B., Hagemeijer, A., Park, S.-S., Mitelman, F., Lupski, J. R., and Fioretos, T. (2004). The breakpoint region of the most common isochromosome, i(17q), in human neoplasia is characterized by a complex genomic architecture with large, palindromic, low-copy repeats. Am J Hum Genet, 74(1):1–10. 53 Bell, D. A. and Wang, H. (2000). A Formalism for Relevance and Its Application in Feature Subset Selection. Machine Learning, 41(2):175–195. 10 Bengtsson, H., Irizarry, R., Carvalho, B., and Speed, T. P. (2008). Estimation and assessment of raw copy numbers at the single locus level. Bioinformatics, 24(6):759–67. 36 105 BIBLIOGRAFÍA Bengtsson, H., Wirapati, P., and Speed, T. P. (2009). A single-array preprocessing method for estimating full-resolution raw copy numbers from all Affymetrix genotyping arrays including GenomeWideSNP 5 & 6. Bioinformatics, 25(17):2149–56. 31, 36, 52, 57 Bernard-Pierrot, I., Gruel, N., Stransky, N., Vincent-Salomon, A., Reyal, F., Raynal, V., Vallot, C., Pierron, G., Radvanyi, F., and Delattre, O. (2008). Characterization of the recurrent 8p11-12 amplicon identifies PPAPDC1B, a phosphatase protein, as a new therapeutic target in breast cancer. Cancer Res, 68(17):7165–75. 56 Beroukhim, R., Mermel, C. H., Porter, D., Wei, G., Raychaudhuri, S., Donovan, J., Barretina, J., Boehm, J. S., Dobson, J., Urashima, M., Mc Henry, K. T., Pinchback, R. M., Ligon, A. H., Cho, Y.-J., Haery, L., Greulich, H., Reich, M., Winckler, W., Lawrence, M. S., Weir, B. A., Tanaka, K. E., Chiang, D. Y., Bass, A. J., Loo, A., Hoffman, C., Prensner, J., Liefeld, T., Gao, Q., Yecies, D., Signoretti, S., Maher, E., Kaye, F. J., Sasaki, H., Tepper, J. E., Fletcher, J. A., Tabernero, J., Baselga, J., Tsao, M.-S., Demichelis, F., Rubin, M. A., Janne, P. A., Daly, M. J., Nucera, C., Levine, R. L., Ebert, B. L., Gabriel, S., Rustgi, A. K., Antonescu, C. R., Ladanyi, M., Letai, A., Garraway, L. A., Loda, M., Beer, D. G., True, L. D., Okamoto, A., Pomeroy, S. L., Singer, S., Golub, T. R., Lander, E. S., Getz, G., Sellers, W. R., and Meyerson, M. (2010). The landscape of somatic copy-number alteration across human cancers. Nature, 463(7283):899–905. 52, 56 Biegel, J. A. (1997). Genetics of pediatric central nervous system tumors. J Pediatr Hematol Oncol, 19(6):492–501. 53 Bignell, G. R., Greenman, C. D., Davies, H., Butler, A. P., Edkins, S., Andrews, J. M., Buck, G., Chen, L., Beare, D., Latimer, C., Widaa, S., Hinton, J., Fahey, C., Fu, B., Swamy, S., Dalgliesh, G. L., Teh, B. T., Deloukas, P., Yang, F., Campbell, P. J., Futreal, P. A., and Stratton, M. R. (2010). Signatures of mutation and selection in the cancer genome. Nature, 463(7283):893–8. 56 Brown, M. P., Grundy, W.Ñ., Lin, D., Cristianini, N., Sugnet, C. W., Furey, T. S., Ares, M., and Haussler, D. (2000). Knowledge-based analysis of microarray gene expression data by using support vector machines. Proc Natl Acad Sci U S A, 97(1):262–7. 9 Bru, C., Courcelle, E., Carrère, S., Beausse, Y., Dalmar, S., and Kahn, D. (2005). The ProDom database of protein domain families: more emphasis on 3D. Nucleic Acids Res, 33(Database issue):D212–5. 75 Bungaro, S., DellÓrto, M. C., Zangrando, A., Basso, D., Gorletta, T., Lo Nigro, L., Leszl, A., Young, B. D., Basso, G., Bicciato, S., Biondi, A., te Kronnie, G., and Cazzaniga, G. (2009). Integration of genomic and gene expression data of childhood ALL without known aberrations identifies subgroups with specific genetic hallmarks. Genes Chromosomes Cancer, 48(1):22– 38. 60 Carvalho, C. M. B. and Lupski, J. R. (2008). Copy number variation at the breakpoint region of isochromosome 17q. Genome Res, 18(11):1724–32. 53 Chernova, O. B., Somerville, R. P., and Cowell, J. K. (1998). A novel gene, LGI1, from 10q24 is rearranged and downregulated in malignant brain tumors. Oncogene, 17(22):2873–81. 69 Consortium, G. O. (2010). The Gene Ontology in 2010: extensions and refinements. Nucleic Acids Res, 38(Database issue):D331–5. 72 106 BIBLIOGRAFÍA De Angelis, P. M., Clausen, O. P., Schjø lberg, A., and Stokke, T. (1999). Chromosomal gains and losses in primary colorectal carcinomas detected by CGH and their associations with tumour DNA ploidy, genotypes and phenotypes. Br J Cancer, 80(3-4):526–35. 53 de Tayrac, M., Etcheverry, A., Aubry, M., Saı̈kali, S., Hamlat, A., Quillien, V., Le Treut, A., Galibert, M.-D., and Mosser, J. (2009). Integrative genome-wide analysis reveals a robust genomic glioblastoma signature associated with copy number driving changes in gene expression. Genes Chromosomes Cancer, 48(1):55–68. 66, 70 Diep, C. B., Kleivi, K., Ribeiro, F. R., Teixeira, M. R., Lindgjaerde, O. C., and Lothe, R. A. (2006). The order of genetic events associated with colorectal cancer progression inferred from meta-analysis of copy number changes. Genes Chromosomes Cancer, 45(1):31–41. 53 Diep, C. B., Parada, L. A., Teixeira, M. R., Eknaes, M., Nesland, J. M., Johansson, B., and Lothe, R. A. (2003). Genetic profiling of colorectal cancer liver metastases by combined comparative genomic hybridization and G-banding analysis. Genes Chromosomes Cancer, 36(2):189–97. 53 Ding, C. and Peng, H. (2005). Minimum redundancy feature selection from microarray gene expression data. J Bioinform Comput Biol, 3(2):185–205. 21, 28 Dunckley, T., Beach, T. G., Ramsey, K. E., Grover, A., Mastroeni, D., Walker, D. G., LaFleur, B. J., Coon, K. D., Brown, K. M., Caselli, R., Kukull, W., Higdon, R., McKeel, D., Morris, J. C., Hulette, C., Schmechel, D., Reiman, E. M., Rogers, J., and Stephan, D. a. (2006). Gene expression correlates of neurofibrillary tangles in Alzheimer’s disease. Neurobiol Aging, 27(10):1359–71. 93 Ein-Dor, L., Kela, I., Getz, G., Givol, D., and Domany, E. (2005). Outcome signature genes in breast cancer: is there a unique set? Bioinformatics, 21(2):171–8. 56 Engel, S. R., Balakrishnan, R., Binkley, G., Christie, K. R., Costanzo, M. C., Dwight, S. S., Fisk, D. G., Hirschman, J. E., Hitz, B. C., Hong, E. L., Krieger, C. J., Livstone, M. S., Miyasato, S. R., Nash, R., Oughtred, R., Park, J., Skrzypek, M. S., Weng, S., Wong, E. D., Dolinski, K., Botstein, D., and Cherry, J. M. (2010). Saccharomyces Genome Database provides mutant phenotype data. Nucleic Acids Res, 38(Database issue):D433–6. 90 Fan, C., Oh, D. S., Wessels, L., Weigelt, B., Nuyten, D. S. A., Nobel, A. B., van’t Veer, L. J., and Perou, C. M. (2006). Concordance among gene-expression-based predictors for breast cancer. New Engl J Med, 355(6):560–9. 56 Feuk, L., Carson, A. R., and Scherer, S. W. (2006). Structural variation in the human genome. Nat Rev Genet, 7(2):85–97. 33 Finn, R. D., Mistry, J., Tate, J., Coggill, P., Heger, A., Pollington, J. E., Gavin, O. L., Gunasekaran, P., Ceric, G., Forslund, K., Holm, L., Sonnhammer, E. L. L., Eddy, S. R., and Bateman, A. (2010). The Pfam protein families database. Nucleic Acids Res, 38(Database issue):D211–22. 75 Fontanillo, C., Aibar, S., Sanchez-Santos, J. M., and De Las Rivas, J. (2012). Combined analysis of genome-wide expression and copy number profiles to identify key altered genomic regions in cancer. BMC Genomics, 13(Suppl 5):S5. 57 107 BIBLIOGRAFÍA Fontanillo, C., Nogales-Cadenas, R., Pascual-Montano, A., and De Las Rivas, J. (2011). Functional Analysis beyond Enrichment: Non-Redundant Reciprocal Linkage of Genes and Biological Terms. PLoS One, 6(9):e24289. 86, 98 Fridlyand, J., Snijders, A. M., Pinkel, D., Albertson, D. G., and Jain, A.Ñ. (2004). Hidden Markov models approach to the analysis of array CGH data. J Multivar Anal, 90(1):132–153. 37 Fridlyand, J., Snijders, A. M., Ylstra, B., Li, H., Olshen, A., Segraves, R., Dairkee, S., Tokuyasu, T., Ljung, B. M., Jain, A.Ñ., McLennan, J., Ziegler, J., Chin, K., Devries, S., Feiler, H., Gray, J. W., Waldman, F., Pinkel, D., and Albertson, D. G. (2006). Breast tumor copy number aberration phenotypes and genomic instability. BMC Cancer, 6:96. 38 Furey, T. S., Cristianini, N., Duffy, N., Bednarski, D. W., Schummer, M., and Haussler, D. (2000). Support vector machine classification and validation of cancer tissue samples using microarray expression data. Bioinformatics, 16(10):906–14. 9 Furnari, F. B., Fenton, T., Bachoo, R. M., Mukasa, A., Stommel, J. M., Stegh, A., Hahn, W. C., Ligon, K. L., Louis, D.Ñ., Brennan, C., Chin, L., DePinho, R. A., and Cavenee, W. K. (2007). Malignant astrocytic glioma: genetics, biology, and paths to treatment. Genes Dev, 21(21):2683– 710. 63 Gentleman, R., Carey, V., Huber, W., Irizarry, R., and Dudoit, S. (2005). Bioinformatics and Computational Biology Solutions Using R and Bioconductor (Statistics for Biology and Health). Springer-Verlag, 1 edition. 8 González-González, M., Muñoz Bellvis, L., Mackintosh, C., Fontanillo, C., Gutiérrez, M. L., Abad, M. M., Bengoechea, O., Teodosio, C., Fonseca, E., Fuentes, M., De Las Rivas, J., Orfao, A., and Sayagués, J. M. (2012). Prognostic Impact of del(17p) and del(22q) as Assessed by Interphase FISH in Sporadic Colorectal Carcinomas. PLoS One, 7(8):e42683. 50, 53 Gupta, G. K., Strehl, A., and Ghosh, J. (1999). Distance based clustering of association rules. In Intelligent Engineering Systems Through Artificial Neural Networks (ANNIE), pages 759–764. ASME Press. 80 Guyon, I., Weston, J., Barnhill, S., and Vapnik, V. (2002). Gene Selection for Cancer Classification using Support Vector Machines. Machine Learning, 46(1):389–422. 10 Haab, B. B., Dunham, M. J., and Brown, P. O. (2001). Protein microarrays for highly parallel detection and quantitation of specific proteins and antibodies in complex solutions. Genome Biol, 2(2). 55 Haft, D. H., Selengut, J. D., and White, O. (2003). The TIGRFAMs database of protein families. Nucleic Acids Res, 31(1):371–3. 75 Halkidi, M., Batistakis, Y., and Michalis, V. (2001). On Clustering Validation Techniques. J Intell Inf Syst, 17(2):107–145. 89 Hamosh, A., Scott, A. F., Amberger, J. S., Bocchini, C. A., and McKusick, V. A. (2005). Online Mendelian Inheritance in Man (OMIM), a knowledgebase of human genes and genetic disorders. Nucleic Acids Res, 33(Database issue):D514–7. 90 Hehir-Kwa, J. Y., Egmont-Petersen, M., Janssen, I. M., Smeets, D., van Kessel, A. G., and Veltman, J. A. (2007). Genome-wide copy number profiling on high-density bacterial artificial chromosomes, single-nucleotide polymorphisms, and oligonucleotide microarrays: a platform comparison based on statistical power analysis. DNA Res, 14(1):1–11. 34, 36 108 BIBLIOGRAFÍA Hernandez-Toro, J., Prieto, C., and De las Rivas, J. (2007). APID2NET: unified interactome graphic analyzer. Bioinformatics, 23(18):2495–7. 84 Höglund, M., Gisselsson, D., Hansen, G. B., Säll, T., Mitelman, F., and Nilbert, M. (2002). Dissecting karyotypic patterns in colorectal tumors: two distinct but overlapping pathways in the adenoma-carcinoma transition. Cancer Res, 62(20):5939–46. 53 Huang, D. W., Sherman, B. T., and Lempicki, R. a. (2009a). Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res, 37(1):1–13. 76, 88 Huang, D. W., Sherman, B. T., and Lempicki, R. a. (2009b). Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nat Protoc, 4(1):44–57. 88 Hulo, N., Bairoch, A., Bulliard, V., Cerutti, L., Cuche, B. A., de Castro, E., Lachaize, C., Langendijk-Genevaux, P. S., and Sigrist, C. J. A. (2008). The 20 years of PROSITE. Nucleic Acids Res, 36(Database issue):D245–9. 75 Hunter, S., Jones, P., Mitchell, A., Apweiler, R., Attwood, T. K., Bateman, A., Bernard, T., Binns, D., Bork, P., Burge, S., de Castro, E., Coggill, P., Corbett, M., Das, U., Daugherty, L., Duquenne, L., Finn, R. D., Fraser, M., Gough, J., Haft, D., Hulo, N., Kahn, D., Kelly, E., Letunic, I., Lonsdale, D., Lopez, R., Madera, M., Maslen, J., McAnulla, C., McDowall, J., McMenamin, C., Mi, H., Mutowo-Muellenet, P., Mulder, N., Natale, D., Orengo, C., Pesseat, S., Punta, M., Quinn, A. F., Rivoire, C., Sangrador-Vegas, A., Selengut, J. D., Sigrist, C. J. A., Scheremetjew, M., Tate, J., Thimmajanarthanan, M., Thomas, P. D., Wu, C. H., Yeats, C., and Yong, S.-Y. (2012). InterPro in 2011: new developments in the family and domain prediction database. Nucleic Acids Res, 40(Database issue):D306–12. 75 Hupé, P., Stransky, N., Thiery, J.-P., Radvanyi, F., and Barillot, E. (2004). Analysis of array CGH data: from signal ratio to gain and loss of DNA regions. Bioinformatics, 20(18):3413–22. 37 Inza, I.ñ., Larrañaga, P., Blanco, R., and Cerrolaza, A. J. (2004). Filter versus wrapper gene selection approaches in DNA microarray domains. Artif Intell Med, 31(2):91–103. 11 Irizarry, R. A., Bolstad, B. M., Collin, F., Cope, L. M., Hobbs, B., and Speed, T. P. (2003a). Summaries of Affymetrix GeneChip probe level data. Nucleic Acids Res, 31(4):e15. 7, 13, 57 Irizarry, R. a., Hobbs, B., Collin, F., Beazer-Barclay, Y. D., Antonellis, K. J., Scherf, U., and Speed, T. P. (2003b). Exploration, normalization, and summaries of high density oligonucleotide array probe level data. Biostatistics, 4(2):249–64. 13 Irizarry, R. A., Wu, Z., and Jaffee, H. A. (2006). Comparison of Affymetrix GeneChip expression measures. Bioinformatics, 22(7):789–94. 13 Jimenez-Valverde, A. and Lobo, J. M. (2007). Threshold criteria for conversion of probability of species presence to either–or presence–absence. Acta Oecologica, 31:361–369. 45 Jones, P. A. and Baylin, S. B. (2007). The epigenomics of cancer. Cell, 128(4):683–92. 70 Kallioniemi, A. (2008). CGH microarrays and cancer. Curr Opin Biotechnol, 19(1):36–40. 32 Kanehisa, M. and Goto, S. (2000). KEGG: kyoto encyclopedia of genes and genomes. Nucleic Acids Res, 28(1):27–30. 73 109 BIBLIOGRAFÍA Kanehisa, M., Goto, S., Furumichi, M., Tanabe, M., and Hirakawa, M. (2010). KEGG for representation and analysis of molecular networks involving diseases and drugs. Nucleic Acids Res, 38(Database issue):D355–60. 73, 74 Kanehisa, M., Goto, S., Sato, Y., Furumichi, M., and Tanabe, M. (2012). KEGG for integration and interpretation of large-scale molecular data sets. Nucleic Acids Res, 40(Database issue):D109– 14. 73 Kendziorski, C. M., Newton, M. a., Lan, H., and Gould, M.Ñ. (2003). On parametric empirical Bayes methods for comparing multiple groups using replicated gene expression profiles. Stat Med, 22(24):3899–914. 11 Keyvanrad, M. and HomayounpourM.M (2011). Automatic Gender Identification Using Fusion of Generative and Discriminative Classifiers and Clustering of Spekaers from the Same Gender. Computer Science and Engineering, 1(1):22–25. 9 Khatri, P., Sirota, M., and Butte, A. J. (2012). Ten Years of Pathway Analysis: Current Approaches and Outstanding Challenges. PLoS Comput Biol, 8(2):e1002375. 71, 88 Kim, Y.-A., Wuchty, S., and Przytycka, T. M. (2011). Identifying causal genes and dysregulated pathways in complex diseases. PLoS Comput Biol, 7(3):e1001095. 56 Kolomietz, E., Al-Maghrabi, J., Brennan, S., Karaskova, J., Minkin, S., Lipton, J., and Squire, J. A. (2001). Primary chromosomal rearrangements of leukemia are frequently accompanied by extensive submicroscopic deletions and may lead to altered prognosis. Blood, 97(11):3581–8. 42 Kotliarov, Y., Kotliarova, S., Charong, N., Li, A., Walling, J., Aquilanti, E., Ahn, S., Steed, M. E., Su, Q., Center, A., Zenklusen, J. C., and Fine, H. a. (2009). Correlation analysis between singlenucleotide polymorphism and expression arrays in gliomas identifies potentially relevant target genes. Cancer Res, 69(4):1596–603. 56, 60 Kotliarov, Y., Steed, M. E., Christopher, N., Walling, J., Su, Q., Center, A., Heiss, J., Rosenblum, M., Mikkelsen, T., Zenklusen, J. C., and Fine, H. a. (2006). High-resolution global genomic survey of 178 gliomas reveals novel regions of copy number alteration and allelic imbalances. Cancer Res, 66(19):9428–36. 60, 63 Kressel, U. H.-G. (1999). Advances in kernel methods. chapter Pairwise c, pages 255–268. MIT Press, Cambridge, MA, USA. 10 Lai, W. R., Johnson, M. D., Kucherlapati, R., and Park, P. J. (2005). Comparative analysis of algorithms for identifying amplifications and deletions in array CGH data. Bioinformatics, 21(19):3763–70. 37 Lander, E. S., Linton, L. M., Birren, B., Nusbaum, C., Zody, M. C., Baldwin, J., Devon, K., Dewar, K., Doyle, M., FitzHugh, W., Funke, R., Gage, D., Harris, K., Heaford, A., Howland, J., Kann, L., Lehoczky, J., LeVine, R., McEwan, P., McKernan, K., Meldrim, J., Mesirov, J. P., Miranda, C., Morris, W., Naylor, J., Raymond, C., Rosetti, M., Santos, R., Sheridan, A., Sougnez, C., Stange-Thomann, N., Stojanovic, N., Subramanian, A., Wyman, D., Rogers, J., Sulston, J., Ainscough, R., Beck, S., Bentley, D., Burton, J., Clee, C., Carter, N., Coulson, A., Deadman, R., Deloukas, P., Dunham, A., Dunham, I., Durbin, R., French, L., Grafham, D., Gregory, S., Hubbard, T., Humphray, S., Hunt, A., Jones, M., Lloyd, C., McMurray, A., Matthews, L., Mercer, S., Milne, S., Mullikin, J. C., Mungall, A., Plumb, R., Ross, M., Shownkeen, R., Sims, S., Waterston, R. H., Wilson, R. K., Hillier, L. W., McPherson, J. D., Marra, M. A., Mardis, E. R., Fulton, 110 BIBLIOGRAFÍA L. A., Chinwalla, A. T., Pepin, K. H., Gish, W. R., Chissoe, S. L., Wendl, M. C., Delehaunty, K. D., Miner, T. L., Delehaunty, A., Kramer, J. B., Cook, L. L., Fulton, R. S., Johnson, D. L., Minx, P. J., Clifton, S. W., Hawkins, T., Branscomb, E., Predki, P., Richardson, P., Wenning, S., Slezak, T., Doggett, N., Cheng, J. F., Olsen, A., Lucas, S., Elkin, C., Uberbacher, E., Frazier, M., Gibbs, R. A., Muzny, D. M., Scherer, S. E., Bouck, J. B., Sodergren, E. J., Worley, K. C., Rives, C. M., Gorrell, J. H., Metzker, M. L., Naylor, S. L., Kucherlapati, R. S., Nelson, D. L., Weinstock, G. M., Sakaki, Y., Fujiyama, A., Hattori, M., Yada, T., Toyoda, A., Itoh, T., Kawagoe, C., Watanabe, H., Totoki, Y., Taylor, T., Weissenbach, J., Heilig, R., Saurin, W., Artiguenave, F., Brottier, P., Bruls, T., Pelletier, E., Robert, C., Wincker, P., Smith, D. R., Doucette-Stamm, L., Rubenfield, M., Weinstock, K., Lee, H. M., Dubois, J., Rosenthal, A., Platzer, M., Nyakatura, G., Taudien, S., Rump, A., Yang, H., Yu, J., Wang, J., Huang, G., Gu, J., Hood, L., Rowen, L., Madan, A., Qin, S., Davis, R. W., Federspiel, N. A., Abola, A. P., Proctor, M. J., Myers, R. M., Schmutz, J., Dickson, M., Grimwood, J., Cox, D. R., Olson, M. V., Kaul, R., Shimizu, N., Kawasaki, K., Minoshima, S., Evans, G. A., Athanasiou, M., Schultz, R., Roe, B. A., Chen, F., Pan, H., Ramser, J., Lehrach, H., Reinhardt, R., McCombie, W. R., de la Bastide, M., Dedhia, N., Blöcker, H., Hornischer, K., Nordsiek, G., Agarwala, R., Aravind, L., Bailey, J. A., Bateman, A., Batzoglou, S., Birney, E., Bork, P., Brown, D. G., Burge, C. B., Cerutti, L., Chen, H. C., Church, D., Clamp, M., Copley, R. R., Doerks, T., Eddy, S. R., Eichler, E. E., Furey, T. S., Galagan, J., Gilbert, J. G., Harmon, C., Hayashizaki, Y., Haussler, D., Hermjakob, H., Hokamp, K., Jang, W., Johnson, L. S., Jones, T. A., Kasif, S., Kaspryzk, A., Kennedy, S., Kent, W. J., Kitts, P., Koonin, E. V., Korf, I., Kulp, D., Lancet, D., Lowe, T. M., McLysaght, A., Mikkelsen, T., Moran, J. V., Mulder, N., Pollara, V. J., Ponting, C. P., Schuler, G., Schultz, J., Slater, G., Smit, A. F., Stupka, E., Szustakowski, J., Thierry-Mieg, D., Thierry-Mieg, J., Wagner, L., Wallis, J., Wheeler, R., Williams, A., Wolf, Y. I., Wolfe, K. H., Yang, S. P., Yeh, R. F., Collins, F., Guyer, M. S., Peterson, J., Felsenfeld, A., Wetterstrand, K. A., Patrinos, A., Morgan, M. J., de Jong, P., Catanese, J. J., Osoegawa, K., Shizuya, H., Choi, S., Chen, Y. J., and Szustakowki, J. (2001). Initial sequencing and analysis of the human genome. Nature, 409(6822):860–921. 1 Lees, J., Yeats, C., Perkins, J., Sillitoe, I., Rentzsch, R., Dessailly, B. H., and Orengo, C. (2012). Gene3D: a domain-based resource for comparative genomics, functional annotation and protein network analysis. Nucleic Acids Res, 40(Database issue):D465–71. 75 Lent, B., Swami, A., and Widom, J. (1997). Clustering Association Rules. In International Conference on Data Engineering, pages 1–25, Birmingham U.K. 80 Letunic, I., Doerks, T., and Bork, P. (2012). SMART 7: recent updates to the protein domain annotation resource. Nucleic Acids Res, 40(Database issue):D302–5. 75 Li, C. and Wong, W. H. (2001). Model-based analysis of oligonucleotide arrays: expression index computation and outlier detection. Proc Natl Acad Sci U S A, 98(1):31–6. 13, 36 Liu, B., Hsu, W., and Ma, Y. (1999). Pruning and Summarizing the Discovered Associations. In Proceedings of the International Conference on Knowledge Discovery and Data Mining, San Diego, California, USA. ACM. 80 Liu, L., Hawkins, D. M., Ghosh, S., and Young, S. S. (2003). Robust singular value decomposition analysis of microarray data. Proc Natl Acad Sci U S A, 100(23):13167–72. 13 Liu, Q., Sung, A. H., Chen, Z., Liu, J., Chen, L., Qiao, M., Wang, Z., Huang, X., and Deng, Y. (2011). Gene selection and classification for cancer microarray data based on machine learning and similarity measures. BMC Genomics, 12 Suppl 5:S1. 21 111 BIBLIOGRAFÍA Liu, Q., Sung, A. H., Chen, Z., Liu, J., Huang, X., and Deng, Y. (2009). Feature selection and classification of MAQC-II breast cancer and multiple myeloma microarray gene expression data. PloS One, 4(12):e8250. 21 Llewellyn, R. and Eisenberg, D. S. (2008). Annotating proteins with generalized functional linkages. Proc Natl Acad Sci U S A, 105(46):17700–5. 96 Lloyd, S. (1982). Least squares quantization in PCM. IEEE Transactions on Information Theory, 28(2):129–137. 39 Lo, K. and Gottardo, R. (2007). Flexible empirical Bayes models for differential gene expression. Bioinformatics, 23(3):328–35. 11, 15 Ma, X.-J., Salunga, R., Tuggle, J. T., Gaudet, J., Enright, E., McQuary, P., Payette, T., Pistone, M., Stecker, K., Zhang, B. M., Zhou, Y.-X., Varnholt, H., Smith, B., Gadd, M., Chatfield, E., Kessler, J., Baer, T. M., Erlander, M. G., and Sgroi, D. C. (2003). Gene expression profiles of human breast cancer progression. Proc Natl Acad Sci U S A, 100(10):5974–9. 93 Malone, J. H. and Oliver, B. (2011). Microarrays, deep sequencing and the true measure of the transcriptome. BMC Biol, 9:34. 6 Medrano-Soto, A., Pal, D., and Eisenberg, D. (2008). Inferring molecular function: contributions from functional linkages. Trends Genet, 24(12):587–90. 96 Merico, D., Isserlin, R., Stueker, O., Emili, A., and Bader, G. D. (2010). Enrichment map: a network-based method for gene-set enrichment visualization and interpretation. PloS One, 5(11):e13984. 98 Mi, H., Dong, Q., Muruganujan, A., Gaudet, P., Lewis, S., and Thomas, P. D. (2010). PANTHER version 7: improved phylogenetic trees, orthologs and collaboration with the Gene Ontology Consortium. Nucleic Acids Res, 38(Database issue):D204–10. 75 Millenaar, F. F., Okyere, J., May, S. T., van Zanten, M., Voesenek, L. A. C. J., and Peeters, A. J. M. (2006). How to decide? Different methods of calculating gene expression from short oligonucleotide array data will give different results. BMC Bioinformatics, 7:137. 13 Moskow, J. J., Bullrich, F., Huebner, K., Daar, I. O., and Buchberg, A. M. (1995). Meis1, a PBX1-related homeobox gene involved in myeloid leukemia in BXH-2 mice. Mol Cell Biol, 15(10):5434–43. 26 Muñoz Bellvis, L., Fontanillo, C., González-González, M., Garcia, E., Iglesias, M., Esteban, C., Gutierrez, M. L., Abad, M. M., Bengoechea, O., De Las Rivas, J., Orfao, A., and Sayagués, J. M. (2012). Unique genetic profile of sporadic colorectal cancer liver metastasis versus primary tumors as defined by high-density single-nucleotide polymorphism arrays. Mod Pathol, 25(4):590–601. 45, 48, 53 Nannya, Y., Sanada, M., Nakazaki, K., Hosoya, N., Wang, L., Hangaishi, A., Kurokawa, M., Chiba, S., Bailey, D. K., Kennedy, G. C., and Ogawa, S. (2005). A robust algorithm for copy number detection using high-density oligonucleotide single nucleotide polymorphism genotyping arrays. Cancer Res, 65(14):6071–9. 36 Natrajan, R., Lambros, M. B., Rodrı́guez-Pinilla, S. M., Moreno-Bueno, G., Tan, D. S. P., Marchió, C., Vatcheva, R., Rayter, S., Mahler-Araujo, B., Fulford, L. G., Hungermann, D., Mackay, A., Grigoriadis, A., Fenwick, K., Tamber, N., Hardisson, D., Tutt, A., Palacios, J., Lord, C. J., 112 BIBLIOGRAFÍA Buerger, H., Ashworth, A., and Reis-Filho, J. S. (2009). Tiling path genomic profiling of grade 3 invasive ductal breast cancers. Clin Cancer Res, 15(8):2711–22. 56 Newton, M. A., Kendziorski, C. M., Richmond, C. S., Blattner, F. R., and Tsui, K. W. (2001). On differential variability of expression ratios: improving statistical inference about gene expression changes from microarray data. J Comput Biol, 8(1):37–52. 11 Nikolskaya, A.Ñ., Arighi, C.Ñ., Huang, H., Barker, W. C., and Wu, C. H. (2006). PIRSF family classification system for protein functional and evolutionary analysis. Evol Bioinform, 2:197– 209. 75 Nogales-Cadenas, R., Carmona-Saez, P., Vazquez, M., Vicente, C., Yang, X., Tirado, F., Carazo, J. M., and Pascual-Montano, A. (2009). GeneCodis: interpreting gene lists through enrichment analysis and integration of diverse biological information. Nucleic Acids Res, 37(Web Server issue):W317–22. 86 Ohgaki, H., Dessen, P., Jourde, B., Horstmann, S., Nishikawa, T., Di Patre, P.-L., Burkhard, C., Schüler, D., Probst-Hensch, N. M., Maiorka, P. C., Baeza, N., Pisani, P., Yonekawa, Y., Yasargil, M. G., Lütolf, U. M., and Kleihues, P. (2004). Genetic pathways to glioblastoma: a populationbased study. Cancer Res, 64(19):6892–9. 66 Olshen, A. B., Venkatraman, E. S., Lucito, R., and Wigler, M. (2004). Circular binary segmentation for the analysis of array-based DNA copy number data. Biostatistics, 5(4):557–72. 37, 39 Ortiz-Estevez, M., De Las Rivas, J., Fontanillo, C., and Rubio, A. (2011). Segmentation of genomic and transcriptomic microarrays data reveals major correlation between DNA copy number aberrations and gene-loci expression. Genomics, 97(2):86–93. 57, 58, 66 Picard, F., Robin, S., Lavielle, M., Vaisse, C., and Daudin, J.-J. (2005). A statistical approach for array CGH data analysis. BMC Bioinformatics, 6:27. 37 Plasse, M., Niang, N., Saporta, G., Villeminot, A., and Leblond, L. (2007). Combined use of association rules mining and clustering methods to find relevant links between binary rare attributes in a large data set. Comput Stat Data Anal, 52(1):596–613. 80 Pollack, J. R., Perou, C. M., Alizadeh, A. A., Eisen, M. B., Pergamenschikov, A., Williams, C. F., Jeffrey, S. S., Botstein, D., and Brown, P. O. (1999). Genome-wide analysis of DNA copynumber changes using cDNA microarrays. Nat Genet, 23(1):41–6. 55 Pollack, J. R., Sø rlie, T., Perou, C. M., Rees, C. A., Jeffrey, S. S., Lonning, P. E., Tibshirani, R., Botstein, D., Bø rresen Dale, A.-L., and Brown, P. O. (2002). Microarray analysis reveals a major direct role of DNA copy number alteration in the transcriptional program of human breast tumors. Proc Natl Acad Sci U S A, 99(20):12963–8. 56, 60 Poulogiannis, G., Ichimura, K., Hamoudi, R. A., Luo, F., Leung, S. Y., Yuen, S. T., Harrison, D. J., Wyllie, A. H., and Arends, M. J. (2010). Prognostic relevance of DNA copy number changes in colorectal cancer. J Pathol, 220(3):338–47. 50 Prieto, C. and De Las Rivas, J. (2006). APID: Agile Protein Interaction DataAnalyzer. Nucleic Acids Res, 34(Web Server issue):W298–302. 84 Qin, L.-X., Beyer, R. P., Hudson, F.Ñ., Linford, N. J., Morris, D. E., and Kerr, K. F. (2006). Evaluation of methods for oligonucleotide array data via quantitative real-time PCR. BMC Bioinformatics, 7:23. 13 113 BIBLIOGRAFÍA Reifenberger, G. and Collins, V. P. (2004). Pathology and molecular genetics of astrocytic gliomas. J Mol Med (Berl), 82(10):656–70. 69 Risueno, A., Fontanillo, C., Dinger, M. E., and De Las Rivas, J. (2010). GATExplorer: genomic and transcriptomic explorer; mapping expression probes to gene loci, transcripts, exons and ncRNAs. BMC Bioinformatics, 11:221. 14, 57 Ruano, Y., Mollejo, M., Ribalta, T., Fiaño, C., Camacho, F. I., Gómez, E., de Lope, A. R., Hernández-Moneo, J.-L., Martı́nez, P., and Meléndez, B. (2006). Identification of novel candidate target genes in amplicons of Glioblastoma multiforme tumors detected by expression and CGH microarray profiling. Mol Cancer, 5:39. 66, 70 Ruepp, A., Waegele, B., Lechner, M., Brauner, B., Dunger-Kaltenbach, I., Fobo, G., Frishman, G., Montrone, C., and Mewes, H.-W. (2010). CORUM: the comprehensive resource of mammalian protein complexes–2009. Nucleic Acids Res, 38(Database issue):D497–501. 90 Sayagués, J. M., Fontanillo, C., Abad, M. d. M., González-González, M., Sarasquete, M. E., Chillon, M. d. C., Garcia, E., Bengoechea, O., Fonseca, E., Gonzalez-Diaz, M., De las Rivas, J., Muñoz Bellvis, L., and Orfao, A. (2010). Mapping of genetic abnormalities of primary tumours from metastatic CRC by high-resolution SNP arrays. PloS One, 5(10):e13752. 45, 48, 53 Schena, M., Shalon, D., Davis, R. W., and Brown, P. O. (1995). Quantitative monitoring of gene expression patterns with a complementary DNA microarray. Science, 270(5235):467–70. 5, 55 Scheurlen, W. G., Schwabe, G. C., Seranski, P., Joos, S., Harbott, J., Metzke, S., Döhner, H., Poustka, A., Wilgenbus, K., and Haas, O. A. (1999). Mapping of the breakpoints on the short arm of chromosome 17 in neoplasms with an i(17q). Genes Chromosomes Cancer, 25(3):230– 40. 53 Sharp, A. J., Hansen, S., Selzer, R. R., Cheng, Z., Regan, R., Hurst, J. A., Stewart, H., Price, S. M., Blair, E., Hennekam, R. C., Fitzpatrick, C. A., Segraves, R., Richmond, T. A., Guiver, C., Albertson, D. G., Pinkel, D., Eis, P. S., Schwartz, S., Knight, S. J. L., and Eichler, E. E. (2006). Discovery of previously unidentified genomic disorders from the duplication architecture of the human genome. Nat Genet, 38(9):1038–42. 53 Shen, W. F., Rozenfeld, S., Kwong, A., Köm ves, L. G., Lawrence, H. J., and Largman, C. (1999). HOXA9 forms triple complexes with PBX2 and MEIS1 in myeloid cells. Mol Cell Biol, 19(4):3051–61. 27 Sims, A. H. (2009). Bioinformatics and breast cancer: what can high-throughput genomic approaches actually tell us? J Clin Pathol, 62(10):879–85. 56 Smith, J. E., Bollekens, J. A., Inghirami, G., and Takeshita, K. (1997). Cloning and mapping of the MEIS1 gene, the human homolog of a murine leukemogenic gene. Genomics, 43(1):99–103. 26 Statnikov, A., Aliferis, C. F., Tsamardinos, I., Hardin, D., and Levy, S. (2005). A comprehensive evaluation of multicategory classification methods for microarray gene expression cancer diagnosis. Bioinformatics, 21(5):631–43. 10 Stransky, N., Vallot, C., Reyal, F., Bernard-Pierrot, I., de Medina, S. G. D., Segraves, R., de Rycke, Y., Elvin, P., Cassidy, A., Spraggon, C., Graham, A., Southgate, J., Asselain, B., Allory, Y., Abbou, C. C., Albertson, D. G., Thiery, J. P., Chopin, D. K., Pinkel, D., and Radvanyi, F. (2006). Regional copy number-independent deregulation of transcription in cancer. Nat Genet, 38(12):1386–96. 70 114 BIBLIOGRAFÍA Subramanian, A., Tamayo, P., Mootha, V. K., Mukherjee, S., Ebert, B. L., Gillette, M. a., Paulovich, A., Pomeroy, S. L., Golub, T. R., Lander, E. S., and Mesirov, J. P. (2005). Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc Natl Acad Sci U S A, 102(43):15545–50. 56, 78 Toivonen, H., Klemettinen, M., Ronkainen, P., Hatonen, K., and Mannila, H. (1995). Pruning and Grouping Discovered Association Rules. In MLnet Workshop on Statistics, Machine Learning and Discovery in Databases, Heraklion, Greece. 80, 83 Tomlins, S. A., Rhodes, D. R., Perner, S., Dhanasekaran, S. M., Mehra, R., Sun, X.-W., Varambally, S., Cao, X., Tchinda, J., Kuefer, R., Lee, C., Montie, J. E., Shah, R. B., Pienta, K. J., Rubin, M. A., and Chinnaiyan, A. M. (2005). Recurrent fusion of TMPRSS2 and ETS transcription factor genes in prostate cancer. Science, 310(5748):644–8. 42 Tonon, G., Wong, K.-K., Maulik, G., Brennan, C., Feng, B., Zhang, Y., Khatry, D. B., Protopopov, A., You, M. J., Aguirre, A. J., Martin, E. S., Yang, Z., Ji, H., Chin, L., and Depinho, R. A. (2005). High-resolution genomic profiles of human lung cancer. Proc Natl Acad Sci U S A, 102(27):9625–9630. 38, 41 Tukey, J. W. (1977). Exploratory Data Analysis. Addison-we edition. 40 Turner, N., Lambros, M. B., Horlings, H. M., Pearson, A., Sharpe, R., Natrajan, R., Geyer, F. C., van Kouwenhove, M., Kreike, B., Mackay, A., Ashworth, A., van de Vijver, M. J., and ReisFilho, J. S. (2010). Integrative molecular profiling of triple negative breast cancers identifies amplicon drivers and potential therapeutic targets. Oncogene, 29(14):2013–23. 56, 59 Tusher, V. G., Tibshirani, R., and Chu, G. (2001). Significance analysis of microarrays applied to the ionizing radiation response. Proc Natl Acad Sci U S A, 98(9):5116–21. 11, 56 Varma, S. and Simon, R. (2006). Bias in error estimation when using cross-validation for model selection. BMC Bioinformatics, 7:91. 19 Venkatraman, E. S. and Olshen, A. B. (2007). A faster circular binary segmentation algorithm for the analysis of array CGH data. Bioinformatics, 23(6):657–63. 31, 37, 52, 59 Venter, J. C., Adams, M. D., Myers, E. W., Li, P. W., Mural, R. J., Sutton, G. G., Smith, H. O., Yandell, M., Evans, C. A., Holt, R. A., Gocayne, J. D., Amanatides, P., Ballew, R. M., Huson, D. H., Wortman, J. R., Zhang, Q., Kodira, C. D., Zheng, X. H., Chen, L., Skupski, M., Subramanian, G., Thomas, P. D., Zhang, J., Gabor Miklos, G. L., Nelson, C., Broder, S., Clark, A. G., Nadeau, J., McKusick, V. A., Zinder, N., Levine, A. J., Roberts, R. J., Simon, M., Slayman, C., Hunkapiller, M., Bolanos, R., Delcher, A., Dew, I., Fasulo, D., Flanigan, M., Florea, L., Halpern, A., Hannenhalli, S., Kravitz, S., Levy, S., Mobarry, C., Reinert, K., Remington, K., Abu-Threideh, J., Beasley, E., Biddick, K., Bonazzi, V., Brandon, R., Cargill, M., Chandramouliswaran, I., Charlab, R., Chaturvedi, K., Deng, Z., Di Francesco, V., Dunn, P., Eilbeck, K., Evangelista, C., Gabrielian, A. E., Gan, W., Ge, W., Gong, F., Gu, Z., Guan, P., Heiman, T. J., Higgins, M. E., Ji, R. R., Ke, Z., Ketchum, K. A., Lai, Z., Lei, Y., Li, Z., Li, J., Liang, Y., Lin, X., Lu, F., Merkulov, G. V., Milshina, N., Moore, H. M., Naik, A. K., Narayan, V. A., Neelam, B., Nusskern, D., Rusch, D. B., Salzberg, S., Shao, W., Shue, B., Sun, J., Wang, Z., Wang, A., Wang, X., Wang, J., Wei, M., Wides, R., Xiao, C., Yan, C., Yao, A., Ye, J., Zhan, M., Zhang, W., Zhang, H., Zhao, Q., Zheng, L., Zhong, F., Zhong, W., Zhu, S., Zhao, S., Gilbert, D., Baumhueter, S., Spier, G., Carter, C., Cravchik, A., Woodage, T., Ali, F., An, H., Awe, A., Baldwin, D., Baden, H., Barnstead, M., Barrow, I., Beeson, K., Busam, D., Carver, A., Center, 115 BIBLIOGRAFÍA A., Cheng, M. L., Curry, L., Danaher, S., Davenport, L., Desilets, R., Dietz, S., Dodson, K., Doup, L., Ferriera, S., Garg, N., Gluecksmann, A., Hart, B., Haynes, J., Haynes, C., Heiner, C., Hladun, S., Hostin, D., Houck, J., Howland, T., Ibegwam, C., Johnson, J., Kalush, F., Kline, L., Koduru, S., Love, A., Mann, F., May, D., McCawley, S., McIntosh, T., McMullen, I., Moy, M., Moy, L., Murphy, B., Nelson, K., Pfannkoch, C., Pratts, E., Puri, V., Qureshi, H., Reardon, M., Rodriguez, R., Rogers, Y. H., Romblad, D., Ruhfel, B., Scott, R., Sitter, C., Smallwood, M., Stewart, E., Strong, R., Suh, E., Thomas, R., Tint, N.Ñ., Tse, S., Vech, C., Wang, G., Wetter, J., Williams, S., Williams, M., Windsor, S., Winn-Deen, E., Wolfe, K., Zaveri, J., Zaveri, K., Abril, J. F., Guigó, R., Campbell, M. J., Sjolander, K. V., Karlak, B., Kejariwal, A., Mi, H., Lazareva, B., Hatton, T., Narechania, A., Diemer, K., Muruganujan, A., Guo, N., Sato, S., Bafna, V., Istrail, S., Lippert, R., Schwartz, R., Walenz, B., Yooseph, S., Allen, D., Basu, A., Baxendale, J., Blick, L., Caminha, M., Carnes-Stine, J., Caulk, P., Chiang, Y. H., Coyne, M., Dahlke, C., Mays, A., Dombroski, M., Donnelly, M., Ely, D., Esparham, S., Fosler, C., Gire, H., Glanowski, S., Glasser, K., Glodek, A., Gorokhov, M., Graham, K., Gropman, B., Harris, M., Heil, J., Henderson, S., Hoover, J., Jennings, D., Jordan, C., Jordan, J., Kasha, J., Kagan, L., Kraft, C., Levitsky, A., Lewis, M., Liu, X., Lopez, J., Ma, D., Majoros, W., McDaniel, J., Murphy, S., Newman, M., Nguyen, T., Nguyen, N., Nodell, M., Pan, S., Peck, J., Peterson, M., Rowe, W., Sanders, R., Scott, J., Simpson, M., Smith, T., Sprague, A., Stockwell, T., Turner, R., Venter, E., Wang, M., Wen, M., Wu, D., Wu, M., Xia, A., Zandieh, A., and Zhu, X. (2001). The sequence of the human genome. Science, 291(5507):1304–51. 1 Wang, K., Li, M., Hadley, D., Liu, R., Glessner, J., Grant, S. F. A., Hakonarson, H., and Bucan, M. (2007). PennCNV: an integrated hidden Markov model designed for high-resolution copy number variation detection in whole-genome SNP genotyping data. Genome Res, 17(11):1665– 74. 37 Ward, J. H. (1963). Hierarchical Grouping to Optimize an Objective Function. J Am Stat Assoc, 58(301):236. 80 Watson, J. D. (1990). 248(4951):44–9. 1 The human genome project: past, present, and future. Science, Watson, S. K., DeLeeuw, R. J., Horsman, D. E., Squire, J. A., and Lam, W. L. (2007). Cytogenetically balanced translocations are associated with focal copy number alterations. Hum Genet, 120(6):795–805. 42 Wechsler, D. S., Shelly, C. A., Petroff, C. A., and Dang, C. V. (1997). MXI1, a putative tumor suppressor gene, suppresses growth of human glioblastoma cells. Cancer Res, 57(21):4905–12. 69 Willenbrock, H. and Fridlyand, J. (2005). A comparison study: applying segmentation to array CGH data for downstream analyses. Bioinformatics, 21(22):4084–91. 37, 38 Wilson, D., Pethica, R., Zhou, Y., Talbot, C., Vogel, C., Madera, M., Chothia, C., and Gough, J. (2009). SUPERFAMILY–sophisticated comparative genomics, data mining, visualization and phylogeny. Nucleic Acids Res, 37(Database issue):D380–6. 75 Wilson, I. M., Davies, J. J., Weber, M., Brown, C. J., Alvarez, C. E., MacAulay, C., Schübeler, D., and Lam, W. L. (2006). Epigenomics: mapping the methylome. Cell Cycle, 5(2):155–8. 70 Yan, P. S., Perry, M. R., Laux, D. E., Asare, A. L., Caldwell, C. W., and Huang, T. H. (2000). CpG island arrays: an application toward deciphering epigenetic signatures of breast cancer. Clin Cancer Res, 6(4):1432–8. 55 116 Apéndice: Publicaciones cientı́ficas realizadas durante la presente Tesis Doctoral Publicaciones relacionadas con el Capı́tulo 1 Aibar, S., Fontanillo, C., Droste, C., and De Las Rivas, J. (2013). geNetClassifier: classify multiple diseases and build associated gene networks using gene expression profiles. En preparación. Publicaciones relacionadas con el Capı́tulo 2 Sayagués, J. M., Fontanillo, C., Abad, M. M., González-González, M., Sarasqete, M. E., Chillon, M. C., Garcı́a, E., Bengoechea, O., Fonseca, E., Gonzalez-Diaz, M., De Las Rivas, J., MuñozBellvis, L., and Orfao, A. (2010). Mapping of genetic abnormalities of primary tumours from metastatic CRC by high-resolution SNP arrays. PLoS One,5(10):e13752. Muñoz-Bellvis, L., Fontanillo, C., González-González, M., Garcia, E., Iglesias, M., Esteban, C., Gutierrez, M. L., Abad, M. M., Bengoechea, O., De Las Rivas, J., Orfao, A., and Sayagués, J. M. (2012). Unique genetic profile of sporadic colorectal cancer liver metastasis versus primary tumors as defined by high-density single-nucleotide polymorphism arrays. Mod Pathol, 25(4):590-601. González-González, M., Muñoz-Bellvis, L., Mackintosh, C., Fontanillo, C., Gutiérrez, M. L., Abad, M. M., Bengoechea, O., Teodosio, C., Fonseca, E., Fuentes, M., De Las Rivas, J., Orfao, A., and Sayagués, J. M. (2012). Prognostic impact of del(17p) and del(22q) as assessed by interphase FISH in sporadic colorectal carcinomas. PLoS One, 7(8):e42683. Publicaciones relacionadas con el Capı́tulo 3 Ortiz-Estevez, M., De Las Rivas, J., Fontanillo, C., and Rubio, A. (2011). Segmentation of genomic and transcriptomic microarrays data reveals major correlation between DNA copy number aberrations and gene-loci expression. Genomics, 97(2):86-93. Fontanillo, C., Aibar, S., Sanchez-Santos, J. M., and De Las Rivas, J. (2012). Combined analysis of genome-wide expression and copy number profiles to identify key altered genomic regions in cancer. BMC Genomics, 13(Suppl 5):S5. 117 Apéndice Publicaciones relacionadas con el Capı́tulo 4 Fontanillo, C., Nogales-Cadenas, R., Pascual-Montano, A., and De Las Rivas, J. (2011). Functional analysis beyond enrichment: non-redundant reciprocal linkage of genes and biological terms. PLoS One, 6(9):e24289. Otras publicaciones Prieto, C., Risueño, A., Fontanillo, C., and De Las Rivas, J. (2008). Human gene coexpression landscape: confident network derived from tissue transcriptomic profiles. PLoS One, 3(12):e3911. Hernández, J. A., Rodrı́guez A. E., González, M., Benito, R., Fontanillo, C., Sandoval, V., Romero, M., Martı́n-Nuñez, G., de Coca, A. G., Fisac, R., Galende, J., Recio, I., Ortuño, F., Garcı́a, J. L., De Las Rivas, J., Gutiérrez, N.C., San Miguel, J. F., and Hernández, J. M. (2009). A high number of losses in 13q14 chromosome band is associated with a worse outcome and biological differences in patients with B-cell chromic lymphoid leukemia. Haematologica, 94(3):364-71. Risueño, A., Fontanillo, C., Dinger, M. E., and De Las Rivas, J. (2010). GATExplorer: genomic and transcriptomic explorer; mapping expression probes to gene loci, transcripts, exons and ncRNAs. BMC Bioinformatics, 11:221. De Las Rivas, J., and Fontanillo, C. (2010). Protein-protein interactions essentials: key concepts to building and analyzing interactome networks. PLoS Comput Biol, 6(6):e1000807. De Las Rivas, J., and Fontanillo, C. (2012). Protein-protein interactions networks: unraveling the wiring of molecular machines within the cell. Brief Funct Genomics, 11(6):489-96. . 118 Mapping of Genetic Abnormalities of Primary Tumours from Metastatic CRC by High-Resolution SNP Arrays José Marı́a Sayagués1, Celia Fontanillo2, Marı́a del Mar Abad3, Marı́a González-González1, Marı́a Eugenia Sarasquete4, Maria del Carmen Chillon4, Eva Garcia5, Oscar Bengoechea3, Emilio Fonseca6, Marcos Gonzalez-Diaz4, Javier De Las Rivas2, Luı́s Muñoz-Bellvis7., Alberto Orfao1*. 1 Servicio General de Citometrı́a, Departamento de Medicina and Centro de Investigación del Cáncer (IBMCC-CSIC/USAL), Universidad de Salamanca, Salamanca, Spain, 2 Grupo de Investigación en Bioinformática y Genómica Funcional, Centro de Investigación del Cáncer (IBMCC-CSIC/USAL), Universidad de Salamanca, Salamanca, Spain, 3 Departamento de Patologı́a, Hospital Universitario de Salamanca, Salamanca, Spain, 4 Servicio de Hematologı́a, Hospital Universitario, Centro de Investigación del Cáncer (IBMCC-CSIC/USAL), Salamanca, Spain, 5 Unidad de Genómica y Proteómica, Centro de Investigación del Cáncer (IBMCC-CSIC/USAL), Universidad de Salamanca, Salamanca, Spain, 6 Servicio de Oncologı́a Médica, Departamento de Cirugı́a, Hospital Universitario de Salamanca, Salamanca, Spain, 7 Unidad de Cirugı́a Hepatobiliopancreática, Departamento de Cirugı́a, Hospital Universitario de Salamanca, Salamanca, Spain Abstract Background: For years, the genetics of metastatic colorectal cancer (CRC) have been studied using a variety of techniques. However, most of the approaches employed so far have a relatively limited resolution which hampers detailed characterization of the common recurrent chromosomal breakpoints as well as the identification of small regions carrying genetic changes and the genes involved in them. Methodology/Principal Findings: Here we applied 500K SNP arrays to map the most common chromosomal lesions present at diagnosis in a series of 23 primary tumours from sporadic CRC patients who had developed liver metastasis. Overall our results confirm that the genetic profile of metastatic CRC is defined by imbalanced gains of chromosomes 7, 8q, 11q, 13q, 20q and X together with losses of the 1p, 8p, 17p and 18q chromosome regions. In addition, SNP-array studies allowed the identification of small (,1.3 Mb) and extensive/large (.1.5 Mb) altered DNA sequences, many of which contain cancer genes known to be involved in CRC and the metastatic process. Detailed characterization of the breakpoint regions for the altered chromosomes showed four recurrent breakpoints at chromosomes 1p12, 8p12, 17p11.2 and 20p12.1; interestingly, the most frequently observed recurrent chromosomal breakpoint was localized at 17p11.2 and systematically targeted the FAM27L gene, whose role in CRC deserves further investigations. Conclusions/Significance: In summary, in the present study we provide a detailed map of the genetic abnormalities of primary tumours from metastatic CRC patients, which confirm and extend on previous observations as regards the identification of genes potentially involved in development of CRC and the metastatic process. Citation: Sayagués JM, Fontanillo C, Abad MdM, González-González M, Sarasquete ME, et al. (2010) Mapping of Genetic Abnormalities of Primary Tumours from Metastatic CRC by High-Resolution SNP Arrays. PLoS ONE 5(10): e13752. doi:10.1371/journal.pone.0013752 Editor: Zhongjun Zhou, The University of Hong Kong, Hong Kong Received July 7, 2010; Accepted October 6, 2010; Published October 29, 2010 Copyright: ß 2010 Sayagués et al. This is an open-access article distributed under the terms of the Creative Commons Attribution License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited. Funding: This work has been partially supported by grants from the Consejeria de Sanidad, Junta de Castilla y Leon, Valladolid, Spain (SAN191/SA09/06 and SAN673/SA39/08), Fundacion Memoria de Don Samuel Solorzano Barruso, Salamanca, Spain, Caja de Burgos (Obra Social), Burgos, Spain, Grupo Excelencia de Castilla y Leon (GR37) and the RTICC from the Instituto de Salud Carlos III (ISCIII), Ministerio de Ciencia e Innovacion, Madrid, Spain (RD06/0020/0035-FEDER). JM Sayagués, M Gonzalez, ME Sarasquete and MC Chillon are supported by grants (CP05/00321, FI08/00721, CA08/00212 and CA/07/00077, respectively) from the ISCIII, Ministerio de Ciencia e Innovación, Madrid, Spain. The funders had no role in study design, data collection and analysis, decision to publish, or preparation of the manuscript. Competing Interests: The authors have declared that no competing interests exist. * E-mail: [email protected] . These authors contributed equally to this work. genetic abnormalities have been identified in metastatic CRC which frequently include gains of chromosomes 8q, 13q and 20q [7,8] together with losses of the 1p, 8p, 17p and 18q chromosomal regions [9]. By contrast, detailed characterization of the common breakpoint regions as well as the identification of the specific genes targeted by such abnormalities has proven difficult with these approaches. This is partially due to the fact that these techniques have a relatively limited resolution which hampers identification of the specific cancer-associated genes recurrently targeted in such alterations. In fact, the highest resolution approaches applied so far to the study of CRC are based on aCGH (i.e. Camps et al who Introduction The development and progression of CRC is a multistep process leading to the accumulation of genomic alterations that occur at the single cell level over the lifetime of a tumour, from benign to invasive and metastatic states leading to patient death [1,2]. For many years, the genetics of metastatic CRC have been studied with an increasingly high variety of techniques from conventional cytogenetics [3] and fluorescence in situ hybridization (FISH) [4] to comparative genomic hybridization (CGH) [5] and array CGH (aCGH) [6]. Based on these techniques, many different recurrent PLoS ONE | www.plosone.org 1 October 2010 | Volume 5 | Issue 10 | e13752 Genetics of Colorectal Cancer applied a 185K oligonucleotide array with an estimated resolution of 16 kb, to the analysis of 32 primary CRC tumours) [10]. In recent years, the availability of high-density single nucleotide polymorphism (SNP) arrays has allowed identification of small regions of chromosomal gains and losses with a much higher resolution, down to 2.5 kb [11]. Thus, based on genome wide SNP arrays, fine mapping of chromosomal breakpoints and subsequent identification of the specific genes recurrently altered (deleted, gained or amplified) is achieved for individual samples. This allows for a more precise and detailed comparison of the breakpoint regions found in different tumours and their correlation with the clinical features of the disease. In the present study we used 500K SNP mapping arrays with a mean distance between interrogated SNPs of 5.8 kb (median intermarker distance of 2.5 kb) to map genetic lesions present at diagnosis in primary tumours from a group of 23 sporadic CRC patients who developed liver metastasis. Our major goal was to define the most frequent recurrent breakpoint regions in metastatic CRC and the commonly gained and/or deleted genes in the altered chromosomes. In order to evaluate the reproducibility of the SNP-array results we performed parallel interphase FISH (iFISH) analyses of the same tumour samples using 24 probes directed against an identical number of regions from 20 different human chromosomes frequently altered in sporadic CRC. arrays. For SNP-array studies, tumour DNA was extracted from freshly-frozen tumour tissues mirror cut to those used for iFISH analyses which contained $65% epithelial tumour cells. In turn, normal DNA was extracted from matched peripheral blood (PB) leucocytes from the same patient. For both types of samples (tumour tissue and PB leucocytes), DNA was extracted using the QIAamp DNA mini kit (Qiagen, Hilden, Germany) following the manufacturer’s instructions. Analysis of single nucleotide polymorphism (SNP) arrays Paired samples of purified tumoural DNA and normal PB DNA from individual patients were hybridized to two 250K Affymetrix SNP Mapping arrays (NspI and StyI SNP arrays, Affymetrix, Santa Clara, CA) using a total of 250 ng of DNA per array, according to the instructions of the manufacturer. Fluorescence signals were detected using the GeneChip Scanner 3000 (Affymetrix). Average genotyping call rates of 94.4% and 97.3% were obtained for tumoral and paired normal PB DNA samples, respectively. Only those SNPs with a call rate $92.3% were used for further analyses. In order to calculate genome-wide copy number (CN) changes in tumoural vs. normal samples, the aroma.affymetrix algorithm was used, following the CRMA v2 method, as described elsewhere (Rsoftware package, Berkeley, CA) [15]. The following sequential steps were used for this purpose: i) calibration for crosstalks between pairs of allele probes; ii) normalization for probe nucleotide-sequence effects, and; iii) normalization for PCR fragment length- and probe localization-dependent effects. Then, data derived from both the 250K StyI and the 250K NspI arrays was integrated into a single database and raw CN values calculated as transformed log2 values of the tumoural/normal ratio obtained for paired SNP fluorescence signals. Log2 ratio values were then used to identify DNA regions which showed similar CN values, using the Circular Binary Segmentation (CBS) algorithm [16]. For the identification of altered (gained or lost) DNA regions, a threshold was established based on the changes observed in the log2 CN values (fluorescence intensity ratio) of sequential tumour DNA segments found for each individual. Therefore, log2 ratio .0.09 and ,20.09 were used as cut-off thresholds to define the presence of increased and decreased CN values, respectively. High-level gains (amplifications) were defined as regions with a mean log2 CN ratio $0.22 for $3 contiguous SNPs. The specific frequencies of both CN gains and losses per SNP were established and plotted along individual chromosomes for each individual case analyzed. Minimal common regions (MCR) of gain and loss were defined as the smallest group of contiguous SNPs ($3) with a high frequency of gains and losses (Z-score threshold $2.1) according to the overall distribution of CN values found in the entire tumour cell genome, respectively. Common recurrent breakpoint regions were defined as those chromosomal regions which recurrently showed transition from one CN state (gain, loss or no-change) to another for the whole set of individual samples analyzed, at a frequency of $35% of the cases (n = 8/23 samples). Materials and Methods Patients and samples Tissue specimens were obtained from primary tumours from 23 patients (15 males and 8 females; median age of 68 years, ranging from 48 to 80 years) suffering from metastatic sporadic CRC. The study was approved by the local ethics committee of the University Hospital of Salamanca (Salamanca, Spain) and prior to entering to the study, informed consent was given by each individual. In each case, the diagnosis and the classification of the tumours were performed according to the WHO criteria [12]. According to tumour grade, 13 cases corresponded to well-differentiated CRC, 8 to moderately- and 2 to poorly-differentiated tumours. Histopathological grade was confirmed in all cases in a second independent evaluation by an experienced pathologist. From the 23 primary tumors, 16 were localized at the right (caecum, ascending or trasverse) or the left (descending and sigmoid) colon and 7 in the rectum. Mean size of primary tumors was of 5.261.8 cm with the following distribution according to the TNM stage [13]: T3N0M1, 3 cases; T3N1M1, 9; T3N2M1, 3; T4N0M1, 5; T4N1M1, 1 and; T4N2M1, 2 patients. In all cases paired liver metastases were identified either at the time of colorectal surgery (n = 14) or during the first year after initial diagnosis (n = 9); the mean size of the largest liver metastases/ patient was of 5.362.8 cm (range: 2 to 10 cm). After histopathological diagnosis was established, samples from representative areas of the primary tumours showing macroscopical infiltration, were used to prepare single cell suspensions to be stored (220uC) in methanol/acetic (3/1; vol/vol) for further iFISH analyses [14]. The remaining tissue was either fixed in formalin and embedded in paraffin or frozen in liquid nitrogen, and stored at room temperature (RT) and at 280uC, respectively. From the paraffin-embedded tissue samples, sections were cut from three different areas representative of the tumoural tissue used to prepare single cell suspensions and placed over poly Llysine coated slides. All tissues were evaluated after hematoxylineosin staining to confirm the presence of tumour cells and evaluate their quantity in samples to be studied by both iFISH and SNPPLoS ONE | www.plosone.org Interphase fluorescence in situ hybridization (iFISH) studies In all cases, iFISH studies were performed on an aliquot of the single cell suspension prepared from the tumour sample. A set of 24 locus-specific FISH probes directed against DNA sequences localized in 20 different human chromosomes, specific for those chromosomal regions more frequently gained or deleted in sporadic CRC [4,6,8,17,18] were systematically used to validate the results obtained with the SNP arrays (Table 1). 2 October 2010 | Volume 5 | Issue 10 | e13752 Genetics of Colorectal Cancer Table 1. A panel of 24 locus-specific FISH probes directed against 24 different regions localized in 20 different human chromosomes were used to validate the results obtained with the SNP arrays. iFISH probe chromosome localization iFISH probe length (kb) Target gene N. of SNPs inside the region identified by the iFISH probe 1p36 110 P58 120 1q25 620 ABL2 68 2p24 200 NMYC 38 3q26 839 HTERC 52 5p15.2 450 D5S721 118 6q23 740 MYB 88 7q31 200 D7S486 33 8p22 170 LPL 39 8q24 600 CMYC 159 9p21 190 P16 37 9q34 270 ABL1 33 10q23 370 PTEN 49 11q22 184 ATM 69 12p13 350 TEL 98 13q14 220 RB1 14 13q34 550 LAMP1 92 14q32 1500 IGH 82 15q22 540 DAPK2 38 17p13 145 TP53 12 18q21 750 BCL2 153 19q13 340 CD37 21 20q13.2 320 ZNF217 53 21q22 500 AML1 111 22q11.2 300 BCR 36 All probes were purchased from Vysis Inc (Chicago, IL, USA), except for the 3q26, 15p22 and 19q13 probes, which were obtained from QBIOgene Inc (Amsterdam, The Netherlands). doi:10.1371/journal.pone.0013752.t001 The methods and procedures used for the iFISH studies have been previously described in detail [19]. Briefly, dried slides containing both the tumour cells’ and the probes’ DNA were denatured (1 min at 75uC) and hybridized overnight (37uC) in a Hybrite termocycler (Vysis Inc, Downers Grove, IL, USA). After this incubation, slides were sequentially washed (5 min at 46uC) in 50% formamide in a 26 saline sodium citrate buffer (SSC) and in 2XSSC. Finally, nuclei were counterstained with 35 mL of a mounting medium containing 75 ng/ml of 4,6-diamidino 2phenylindole (DAPI; Sigma, St Louis, MO, USA); Vectashield (Vector Laboratories Inc, Burlingame, CA, USA) was used as antifading agent. A BX60 fluorescence microscope (Olympus, Hamburg, Germany) equipped with a 1006 oil objective was used to count the number of hybridization spots/nuclei for $200 cells/sample. Only those spots with a similar size, intensity and shape were counted in areas with ,1% unhybridized cells; doublet signals were considered as single spots. A tumour was considered to carry a numerical abnormality for a given chromosomal region when the proportion of cells displaying an abnormal number of hybridization spots for the corresponding probe was at a percentage higher or lower than the mean value plus two standard deviations (SD) of the mean percentage obtained with the same probe in control samples (n = 10). PLoS ONE | www.plosone.org Quantitative Real-Time PCR In order to validate the results obtained in the SNP-array studies, quantitative real-time polymerase chain reaction (RQPCR) was performed using the Step One Plus Real-Time PCR System (Applied Biosystems, Foster City, CA) in matched normal and tumoural samples in 18/23 cases. Expression of the MAP2K4, MYC and BIRC7 genes was analyzed. We employed TaqManH Gene Expression Assays designed by Applied Biosystems (Applied Biosystems, Foster City, CA) according to the manufacturers instructions, and the assays ID for the genes studied were as follows: Hs_00387426-m1 (MAP2K4), Hs_00153408-m1 (MYC) and Hs_00223384-m1 (BIRC7). Each PCR was carried out in duplicate in a 10 uL volume using the TaqManH Fast Universal Mastermix (Applied Biosystems) and the following cycling parameters: incubation at 95uC (20 sec), followed by 50 cycles at 95uC (1 sec) and an incubation at 60uC (20 sec). Analysis was made using StepOne software v2.0. The obtained data were normalized by using the internal housekeeping gene, GAPDH. Relative quantification was calculated using the equation 22DCT = CTGENE-CTGAPDH. The final mRNA expression index in each sample was calculated as follows (arbitrary units; AU): mRNA expression index = MYC or MAP2K4 or BIRC7 mRNA value/ GAPDH mRNA value X 10,000 AU. 3 October 2010 | Volume 5 | Issue 10 | e13752 Genetics of Colorectal Cancer Figure 1. Metastatic colorectal cancer genome for the 23 CRC patients studied. In panel A an overall view of both the gained (blue areas) and lost (red areas) chromosome regions across the genome are shown for the 23 patients genotyped on the Affymetrix 500k SNP array platform. In panel B a summary plot showing the frequency of CN gains (plotted above zero values in the x-axis) and losses (plotted below zero values the x-axis) detected for each individual chromosome, is displayed. Those chromosome regions most frequently showing recurrent losses and gains by SNP PLoS ONE | www.plosone.org 4 October 2010 | Volume 5 | Issue 10 | e13752 Genetics of Colorectal Cancer arrays were localized in chromosomes 1p, 8p, 17p and 18, and involved the whole chromosome 7 and the 8q, 13q and 20q chromosome regions, respectively. doi:10.1371/journal.pone.0013752.g001 losses detected corresponded to chromosomes 1p (n = 17; 74%), 8p (n = 18; 78%), 14q (n = 15; 65%), 17p (n = 19; 83%), 18 (n = 21; 91%) and 22q (n = 17; 74%); in turn, CN gains more frequently involved chromosomes 1q (n = 10; 43%), 7 (n = 20; 87%), 8q (n = 17; 74%), 13q (n = 18; 78%), 20q (n = 20; 87%) and X (n = 13; 57%) (Figure 1); these (gained) chromosomes/chromosomal regions also revealed the highest level of genomic amplification (Table S1). In addition, gains and losses of many other chromosomal regions were identified at lower frequencies (Figure 1). An illustrating map of the most frequently gained/lost chromosome regions according to SNP-array studies, is shown in figure 2. Of note, SNP arrays allowed the identification of 43 small DNA sequences (arbitrarily defined as regions of ,1300 kb) which displayed recurrent CN changes (gains and losses). Interestingly, most of those regions which showed recurrent CN changes (n = 28/43) contained at least one known well-characterized gene, five contained known cancer-associated genes and one region held a microRNA gene (MIR1208), localized at chromosome 8q24.21 (Table 2). The exact number of small regions characterized by CN changes, as well as the relative proportion of CN gains vs. losses varied widely among the different chromosomes. The 43 small regions containing CN gains and losses were coded in those chromosomes more frequently affected by CN changes and their Statistical methods For all continuous variables, mean values (and SD) and range were calculated using the SPSS software package (SPSS 12.0 Inc, Chicago, IL USA); for dichotomic variables, frequencies were reported. In order to evaluate the statistical significance of differences observed between groups, the Mann-Whitney U and X2 tests were used for continuous and categorical variables, respectively (SPSS). A multivariate stepwise regression analysis (regression, SPSS) was performed to determine the correlation between the structural and/or numerical abnormalities found for both iFISH, SNP-array techniques and their relationship with the expression of those genes analyzed by RQ-PCR. Only those iFISH probes with $12 SNPs localized in the iFISH mapped region (Table 1) were used for correlation studies with the CN status identified by the SNP array (gain vs. loss vs. no change) for those SNPs localized at each iFISH region. P-values ,.01 were considered to be associated with statistical significance. Results Map of CN changes by SNP arrays Overall CN changes for at least one chromosomal region were detected in all 23 tumors studied. The highest frequency of CN Figure 2. Representative karyotype of a primary metastatic colorectal tumor as determined by the Affymetrix 500K SNP array genotyping platform, showing summary results for those chromosome gains/losses more frequently detected in the colorectal tumor samples analyzed (n = 23). doi:10.1371/journal.pone.0013752.g002 PLoS ONE | www.plosone.org 5 October 2010 | Volume 5 | Issue 10 | e13752 Genetics of Colorectal Cancer Table 2. Most frequently detected small regions (,1300 kb) of gain and loss in primary sporadic colorectal tumors genotyped on the Affymetrix 500K SNP array platform (n = 23). Minimal common altered regions (bp) Region length (bp) N. of SNPs Chromosome band Event % of altered cases Gene list Chr 1: 26,131,131-26,191,419 60,288 16 1p36.11 Deletion 74 PAFAH2 Chr 7: 8,255,230-8,280,496 25,266 10 7p21.3 Gain 74 ICA1 Chr 7: 10,461,770-10,486,412 24,642 8 7p21.3 Gain 74 – Chr 7: 12,514,442-12,576,898 62,456 9 7p21.3 Gain 74 SCIN Chr 8: 32,105,734-32,675,812 570,078 196 8p12 Deletion 70 – Chr 8: 198,834-392,556 193,722 46 8p23.3 Deletion 70 FAM87A, FBXO25 Chr 8: 400,640-539,716 139,076 29 8p23.3 Deletion 70 C8orf42 Chr 8: 23,264,737-23,277,681 12,944 8 8p21.3 Deletion 70 – Chr 8: 86,214,670-86,946,337 731,667 52 8q21.2 Gain 65 LRRCC1, E2F5, CA13, CA1, CA3, CA2 Chr 8: 87,377,186-87,789,535 412,349 65 8q21.3 Gain 65 WWP1, FAM82B, CPNE3, CNGB3 Chr 8: 88,872,540-89,066,702 194,162 24 8q21.3 Gain 65 WDR21C Chr 8: 91,462,487-91,474,759 12,272 2 8q21.3 Gain 65 – Chr 8: 91,686,333-91,735,940 49,607 10 8q21.3 Gain 65 TMEM64 Chr 8: 94,759,374-95,077,320 317,946 44 8q22.1 Gain 65 RBM12B, C8orf39, TMEM67, PPM2C Chr 8: 95,294,349-95,435,061 140,712 28 8q22.1 Gain 65 GEM Chr 8: 95,593,385-95,776,644 183,259 36 8q22.1 Gain 65 KIAA1429, RBM35A Chr 8: 128,638,191-128,724,583 86,392 25 8q24.21 Gain 65 – Chr 8: 129,180,096-129,268,067 87,971 43 8q24.21 Gain 65 MIR1208 Chr 8: 130,906,244-131,222,249 316,005 35 8q24.21 Gain 65 FAM49B Chr 8: 133,845,345-133,868,639 23,294 9 8q24.22 Gain 65 PHF20L1 Chr 8: 133,882,656-133,900,665 18,009 6 8q24.22 Gain 65 – Chr 8: 135,527,585-135,836,235 308,650 97 8q24.22 Gain 65 ZFAT Chr 8: 136,498,075-136,866,133 368,058 74 8q24.23 Gain 65 KHDRBS3 Chr 8: 137,055,200-137,091,177 35,977 12 8q24.23 Gain 65 – Chr 13: 73,603,130-73,627,939 24,809 10 13q22.1 Gain 78 KLF12 Chr 13: 74,972,248-75,117,835 145,587 26 13q22.2 Gain 78 COMMD6, UCHL3, LMO7 Chr 13: 75,689,304-75,689,865 561 2 13q22.2 Gain 78 – Chr 13: 76,352,482-76,366,765 14,283 11 13q22.3 Gain 78 KCTD12 Chr 13: 78,098,212-78,143,588 45,376 7 13q31.1 Gain 78 C13orf7 Chr 13: 78,805,700-79,077,299 271,599 46 13q31.1 Gain 78 RBM26, NDFIP2 Chr 13: 79,621,013-79,845,948 224,935 40 13q31.1 Gain 78 SPRY2 Chr 17: 10,693,238-11,021,844 328,606 89 17p13.1 Deletion 78 – Chr 17: 14,234,746-14,967,525 732,779 214 17p12 Deletion 78 – Chr 17: 14,984,724-15,082,587 97,863 18 17p12 Deletion 78 PMP22 Chr 18: 41,130,655-41,494,986 364,331 134 18q12.3 Deletion 91 SLC14A2 Chr 18: 45,410,728-45,497,910 87,182 29 18q21.11 Deletion 91 – Chr 18: 45,654,114-46,036,475 382,361 144 18q21.11 Deletion 91 MYO5B, CCDC11 Chr 18: 46,252,199-46,288,353 36,154 12 18q21.11 Deletion 91 – Chr 20: 37,766,095-38,339,016 572,921 131 20q12 Gain 83 HSPEP1 Chr 20: 51,012,908-51,013,194 286 2 20q13.2 Gain 83 – Chr 20: 52,991,500-54,234,439 1,242,939 325 20q13.2 Gain 83 CBLN4 Chr X: 134,159,698-134,160,254 556 2 Xq26.3 Gain 57 – Chr X: 151,650,011-151,652,710 2699 2 Xq28 Gain 57 – Genes which have been associated with cancer are shown in bold. doi:10.1371/journal.pone.0013752.t002 and losses (arbitrarily defined as regions of .1500 kb) were identified at the 8q21.13, 17p12, 17p11.2, 22q13 and Xq25 chromosome segments (one in each chromosome). Interestingly, distribution was as follows: chromosomes 1p, 1 region; 7p, 3; 8p, 4; 8q, 16; 13q, 7; 17p, 3; 18q, 4; 20q, 3, and; Xq, 2 region. In addition, other regions carrying recurrent large-scale CN gains PLoS ONE | www.plosone.org 6 October 2010 | Volume 5 | Issue 10 | e13752 Genetics of Colorectal Cancer each of these larger regions has been previously associated with malignancy and contained genes i) relevant to the metastatic process (i.e.: TPD52, FABP5, MAP2K4, LLGL1, TOP3A, ALDH3A2, UPK3A, FBLN1, TYMP), ii) associated with intracellular signaling processes (i.e.: PAG1, ELAC2, RASD1 and TNFRSF13B) and iii) genes involved in the regulation of the cell cycle (i.e.: FLCN, PEMT and XIAP); in turn, three of these large CN regions showing CN losses and one with CN gains contained a total of 8 known microRNAs (Table 3). Recurrent chromosomal breakpoints identified by SNParrays Based on the analysis of the distribution of chromosomal breakpoints defined by the SNP-arrays, four recurrent chromosomal breakpoints (arbitrarily defined as DNA segments showing CN changes in more than one third of the cases) were identified at chromosomes 1p12, 8p12, 17p11.2 and 20p12.1 (Figure S1). Chromosomes 1, 8 and 20 showed a high number (.145) of different breakpoint regions with a variable and heterogeneous distribution; in contrast, a highly prevalent breakpoint region was identified in the centromeric portion of chromosome 17p, between the genome coordinates 20,156,497 bp and 22,975,771 bp (15/19 patients with abnormalities for this chromosome), and a minimum size of 28.2 Mb for the recurrent breakpoint. In these 15 cases, the first gene affected on the retained telomeric side of the breakpoint region was the CYTSB gene and the first constantly deleted gene on the centromeric side was the FAM27L gene. Interestingly, in 13 of these 15 patients a preferential breakpoint occurred at the 21,769,828–22,975,771 genome coordinate where the FAM27L gene is coded. Chromosomal regions showing high-level CN gains The highest levels of genetic amplification were detected for the 7p15.2, 8q24.21, 13q12.13 and 20p12.3 chromosome bands with maximum fluorescence intensity log2 ratios of 0.99 (0.2360.11), 1.45 (0.3560.15), 1.47 (0.3160.22) and 0.96 (0.2860.11), respectively (Table 4). Several genes which are potentially involved in the pathogenesis of CRC are localized in these four chromosomal regions. Among others, these include the CYCS and UPP1 genes on chromosome 7p, the MYC gene at chromosome 8q24.21, the HSPH1 and CDX2 genes at chromosome 13q and the CDC25B, PLCB4, TNFRSF6B, OGFR, NTSR1, CDH4, CYP24A1 and RGS19 genes in chromosome 20. The most commonly amplified single region (18/23 cases; 78%) corresponded to a region localized at chromosome 20q11.22 identified by the SNP_A-2220183 and the SNP_A-2039695 at the 33,776,127 bp and 33,954,944 bp positions, respectively (Table S1). Interestingly, we recorded a statistically significant association between tumour grade and presence of gains/amplifications at the 20p13 chromosomal region localized between the 2,574,587 and 2,993,797 bp positions and assessed by 66 SNPs with a greater frequency of well- vs moderately-differentiated tumours- (11/13 (85%) vs 2/8 (25%); p = 0.005) among cases with this chromosomal alteration. Correlation between the chromosomal changes detected by SNP-arrays and both iFISH and RQ-PCR studies In order to evaluate the consistency of the chromosomal changes identified by the SNP-arrays, iFISH analysis were performed in parallel for a total of 24 chromosome regions from 20 different chromosomes. Overall our results showed a high degree of correlation (mean r2 of 0.73602; range: 0.65 to 0.91) between both methods, including when such analysis was restricted to the most frequently altered regions (r2$0.67) (Table 5). In order to assess the impact of the information generated by SNP arrays, the expression of three genes (MAP2K4, MYC and Table 3. Most frequently detected extensively altered chromosome regions with CN changes (.1500 kb) in primary sporadic colorectal tumors genotyped on the Affymetrix 500K SNP array platform (n = 23). Extensively altered regions (bp) Region length (bp) Chromosome band Event % of altered cases Gene list Chr 8: 80,831,670-82,390,493 1,558,823 8q21.13 Gain 65 HEY1, MRPS28, TPD52, ZBTB10, ZNF704, PAG1, FABP5 Chr 17: 11,135,229-14,009,355 2,874,126 17p12 Deletion 78 DNAH9, ZNF18, MAP2K4, MIR744, MYOCD, ELAC2, HS3ST3A1, MIR548H3, COX10 Chr 17: 16,270,540-19,616,367 3,345,827 17p11.2 Deletion 78 TRPV2, C17orf45, C17orf76, ZNF287, ZNF624, CCDC144A,TNFRSF13B, C17orf84, FLCN, COPS3, NT5M, MED9, RASD1, PEMT, RAI1, SREBF1, MIR33B, TOM1L2, LRRC48, ATPAF2, C17orf39, DRG2, MYO15A, ALKBH5, LLGL1, FLII, SMCR7, TOP3A, SMCR8, SHMT1, NOS2B, TBC1D28, TRIM16L, FBXW10, FAM18B, PRPSAP2, SLC5A10, FAM83G, GRAP, EPN2, B9D1, MIR1180, MAPK7, MFAP4, ZNF179, SLC47A1, ALDH3A2, SLC47A2, ALDH3A1, ULK2 Chr 22: 43,616,234-49,576,671 5,960,437 22q13 Deletion 57 ARHGAP8, PHF21B, NUP50, C22orf9, MIR1249, UPK3A, FAM118A, SMC1B, RIBC2, FBLN1, ATXN10, WNT7B, C22orf26, MIRLET7A3, MIRLET7B, PPARA, PKDREJ, GTSE1, TRMU, CELSR1, GRAMD4, CERK, TBC1D22A, FAM19A5, C22orf34, BRD1, ZBED4, ALG12, CRELD2, PIM3, IL17REL, TTLL8, MLC1, MOV10L1, PANX2, TRABD, TUBGCP6, HDAC10, MAPK12, MAPK11, PLXNB2, FAM116B, SAPS2, SBF1, ADM2, MIOX, TMEM112B, NCAPH2, SCO2, TYMP, KLHDC7B, CPT1B, CHKB, MAPK8IP2, ARSA,SHANK3, ACR, RABL2B Chr X: 120,721,375-126,726,076 6,004,701 Xq25 Gain 57 GRIA3, THOC2, MIR220A, XIAP, STAG2, SH2D1A, ODZ1, WDR40C, WDR40B, CXorf64 Genes which have been associated with cancer are shown in bold. doi:10.1371/journal.pone.0013752.t003 PLoS ONE | www.plosone.org 7 October 2010 | Volume 5 | Issue 10 | e13752 Genetics of Colorectal Cancer Table 4. Most frequently detected high-level amplified chromosome regions (average log2 copy number ratio $0.22) containing genes commonly associated with cancer in primary sporadic colorectal tumors genotyped on the Affymetrix 500K SNP array platform (n = 23). Amplified chromosome regions (bp) Chromosome band Mean Log2 Ratio Maximum Log2 Ratio % of altered cases Cancer associated genes Chr 7: 21,060,948-21,773,238 7p15.3 0.22 0.51 57 SP4 Chr 7: 25,072,457-29,780,614 7p15.2 0.23 0.99 52 CYCS, CHN2, JAZF1, HOXA1, HOXA4, HOXA5, HOXA7, HOXA9, HOXA10, HOXA11, HNRPA2B1 Chr 7: 30,433,934-47,043,330 7p15.1 0.24 0.69 52 SFRP4, AMPH, RALA, INHBA, PPIA, IGFBP3 Chr 7: 47,249,414-48,538,115 7p12.3 0.23 0.51 57 UPP1 Chr 7: 50,305,027-50,512,587 7p12.2 0.24 0.51 61 DDC, IKZF1 Chr 8: 128,130,968-129,218,353 8q24.21 0.35 1.45 61 MYC Chr 13: 22,371,210-23,251,245 13q12.12 0.29 0.81 57 SACS Chr 13: 23,722,973-24,224,179 13q12.12 0.30 0.90 57 ATP12A, PARP4 Chr 13: 25,516,360-33,070,797 13q12.13 0.31 1.47 61 BRCA2, RXFP2, HMGB1, HSPH1, SLC7A1, FLT1, FLT3, CDX2, PDX1, GTF3A Chr 20: 3,590,646-3,775,309 20p13 0.28 0.62 52 CDC25B, SIGLEC1, GFRA4 Chr 20: 6,077,268-10,228,083 20p12.3 0.28 0.96 52 PLCB4, PLCB1 Chr 20: 33,776,127-33,954,944 20q11.22 0.27 0.51 78 RBM39, PHF20 Chr 20: 47,898,202-49,082,996 20q13.13 0.27 0.55 74 ADNP, BCAS4, PTPN1, CEBPB, SNAI1 Chr 20: 52,203,846-52,261,791 20q13.2 0.27 0.55 74 CYP24A1 Chr 20: 59,237,873-59,740,719 20q13.33 0.27 0.59 74 CDH4 Chr 20: 59,926,031-62,297,793 20q13.33 0.28 0.82 74 TAF4, SS18L1, LAMA5, GATA5, SLCO4A1, NTSR1, OGFR, TCFL5, DIDO1, BIRC7, EEF1A2, PTK6, STMN3, NFRSF6B, TPD52L2, SOX18, RGS19, OPRL1, Genes which have been commonly associated with colorectal cancer are shown in bold. Only those regions with recurrently amplified DNA copy-number found in at least half of the cases, are listed. doi:10.1371/journal.pone.0013752.t004 frequency of 1p, 8p, 9q, 14 and 17p losses and unique amplifications at chromosome 20q. Interestingly, among our series of metastatic CRC patients the frequency of losses at the same chromosomal regions was strikingly higher: 1p, 74% vs 11%; 8p, 78% vs 33%; 9q, 35% vs 6%; 14, 65% vs 39%; and; 17p, 83% vs 33%. In turn, we also detected additional amplifications at 7p, 8q and 13q, as well as at the 20q chromosomal region. In line with our observations, Al-Mulla et al [24] also found that, once compared to patients without metastatic disease (n = 30) CRC patients with liver metastases (n = 26) more frequently displayed losses of chromosomes 1p, 4, 5q, 8p, 9p, and 14q. Altogether, those results indicate that the genetic profile of metastatic CRC is defined by imbalanced gains/amplifications of chromosomes 7p, 8q, 13q and 20q together with losses of the 1p, 8p, 9p, 14q and 17p chromosomal regions [5,20,25–27]. In addition, here we describe new recurrently altered regions that contain cancer genes, many of which have been previously involved in the pathogenesis of CRC, at the same time, we provide detailed characterization of recurrent chromosomal breakpoints most frequently occurring in primary tumours from CRC patients who had developed liver metastases. Interestingly, a relatively high degree of correlation was found between the cytogenetic alterations detected by SNP-arrays and iFISH studies. Despite this, slight differences were noted between both techniques. On one hand, these were due to the lower BIRC7) was further analyzed in detail using RQ-PCR. As expected from the SNP-array data, the MYC and BIRC7 relative transcript levels were up-regulated in 15/18 (83%) and 14/18 (78%) tumours analyzed, respectively. Conversely, the MAP2K4 gene was downregulated in 16/18 (89%) tumours (Figure 3). Upon comparing the results obtained with the two methods, a significant (p,0.001) correlation was observed between the microarray data and the expression of the three genes evaluated by RQ-PCR techniques with correlation coefficients (r2) of 0.88, 0.66 and 0.64 for MAP2K4, MYC and BIRC7 genes, respectively. Discussion In this study we describe a comprehensive map of the genetic abnormalities present in primary tumors from metastatic CRC through the usage of high-resolution 500K SNP arrays. To our knowledge this is the most extensive study using high-resolution SNP-arrays to define the genetic alterations in this subgroup of CRC patients. Overall, our results confirm previous analyses using chromosome banding techniques [20], CGH [5], SKY [21], aCGH [6,10] and low-resolution 50k SNP-arrays [22]. Previous reports in which similar SNP-array tools have been applied to investigate the genetic profile of non-metastatic CRC [23] have shown in a subset of patients with advanced carcinomas in the absence of liver metastases (n = 18), a relatively low PLoS ONE | www.plosone.org 8 October 2010 | Volume 5 | Issue 10 | e13752 Genetics of Colorectal Cancer since it is associated with both liver and lymph node metastases [36]. In line with these findings we also identified loss of the SMAD4 gene in the great majority (83%) of the metastatic cases analyzed. By contrast, the most frequently (78% of cases) amplified region was found in chromosome 20, at 20q11.22. This is a relatively small region of 178,817 bp which harbors 8 known genes, half of which have been associated with CRC: TNFRSF6B [37], OGFR [38], NTSR1 [39] and CDH4 [40]. Among these genes, overexpression of TNFRSF6B -a gene that belongs to the tumor necrosis factor receptor (TNFR) super-family- has been reported in advanced stages of CRC [37] and other tumors of the gastrointestinal tract [41], in association with an increased resistance to adjuvant chemotherapy [42]; in turn, increased NTSR1 expression has been reported as an early event in colon tumorigenesis that contributes to tumor progression and an aggressive clinical behavior [39]. Similarly, we also identified amplification and overexpression of the MYC gene at 8q24 in the great majority of the primary tumors, which have both been previously suggested to be involved in disease progression to a metastatic tumour [28;43]. From the clinical point of view, gain/amplification of 20p13 was associated with a higher frequency of well vs. moderatelydifferentiated tumours. Noteworthy, this chromosomal region contains genes which have been previously associated with disease progression. Accordingly, Miyoshi N et al have recently suggested that overexpression of the TGM2 gene in CRC patients is associated with a shorter overall survival [44] and expression of the PTPRA gene has been recurrently associated with progression of gastric cancer, including lymphovascular invasion and liver/ peritoneal dissemination [45,46]. Apart from defining the most frequently altered genes in metastatic CRC, this study was also aimed at detailed characterization of the most frequent recurrent breakpoint regions associated with such genetic changes. The number of different breakpoints detected within individual chromosomes is usually considered as a surrogate marker for chromosomal instability in cancer. In the present study, we found 245 different breakpoints for chromosome 1. This frequency is significantly higher than that reported by others using aCGH analyses of CRC without distant metastases: 16 different chromosomes breakpoints found, in a group of 32 patients [10]. These results suggest that advancedstage and metastatic CRC could be associated with a greater number of breakpoints and higher chromosomal instability. In line with this hypothesis, Knutsen et al [21] found 407 chromosomal breakpoints in 15 CRC cell lines, using spectral karyotyping with a high frequency of recurrent breakpoints in the centromeric (p11 to q11) or pericentromeric (p11.2 and q11.2) regions of chromosomes 12, 13, 14, 15, 17 18 and 20. Interestingly, in this latter study Knutsen et al [21] also found recurrent breakpoints at 17p11.2 in 6/15 cell lines. In the present study, a high percentage of cases showed recurrent breakpoints for chromosomes 1, 8, 17 and 20. Most interestingly, breakpoints at chromosome 17p were preferentially localized at the genome coordinate 20,156,497–22,975,771 bp at 17p12 (15/23 cases); in most of these cases (12/15 cases), the breakpoint was restricted to the genome coordinate (21,769,828– 22,975,771 bp) which maps for the FAM27L gene, a gene whose function remains to be elucidated. Whether, disruption of the FAM27L gene may also play a role in the malignant transformation and/or the metastatic process of CRC into the liver in addition to, inactivation of TP53 and inhibition of apoptosis [47,48], remains to be elucidated. Nevertheless, it should be noted that Camps et al [10] have shown a higher frequency of 17p11.2 breakpoints in CRC patients with positive (8/16) vs. negative (4/ Table 5. Primary colorectal cancer with liver metastasis (n = 23): correlation between the numerical changes detected by each individual iFISH probe used and the CN changes identified for the corresponding single nucleotide polymorphisms (SNPs) through SNP array studies. Chromosomal region identified by the iFISH probe R2/P-value 1p36 0.75/,0.001 1q25 0.75/,0.001 2p24 0.65/0.001 3q26 0.81/,0.001 5p15.2 0.65/0.001 6q23 0.67/,0.001 7q31 0.67/,0.001 8p22 0.81/,0.001 8q24 0.79/,0.001 9p21 0.91/,0.001 9q34 0.77/,0.001 10q23 0.68/,0.001 11q22 0.82/,0.001 12p13 0.76/,0.001 13q14 0.74/,0.001 13q34 0.78/,0.001 14q32 0.82/,0.001 15q22 0.72/,0.001 17p13 0.80/,0.001 18q21 0.75/,0.001 19q13 0.65/,0.001 20q13.2 0.80/,0.001 21q22 0.74/,0.001 22q11.2 0.83/,0.001 2 R : Coefficient of correlation. doi:10.1371/journal.pone.0013752.t005 sensitivity of the SNP-array vs. iFISH for the identification of chromosomal abnormalities present in only a small proportion of all cells in the sample (i.e. secondary genetic lesions absent in the ancestral tumour cell clones) [28]. On the other hand, they were attributable to the increased sensitivity of the SNP-array vs. iFISH studies as regards identification of small interstitial changes [11]. In this regard, our results show occurrence of a high number of CN changes involving minimal/small regions (,1.3 Mb) and to a less extent, also extensive/large (.1.5 Mb) regions which frequently went undetectable by iFISH. Interestingly, several of these small and large altered regions contain cancer-associated genes known to be involved in CRC and/or the metastatic process: i.e. the TPD52 [29], FABP5 [30], MAP2K4 [31], LLGL1 [32], FBLN1 [33] and TYMP [34] genes. Among all human chromosomes, chromosomes 17 and 18 were those more frequently found to be altered in our series, their abnormalities typically consisting on extensive deletions involving the TP53 and DCC genes, respectively, in addition to other tumor suppressor genes, such as MAP2K4 at 17p12. A potential role for chromosome 18q in the development of CRC with associated liver metastases has been previously reported [35]; in this regard, decreased expression of Smad4 in addition to DCC, has been pointed out as a potential target protein coded in chromosome 18q PLoS ONE | www.plosone.org 9 October 2010 | Volume 5 | Issue 10 | e13752 Genetics of Colorectal Cancer Figure 3. Expression levels of MYC, MAP4K and BIRC7 mRNA as assessed by RQ-PCR in metastatic CRC tumors and their corresponding paired normal tissue (n = 18). Note that MYC and BIRC7 mRNA levels from metastatic CRC tumours samples are significantly higher than in their paired normal tissues (p,0.0001). By contrast, MAP4K mRNA levels in metastatic CRC tumors are significantly lower than normal (p,0.0001). doi:10.1371/journal.pone.0013752.g003 16) lymph nodes using aCGH. This breakpoint has been previously associated with an homogeneous genetic profile defined by a higher frequency of abnormalities of chromosomes 1p, 7, 8, 13q, 18q and 20q and an adverse clinical outcome [35,49–52]. Other recurrent chromosomal breakpoints found in our patients were localized in the 1p12, 8p12 and 20p12.1 chromosomal regions. Previous studies suggest that genes typically deregulated by these chromosome breaks included the REG4 [53] and NOTCH2 [54] genes at chromosome 1p12, EIF4EBP1 [55] and FGFR [56] at chromosome 8p12, and the FOXA2 [57] gene at chromosome 20p12; all these genes have been associated with the development and progression of CRC and the metastatic process in a variety of human cancers, including the development of liver metastases in CRC [53–57]. Additional GEP and functional studies as well as direct comparison of paired primary and metastatic tumours are required to validate our findings and to gain further insight into their role in metastatic CRC patients. Table S1 Most frequently detected amplified regions (for .3 contiguous SNPs with average log2 copy number ratio .0.22) in primary colorectal tumours from metastatic CRC patients genotyped on the Affymetrix 500K SNP array platform (n = 23). Only recurrently amplified DNA copy-number regions found in at least half of the cases, are listed. Found at: doi:10.1371/journal.pone.0013752.s002 (0.10 MB DOC) Supporting Information Author Contributions platform. Breakpoints occurred in 9 cases (39%) at the 118097448120939802 genome coordinate for chromosome 1 (panel A), in 8 cases (35%) at the 37770635-38405382 coordinate for chromosome 8 (panel B), in 15 cases (65%) at the 20156497-22975771 position for chromosome 17 (panel C) and in 9 cases (39%) at the 14921777- 16089156 genome coordinate for chromosome 20 (panel D). Found at: doi:10.1371/journal.pone.0013752.s001 (4.70 MB TIF) Conceived and designed the experiments: MGD AO. Performed the experiments: JMS MGG MES MdCC EG. Analyzed the data: JMS CF MGG MES MdCC JDLR LMB AO. Contributed reagents/materials/ analysis tools: MdMA MES MdCC OB EF LMB. Wrote the paper: JMS AO. Figure S1 Primary colorectal cancer with paired liver metastasis (n = 23): Identification of recurrent chromosomal breakpoint regions for the 1p12, 8p12, 17p11.2 and 20p12.1 chromosome regions as defined by the Affymetrix 500K SNP array genotyping References 5. De Angelis PM, Clausen OP, Schjolberg A, Stokke T (1999) Chromosomal gains and losses in primary colorectal carcinomas detected by CGH and their associations with tumour DNA ploidy, genotypes and phenotypes. Br J Cancer 80: 526–35. 6. Lassmann S, Weis R, Makowiec F, Roth J, Danciu M, et al. (2007) Array CGH identifies distinct DNA copy number profiles of oncogenes and tumor suppressor genes in chromosomal- and microsatellite-unstable sporadic colorectal carcinomas. J Mol Med 85: 293–304. 7. Hu XT, Chen W, Wang D, Shi QL, Zhang FB, et al. (2008) The proteasome subunit PSMA7 located on the 20q13 amplicon is overexpressed and associated with liver metastasis in colorectal cancer. Oncol Rep 19: 441–6. 8. Korn WM, Yasutake T, Kuo WL, Warren RS, Collins C, et al. (1999) Chromosome arm 20q gains and other genomic alterations in colorectal cancer metastatic to liver, as analyzed by comparative genomic hybridization 1. Tsai MS, Su YH, Ho MC, Liang JT, Chen TP, et al. (2007) Clinicopathological features and prognosis in resectable synchronous and metachronous colorectal liver metastasis. Ann Surg Oncol 14: 786–94. 2. Macartney-Coxson DP, Hood KA, Shi HJ, Ward T, Wiles A, et al. (2008) Metastatic susceptibility locus, an 8p hot-spot for tumour progression disrupted in colorectal liver metastases: 13 candidate genes examined at the DNA, mRNA and protein level. BMC Cancer 8: 178–187. 3. Rigola MA, Casadevall C, Bernues M, Caballin MR, Fuster C, et al. (2002) Analysis of kidney tumors by comparative genomic hybridization and conventional cytogenetics. Cancer Genet Cytogenet 137: 49–53. 4. Garcia J, Duran A, Tabernero MD, Garcia PA, Flores CT, et al. (2003) Numerical abnormalities of chromosomes 17 and 18 in sporadic colorectal cancer: Incidence and correlation with clinical and biological findings and the prognosis of the disease. Cytometry B Clin Cytom 51: 14–20. PLoS ONE | www.plosone.org 10 October 2010 | Volume 5 | Issue 10 | e13752 Genetics of Colorectal Cancer 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. and fluorescence in situ hybridization. Genes Chromosomes Cancer 25: 82– 90. Tanaka T, Watanabe T, Kazama Y, Tanaka J, Kanazawa T, et al. (2006) Chromosome 18q deletion and Smad4 protein inactivation correlate with liver metastasis: A study matched for T- and N- classification. Br J Cancer 95: 1562–7. Camps J, Grade M, Nguyen QT, Hormann P, Becker S, et al. (2008) Chromosomal breakpoints in primary colon cancer cluster at sites of structural variants in the genome. Cancer Res 68: 1284–95. Walker BA, Morgan GJ (2006) Use of single nucleotide polymorphism-based mapping arrays to detect copy number changes and loss of heterozygosity in multiple myeloma. Clin Lymphoma Myeloma 7: 186–91. World Health Organization. WHO International Histological Classification of Tumors, Vol 1-25. Geneva, 1967-1981; 2nd edn, Berlin: Springer-Verlag, 1988.1992. Greene FL (2007) Current TNM staging of colorectal cancer. Lancet Oncol 8: 572–3. Vindelov LL, Christensen IJ, Nissen NI (1983) A detergent-trypsin method for the preparation of nuclei for flow cytometric DNA analysis. Cytometry 3: 323–327. Bengtsson H, Irizarry R, Carvalho B, Speed TP (2008) Estimation and assessment of raw copy numbers at the single locus level. Bioinformatics 24: 759–67. Venkatraman ES, Olshen AB (2007) A faster circular binary segmentation algorithm for the analysis of array CGH data. Bioinformatics 23: 657–663. Habermann JK, Paulsen U, Roblick UJ, Upender MB, McShane LM, et al. (2007) Stage-specific alterations of the genome, transcriptome, and proteome during colorectal carcinogenesis. Genes Chromosomes Cancer 46: 10–26. Ooi A, Huang CD, Mai M, Nakanishi I (1996) Numerical chromosome alterations in colorectal carcinomas detected by fluorescence in situ hybridization. Relationship to 17p and 18q allelic losses. Virchows Arch 428: 243–51. Sayagues JM, Tabernero MD, Maillo A, Espinosa A, Rasillo A, et al. (2004) Intratumoral patterns of clonal evolution in meningiomas as defined by multicolor interphase fluorescence in situ hybridization (FISH): is there a relationship between histopathologically benign and atypical/anaplastic lesions? J Mol Diagn 6: 316–25. Diep CB, Parada LA, Teixeira MR, Eknaes M, Nesland JM, et al. (2003) Genetic profiling of colorectal cancer liver metastases by combined comparative genomic hybridization and G-banding analysis. Genes Chromosomes Cancer 36: 189–97. Knutsen T, Padilla-Nash HM, Wangsa D, Barenboim-Stapleton L, Camps J, et al. (2010) Definitive molecular cytogenetic characterization of 15 colorectal cancer cell lines. Genes Chromosomes Cancer 49: 204–23. Sheffer M, Bacolod MD, Zuk O, Giardina SF, Pincas H, et al. (2009) Association of survival and disease progression with chromosomal instability: a genomic exploration of colorectal cancer. Proc Natl Acad Sci U S A 106: 7131–6. Ghadimi BM, Grade M, Monkemeyer C, Kulle B, Gaedcke J, Gunawan B, et al. (2006) Distinct chromosomal profiles in metastasizing and non-metastasizing colorectal carcinomas. Cell Oncol 28: 273–81. Al-Mulla F, AlFadhli S, Al-Hakim AH, Going JJ, Bitar MS (2006) Metastatic recurrence of early-stage colorectal cancer is linked to loss of heterozygosity on chromosomes 4 and 14q. J Clin Pathol 59: 624–30. Paredes-Zaglul A, Kang JJ, Essig YP, Mao W, Irby R, et al. (1998) Analysis of colorectal cancer by comparative genomic hybridization: evidence for induction of the metastatic phenotype by loss of tumor suppressor genes. Clin Cancer Res 4: 879–86. Hoglund M, Gisselsson D, Hansen GB, Sall T, Mitelman F, et al. (2002) Dissecting karyotypic patterns in colorectal tumors: two distinct but overlapping pathways in the adenoma-carcinoma transition. Cancer Res 62: 5939–46. Diep CB, Kleivi K, Ribeiro FR, Teixeira MR, Lindgjaerde OC, et al. (2006) The order of genetic events associated with colorectal cancer progression inferred from meta-analysis of copy number changes. Genes Chromosomes Cancer 45: 31–41. Sayagues JM, Abad MM, Barquero H, Gutierrez ML, Gónzalez-Gónzalez M, et al. (2010) Intratumoral cytogenetic heterogeneity of sporadic colorectal carcinomas suggests several pathways to liver metastasis. J Pathol 221: 308–319. Payton LA, Lewis JD, Byrne JA, Bright RK (2008) Vaccination with metastasisrelated tumor associated antigen TPD52 and CpG/ODN induces protective tumor immunity. Cancer Immunol Immunother 57: 799–811. Pang J, Liu WP, Liu XP, Li LY, Fang YQ, et al. (2010) Profiling protein markers associated with lymph node metastasis in prostate cancer by DIGE-based proteomics analysis. J Proteome Res 9: 216–26. Spillman MA, Lacy J, Murphy SK, Whitaker RS, Grace L, et al. (2007) Regulation of the metastasis suppressor gene MKK4 in ovarian cancer. Gynecol Oncol 105: 312–20. Tsuruga T, Nakagawa S, Watanabe M, Takizawa S, Matsumoto Y, et al. (2007) Loss of Hugl-1 expression associates with lymph node metastasis in endometrial cancer. Oncol Res 16: 431–5. PLoS ONE | www.plosone.org 33. Yang H, Rouse J, Lukes L, Lancaster M, Veenstra T, et al. (2004) Caffeine suppresses metastasis in a transgenic mouse model: a prototype molecule for prophylaxis of metastasis. Clin Exp Metastasis 21: 719–35. 34. Thean LF, Loi C, Ho KS, Koh PK, Eu KW, et al. (2010) Genome-wide scan identifies a copy number variable region at 3q26 that regulates PPM1L in APC mutation-negative familial colorectal cancer patients. Genes Chromosomes Cancer 49: 99–106. 35. Tanaka T, Watanabe T, Kitayama J, Kanazawa T, Kazama Y, et al. (2009) Chromosome 18q deletion as a novel molecular predictor for colorectal cancer with simultaneous hepatic metastasis. Diagn Mol Pathol 18: 219–25. 36. Tanaka T, Watanabe T, Kazama Y, Tanaka J, Kanazawa T, et al. (2008) Loss of Smad4 protein expression and 18q LOH as molecular markers indicating lymph node metastasis in colorectal cancer--a study matched for tumor depth and pathology. J Surg Oncol 97: 69–73. 37. Pitti RM, Marsters SA, Lawrence DA, Roy M, Kischkel FC, et al. (1998) Genomic amplification of a decoy receptor for Fas ligand in lung and colon cancer. Nature 396: 699–703. 38. Zagon IS, Donahue RN, McLaughlin PJ (2009) Opioid growth factor-opioid growth factor receptor axis is a physiological determinant of cell proliferation in diverse human cancers. Am J Physiol Regul Integr Comp Physiol 297: R1154–R1161. 39. Gui X, Guzman G, Dobner PR, Kadkol SS (2008) Increased neurotensin receptor-1 expression during progression of colonic adenocarcinoma. Peptides 29: 1609–15. 40. Miotto E, Sabbioni S, Veronese A, Calin GA, Gullini S, et al. (2004) Frequent aberrant methylation of the CDH4 gene promoter in human colorectal and gastric cancer. Cancer Res 64: 8156–9. 41. Bai C, Connolly B, Metzker ML, Hilliard CA, Liu X, et al. (2000) Overexpression of M68/DcR3 in human gastrointestinal tract tumors independent of gene amplification and its location in a four-gene cluster. Proc Natl Acad Sci U S A 97: 1230–5. 42. Mild G, Bachmann F, Boulay JL, Glatz K, Laffer U, et al. (2002) DCR3 locus is a predictive marker for 5-fluorouracil-based adjuvant chemotherapy in colorectal cancer. Int J Cancer 102: 254–7. 43. Camps J, Nguyen QT, Padilla-Nash HM, Knutsen T, McNeil NE, Wangsa D, et al. (2009) Integrative genomics reveals mechanisms of copy number alterations responsible for transcriptional deregulation in colorectal cancer. Genes Chromosomes Cancer 48: 1002–17. 44. Miyoshi N, Ishii H, Mimori K, Tanaka F, Hitora T, Tei M, et al. (2010) TGM2 is a novel marker for prognosis and therapeutic target in colorectal cancer. Ann Surg Oncol 17: 967–72. 45. Wu CW, Kao HL, Li AF, Chi CW, Lin WC (2006) Protein tyrosine-phosphatase expression profiling in gastric cancer tissues. Cancer Lett 242: 95–103. 46. Junnila S, Kokkola A, Karjalainen-Lindsberg ML, Puolakkainen P, Monni O (2010) Genome-wide gene copy number and expression analysis of primary gastric tumors and gastric cancer cell lines. BMC Cancer 10: 73. 47. Chen L, Jiang J, Cheng C, Yang A, He Q, et al. (2007) P53 dependent and independent apoptosis induced by lidamycin in human colorectal cancer cells. Cancer Biol Ther 6: 965–73. 48. Gemignani F, Moreno V, Landi S, Moullan N, Chabrier A, et al. (2004) A TP53 polymorphism is associated with increased risk of colorectal cancer and with reduced levels of TP53 mRNA. Oncogene 23: 1954–6. 49. Carvalho B, Postma C, Mongera S, Hopmans E, Diskin S, et al. (2009) Multiple putative oncogenes at the chromosome 20q amplicon contribute to colorectal adenoma to carcinoma progression. Gut 58: 79–89. 50. Ookawa K, Sakamoto M, Hirohashi S, Yoshida Y, Sugimura T, et al. (1993) Concordant p53 and DCC alterations and allelic losses on chromosomes 13q and 14q associated with liver metastases of colorectal carcinoma. Int J Cancer 53: 382–7. 51. Fijneman RJ, Carvalho B, Postma C, Mongera S, van Hinsbergh VW, et al. (2007) Loss of 1p36, gain of 8q24, and loss of 9q34 are associated with stroma percentage of colorectal cancer. Cancer Lett 258: 223–9. 52. Buffart TE, Coffa J, Hermsen MA, Carvalho B, van Dersijp IR, et al. (2005) DNA copy number changes at 8q11-24 in metastasized colorectal cancer. Cell Oncol 27: 57–65. 53. Oue N, Kuniyasu H, Noguchi T, Sentani K, Ito M, et al. (2007) Serum concentration of Reg IV in patients with colorectal cancer: overexpression and high serum levels of Reg IV are associated with liver metastasis. Oncology 72: 371–80. 54. Chu D, Zheng J, Wang W, Zhao Q, Li Y, et al. (2009) Notch2 expression is decreased in colorectal cancer and related to tumor differentiation status. Ann Surg Oncol 16: 3259–66. 55. Provenzani A, Fronza R, Loreni F, Pascale A, Amadio M, et al. (2006) Global alterations in mRNA polysomal recruitment in a cell model of colorectal cancer progression to metastasis. Carcinogenesis 27: 1323–33. 56. Sato T, Oshima T, Yoshihara K, Yamamoto N, Yamada R, et al. (2009) Overexpression of the fibroblast growth factor receptor-1 gene correlates with liver metastasis in colorectal cancer. Oncol Rep 21: 211–6. 57. Lehner F, Kulik U, Klempnauer J, Borlak J (2007) The hepatocyte nuclear factor 6 (HNF6) and FOXA2 are key regulators in colorectal liver metastases. FASEB J 21: 1445–62. 11 October 2010 | Volume 5 | Issue 10 | e13752 Modern Pathology (2012) 25, 590–601 590 & 2012 USCAP, Inc. All rights reserved 0893-3952/12 $32.00 Unique genetic profile of sporadic colorectal cancer liver metastasis versus primary tumors as defined by high-density single-nucleotide polymorphism arrays Luı́s Muñoz-Bellvis1, Celia Fontanillo2, Marı́a González-González3, Eva Garcia4, Manuel Iglesias1, Carmen Esteban1, ML Gutierrez3, MM Abad5, Oscar Bengoechea5, Javier De Las Rivas2, Alberto Orfao3,6 and JM Sayagués3,6 1 Unidad de Cirugı´a Hepatobiliopancreática, Departamento de Cirugı´a, Hospital Universitario de Salamanca, Salamanca, Spain; 2Grupo de Investigación en Bioinformática y Genómica Funcional, Centro de Investigación del Cáncer (IBMCC-CSIC/USAL), Universidad de Salamanca, Salamanca, Spain; 3Servicio General de Citometrı´a, Departamento de Medicina and Centro de Investigación del Cáncer (IBMCC-CSIC/ USAL), Universidad de Salamanca, Salamanca, Spain; 4Unidad de Genómica y Proteómica, Centro de Investigación del Cáncer (IBMCC-CSIC/USAL), Universidad de Salamanca, Salamanca, Spain and 5 Departamento de Patologı´a, Hospital Universitario de Salamanca, Salamanca, Spain Most genetic studies in colorectal carcinomas have focused on those abnormalities that are acquired by primary tumors, particularly in the transition from adenoma to carcinoma, whereas few studies have compared the genetic abnormalities of primary versus paired metastatic samples. In this study, we used high-density 500K single-nucleotide polymorphism arrays to map the overall genetic changes present in liver metastases (n ¼ 20) from untreated colorectal carcinoma patients studied at diagnosis versus their paired primary tumors (n ¼ 20). MLH1, MSH2 and MSH6 gene expression was measured in parallel by immunohistochemistry. Overall, metastatic tumors systematically contained those genetic abnormalities observed in the primary tumor sample from the same subject. However, liver metastases from many cases (up to 8 out of 20) showed acquisition of genetic aberrations that were not found in their paired primary tumors. These new metastatic aberrations mainly consisted of (1) an increased frequency of genetic lesions of chromosomes that have been associated with metastatic colorectal carcinoma (1p, 7p, 8q, 13q, 17p, 18q, 20q) and, more interestingly, (2) acquisition of new chromosomal abnormalities (eg, losses of chromosomes 4 and 10q and gains of chromosomes 5p and 6p). These genetic changes acquired by metastatic tumors may be associated with either the metastatic process and/or adaption of metastatic cells to the liver microenvironment. Further studies in larger series of patients are necessary to dissect the specific role of each of the altered genes and chromosomal regions in the metastatic spread of colorectal tumors. Modern Pathology (2012) 25, 590–601; doi:10.1038/modpathol.2011.195; published online 6 January 2012 Keywords: colorectal cancer; copy number change; FISH; liver metastases; SNP array Correspondence: Professor A Orfao, MD, PhD, Centro de Investigación del Cancer, Paseo de la Universidad de Coimbra S/N, 37007 Salamanca, Spain. E-mail: [email protected] 6 These authors contributed equally to this work and should be considered as senior last authors. Received 3 August 2011; revised 17 October 2011; accepted 17 October 2011; published online 6 January 2012 Occurrence of distant metastasis in sporadic colorectal cancer (eg, liver metastasis) confers a poor prognosis. In fact, metastatic disease is the main cause of death in colorectal carcinoma patients, and the liver is the most common site for metastatic spread of colorectal carcinoma.1,2 Current knowledge about the genetic pathways of clonal evolution www.modernpathology.org Genetic profiling of liver metastases from colorectal carcinomas 591 L Muñoz-Bellvis et al in colorectal carcinoma suggest that development of colorectal cancer could be triggered by the clonal expansion of cells that carry mutations, which most frequently involve the APC, RAS, TP53 and/or DCC genes, and lead to a growth and/or survival advantage of tumor cells.3 As metastatic cells derive from primary tumor cells, specific genomic alterations driving these ultimate steps of the metastatic cascade are expected to be acquired over the genomic profile of neoplastic cells from the primary tumor.4 The genomic abnormalities, which are potentially characteristic of such advanced stages of the disease, are complex and so far, poorly described and partially understood. This relates to the fact that most genetic studies in colorectal cancer have focused on those abnormalities that are acquired in primary tumors, particularly, in the transition from adenoma to carcinoma, and few studies have compared these abnormalities with those observed in paired metastatic samples.5–7 Despite this, multiple recurrent chromosomal abnormalities, which are found in primary tumors have been associated with metastatic colorectal carcinoma. Among others, these mainly include numerical changes such as gains of chromosomes 8q, 13q and 20q, and losses of the 1p, 8p, 17p and 18q chromosomal regions.8–10 However, the molecular mechanisms underlying the association of such genetic profiles with metastatic colorectal carcinoma remain largely unknown. Previous studies using conventional karyotyping,5 comparative genomic hybridization (CGH),5,7,11 fluorescence in situ hybridization (FISH)9,11 or microsatellite markers to detect regions of loss of heterozygosity (LOH),12 have largely failed in identifying recurrent chromosomal abnormalities acquired in metastatic versus primary colorectal tumors. This could be explained, at least in part, because of the relatively limited resolution of these techniques. More recently, the availability of highdensity single-nucleotide polymorphism (SNP) arrays has facilitated the identification of small regions of chromosomal gains and losses because of its higher resolution (down to 2.5 kb),13 and provides new opportunities in the identification of novel cancer genes involved in the metastatic process of colorectal cancer. However, previous reports in which high-density SNP arrays have been used to investigate the genetic profiles of colorectal carcinoma have specifically focused on primary tumor samples,14 and to the best of our knowledge, no study has been reported so far in which highdensity SNP arrays are employed to investigate the potential genetic differences between paired primary and metastatic tumors from colorectal carcinoma patients. In the present study, we applied high-density (500 K) SNP mapping arrays—mean distance between the interrogated SNPs of 5.8 kb (median intermarker distance of 2.5 kb)—to map the overall genetic changes present in liver metastases from 20 untreated colorectal carcinoma patients studied at diagnosis versus their paired primary tumors (n ¼ 40 samples). Our goal was to search for recurrent genetic differences between paired primary versus metastatic tumor samples that might contain candidate genes highly characteristic of metastatic liver disease. Patients and methods Patients and Samples Tissue specimens from 20 sporadic colorectal adenocarcinomas and 20 paired liver metastases (n ¼ 40 samples) were obtained from 20 patients (13 males and 7 females; median age of 70 years, ranging from 49 to 80 years) after informed consent had been given by each subject. It should be noted that only patients with metastatic lesions able to be resected were included in this cohort, which, therefore, is not representative of the whole colorectal cancer patient population. All patients underwent surgical resection of both tumor tissues at the Department of Surgery of the University Hospital of Salamanca (Salamanca, Spain). All tumors were diagnosed and classified according to the WHO criteria,15 and they were all studied before any treatment was given. According to the tumor grade, 11 cases were classified as well-differentiated tumors, 8 as moderately- and one as poorly differentiated carcinomas. In all cases, histopathological grade was confirmed in a second independent evaluation by an experienced pathologist. Median follow-up at the moment of closing the study was of 37 months (range: 36–96 months). The study was approved by the local ethics committee of the University Hospital of Salamanca (Salamanca, Spain). Seven primary tumors were localized in the rectum, and the other 13 were localized either in the right (cecum, ascending or transverse) or the left (descending and sigmoid) colon. The mean size of the primary tumors was of 5.3±1.9 cm with the following distribution according to their TNM stage at diagnosis:16 T3N0M0, two cases; T3N1M1, four cases; T3N1M0, four cases; T3N2M1, four cases; T4N0M1, one case; T4N0M0, three cases; T4N1M1, one case and; T4N2M1, one case. Liver metastases were identified either at the time of colorectal surgery (n ¼ 11) or during the first year after initial diagnosis (n ¼ 9); to date, patients have not shown any other metastasis. The mean size of the liver metastases was of 4.3±2.2 cm. After histopathological diagnosis was established, part of the primary tumor and its paired liver metastasis (both corresponding to a macroscopically tumoral region) were used to prepare single-cell suspensions. Once prepared, single-cell suspensions were resuspended in methanol/acetic acid (3/1; vol/vol) and stored at 20 1C for further interphase FISH analyses, as recently described.17 The remaining tissue was either fixed in formalin Modern Pathology (2012) 25, 590–601 Genetic profiling of liver metastases from colorectal carcinomas 592 L Muñoz-Bellvis et al and embedded in paraffin, or frozen in liquid nitrogen and stored at room temperature or at 80 1C, respectively. All tissues were evaluated after hematoxylin–eosin staining to confirm the presence of tumor cells and to evaluate their quantity in each individual sample. For SNP array studies, tumor DNA was extracted from representative areas of freshly frozen tumor tissues (primary tumors and liver metastases), which contained Z65% epithelial tumor cells, localized mirror-cut to those used for iFISH analyses. In turn, normal DNA was extracted from peripheral blood leukocytes from the same patient. For the three types of samples (primary tumors, paired liver metastases and peripheral blood leukocytes), DNA was extracted using the QIAamp DNA mini kit (Qiagen, Hilden, Germany) following the instructions of the manufacturer. SNP Array Studies Each DNA sample derived from primary tumors and liver metastases and normal peripheral blood leukocytes was hybridized to two different 250 K Affymetrix SNP Mapping arrays (NspI and StyI SNP arrays, Affymetrix, Santa Clara, CA, USA); for this purpose, 250 ng of DNA per array was used, according to the instructions of the manufacturer. Fluorescence signals were detected using the Affymetrix GeneChip Scanner 3000 (Affymetrix), and average genotyping call rates of 94.4, 91.5 and 97.3% were obtained for primary tumors, liver metastases and normal peripheral blood DNA samples, respectively. To identify copy number changes throughout the whole tumor genome, the aroma.affymetrix algorithm was used, following the CRMA v2 method described elsewhere18 (R-software package, http:// www.aroma-project.org) and the following sequential steps: (i) calibration for crosstalks between pairs of allele probes; (ii) normalization for probe nucleotide-sequence effects; and (iii) normalization for PCR fragment-length and probe localization effects. Then, data from the 250K StyI and 250K NspI arrays was integrated into a single database, and raw copy number values were calculated as transformed log2 values of the primary tumor/normal peripheral blood, liver metastasis/normal peripheral blood, liver metastases/primary tumor ratios calculated for each individual patient. To identify DNA regions with similar copy number values, we used Circular Binary Segmentation as implemented in the DNAcopy Bioconductor package19 with the default parameters; a P-value r0.01 for Z5 markers per DNA segment was used to define points with changes. We used the smoothed value by assigning the median segment value to each probe. For the identification of altered (gained or lost) DNA regions, a threshold was established on the basis of the changes observed in the fluorescence intensity of sequential DNA segments for primary Modern Pathology (2012) 25, 590–601 tumor versus peripheral blood, liver metastasis versus peripheral blood, and for liver metastases versus primary tumor samples, for each of the 20 patients studied. Log2 ratio values 40.09 and o0.09 were used as cut-off thresholds to define the presence of increased and decreased copy number values, respectively. High-level gains (DNA amplification) were defined as regions with a mean log2 copy number ratio Z0.25. The specific frequencies of both copy number gains and losses per SNP were established and plotted along individual chromosomes for each tumor sample analyzed, for all individual cases studied. On the basis of the empirical frequency distribution of gains and losses among the 20 primary and the 20 metastatic tumor samples, respectively, we took the common altered regions grouping the contiguous SNPs with adjusted P-values o0.01 (false discovery rate correction, based on the Benjamini and Hochberg procedure).20 Minimal common regions were defined as the smallest subset of SNPs in the altered regions with the highest frequency of gains and losses. At least five contiguous SNPs were required to define a region. Genes in these regions were identified using Ensembl release 53 (http://www.ensembl.org). The pattern of copy number changes of the primary tumors analyzed here has been previously reported in detail in a recent study.21 Interphase FISH Studies To evaluate the reproducibility of the SNP array results and to assess background noise impact of this technique, interphase FISH analyses of the same tumor samples was performed in parallel, using 24 probes directed against an identical number of regions from 20 different human chromosomes, which are frequently altered in sporadic colorectal carcinomas. Overall, our results showed a high degree of correlation between both methods; this also holds true when such analysis was restricted to the most frequently altered regions, as previously described.21 Immunohistochemistry One block of formalin-fixed paraffin wax-embedded adenocarcinoma tissue was selected in each case. In all cases, this block comprised an area of normal colonic mucosa adjacent to the tumor. Sections (4 mm) were affixed to Superfrost-plus slides (CML, Nemours, France) and dried overnight at 37 1C. Paraffin was removed and the tissue rehydrated using xylene and ethanol. Slides were subjected to microwave antigen retrieval in 10 mM citrate buffer (pH 6) at 85 1C for 35 min and cooled in phosphatebuffered saline, pH 7.4 (Sigma). Endogenous peroxidase activity was blocked with 2% hydrogen peroxide in methanol, and slides were washed with phosphate-buffered saline before overnight incubation with the appropriate antibody at a dilution of Genetic profiling of liver metastases from colorectal carcinomas 593 L Muñoz-Bellvis et al 1:100. Commercially available monoclonal antibodies against the nuclear proteins MLH1 (Clone G168-15; BD Biosciences, San Jose, CA, USA), MSH2 (Clone FE11; Biocare Medical, CA, USA) and MSH6 (Clone BC/44; Biocare Medical) were applied, followed by staining with Strept ABC complex/HRP Duet kit (DAKO, Copenhagen, Denmark) in conjunction with diamino benzedene 180 mg in 300 ml phosphate-buffered saline with 300 ml hydrogen peroxide. Sections were washed under running tap water and then lightly counterstained in Mayer’s hematoxylin. Loss of expression was recorded when nuclear staining was absent from all malignant cells, but preserved in normal epithelial and stroma cells. Two observers assessed all cases independently. Statistical Methods For all continuous variables, mean values and their s.d. and range were calculated using the SPSS software package (SPSS 12.0. Chicago, IL USA); for dichotomic variables, frequencies were reported. To evaluate the statistical significance of differences observed between groups, the Mann–Whitney U-test and the w2-test were used for continuous and categorical variables, respectively (SPSS). Results Frequency and Chromosomal Localization of Copy Number Changes in Liver Metastasis from Colorectal Carcinoma Overall, liver metastases from the 20 colorectal cancer patients analyzed systematically contained those chromosomal abnormalities that were identified in their paired primary colorectal carcinomas; (please note that the later have been previously described in detail for a larger series of patients).21 Despite this, some aberrations were either newly acquired or more frequently found in liver metastases than in their paired primary tumors, which could reflect an increased genetic instability of neoplastic cells from metastatic versus primary tumor samples (Figure 1). In detail, all liver metastases showed copy number changes in at least one chromosomal region. The highest frequency of copy number losses detected corresponded to chromosomes 1p (n ¼ 16; 80%), 17p (n ¼ 18; 90%) and 18q (n ¼ 19; 95%); in turn, copy number gains more frequently involved chromosomes 7p (n ¼ 18; 90%), 8q (n ¼ 15; 75%), 13q (n ¼ 14; 70%) and 20q (n ¼ 15; 75%) (see Supplementary Table S1). Interestingly, each of these regions has been previously found to contain Figure 1 Metastatic colorectal cancer genome for the 20 colorectal carcinoma patients genotyped on the Affymetrix 500 K SNP array platform. A summary plot showing the frequency (a (in the left)) and fluorescence intensity log2 ratios (b (in the left)) of those copy number gains (plotted in red above zero values in the x axis) and losses (plotted in green below zero values in the x axis) identified in primary sporadic colorectal tumors (light colors), and their paired liver metastases (dark color) are displayed for the whole genome. The panels in the right show abnormalities identified in primary sporadic colorectal tumors (light colors) and their paired liver metastases (dark color) for individual chromosomes, which showed new abnormalities in metastatic versus primary tumor samples (c–h), or displayed an increased frequency of abnormalities in metastatic samples, which were already detected in primary tumors (i–q). Arrows point to regions of interest. Modern Pathology (2012) 25, 590–601 Genetic profiling of liver metastases from colorectal carcinomas 594 L Muñoz-Bellvis et al genes, which are altered/involved in colorectal cancer (eg, ANGPT2, UBR5, KLF10, EIF3H, NOV, DCT, ABCC4, SLC15A1, EFNB2, IRS2, ING1, MAP2K4 (mitogen-activated protein kinase kinase4), ID1, BCL2L1, MYLK2, CBFA2T2 and E2F1) and/or genes that are relevant to the metastatic process (eg, ANGPT2, RRM2B, KLF10, RAD21, NOV, POU4F1, SPRY2, DCT, CLDN10, EFNB2, IRS2, COL4A2, ING1, MYH8, MAP2K4, ID1, BCL2L1, TPX2, MYLK2 and E2F1), in addition to genes associated with other malignancies (ie, TRPS1, BTF3L1, DNAJC3, STK24, TM9SF2, LIG4, ARHGEF7, SCO1, MYOCD, GALR1, HCK and SMC1B; Table 1). From them, the ANGPT2, MAP2K4, E2F1, ID1 and BCL2L1 genes have been reported to be involved in mechanisms that lead to increased cell proliferation and angiogenesis, and they have been found to be altered in both colorectal cancer and the metastatic events. Frequency and Chromosomal Localization of HighLevel Copy Number Gains in Liver Metastases from Colorectal Carcinomas Chromosome 7 showed 17 regions, which displayed high level genetic amplification (Table 2) with mean log2 ratio fluorescence intensities of 0.28 (range: 0.25–0.36). These 17 regions were distributed along the whole chromosome 7 at the 7p22, 7p21, 7p15, 7p12, 7q22 and 7q36 chromosome bands, and they were all found to be altered (amplified) in Z14/20 cases studied (70%; see Supplementary Table S2). These regions contain multiple genes, which have been recurrently associated with the pathogenesis of colorectal cancer and the metastatic process: FSCN1, TWIST1, ITGB8, DFNA5, HOXA7, GRB10, EGFR, AZGP1, MCM7, EPHB4 and MUC3A (Table 2). In turn, for chromosome 8, only two regions of highlevel genetic amplification (mean fluorescence intensities of 0.42 and 0.37, respectively) were detected; both regions were localized at the 8q24 chromosome band, and they involved the MTSS1 and ASAP1 genes (Table 2). Additionally, chromosomes 13 and 20 also displayed three regions (two in chromosome 13 and one in chromosome 20) with high level genetic amplification (mean fluorescence intensities of 0.45 and 0.43, respectively), containing genes potentially involved in the pathogenesis of colorectal cancer and the metastatic process, the KLF5 and IRS2 and the MMP9 genes coded in the 13q22.1, 13q34 and 20q13.12 chromosomal regions, respectively (Table 2). Acquired Chromosomal Abnormalities in Liver Metastases In individual patients, primary tumors and their paired liver metastases frequently revealed the same chromosomal changes at both sites (Figure 1). However, liver metastases from 8 out of 20 cases showed acquisition of new genetic abnormalities that were not found in their paired primary tumors. Table 1 Chromosomal regions, which most frequently displayed copy number alterations by SNP arrays, in colorectal liver metastases and that contain genes commonly associated with colorectal cancer and the metastatic process (n ¼ 20) Altered chromosomal regions (bp) Region length Number of Chromosome (bp) SNPs band Event Altered cases (%) Cancer-associated genes 74 416 2 317 369 1 298 226 16 946 41 449 222 8 8p23.1 8q22.3 8q23.3 8q24.12 Deletion Gain Gain Gain 70 75 75 75 ANGPT2a RRM2B, UBR5a, KLF10, TRPS1, EIF3Ha, RAD21 NOVa 7 903 892 291 609 381 797 777 956 2 428 886 1 324 017 46 960 1 716 659 1469 72 118 80 530 327 15 406 13q22.3 13q31.3 13q31.3 13q31.3 13q32.1 13q33.2 13q33.3 13q34 Gain Gain Gain Gain Gain Gain Gain Gain 70 70 70 70 70 70 70 70 BTF3L1, POU4F1, SPRY2 DCTa ABCC4a CLDN10, DNAJC3 STK24, SLC15A1a, TM9SF2 EFNB2a LIG4 IRS2, COL4A2, ING1a, ARHGEF7 Chr17: 10 134 845–11 066 755 Chr17: 11 124 244–12 787 020 931 910 1 662 776 178 312 17p13.1 17p12 Deletion Deletion 90 90 MYH8, SCO1 MAP2K4a, MYOCD Chr18: 71 151 155–73 487 286 2 336 131 645 18q22.3 Deletion 95 GALR1 Chr20: 29 314 247–30 386 296 Chr20: 31 377 143–32 096 987 1 072 049 719 844 103 81 20q11.21 20q11.21 Gain Gain 75 75 ID1, BCL2L1a, TPX2, HCK, MYLK2a CBFA2T2a, E2F1a Chr22: 44 114 817–44 172 947 58 130 16 22q13.2 Deletion 70 SMC1B Chr8: Chr8: Chr8: Chr8: 6 319 564–6 393 980 102 281 574–104 598 943 116 722 193–118 020 419 120 491 103–120 508 049 Chr13: Chr13: Chr13: Chr13: Chr13: Chr13: Chr13: Chr13: 75 649 333–83 553 225 93 770 996–94 062 605 94 410 370–94 792 167 94 803 129–95 581 085 96 635 106–99 063 992 105 576 623–106 900 640 107 631 285–107 678 245 109 092 251–110 808 910 a Genes that have been described to be involved/altered in colorectal cancer, and genes that have been commonly associated with the metastatic process are shown in bold italics. Modern Pathology (2012) 25, 590–601 Genetic profiling of liver metastases from colorectal carcinomas 595 L Muñoz-Bellvis et al Table 2 Chromosomal regions, which most frequently displayed high-level genetic amplification by SNP arrays, and which contained genes commonly involved/altered in colorectal cancer and/or associated with the metastatic process (n ¼ 20) Amplified chromosomal regions (bp)a Chromosomal band Mean log2 ratio Maximum log2 ratio Altered cases (%) Cancer-associated genes Chr7: Chr7: Chr7: Chr7: Chr7: Chr7: Chr7: 2 888 108–2 965 622 4 624 574–5 634 592 19 099 597–19 164 657 20 315 252–20 348 199 24 288 850–24 294 445 24 761 544–24 764 289 27 110 282–27 278 326 7p22.2 7p22.1 7p21.1 7p15.3 7p15.3 7p15.3 7p15.2 0.26 0.26 0.29 0.26 0.28 0.27 0.36 1.40 1.13 1.33 0.93 1.68 1.45 1.67 80 85 80 80 80 80 70 Chr7: Chr7: Chr7: Chr7: Chr7: Chr7: 28 169 667–28 211 202 50 163 751–50 752 627 50 797 965–50 839 403 50 797 965–50 839 403 54 954 150–56 213 585 99 301 754–101 811 250 7p15.2 7p12.2 7p12.2 7p12.2 7p11.2 7q22.1 0.28 0.27 0.32 0.33 0.27 0.25 1.19 1.93 1.41 1.42 1.10 0.70 70 75 75 75 75 70 Chr7: Chr7: Chr7: Chr7: 105 711 183–105 715 751 154 677 722–155 005 086 156 357 544–156 630 253 156 893 472–158 147 850 7q22.2 7q36.3 7q36.3 7q36.3 0.25 0.27 0.28 0.29 0.88 0.91 0.63 1.34 70 70 70 70 CARD11 FSCN1b TWIST1b ITGB8b NPYb DFNA5b HOXA5, HOXA7b, HOXA9, HOXA11, HOXA13 JAZF1 IKZF1, DDC SLC4A2, FASTK GRB10b EGFRb, PSPH AZGP1b, MCM7b, CUX1, EPHB4b, MUC3Ab, MUC12b PBEF1 EN2 MNX1, UBE3C PTPRN2 Chr8: 125 800 442–125 834 484 Chr8: 131 064 043–131 191 826 8q24.13 8q24.21 0.42 0.37 1.19 0.98 85 70 MTSS1 ASAP1b Chr13: Chr13: Chr13: Chr13: Chr13: Chr13: Chr13: 13q22.1 13q31.1 13q31.3 13q32.2 13q34 13q34 13q34 0.41 0.46 0.47 0.43 0.44 0.47 0.45 0.73 1.39 1.50 1.49 1.20 1.47 1.79 70 70 70 70 70 70 70 KLF5b SPRY2 MIRHG1 STK24 IRS2b COL4A1, COL4A2 ARHGEF7 20q12 20q13.12 20q13.33 0.41 0.41 0.47 1.10 0.88 1.8 70 70 70 PTPRT MMP9b CDH4b 72 497 695–72 659 497 79 810 102–79 825 947 90 792 026–90 811 945 98 007 816–98 035 844 109 205 907–109 255 030 109 743 976–109 764 350 110 549 062–110 578 598 Chr20: 41 247 578–41 278 159 Chr20: 44 007 866–44 178 129 Chr20: 59 241 454–59 268 793 a Only those regions, which were recurrently amplified in at least 14 out of 20 cases analyzed (470%) are listed. Genes that have been described to be involved/altered colorectal cancer, and genes that have been commonly associated with metastatic processes are shown in bold italics. High-level genetic amplification was defined versus those with an average log2 copy number ratio Z0.25. b These new metastatic aberrations included copy number gains at chromosomes 2p, 5p, 6p, 7q and 11p, together with copy number losses of chromosomes 4, 5q and 10q (Table 3). The specific abnormalities, which were recurrently detected in 8 out of 20 colorectal carcinomas metastasis for those chromosomal regions that showed a normal diploid profile in their corresponding (paired) primary tumors, are shown in Figure 2. As illustrated, these metastatic abnormalities involved chromosomal regions which harbor i) tumor suppressor genes that have a key role in the metastatic process (eg, the ANXA5, CCNA2, IL2 and IL21 genes at chromosome 4q27; the PLK4, IL15, GAB1, HHIP and SMAD1 genes coded at the 4q28.1 chromosome regions and the PTEN gene coded at the 10q23.33 chromosomal region) and; (ii) oncogenes (eg, the PTGER4 and PRKAA1 genes coded at chromosome 5p13.1, and both the RIPK1 and NQO2 genes coded at chromosome 6p25.2); copy number gains of the former two oncogenes have been associated with advanced colorectal carcinoma. Many other genetic aberrations were present in liver metastases from colorectal carcinoma analyzed, but at lower frequencies (Figure 1). Correlation Between the Chromosomal Changes Detected by Interphase FISH and SNP Array Studies Overall, the chromosomal abnormalities identified by interphase FISH in liver metastases showed profiles similar to those found by SNP array studies, also when such analysis was restricted to the most frequently altered regions. Thus, gains/amplification at 7q were detected in 60% of the cases by interphase FISH versus 70% by SNP array studies (r2 ¼ 0.67; Po0.001); similarly, gains/amplification of chromosomes 8q (found in 70% of cases by interphase FISH vs 75% by SNP array studies; Modern Pathology (2012) 25, 590–601 Genetic profiling of liver metastases from colorectal carcinomas 596 L Muñoz-Bellvis et al Table 3 Metastatic colorectal cancer genome for the 20 colorectal cancer patients genotyped on the Affymetrix 500 K SNP array platform: chromosomal abnormalities identified exclusively in liver metastases (and not in their paired primary tumors), which involved chromosomal regions that contain genes commonly associated with cancer and/or the metastatic process Altered chromosomal regions (bp) Chromosome band Event Number of altered casesa Mean log2 ratio in liver metastases Cancer-associated genes Chr2: 11 301 969–11 420 624 2p25.1 Gain 7 1.13 — Chr4: Chr4: Chr4: Chr4: Chr4: Chr4: 4p15.33 4p15.33 4p15.33 4q22.3 4q22.3 4q27 Deletion Deletion Deletion Deletion Deletion Deletion 7 7 7 7 7 8 23.76 53.43 48.17 58.56 55.19 61.43 Chr4: 126 668 154–147 205 681 4q28.1 Deletion 8 324.84 Chr4: 147 218 521–148 654 896 Chr4: 148 658 165–150 007 154 Chr4: 151 081 476–169 411 644 4q31.22 4q31.23 4q31.3 Deletion Deletion Deletion 7 7 7 26.13 24.35 317.79 Chr4: Chr4: Chr4: Chr4: Chr4: Chr4: 171 433 995–173 576 567 175 432 179–176 373 292 176 393 349–181 031 240 181 036 139–183 912 221 183 917 599–185 620 740 188 066 517–189 969 188 4q33 4q34.1 4q34.2 4q34.3 4q35.1 4q35.2 Deletion Deletion Deletion Deletion Deletion Deletion 7 8 7 8 7 8 37.39 17.93 93.92 81.56 28.21 31.94 — —BST1b, FGFBP1b, PROM1b BMPR1Bb EIF4Eb, ADH5, MTTPb ANXA5b, CCNA2b, IL2b, IL21b, NUDT6b, FAT4b PLK4b, SLC7A11, NARG1, SETD7, IL15b, INPP4B, GAB1b, SMARCA5, HHIPb, SMAD1b EDNRA, POU4F2, LSM6 EDNRA, ARHGAP10, NR3C2b LRBA, MAB21L2b, FBXW7b, SFRP2b, ANXA10b, LRAT, PDGFCb, PPIDb, CPEb HPGDb VEGFCb IRF2b, DCTDb, ING2b ZFP42 Chr5: Chr5: Chr5: Chr5: Chr5: Chr5: 31 602 359–32 770 165 40 710 736–40 901 620 42 953 413–43 243 995 43 501 986–43 901 209 58 935 951–59 201 448 141 299 822–141 552 149 5p13.1 5p13.1 5p12 5p12 5q12.1 5q31.3 Gain Gain Gain Gain Deletion Gain 7 8 7 7 6 7 17.03 1.55 3.87 2.68 6.29 2.14 NPR3, PDZD2 PTGER4b, PRKAA1b — — — RNF14b Chr6: 1 310 265–1 608 630 Chr6: 2 713 210–3 252 280 6p25.3 6p25.2 Gain Gain 7 8 7.89 9.74 Chr6: Chr6: Chr6: Chr6: Chr6: Chr6: Chr6: Chr6: Chr6: Chr6: Chr6: Chr6: Chr6: 6p25.2 6p25.2 6p25.2 6p25.1 6p25.1 6p25.1 6p24.3 6p24.3 6p23 6p23 6p23 6p22.3 6p22.3 Gain Gain Gain Gain Gain Gain Gain Gain Gain Gain Gain Gain Gain 8 8 7 7 7 7 8 7 7 7 7 7 7 0.98 0.90 5.45 7.36 7.00 4.22 1.18 0.96 2.08 6.40 8.47 4.71 12.44 — RIPK1b, NQO2b, SERPINB1, SERPINB6b, SERPINB9 — — — — — — BMP6b TFAP2Ab — — CD83b — NRN1, DEK, BPHL, RIPK1b 7q36.3 Gain 7 3.79 — 10q13.2 10q23.1 10q23.2 10q23.33 Deletion Deletion Deletion Deletion 6 6 7 6 10.26 9.53 1.89 21.38 — — PTENb BLNK, DNTT, FRAT1b, LOXL4b, PGAM1b, SFRP5b 11p13 11p11.2 Gain Gain 6 6 17.60 19.81 LMO2, HIPK3, WT1b CD82b, EXT2b, ALKBH3 11 217 752–12 280 681 12 402 361–14 483 843 14 537 247–16 743 438 95 174 065–97 996 020 98 021 823–101 566 164 122 461 059–126 659 227 3 391 923–3 411 021 3 663 243–3 673 023 4 026 261–4 342 058 4 840 846–5 220 281 5 493 557–5 966 877 6 476 360–6 654 484 7 647 658–7 683 958 10 495 977–10 532 295 13 593 062–13 758 950 13 857 081–14 361 384 15 143 396–15 884 421 16 085 720–16 448 755 17 210 737–18 442 309 Chr7: 158 430 322–158 640 662 Chr10: Chr10: Chr10: Chr10: 71 077 186–71 425 507 83 990 316–84 564 355 89 574 656–89 676 489 97 903 413–100 323 090 Chr11: 32 104 370–34 401 072 Chr11: 43 653 493–45 414 563 a Number of cases with chromosomal abnormalities identified exclusively in liver metastases and not in their paired primary tumors. Genes that have been described to be altered/involved in colorectal cancer, and genes that have been commonly associated with the metastatic process are shown in bold italics. b r2 ¼ 0.79; Po0.001), 13q (80 vs 70%; r2 ¼ 0.78; Po0.001) and 20q (80 vs 75%; r2 ¼ 0.80; Po0.001), as well as deletions of chromosomes 8p (65 vs 70%; r2 ¼ 0.81; Po0.001), 17p (75 vs 90%; r2 ¼ 0.64; p ¼ 0.02) and 18q (75 vs 95%; r2 ¼ 0.63; p ¼ 0.03) were detected at similar frequencies with both methods. Modern Pathology (2012) 25, 590–601 Microsatellite Status All primary tumors examined (n ¼ 20) showed a normal expression of the MLH1, MSH2 and MSH6 mismatch repair proteins in the nucleus and adjacent non-neoplastic tissue elements. Genetic profiling of liver metastases from colorectal carcinomas 597 L Muñoz-Bellvis et al Figure 2 Metastatic colorectal cancer genome for the 20 colorectal carcinoma patients genotyped on the Affymetrix 500 K SNP array platform; copy number changes detected in liver metastases (n ¼ 8/20 cases; red color) versus their paired primary tumors (blue color) for the 4q27, 4q28.1, 4q34.1, 5p13.1, 6p25.2 and 10q23.33 chromosomal regions (a). Genes contained in the newly altered chromosomal regions are listed in italics capital letters. Log2 ratios 40.09 and o0.09 (shown as colored background) were used as cut-off thresholds to define the presence of increased and decreased copy number values, respectively. All copy number changes detected between liver metastases versus their paired primary tumors showed statistically significant differences (Po0.001). As an example, the 3p14, 12q12 and 19q13 chromosomal regions, which did not show any differences between paired primary and metastatic lesions, are also shown (b). Discussion This study focused on the genetic characterization of liver metastases that occur in the context of primary colorectal carcinoma. To the best of our knowledge, this is the first study that compares the genetic abnormalities found in liver metastases versus paired primary colorectal tumors, in which high-resolution 500 K SNP arrays have been systematically used. Overall, primary tumors and their paired metastases from individual patients frequently revealed many common chromosomal changes at both sites; these findings support the existence of a close genetic relationship between primary colorectal tumors and their paired liver metastases, as previously suggested.17 Genetic changes observed in common in both groups of samples included gains of chromosomes 7, 8q, 13q and 20 and losses of the 1p, 4, 8p, 17p, 18 and 22q chromosomes with normal expression of the MLH1, MSH2 and MSH6 mismatch repair proteins. In line with other studies, all our metastatic tumors showed a higher frequency of these chromosomal abnormalities than primary colorectal tumors,7,22 and some of these abnormalities, together with deletions on chromosome 15q, have been associated with disease progression.23 Previous studies in which the genetic abnormalities of colorectal carcinoma have been Modern Pathology (2012) 25, 590–601 Genetic profiling of liver metastases from colorectal carcinomas 598 L Muñoz-Bellvis et al investigated by conventional cytogenetics,24 FISH,17 CGH,25 array CGH26 and low-resolution 50 K SNP arrays23 have also found that most of these genetic abnormalities are recurrently identified in primary tumors from metastatic colorectal carcinoma. On the basis of the high frequency of these chromosomal abnormalities in both primary and metastatic samples, it could be hypothesized that they reflect a metastatic genetic profile of colorectal carcinoma that could be of great clinical utility for the identification of colorectal carcinoma patients at higher risk of developing liver metastases, already at diagnosis. Interestingly, high-level genetic amplification was found at specific regions of chromosomes 7, 8, 13 and 20; overall, 43 genes commonly involved/ altered in colorectal cancer and/or associated with the metastatic process are coded in these regions. Of note, 17 of these 43 genes have been associated with progression of hepatocellular carcinomas.27–29 Altogether, these findings could suggest that these genetic abnormalities that are acquired by metastatic colorectal carcinoma cells in the liver could be associated with homing and/or adaptation to the liver microenvironment. Among these genes, overexpression of TWIST1 has been demonstrated to induce angiogenesis; at the same time, it has been associated with both the development of metastasis in hepatocellular carcinomas30 and an unfavorable outcome in colorectal carcinoma patients;31 in turn, increased expression of IRS2—commonly found in human hepatocellular carcinoma specimens and hepatoma cell lines—32 has been associated with colon tumorigenesis, in which it contributes to tumor progression and an aggressive clinical behavior.33 In line with this hypothesis, preliminary studies on genomic differences detected in primary colorectal carcinomas versus paired brain metastases have described a genetic profile consisting of gains of 8q, 12p, 12q, 20p, and loss of 5q in brain metastasis,34 which is clearly different from that observed in our liver metastases. The different genetic signature associated with liver versus brain metastases could mirror the unique adaptation process of metastatic tumor cells to each specific microenvironment. Despite these findings, those three chromosomal regions, which showed the highest levels of amplification, were 13q31.3, 13q34 and 20q13.33, where four known cancer genes (MIRHG1, COL4A1, COL4A2 and CDH4) are coded. To the best of our knowledge, no specific association between amplification of these genes and colorectal carcinoma has been reported so far; conversely, deregulation of these genes has been associated with neuroblastoma,35 esophageal squamous cell carcinoma36 and glioblastoma multiforme.37 In the present study, we also show the existence of recurrent genetic changes between paired primary and metastatic colorectal tumor cells. Such changes mainly consist of (1) an increased frequency of Modern Pathology (2012) 25, 590–601 genetic lesions of chromosomes that have been associated with metastatic colorectal carcinoma (1p, 7p, 8q, 13q, 17p, 18q, 20q) and, more interestingly, (2) acquisition of new chromosomal abnormalities (eg, losses of chromosomes 4 and 10q and gains of chromosomes 5p and 6p). Interestingly, the former abnormalities involved chromosomal regions that encode for up to 11 genes, which have been previously found to be involved in the metastatic process of colorectal carcinoma. As an example, the ANGPT2 gene (localized in chromosome 8 at 8p23.1) is known to be involved in angiogenic processes and has been previously associated with an invasive/malignant potential;38 in turn, the E2F1 gene (20q11.21) has been shown to have a crucial role in the control of cell cycle through downregulation of tumor suppressor proteins.39 Similarly, the ID1 and BCL2L1 genes (both coded in the same chromosomal region at 20q11.21) are also known to have a role in cell growth, senescence and differentiation, and the carcinogenesis of human colorectal carcinoma,40 whereas overexpression of the Id1 protein has been associated with tumor progression in colorectal carcinoma.41 In turn, Paredes et al11 have recently described that losses of chromosome 17p in metastatic colorectal cancer samples cover larger regions than in primary tumors, suggesting that additional unknown suppressor genes could be present at 17p, in the newly deleted sequences. In line with these findings, we have recurrently identified loss of the MAP2K4 gene at 17p12 in the great majority of the metastatic samples analyzed. The MAP2K4 gene is a member of the stress-activated protein kinase signaling cascade involved in the regulation of multiple cellular processes, which among other associations, has been recently suggested to have a functional role as a metastasis-suppressor gene in several malignant tumors, for example, human prostatic cancer,42 ovarian cancer,43 as well as breast and pancreatic tumors.44 Similarly, a potential role for 18q LOH in the development of colorectal cancer with associated liver metastases has been suggested,10 as well as its potential independent prognostic value,45 which may depend on the microsatellite instability status.46 In this regard, chromosomal instability has been associated in colorectal cancer with a worse prognosis, and different groups of tumors have been defined on the basis of the chromosomal instability status.47 Herein, we identified loss of the 18q22–q23 chromosomal region in the great majority (95%) of the metastatic samples analyzed; interestingly, no clear association could be found between 18q LOH and the microsatellite instability status, because of normal expression of the MLH1, MSH2 and MSH6 mismatch repair genes, and potentially, also the relatively limited number of cases studied. Similarly, the sample size and the presence of multiple structural and/or numerical chromosome changes in all liver metastases analyzed precludes the study of chromosomal instability subtypes. Genetic profiling of liver metastases from colorectal carcinomas 599 L Muñoz-Bellvis et al Many patients also showed acquisition of new genetic aberrations, which were not detected in their paired primary tumors. These included gains of chromosomes 2, 5p, 6p, 7q and 11p, and losses of chromosomes 4 and 10q. These results suggest that these chromosomal regions may also have a relevant role in the metastatic process as supported by the fact that some of them—for example, del(4p15.33), del(4q22.3), del(4q27), del(4q28.1), del(4q31), del(4q35.1) and del(10q23)—are known to contain multiple tumor suppressor genes (eg, PLK4 at 4q28.1, SFRP2 at 4q31.3, IRF2 at 4q35.1 and PTEN at 10q23.2)48–51 and genes that are involved in the metastatic process.52–54 In line with these findings, previous studies in which primary colorectal carcinomas were compared with liver metastases also reported a greater frequency of chromosome 4 losses in late versus early stages of the disease.9,55 However, due to the limited sensitivity of the SNP array technique for the detection of small clones that could already be present in primary tumors, further studies in which such abnormalities are investigated at the single-cell level are required to confirm our findings. In summary, here we show the existence of relevant genetic differences between paired primary and metastatic colorectal tumors, which mainly consist of (1) an increased frequency of genetic lesions of chromosomes that have been associated with metastatic colorectal cancer (1p, 7p, 8q, 13q, 17p, 18q, 20q) and, more interestingly, (2) acquisition of new chromosomal abnormalities (eg, losses of chromosomes 4 and 10q and gains of chromosomes 5p and 6p). These genetic changes acquired by metastatic tumors may be associated with either the metastatic process and/or adaption of metastatic cells to the liver microenvironment. Further studies in larger series of patients, in which cases with nonresecable liver metastasis are also analyzed, are necessary to dissect the specific role of each of the altered genes and chromosomal regions in the metastatic spread of colorectal tumors. Additional gene expression profile studies are required to validate the proteins associated with copy number alterations in the metastasis versus the primary tumor. Acknowledgements This work has been partially supported by grants from the Consejerı́a de Sanidad, Junta de Castilla y León, Valladolid, Spain (SAN191/SA09/06, SAN673/SA39/08 and SAN/103/2011), Fundación Memoria de Don Samuel Solórzano Barruso, Salamanca, Spain, Caja de Burgos (Obra Social), Burgos, Spain, Grupo Excelencia de Castilla y León (GR37) and the RTICC from the Instituto de Salud Carlos III (ISCIII), Ministerio de Sanidad y Consumo, Madrid, Spain (RD06/0020/0035-FEDER). JM Sayagués and M González are supported by grants (CP05/00321 and FI08/00721, respectively) from the ISCIII, Ministerio de Ciencia e Innovación, Madrid, Spain. Disclosure/conflict of interest The authors declare no conflict of interest. References 1 Tsai HL, Lu CY, Hsieh JS, et al. The prognostic significance of total lymph node harvest in patients with T2-4N0M0 colorectal cancer. J Gastrointest Surg 2007;11:660–665. 2 Macartney-Coxson DP, Hood KA, Shi HJ, et al. Metastatic susceptibility locus, an 8p hot-spot for tumour progression disrupted in colorectal liver metastases: 13 candidate genes examined at the DNA, mRNA and protein level. BMC Cancer 2008;8:187. 3 Sugai T, Habano W, Nakamura S, et al. Allelic losses of 17p, 5q, and 18q loci in diploid and aneuploid populations of multiploid colorectal carcinomas. Hum Pathol 2000;31:925–930. 4 Zeitoun G, Mourra N, Blanche-Koch H, et al. Genomic profile of colon cancer metastases. Anticancer Res 2008;28:3609–3612. 5 Diep CB, Parada LA, Teixeira MR, et al. Genetic profiling of colorectal cancer liver metastases by combined comparative genomic hybridization and Gbanding analysis. Genes Chromosomes Cancer 2003; 36:189–197. 6 Diep CB, Kleivi K, Ribeiro FR, et al. The order of genetic events associated with colorectal cancer progression inferred from meta-analysis of copy number changes. Genes Chromosomes Cancer 2006;45:31–41. 7 Al Mulla F, Keith WN, Pickford IR, et al. Comparative genomic hybridization analysis of primary colorectal carcinomas and their synchronous metastases. Genes Chromosomes Cancer 1999;24:306–314. 8 Hu XT, Chen W, Wang D, et al. The proteasome subunit PSMA7 located on the 20q13 amplicon is overexpressed and associated with liver metastasis in colorectal cancer. Oncol Rep 2008;19:441–446. 9 Korn WM, Yasutake T, Kuo WL, et al. Chromosome arm 20q gains and other genomic alterations in colorectal cancer metastatic to liver, as analyzed by comparative genomic hybridization and fluorescence in situ hybridization. Genes Chromosomes Cancer 1999;25:82–90. 10 Tanaka T, Watanabe T, Kazama Y, et al. Chromosome 18q deletion and Smad4 protein inactivation correlate with liver metastasis: A study matched for T- and Nclassification. Br J Cancer 2006;95:1562–1567. 11 Paredes-Zaglul A, Kang JJ, Essig YP, et al. Analysis of colorectal cancer by comparative genomic hybridization: evidence for induction of the metastatic phenotype by loss of tumor suppressor genes. Clin Cancer Res 1998;4:879–886. 12 Blaker H, Graf M, Rieker RJ, et al. Comparison of losses of heterozygosity and replication errors in primary colorectal carcinomas and corresponding liver metastases. J Pathol 1999;188:258–262. 13 Walker BA, Morgan GJ. Use of single nucleotide polymorphism-based mapping arrays to detect copy Modern Pathology (2012) 25, 590–601 Genetic profiling of liver metastases from colorectal carcinomas 600 L Muñoz-Bellvis et al 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 number changes and loss of heterozygosity in multiple myeloma. Clin Lymphoma Myeloma 2006;7:186–191. Camps J, Grade M, Nguyen QT, et al. Chromosomal breakpoints in primary colon cancer cluster at sites of structural variants in the genome. Cancer Res 2008;68:1284–1295. World Health Organization. WHO International Histological Classification of Tumors, Vol 1–25. Geneva, 1967–1981 2nd edn. Springer-Verlag: Berlin, 1988–1992. Greene FL. Current TNM staging of colorectal cancer. Lancet Oncol 2007;8:572–573. Sayagues JM, Abad MM, Barquero H, et al. Intratumoral cytogenetic heterogeneity of sporadic colorectal carcinomas suggests several pathways to liver metastasis. J Pathol 2010;221:308–319. Bengtsson H, Irizarry R, Carvalho B, et al. Estimation and assessment of raw copy numbers at the single locus level. Bioinformatics 2008;24:759–767. Venkatraman ES, Olshen AB. A faster circular binary segmentation algorithm for the analysis of array CGH data. Bioinformatics 2007;23:657–663. Benjamini Y, Hochberg Y. On the adaptive control of the False Discovery Rate in multiple testing with independent statistics. JEBS 2000;25:60–83. Sayagues JM, Fontanillo C, Abad MM, et al. Mapping of genetic abnormalities of primary tumours from metastatic CRC by high-resolution SNP arrays. PLoS ONE 2010;29:e13752. Diep CB, Teixeira MR, Thorstensen L, et al. Genome characteristics of primary carcinomas, local recurrences, carcinomatoses, and liver metastases from colorectal cancer patients. Mol Cancer 2004;3:6. Sheffer M, Bacolod MD, Zuk O, et al. Association of survival and disease progression with chromosomal instability: a genomic exploration of colorectal cancer. Proc Natl Acad Sci USA 2009;106:7131–7136. Rigola MA, Casadevall C, Bernues M, et al. Analysis of kidney tumors by comparative genomic hybridization and conventional cytogenetics. Cancer Genet Cytogenet 2002;137:49–53. De Angelis PM, Clausen OP, Schjolberg A, et al. Chromosomal gains and losses in primary colorectal carcinomas detected by CGH and their associations with tumour DNA ploidy, genotypes and phenotypes. Br J Cancer 1999;80:526–535. Lassmann S, Weis R, Makowiec F, et al. Array CGH identifies distinct DNA copy number profiles of oncogenes and tumor suppressor genes in chromosomal- and microsatellite-unstable sporadic colorectal carcinomas. J Mol Med 2007;85:293–304. Kanai M, Hamada J, Takada M, et al. Aberrant expressions of HOX genes in colorectal and hepatocellular carcinomas. Oncol Rep 2010;23:843–851. Ma S, Guan XY, Lee TK, et al. Clinicopathological significance of missing in metastasis B expression in hepatocellular carcinoma. Hum Pathol 2007;38: 1201–1206. Fong CW, Chua MS, McKie AB, et al. Sprouty 2, an inhibitor of mitogen-activated protein kinase signaling, is down-regulated in hepatocellular carcinoma. Cancer Res 2006;66:2048–2058. Niu RF, Zhang L, Xi GM, et al. Up-regulation of Twist induces angiogenesis and correlates with metastasis in hepatocellular carcinoma. J Exp Clin Cancer Res 2007;26:385–394. Modern Pathology (2012) 25, 590–601 31 Okada T, Suehiro Y, Ueno K, et al. TWIST1 hypermethylation is observed frequently in colorectal tumors and its overexpression is associated with unfavorable outcomes in patients with colorectal cancer. Genes Chromosomes Cancer 2010;49:452–462. 32 Boissan M, Beurel E, Wendum D, et al. Overexpression of insulin receptor substrate-2 in human and murine hepatocellular carcinoma. Am J Pathol 2005;167: 869–877. 33 Slattery ML, Samowitz W, Curtin K, et al. Associations among IRS1, IRS2, IGF1, and IGFBP3 genetic polymorphisms and colorectal cancer. Cancer Epidemiol Biomarkers Prev 2004;13:1206–1214. 34 Gutenberg A, Gerdes JS, Jung K, et al. High chromosomal instability in brain metastases of colorectal carcinoma. Cancer Genet Cytogenet 2010;198:47–51. 35 Wei JS, Johansson P, Chen QR, et al. microRNA profiling identifies cancer-specific and prognostic signatures in pediatric malignancies. Clin Cancer Res 2009;15:5560–5568. 36 Chattopadhyay I, Singh A, Phukan R, et al. Genomewide analysis of chromosomal alterations in patients with esophageal squamous cell carcinoma exposed to tobacco and betel quid from high-risk area in India. Mutat Res 2010;696:130–138. 37 Ruano Y, Mollejo M, Ribalta T, et al. Identification of novel candidate target genes in amplicons of Glioblastoma multiforme tumors detected by expression and CGH microarray profiling. Mol Cancer 2006; 5:39. 38 Ochiumi T, Tanaka S, Oka S, et al. Clinical significance of angiopoietin-2 expression at the deepest invasive tumor site of advanced colorectal carcinoma. Int J Oncol 2004;24:539–547. 39 Iwamoto M, Banerjee D, Menon LG, et al. Overexpression of E2F-1 in lung and liver metastases of human colon cancer is associated with gene amplification. Cancer Biol Ther 2004;3:395–399. 40 Zhang YL, Pang LQ, Wu Y, et al. Significance of Bcl-xL in human colon carcinoma. World J Gastroenterol 2008;14:3069–3073. 41 Zhao ZR, Zhang ZY, Zhang H, et al. Overexpression of Id-1 protein is a marker in colorectal cancer progression. Oncol Rep 2008;19:419–424. 42 Kim HL, Vander Griend DJ, Yang X, et al. Mitogenactivated protein kinase kinase 4 metastasis suppressor gene expression is inversely related to histological pattern in advancing human prostatic cancers. Cancer Res 2001;61:2833–2837. 43 Yamada SD, Hickson JA, Hrobowski Y, et al. Mitogenactivated protein kinase kinase 4 (MKK4) acts as a metastasis suppressor gene in human ovarian carcinoma. Cancer Res 2002;62:6717–6723. 44 Wang L, Pan Y, Dai JL. Evidence of MKK4 prooncogenic activity in breast and pancreatic tumors. Oncogene 2004;23:5978–5985. 45 Watanabe T, Wu TT, Catalano PJ, et al. Molecular predictors of survival after adjuvant chemotherapy for colon cancer. N Engl J Med 2001;344:1196–1206. 46 Ogino S, Nosho K, Irahara N, et al. Prognostic significance and molecular associations of 18q loss of heterozygosity: a cohort study of microsatellite stable colorectal cancers. J Clin Oncol 2009;27:4591–4598. 47 Walter A, Houlston R, Tomlinson I. Association between chromosomal instability and prognosis in colorectal cancer: a meta-analysis. Gut 2008;57:941–950. Genetic profiling of liver metastases from colorectal carcinomas 601 L Muñoz-Bellvis et al 48 Baselga J. The EGFR as a target for anticancer therapy–focus on cetuximab. Eur J Cancer 2001;4: S16–S22. 49 Ko MA, Rosario CO, Hudson JW, et al. Plk4 haploinsufficiency causes mitotic infidelity and carcinogenesis. Nat Genet 2005;37:883–888. 50 Wang Y, Liu DP, Chen PP, et al. Involvement of IFN regulatory factor (IRF)-1 and IRF-2 in the formation and progression of human esophageal cancers. Cancer Res 2007;67:2535–2543. 51 Veeck J, Noetzel E, Bektas N, et al. Promoter hypermethylation of the SFRP2 gene is a high-frequent alteration and tumor-specific epigenetic marker in human breast cancer. Mol Cancer 2008;7:83. 52 Karoui M, Tresallet C, Julie C, et al. Loss of heterozygosity on 10q and mutational status of PTEN and BMPR1A in colorectal primary tumours and metastases. Br J Cancer 2004;90:1230–1234. 53 Berghella AM, Contasta I, Pellegrini P, et al. Peripheral blood immunological parameters for use as markers of pre-invasive to invasive colorectal cancer. Cancer Biother Radiopharm 2002;17:43–50. 54 Bessard A, Sole V, Bouchaud G, et al. High antitumor activity of RLI, an interleukin-15 (IL-15)-IL-15 receptor alpha fusion protein, in metastatic melanoma and colorectal cancer. Mol Cancer Ther 2009;8:2736–2745. 55 Ried T, Just KE, Holtgreve-Grez H, et al. Comparative genomic hybridization of formalin-fixed, paraffinembedded breast tumors reveals different patterns of chromosomal gains and losses in fibroadenomas and diploid and aneuploid carcinomas. Cancer Res 1995; 55:5415–5423. Supplementary Information accompanies the paper on Modern Pathology website (http://www.nature.com/ modpathol) Modern Pathology (2012) 25, 590–601 Prognostic Impact of del(17p) and del(22q) as Assessed by Interphase FISH in Sporadic Colorectal Carcinomas Marı́a González-González1, Luı́s Muñoz-Bellvis2, Carlos Mackintosh3, Celia Fontanillo4, M. Laura Gutiérrez1, M. Mar Abad5, Oscar Bengoechea5, Cristina Teodosio1, Emilio Fonseca6, Manuel Fuentes1, Javier De Las Rivas4, Alberto Orfao1*., José Marı́a Sayagués1*. 1 Servicio General de Citometrı́a, Departamento de Medicina and Centro de Investigación del Cáncer (IBMCC-CSIC/USAL), Hospital Universitario de Salamanca-IBSAL, Universidad de Salamanca, Salamanca, Spain, 2 Unidad de Cirugı́a Hepatobiliopancreática, Departamento de Cirugı́a, Hospital Universitario de Salamanca-IBSAL, Salamanca, Spain, 3 Centro de Investigación del Cáncer (IBMCC-CSIC/USAL), Universidad de Salamanca, Salamanca, Spain, 4 Grupo de Investigación en Bioinformática y Genómica Funcional, Centro de Investigación del Cáncer (IBMCC-CSIC/USAL), Universidad de Salamanca, Salamanca, Spain, 5 Departamento de Patologı́a, Hospital Universitario de Salamanca-IIBSAL, Salamanca, Spain, 6 Departamento de Oncologı́a Médica, Hospital Universitario de Salamanca-IBSAL, Salamanca, Spain Abstract Background: Most sporadic colorectal cancer (sCRC) deaths are caused by metastatic dissemination of the primary tumor. New advances in genetic profiling of sCRC suggest that the primary tumor may contain a cell population with metastatic potential. Here we compare the cytogenetic profile of primary tumors from liver metastatic versus non-metastatic sCRC. Methodology/Principal Findings: We prospectively analyzed the frequency of numerical/structural abnormalities of chromosomes 1, 7, 8, 13, 14, 17, 18, 20, and 22 by iFISH in 58 sCRC patients: thirty-one non-metastatic (54%) vs. 27 metastatic (46%) disease. From a total of 18 probes, significant differences emerged only for the 17p11.2 and 22q11.2 chromosomal regions. Patients with liver metastatic sCRC showed an increased frequency of del(17p11.2) (10% vs. 67%;p,.001) and del(22q11.2) (0% vs. 22%;p = .02) versusnon-metastatic cases. Multivariate analysis of prognostic factors for overall survival (OS) showed that the only clinical and cytogenetic parameters that had an independent adverse impact on patient outcome were the presence of del(17p) with a 17p11.2 breakpoint and del(22q11.2). Based on these two cytogenetic variables, patients were classified into three groups: low- (no adverse features), intermediate- (one adverse feature) and high-risk (two adverse features)- with significantly different OS rates at 5-years (p,.001): 92%, 53% and 0%, respectively. Conclusions/Significance: Our results unravel the potential implication of del(17p11.2) in sCRC patients with liver metastasis as this cytogenetic alteration appears to be intrinsically related to an increased metastatic potential and a poor outcome, providing additional prognostic information to that associated with other cytogenetic alterations such as del(22q11.2). Additional prospective studies in larger series of patients would be required to confirm the clinical utility of the new prognostic markers identified. Citation: González-González M, Muñoz-Bellvis L, Mackintosh C, Fontanillo C, Gutiérrez ML, et al. (2012) Prognostic Impact of del(17p) and del(22q) as Assessed by Interphase FISH in Sporadic Colorectal Carcinomas. PLoS ONE 7(8): e42683. doi:10.1371/journal.pone.0042683 Editor: Hassan Ashktorab, Howard University, United States of America Received December 22, 2011; Accepted July 11, 2012; Published August 17, 2012 Copyright: ß 2012 González-González et al. This is an open-access article distributed under the terms of the Creative Commons Attribution License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited. Funding: This work has been partially supported by grants from the Consejerı́a de Sanidad, Junta de Castilla y León, Valladolid, Spain (SAN673/SA39/08 and SAN/ 103/2011), Fundación Memoria de Don Samuel Solórzano Barruso, Salamanca, Spain, Caja de Burgos (Obra Social), Burgos, Spain, Grupo Excelencia de Castilla y León (GR37) and the Red Temática de Investigación Cooperativa en Cáncer (RTICC) from the Instituto de Salud Carlos III (ISCIII), Ministerio de Sanidad y Consumo, Madrid, Spain (PI12/02053-FIS and RD06/0020/0035-FEDER). JM Sayagués and M González are supported by grants (CP05/00321 and FI08/00721, respectively) from the ISCIII, Ministerio de Ciencia e Innovación, Madrid, Spain. Competing Interests: The authors have the following competing interests: The study was partly funded by Caja de Burgos - Obra Social. This does not alter the authors’ adherence to all the PLoS ONE policies on sharing data and materials, as detailed online in the guide for authors. * E-mail: [email protected] (AO); [email protected] (JMS) . These authors contributed equally to this work. lesions may derive from descendants of a tumor cell clone which is already present in the primary tumor [2]. Advances in genetic profiling of cancer also suggest that the metastatic potential of human tumors is encoded in the bulk of a primary tumor, as metastatic tumors systematically contain those genetic abnormalities observed in the primary tumor sample from the same subject. However, the precise molecular changes associated with the development of sCRC with liver metastasis still remain to be identified [2]. Multiple recurrent chromosomal abnormalities that are found in primary tumours have been associated with Introduction Metastatic dissemination of the primary tumor is the major cause of death of sporadic colorectal cancer (sCRC) patients [1]. Metastasis is a complex multi-step process which is driven by sequential accumulation of multiple genetic and molecular alterations and/or epigenetic changes involving one or multiple tumor cell clones. In recent years, data accumulated about the intratumoral pathways of clonal evolution of sCRC associated with chromosomal alterations/instability, indicates that liver metastatic PLOS ONE | www.plosone.org 1 August 2012 | Volume 7 | Issue 8 | e42683 Prognostic Stratification of sCRC metastatic CRC, including gains of chromosomes 8q, 13q and 20q and losses of the 1p, 8p, 17p, 18q and 22q chromosomal regions [3–5]. In a recent study, we described a detailed map of the genetic abnormalities of primary tumors from sCRC patients with liver metastasis by high-resolution SNP arrays. In this study, we reported the existence of a highly prevalent breakpoint region in the great majority of primary sCRC patients who had synchronous liver metastasis. Such breakpoint region is located in the centromeric region of chromosome 17p, between the genome coordinates 20,156,497 bp and 22,975,771 bp [6]. This breakpoint region has been previously associated with i) a homogeneous genetic profile consisting of a higher frequency of abnormalities of chromosomes 1p, 7, 8, 13q, 17p, 18q, 20q and 22q and ii) an adverse clinical outcome [7]. However, delineation of the minimal common breakpoint region at chromosome 17p11.2 and its potential prognostic value in sCRC tumors, remain to be fully defined. In the present study we investigated the prognostic value of structural/numerical abnormalities of the most frequently altered chromosomes in liver metastatic colorectal carcinomas from 58 sCRC patients (27 liver metastatic vs. 31 non-metastatic tumors) with a long median follow-up, as detected by interphase fluorescence in situ hybridization (iFISH). Overall, our results show that the occurrence of del(17p) involving the 17p11.2 breakpoint region is an independent prognostic factor for overall survival, as confirmed in a larger series of 119 patients from the GEO public database. However, we have demonstrated that the combined assessment of del(22q11) and del(17p11.2) increased the predictive value for a liver metastatic tumor. After histopathological diagnosis was established, part of the primary tumor was used to prepare single-cell suspensions. Once prepared, single cell suspensions were resuspended in methanol/ acetic (3/1; vol/vol) and stored at 220uC for further iFISH analyses, as described elsewhere [2]. The remaining tissue was either fixed in formalin and embedded in paraffin, or frozen in liquid nitrogen and stored at room temperature (RT) and at 280uC, respectively. Each individual tissue sample was also evaluated after haematoxylin-eosin staining, to confirm the presence of tumor cells and to evaluate their quantity. Interphase fluorescence in situ hybridization (iFISH) studies Mixed single-cell suspensions from different samples obtained from each tumor were used for iFISH studies, after fixation in 3/1 methanol/acetic (vol/vol). A set of 18 different probes (Vysis Inc, Downers Grove, IL) specific for those chromosomes and chromosomal regions most frequently gained/amplified and deleted colorectal carcinomas with liver metastases [6], were systematically used in double and triple staining with the Spectrum Orange (SO), Spectrum Green (SG) and Spectrum Aqua (SA) fluorochromes: for chromosome 1, the LSI p58 (1p36) (SO)/ TelVysion 1p (SG)/LSI 1q25 (SA) Multi-color probe was employed; for chromosome 7, the LSI D7S486 (7q31) (SO)/ CEP 7 (SG) Dual Color probe was used; for chromosome 8, the LSI LPL (8p22) (SO)/CEP 8 (SA)/MYC (8q24) (SG) Multi-color probe was employed; for chromosome 13, the LSI RB1 13q14 (SO)/LSI 13q34 LAMP1 (SG) was used; for chromosome 14, the LSI IGH (14q32.33) Dual Color, Break Apart probe was selected; for chromosome 17, the LSI TP53 (17p13) (SO)/CEP 17 (SA) probe combination was employed; for chromosome 18, the LSI BCL2 (18q21) (SO)/CEP 18 (SA) probe combination was used; for chromosome 20, the LSI ZNF217 (20q13.2) (SO)/CEP 20 (SG) probes were employed, and; for chromosome 22, the LSI BCR (22q11.2) probe was used. We have previously found in primary tumors [6] and their paired liver metastases [9] a high prevalence of gains of chromosomes 7, 8q, 11q, 13q, 20q and X together with losses of the 1p, 8p, 17p and 18q chromosomal regions; in this series of cases, the breakpoints found at the centromeric region of chromosome 17p were variable and were mapped between the genomic coordinates 20,156,497 bp and 22,975,771 bp by SNP’s arrays. Herein, we investigated the presence of breakpoints at chromosome 17p11.2 using iFISH probes specifically designed and manufactured for this purpose (Kreatech Diagnostics, Amsterdam, The Netherlands), as schematically described in Figure 1. The specific methods and procedures used for the iFISH studies have been previously described in detail [2] and for the investigation of the relationships existing between those genes coded at the 17p11.2, 17p13.1 and 22q11.2 chromosomal regions and other genes, the Ingenuity Pathway Analysis software (Ingenuit SystemH,www.ingenuity.com) was used. Materials and Methods Patients and samples In the present study, we prospectively analyzed surgical specimens from 58 patients diagnosed with a sCRC between 1999 and 2010 (38 males and 20 females; median age of 69 years, ranging from 38 to 83 years) after informed consent was given by each subject. All patients underwent surgical resection of primary tumor tissues at the Department of Surgery of the University Hospital of Salamanca (Salamanca, Spain) and they were diagnosed and classified according to the WHO criteria [8] prior to any treatment was given. Fourteen primary tumors were localized in the rectum and the other 44 were localized either in the right (caecum, ascending or trasverse) or the left (descending and sigmoid) colon, with an overall mean size of 5.362 cm. According to tumor grade, 39 cases were classified as welldifferentiated tumors, 15 as moderately- and four as poorlydifferentiated carcinomas. In all cases, histopathological grade was confirmed in a second independent evaluation by an experienced pathologist. Median follow-up at the moment of closing this study was of 96 months (range: 12–124 months). The study was approved by the local ethics committee of the University Hospital of Salamanca (Salamanca, Spain) and informed consent was given by each individual, prior to entering the study. From the 58 cases analyzed, 27 (47%) tumors had liver metastases (group 1; median follow-up of 37 months; pT3–4 pN1– 2 M1) identified either at time of colorectal surgery (n = 16) or during the first year after initial diagnosis (n = 11); they all underwent complete surgical resection of both their primary and metastatic CRC. The other 31 (53%) patients corresponded to non-metastatic sCRC selected on the basis of a long follow-up in the absence of liver metastasis (median follow-up of 99 months; pT2–4 pN0 M0) to ensure their non-metastatic nature (group 2). PLOS ONE | www.plosone.org External validation of the prognostic impact of del(17p) and del(22q) External validation of the prognostic impact of del(17p) and del(22q) was performed in a previously reported group of sCRC patients from which aCGH files (MHP Human 1 Mb) and clinical data were publicly available at the GEO database (accession number GSE12520; genomic markers that predict survivorship in colorectal cancer) [10]. From all cases available in the dataset, we selected those studied with the MHP Human 1 Mb CGH array platform for a total of 109 cases: 81 sCRC from Edinburgh 2 August 2012 | Volume 7 | Issue 8 | e42683 Prognostic Stratification of sCRC Figure 1. Schematic representation of the chromosome 17p11.2 dual color Break Apart probe combination designed and used for iFISH analysis of this chromosomal region in sCRC. Panel A describes the probe design for which three different clones (A, B and C) directlylabelled with PlatinumBright495 (green signal) and that hybridize to the telomeric part of the 20,156,497 bp region were combined with another three clones (clones D, E and F) directly labelled with PlatinumBright550 and that correspond to sequences harboured centromerically to 20,156,497 bp (red signal), and were produced. The 17p11.2 Break Apart DNA Probe finally consisted of a dual-color assay to detect breakpoints at 17p11.2 using the combination of these 6 fluorescently labelled clones. A positive breakpoint at chromosome 17p11.2 was defined when one or two red/green or yellow fusion signals split into two separate red and green signals. Only red and green signals which were more than one signal diameter apart from each other were counted as reflecting a chromosome break, since based on the probe design a gap of 380 KB exists between the two sets of probes corresponding to the green and the red signals, respectively; two fusion signals identify the two normal chromosomes 17 as illustrated for the lower nuclei shown in panel B. Loss of a green signal in the presence of a single red signal and a fusion signal was interpreted as associated with del(17p) with a 17p11.2 breakpoint (e.g; three upper nuclei in panel B). doi:10.1371/journal.pone.0042683.g001 the log-rank test (one-sided) was used to establish the statistical significance of the differences observed between survival curves (survival; SPSS). Multivariate analysis of prognostic factors for OS was performed using the Cox stepwise regression (forward selection) model (regression, SPSS). For multivariate analysis only those variables showing a significant association with OS in the univariate analysis were included. Statistical significance was considered to be present once P values (or, where appropriate, Pearson-corrected P values) were ,.05. (Scotland, UK) and 38 from Hong Kong. Gpr files were preprocessed and normalized as described elsewhere [11]. Patients included in this external validation group were classified according to the Duke’s staging system as follows: stage A, 7.5% (n = 8), B, 44.9% (n = 48), C, 39.2% (n = 42) and stage D (metastatic), 8.5% (n = 9). Median of follow up of these patients was 67 months, with a median overall survival of 28.7months (range: 0.3–147.2 months). Statistical methods Results For all continuous variables, mean values and their standard deviation (SD) and range were calculated using the SPSS software package (SPSS 15.0 Inc, Chicago, IL USA); for dichotomic variables, frequencies were reported. In order to evaluate the statistical significance of differences observed between groups, the Student’s T and the Mann-Whitney U tests were used for continuous variables, depending on whether they displayed or not a normal distribution, respectively. For qualitative variables, the X2 test was applied (cross-tab; SPSS). Overall survival (OS) curves were plotted according to the method of Kaplan and Meier, and PLOS ONE | www.plosone.org Clinical and biological characteristics of liver metastatic versus non-metastatic sporadic colorectal carcinoma (sCRC) Overall, sCRC cases with liver metastases showed a higher frequency of lymph node metastases (p#.001) and abnormally increased CEA serum levels (p#.001) than non-metastatic patients (Table 1). From the prognostic point of view, sCRC with liver metastases also showed a higher frequency of deaths in association 3 August 2012 | Volume 7 | Issue 8 | e42683 Prognostic Stratification of sCRC chromosomal alterations were detected, either individually or in combination, they were present in all tumor cells, suggesting they had been acquired in the ancestral tumor cell clone. Overall, a total of 36 genes are coded at the 17p11.2, 17p13.1 and 22q11.2 chromosomal regions (Table 3); 11 out of these 36 genes (31%) have been found to be involved in cancer. The network of functional interactions among these genes and other related downstream genes implicated in cancer is depicted in Figure 2. As shown in it, such cancer-associated genes deleted in sCRC cases with del(17p11.2) and del(22q11.2) directly related to several well-established biomarkers of sCRC such as the EGFR, BCL2, BAX and TP53 genes [12–15]. with a significantly shortened patient overall survival (median of 25 months vs. not reached, respectively; p#.001). By contrast, no significant differences were found between liver metastatic vs. nonmetastatic CRC cases, regarding patient age, gender, tumor localization, histological grade and size, and alkaline phosphatase serum levels (Table 1). Chromosomal alterations in metastatic vs non-metastatic sCRC For most chromosomes analysed, sCRC with liver metastases showed similar cytogenetic profiles to those of non-metastatic tumors; this included similar (p..05) frequencies of del(1p) (48% vs. 42%), polysomy of chromosome 7 (59% vs. 45%), del(8p) associated to gains of 8q (44% vs. 26%), polysomy of chromosome 13 (74% vs. 58%), del(18q) (52% vs. 32%) and gain of chromosome 20q (63% vs. 39%) (Table 2). The only statistically significant differences found between liver metastatic and non-metastatic sCRC were those involving chromosomes 17p (p,.001) and 22q (p = .02): all cases showing del(22q) corresponded to liver metastatic tumors (0% vs. 22%); del(17p13) was found in 74% of liver metastatic vs. 19% of non-metastatic cases; del(17p13) with a breakpoint at 17p11.2 was almost exclusively detected among sCRC with liver metastases (67% vs. 10%, p,.001) (Table 2), and; all except one case with del(22q) (n = 5) also demonstrated del(17p11.2) while16 cases which had del(17p11.2) did not carry del(22q). The remaining 36 tumors carried none of the two chromosomal alterations. Interestingly, whenever these two Impact of chromosomal alterations and other disease features of liver metastatic vs. non-metastatic sCRC on patient overall survival Regarding prognosis, the presence of both del(17p13) (p = .04) including del(17p11.2) (p,.001)- and del(22q11) (p,.001) were associated with a significantly inferior outcome. Other disease features that showed an adverse impact on patient OS were: increased (.7.5 ng/ml) CEA serum levels (p,.001), male gender (p = .04), lymph node involvement (p,.001) and, metastatic liver disease (p,.001) (Figure 3). Multivariate analysis of the prognostic factors for OS showed that the most informative combination of independent variables to predict an adverse outcome was the presence of del(17p11.2) (p = .04) and del(22q11.2) (p = .002). Based on these two cytoge- Table 1. Clinical and biological characteristics of liver metastatic (n = 27) versus non-metastatic (n = 31) sporadic colorectal carcinoma (sCRC) patients. Liver metastatic sCRC (n = 27) Non-metastatic sCRC (n = 31) p-value Total cases (n = 58) 73 (48–80) 72 (38–83) NS 72 (38–83) F 11 (41%) 9 (29%) NS 20 (34%) M 16 (59%) 22 (71%) Age (years)* Gender 38 (66%) Tumor Localization Rectum 5 (19%) 11 (36%) Left colon 13 (48%) 15 (48%) Right colon 9 (33%) 5 (16%) 16 (28%) NS 28 (52%) 14 (20%) Histological grade Well-differentiated 16 (59%) 23 (74%) Moderate-differentiated 8 (30%) 7 (22%) Poorly-differentiated 3 (11%) 1(4%) pN0 7 (26%) 31 (100%) pN1 12 (44%) 0 (0%) pN2 39 (67%) NS 15 (26%) 4 (7%) Histopathology 38 (66%) p#0.001 12(21%) 8 (30%) 0 (0%) Tumor Size (cm)# 5 (2.5–9) 5 (2.5–14) NS 5 (2.5–14) 8 (13%) Serum ALP (mg/dl) 94 (1–330) 108 (55–495) NS 101 (1–495) Serum CEA (ng/ml) 45.4 (0.8–4598) 3.2 (0.6–84) p#0.001 7.2 (0.6–4598) Deaths 20 (74%) 3 (10%) p#0.001 23 (40%) Median OS (months)* 25 Not Reached p#0.001 Not Reached *Results expressed as median (range) or as number of cases (percentage); NS: statistically not significant (p..05); F: female; M: male; ALP: alkaline phosphatase; CEA: Carcinoembryonic antigen; OS: overall survival. doi:10.1371/journal.pone.0042683.t001 # PLOS ONE | www.plosone.org 4 August 2012 | Volume 7 | Issue 8 | e42683 Prognostic Stratification of sCRC Table 2. Chromosomal alterations of primary tumors from liver metastatic (n = 27) versus non-metastatic sCRC patients (n = 31). Liver metastatic tumors (n = 27) Non-metastatic tumors (n = 31)p-value Total cases (n = 58) Normal 7 (26%) 14 (45%) 21 (36%) del(1p) 13 (48%) 13 (42%) Polysomy 7 (26%) 4 (13%) Normal 5 (19%) 14 (45%) del(7q) 5 (19%) 1 (3%) q+ 1 (3%) 2 (7%) 3 (5%) Polysomy 16 (59%) 14 (45%) 30 (52%) Normal 3 (11%) 7 (23%) 10 (17%) del(8p) 5 (19%) 4 (13%) q+ 2 (7%) 3 (9%) Del(8p)/8q+ 12 (44%) 8 (26%) 20 (35%) Polysomy 5 (19%) 9 (29%) 14 (24%) Normal 7 (26%) 13 (42%) Polysomy 20 (74%) 18 (58%) Normal 15 (55%) 19 (61%) del(14q) 4 (15%) 1 (3%) Polysomy 8 (30%) 11 (36%) Normal 5 (19%) 20 (65%) del(17p) 20 (70%) 6 (19%) Chromosome 1 NS 26 (45%) 11 (19%) Chromosome 7 19 (33%) NS 6 (10%) Chromosome 8 9 (15%) NS 5 (9%) Chromosome 13 NS 20 (35%) 38 (65%) Chromosome 14 34(59%) NS 5 (9%) 19 (32%) Chromosome 17 Polysomy 2 (7%) 5 (16%) 18 (67%) 3 (10%) Normal 13 (48%) 17 (55%) del(18q) 14 (52%) 10 (32%) Polysomy 0 (0%) 4 (13%) Del(17p11.2) 25 (43%) p,.001 26 (45%) p,.001 21 (36%) 7 (12%) Chromosmose 18 30 (52%) NS 29 (50%) 4 (7%) Chromosome 20 Normal 5 (19%) 12 (39%) 20q+ 17 (63%) 12 (39%) Polysomy 5 (19%) 7 (22%) Normal 15 (56%) 23 (74%) del(22q) 6 (22%) 0 (0%) Polysomy 6 (22%) 8 (26%) 17 (27%) NS 29 (50%) 12 (21%) Chromosome 22 38 (66%) p = .02 6 (10%) 14 (24%) Results expressed as number of cases and percentage of cases between brackets; NS: statistically not significant (p..05). doi:10.1371/journal.pone.0042683.t002 netic variables, a scoring system was built to stratify patients into a low- (no adverse features: score 0; n = 24), intermediate- (one adverse feature: score 1; n = 28) and high-risk (two adverse features: score 2; n = 5) groups with significantly different (p,.001) OS rates at 5-years: 92%, 53% and 0%, respectively (Figure 3). PLOS ONE | www.plosone.org Validation of the clinical impact of del(17p11.2) and del(22q) in an independent series of patients In order to confirm the prognostic impact of the two chromosomal abnormalities described above, we investigated their prognostic impact in an independent series of colorectal cancer patients from the public GEO database (n = 119). Noteworthy, also in this new series, patients whose tumors harboured pericentromeric breakpoints at 17p in the 17p11.2 chromosomal 5 August 2012 | Volume 7 | Issue 8 | e42683 Prognostic Stratification of sCRC Figure 2. Schematic representation of the network of interactions observed between genes encoded at the 17p11.2 (genes highlighted in red), 17p13.1 (genes highlighted in green) and 22q11.2 (genes highlighted in blue) chromosomal regions, and molecules downstream molecules regulated by these genes which have been associated with cancer or cancer related signalling pathways. Genes highlighted in yellow are encoded at the three chromosomal regions referred above and they have been previously associated with cancer; genes highlighted in grey are considered as biomarkers for sCRC. doi:10.1371/journal.pone.0042683.g002 familial [16] and sporadic CRC has significantly advanced in recent years [17], the genetic mechanisms responsible for progression of sCRC to a metastatic phenotype still remain poorly understood. In this study, we investigated the pattern of numerical chromosomal alterations of primary tumors from metastatic sCRC that exhibited synchronous liver metastases versus non-metastatic sCRC. In order to avoid false-negative non-metastatic cases, in this later group only sCRC with a relative long follow up (median follow-up of 99 months) were selected for the non-metastatic tumor group. Similarly, only liver metastatic cases who had undergone complete resection of both their primary and metastatic tumor, were included in the metastatic patient group. iFISH probes targeting those chromosomal regions more frequently altered in sCRC [6] were specifically applied to the cytogenetic characterization of both patient groups and a new probe for the definition of del(17p) associated with breakpoints at chromosome 17p11.2, was also systematically used. In line with previous observations which show that liver metastatic and nonmetastatic sCRC share multiple chromosomal alterations (e.g. region (from 15 to 25 megabases from p-ter) were found to have an inferior clinical outcome than those harbouring del(17p13) alone (p = .02 and p = .04, respectively). The prognostic impact of del(17p11.2) was even stronger (p = .01) when all other tumors which showed pericentromeric deletions, including those with breakpoints in the q-arm close to the centromere (from 15 to 27.5 Mb from p-ter), were considered (Figure S1). These results support the observations of our dataset and confirm the prognostic impact of del(17p11.2). However, the prognostic impact of del(22q) could not be confirmed (p..05) in this new independent sCRC series of patients. Discussion sCRC patients who do not show or develop distant metastasis are often cured by surgical resection of the primary tumor with optional administration of adjuvant therapy. However, when metastasis to the liver and other organs occur, the chances of cure are dramatically reduced. Despite the fact that the understanding of the genetic mechanisms underlying the early stages of both PLOS ONE | www.plosone.org 6 August 2012 | Volume 7 | Issue 8 | e42683 Prognostic Stratification of sCRC Table 3. List of genes encoded at chromosomal regions identified as being deleted by iFISH probes directed against the 17p11.2 (20156497 bp to 22975771 bp), 17p13.1 (7449445 bp to 7594642 bp) and 22q11.2 (21852397 bp to 21984023 bp) chromosomal regions: gene name, cell localization and function. Coded name Gene Cellular localization Function 17p11.2 C17orf103 Chromosome 17 open reading frame 103 Unknown Unknown C17orf51 Chromosome 17 open reading frame 51 Unknown Unknown CCDC144C Coiled-coil domain containing 144C Unknown Unknown CCDC144NL Coiled-coil domain containing 144 family, N-terminal like Unknown Unknown CDRT15L CMT1A duplicated region transcript 15-like 2 Unknown Unknown DHRS7B Dehydrogenase/reductase (SDR family) member 7B Unknown Metabolism FAM106B Family with sequence similarity 106, member B Unknown Unknown FAM27L Family with sequence similarity 27-like Unknown Unknown KCNJ12 Potassium inwardly-rectifying channel, subfamily J, member 12 Membrane Transport LGALS9B Lectin, galactoside-binding, soluble, 9B Cytoplasm Cell-cell adhesion MAP2K3 Mitogen-activated protein kinase kinase 3 Cytoplasm Cell death MTRNR2L1 MT-RNR2-like 1 Unknown Unknown SPECC1 Sperm antigen with calponin homology and coiled-coil domains 1 Nucleus Unknown TMEM11 Transmembrane protein 11 Membrane Transport USP22 Ubiquitin specific peptidase 22 Nucleus Cell cycle ATP1B2 ATPase, Na+/K+ transporting, beta 2 polypeptide Membrane Metabolism CD68 CD68 molecule Membrane Metabolism EIF4A1 eukaryotic translation initiation factor 4A1 Cytoplasm Metabolism FXR2 fragile X mental retardation, autosomal homolog 2 Cytoplasm Metabolism MPDU1 mannose-P-dolichol utilization defect 1 Cytoplasm Metabolism SAT2 spermidine/spermine N1-acetyltransferase family member 2 Membrane Metabolism SENP3 SUMO1/sentrin/SMT3 specific peptidase 3 Nucleus Metabolism SHBG sex hormone-binding globulin Extracellular Cell death SNORA67 small nucleolar RNA, H/ACA box 67 Unknown Unknown SNORD10 small nucleolar RNA, C/D box 10 Unknown Unknown 17p13.1 SOX15 SRY (sex determining region Y)-box 15 Nucleus Cell differentiation TNFSF12 tumor necrosis factor (ligand) superfamily, member 12 Extracellular Cell death TNFSF13 tumor necrosis factor (ligand) superfamily, member 13 Extracellular Cell death TP53 tumor protein p53 Nucleus Apoptosis WRAP53 WD repeat containing, antisense to TP53 Nucleus Telomerase activity PI4KAP2 Phosphatidylinositol 4-kinase, catalytic, alpha pseudogene 2 Unknown Metabolism RIMBP3 RIMS binding protein 3 Nucleus Unknown SCARNA17 Small Cajal body-specific RNA 17 Unknown Unknown SCARNA18 Small Cajal body-specific RNA 18 Unknown Unknown UBE2L3 Ubiquitin-conjugating enzyme E2L 3 Cytoplasm Metabolism YDJC YdjC homolog (bacterial) Unknown Metabolism 22q11.2 Genes which have been associated with cancer are shown in bold. doi:10.1371/journal.pone.0042683.t003 gains of chromosomes 7, 8q, 13q and 20q and losses of the 1p, 8p, 14q, 17p, 18q and 22q chromosomes) [7,18–20], here we also found a similar distribution between liver metastatic and nonmetastatic tumors for most chromosomal alterations identified. In contrast, del(22q) and del(17p) (particularly when associated with breakpoints at chromosome 17p11.2), were significantly more prevalent or even restricted, to liver metastatic tumors. These later PLOS ONE | www.plosone.org findings support a potential role for both del(17p11.2) and del(22q) in the metastatic process of sCRC to the liver. Previous reports based on cytogenetic analyses of metastatic disease from colorectal tumors indicated that chromosome 17p is frequently lost in sCRC [21,22]. In line with other studies and using similar methodological approaches, our results showed the presence of del(17p13) in almost half of the sCRC cases studied 7 August 2012 | Volume 7 | Issue 8 | e42683 Prognostic Stratification of sCRC Figure 3. Clinical, biological and genetic characteristics of sCRC patients which showed a significant impact on overall survival in the univariate analysis: (A) carcinoembryonic antigen (CEA), (B) gender, (C) lymph node involvement, (D) occurrence of distant metastasis, (E) chromosome 17 status, (F) del(17p11.2) (G) chromosome 22 status, and (H) prognostic score established on the basis of the two most informative independent prognostic factors -del(17p11.2) and chromosome 22 status; p,.0001-. doi:10.1371/journal.pone.0042683.g003 USP22 gene. Recent studies have shown that aberrant expression of USP22 is associated with liver metastasis and poor prognosis [33], due to the fact that this gene positively regulates cell cycle via both the BMI-1-mediated INK4a/ARF pathway and the Atk signaling pathway [34]. However, the activation and oncogenic role of USP22 in the progression of sCRC is potentially linked to genes encoded in other chromosomal regions such as the BMI-1 (10p13), CMYC (8q24) and CCND2 (12p13) genes [35]. In addition to del(17p11.2), in this study we also found an association between losses of chromosome 22q and disease outcome, in line with previous observations [26,36,37]. Previous studies based on CGH analysis [38] have shown an association between del(22q) and liver metastasis among sCRC patients; similarly, Yana et al [39] showed that del(22q) correlates with the Duke’s stage of the disease. Iino et al [26] have suggested that LOH at chromosomes 17p, 18q, and 22q, is associated with an increased metastatic potential of sCRC. In the latter study, LOH at chromosome 17p was also significantly associated with vascular invasion, whereas 18q and 22q LOH correlated more with lymphatic dissemination of the disease; importantly, only LOH of chromosome 22q showed a significant association with the presence of lymph node metastasis. Thus, it could be hypothesized that in sCRC, these three chromosomal losses may be specifically associated with the metastatic process. If this holds true, screening for genetic abnormalities of primary sCRC tumors could be useful for predicting the metastatic potential which exists at the time of diagnosis [40]. It should be emphasized that analysis of del(17p11.2) in paired primary tumors and liver metastases from sCRC patients showed either presence or absence of these chromosomal changes in both (paired) tumor samples in all but two cases; in these later two cases, del(17p11.2) was only detected by SNP-arrays in the liver metastatic tumor. Multivariate analysis of prognostic factors for OS, showed the independent prognostic value of the two chromosomal abnormalities, del(17p) with a breakpoint at 17p11.2 and del(22q); [23,24]; The frequency of del(17p13) was also significantly higher in liver metastatic than non-metastatic cases, as has been suggested by other groups [25–27]. It was noted that among cases with del(17p13), occurrence of a breakpoint at chromosome 17p11.2 was mostly restricted to metastatic sCRC. Coinciding with these observations, several authors have previously found that losses of chromosome 17p in metastatic CRC samples cover larger regions than in primary tumors, suggesting that unknown suppressor genes, other than the TP53 gene, could be involved in the newly deleted 17p sequences [28]. If this is confirmed, then these differences could explain why cases with del(17p) in the absence of TP53 mutations, also occur in advanced sCRC. Moreover, it provides evidence for the potential existence of new additional tumor suppressor genes (and potentially also oncogenes) coded in the centromeric portion of chromosome 17p, proximal to TP53. In this regard, it should be noted that several cancer associated genes (e.g.: KCNJ12, MAP2K3, and USP22) are coded in this chromosomal region, the first gene systematically deleted at this breakpoint region being a gene of unknown function (FAM27L). Interestingly, genetic polymorphisms involving this chromosomal region including the FAM27L gene, have been recently associated with an increased risk for chronic myeloid leukemia [29]. Further studies, in which mutations of this gene and deletions at chromosome 17p11.2 are searched for, may indicate their potential role in sCRC liver metastasis. Among other genes the MAP2K3 gene is also coded in chromosome 17 region found to be commonly deleted in metastatic sCRC. MAP2K3 is a strong promoter of tumor invasion, progression and short survival in several human cancers [30] and previous studies have shown that decreased expression of MAP2K3 is associated with human breast infiltrating ductal carcinomas [31]; similarly, non-synonymous coding SNPs downregulating KCNJ12 expression have been related with rhabdomyosarcomas [32], supporting a potential role for both genes in liver metastatic sCRC. However, in this chromosomal region, also some oncogenes are coded such as the PLOS ONE | www.plosone.org 8 August 2012 | Volume 7 | Issue 8 | e42683 Prognostic Stratification of sCRC consequently, coexistence of both chromosomal alterations was associated with a significantly reduced OS vs. cases which showed neither of these alterations (OS at 5 years of 0% versus 93%, respectively). Despite the fact that an association has been reported between different chromosomal abnormalities and the prognosis of sCRC [18], to the best of our knowledge this is the first report in which the independent prognostic value of del(17p) with a breakpoint at 17p11.2 and of del(22q) is described. Preliminary results using genome-wide array analyses have shown an association between specific genetic alterations present in primary sCRC tumors and patient survival [10,18,22]. Poulogiannis et al (using a DNA microarray platform covering the entire genome at an average of 1 Mb of resolution) identified DNA copy number losses at 18q12.2 to be an independent prognostic marker [10]. In the current study, we have re-analyzed this dataset and confirmed the prognostic value of del(17p) including that of del(17p) with a breakpoint at 17p11.2; in contrast, the clinical impact of del(22q) could not be validated in this series. Although the precise clinical value of del(22q) should be investigated further, validation of our data concerning the prognostic impact of the 17p11.2 breakpoint in an independent dataset (in spite of the substantial differences in the technologies applied in both studies) strengthens the evidence for the clinical relevance of chromosome 17p deletions encompassing genomic regions beyond the TP53 locus, and points to the potential role of other candidate genes coded at chromosome 17p centromericly to TP53. As discussed above, such genes include the MAP2K3, KCNJ12 and USP22 genes [30–35]. Interestingly, when we searched for direct interactions among the deleted genes and other cancer-associated genes, 30 genes deleted in cases with del(17p), and another 6 genes deleted in cases with del(22q), emerged as directly related to signaling pathways involved in cell growth and proliferation (e.g., EGFR and CDK1A) as well as in cell death (e.g., BAX and BCL2). These findings suggest a potential role for the combined deletion of these genes in conferring poorprognosis to sCRC with coexisting del(17p) and del(22q), possibly due to increased cell proliferation and survival and diminished DNA repair. In summary, in the present study we show that the presence of del(17p) with a breakpoint at 17p11.2 is an independent adverse prognostic factor for OS of sCRC. When combined with del(22q11.2) it allowed the identification of three groups of sCRC patients with significantly different outcome, which could be predicted at diagnosis. Further prospective studies are required in larger series of sCRC patients to confirm the prognostic value of the combined assessment of del(17p) and del(22q) in primary tumor samples at diagnosis and the precise role of the deleted genes. Supporting Information Figure S1 Validation of the impact of chromosome 17 status on overall survival in an independent series of sCRC patients from the GEO database (n = 109): panel A, del(17p13); panels B and C, del(17p) harbouring pericentromeric breakpoints at chromosome 17p and del(17p) harboring a pericentromeric breakpoint at both chromosomes 17p and 17q, respectively. (TIF) Author Contributions Conceived and designed the experiments: AO JMS. Performed the experiments: MGG LMB MLG MMA OB EF. Analyzed the data: MGG CM CF JR MF JMS CT. Contributed reagents/materials/analysis tools: MGG CM CF JR MF JMS. Wrote the paper: MGG LMB CM CF MLG MMA OB EF MF JR AO JMS. References 13. Asghar U, Hawkes E, Cunningham D. (2010) Predictive and prognostic biomarkers for targeted therapy in metastatic colorectal cancer. Clin Colorectal Cancer 9: 274–281. 14. Yashiro M, Hirakawa K, Boland CR (2010) Mutations in TGFbeta-RII and BAX mediate tumor progression in the later stages of colorectal cancer with microsatellite instability. BMC Cancer 10: 303. 15. Seicean R, Crisan D, Boers JE, Mocan T, Seicean A, et al. (2011) The prognostic role of apoptosis mediators in rectal adenocarcinoma. Hepatogastroenterology 58: 1490–1494. 16. Syngal S, Fox EA, Li C, Dovidio M, Eng C, et al. (1999) Interpretation of genetic test results for hereditary nonpolyposis colorectal cancer: implications for clinical predisposition testing. JAMA 282: 247–253. 17. Maltzman T, Knoll K, Martinez ME, Byers T, Stevens BR, et al. (2001) Ki-ras proto-oncogene mutations in sporadic colorectal adenomas: relationship to histologic and clinical characteristics. Gastroenterology 121: 302–309. 18. Sheffer M, Bacolod MD, Zuk O, Giardina SF, Pincas H, et al. (2009) Association of survival and disease progression with chromosomal instability: a genomic exploration of colorectal cancer. Proc Natl Acad Sci U S A 106: 7131– 7136. 19. Derks S, Postma C, Carvalho B, van den Bosch SM, Moerkerk PT, et al. (2008) Integrated analysis of chromosomal, microsatellite and epigenetic instability in colorectal cancer identifies specific associations between promoter methylation of pivotal tumour suppressor and DNA repair genes and specific chromosomal alterations. Carcinogenesis 29: 434–439. 20. Popat S, Zhao D, Chen Z, Pan H, Shao Y, et al. (2007) Relationship between chromosome 18q status and colorectal cancer prognosis: a prospective, blinded analysis of 280 patients. Anticancer Res 27: 627–633. 21. Khine K, Smith DR, Goh HS (1994) High frequency of allelic deletion on chromosome 17p in advanced colorectal cancer. Cancer 73: 28–35. 22. Diep CB, Thorstensen L, Meling GI, Skovlund E, Rognum TO, et al. (2003) Genetic tumor markers with prognostic impact in Dukes’ stages B and C colorectal cancer patients. J Clin Oncol 21: 820–829. 23. Garcia J, Duran A, Tabernero MD, Garcia Plaza A, Flores Corral T, et al. (2003) Numerical abnormalities of chromosomes 17 and 18 in sporadic colorectal cancer: Incidence and correlation with clinical and biological findings and the prognosis of the disease. Cytometry B Clin Cytom 51: 14–20. 1. Sartore-Bianchi A, Moroni M, Veronese S, Carnaghi C, Bajetta E, et al. (2007) Epidermal growth factor receptor gene copy number and clinical outcome of metastatic colorectal cancer treated with panitumumab. J Clin Oncol 25: 3238– 3245. 2. Sayagues JM, Abad Mdel M, Melchor HB, Gutierrez ML, Gonzalez-Gonzalez M, et al. (2010) Intratumoural cytogenetic heterogeneity of sporadic colorectal carcinomas suggests several pathways to liver metastasis. J Pathol 221: 308–319. 3. Arnold CN, Goel A, Blum HE, Boland CR (2005) Molecular pathogenesis of colorectal cancer: implications for molecular diagnosis. Cancer 104: 2035–2047. 4. Ashktorab H, Schaffer AA, Daremipouran M, Smoot DT, Lee E, et al. (2010) Distinct genetic alterations in colorectal cancer. PLoS One 5: e8879. 5. Hu XT, Chen W, Wang D, Shi QL, Zhang FB, et al. (2008) The proteasome subunit PSMA7 located on the 20q13 amplicon is overexpressed and associated with liver metastasis in colorectal cancer. Oncol Rep 19: 441–446. 6. Sayagues JM, Fontanillo C, Abad Mdel M, Gonzalez-Gonzalez M, Sarasquete ME, et al. (2010) Mapping of genetic abnormalities of primary tumours from metastatic CRC by high-resolution SNP arrays. PLoS One 5: e13752. 7. Camps J, Grade M, Nguyen QT, Hormann P, Becker S, et al. (2008) Chromosomal breakpoints in primary colon cancer cluster at sites of structural variants in the genome. Cancer Res 68: 1284–1295. 8. World Health Organization. WHO (1981) International Histological Classification of Tumors V-G, 1967–1981; 2nd edn, Berlin: Springer-Verlag, 1988–1992. 9. Munoz-Bellvis L, Fontanillo C, Gonzalez-Gonzalez M, Garcia E, Iglesias M, et al. (2012) Unique genetic profile of sporadic colorectal cancer liver metastasis versus primary tumors as defined by high-density single-nucleotide polymorphism arrays. Mod Pathol. 10. Poulogiannis G, Ichimura K, Hamoudi RA, Luo F, Leung SY, et al. (2010) Prognostic relevance of DNA copy number changes in colorectal cancer. J Pathol 220: 338–347. 11. Mackintosh C, Ordonez JL, Garcia-Dominguez DJ, Sevillano V, LlombartBosch A, et al. (2012) 1q gain and CDT2 overexpression underlie an aggressive and highly proliferative form of Ewing sarcoma. Oncogene 31: 1287–1298. 12. Re M, Magliulo G, Tarchini P, Mallardi V, Rubini C, et al. (2011) p53 and BCL-2 over-expression inversely correlates with histological differentiation in occupational ethmoidal intestinal-type sinonasal adenocarcinoma. Int J Immunopathol Pharmacol 24: 603–609. PLOS ONE | www.plosone.org 9 August 2012 | Volume 7 | Issue 8 | e42683 Prognostic Stratification of sCRC 24. Risio M, Casorzo L, Chiecchio L, De Rosa G, Rossini FP (2003) Deletions of 17p are associated with transition from early to advanced colorectal cancer. Cancer Genet Cytogenet 147: 44–49. 25. Losi L, Luppi G, Benhattar J (2004) Assessment of K-ras, Smad4 and p53 gene alterations in colorectal metastases and their role in the metastatic process. Oncol Rep 12: 1221–1225. 26. Iino H, Fukayama M, Maeda Y, Koike M, Mori T, et al. (1994) Molecular genetics for clinical management of colorectal carcinoma. 17p, 18q, and 22q loss of heterozygosity and decreased DCC expression are correlated with the metastatic potential. Cancer 73: 1324–1331. 27. Chang SC, Lin JK, Lin TC, Liang WY (2005) Genetic alteration of p53, but not overexpression of intratumoral p53 protein, or serum p53 antibody is a prognostic factor in sporadic colorectal adenocarcinoma. Int J Oncol 26: 65–75. 28. Paredes-Zaglul A, Kang JJ, Essig YP, Mao W, Irby R, et al. (1998) Analysis of colorectal cancer by comparative genomic hybridization: evidence for induction of the metastatic phenotype by loss of tumor suppressor genes. Clin Cancer Res 4: 879–886. 29. Kim DH, Lee ST, Won HH, Kim S, Kim MJ, et al. (2011) A genome-wide association study identifies novel loci associated with susceptibility to chronic myeloid leukemia. Blood 117: 6906–6911. 30. Gurtner A, Starace G, Norelli G, Piaggio G, Sacchi A, et al. (2010) Mutant p53induced up-regulation of mitogen-activated protein kinase kinase 3 contributes to gain of function. J Biol Chem 285: 14160–14169. 31. Jia M, Souchelnytskyi N, Hellman U, O’Hare M, Jat PS, et al. (2010) Proteome profiling of immortalization-to-senescence transition of human breast epithelial cells identified MAP2K3 as a senescence-promoting protein which is downregulated in human breast cancer. Proteomics Clin Appl 4: 816–828. PLOS ONE | www.plosone.org 32. Sher RB, Cox GA, Mills KD, Sundberg JP (2011) Rhabdomyosarcomas in aging A/J mice. PLoS One 6: e23498. 33. Liu YL, Yang YM, Xu H, Dong XS (2011) Aberrant expression of USP22 is associated with liver metastasis and poor prognosis of colorectal cancer. J Surg Oncol 103: 283–289. 34. Liu YL, Jiang SX, Yang YM, Xu H, Liu JL, et al. (2012) USP22 acts as an oncogene by the activation of BMI-1-mediated INK4a/ARF pathway and Akt pathway. Cell Biochem Biophys 62: 229–235. 35. Liu YL, Yang YM, Xu H, Dong XS (2010) Increased expression of ubiquitinspecific protease 22 can promote cancer progression and predict therapy failure in human colorectal cancer. J Gastroenterol Hepatol 25: 1800–1805. 36. Castells A, Ino Y, Louis DN, Ramesh V, Gusella JF, et al. (1999) Mapping of a target region of allelic loss to a 0.5-cM interval on chromosome 22q13 in human colorectal cancer. Gastroenterology 117: 831–837. 37. Castells A, Gusella JF, Ramesh V, Rustgi AK (2000) A region of deletion on chromosome 22q13 is common to human breast and colorectal cancers. Cancer Res 60: 2836–2839. 38. Al-Mulla F, Keith WN, Pickford IR, Going JJ, Birnie GD (1999) Comparative genomic hybridization analysis of primary colorectal carcinomas and their synchronous metastases. Genes Chromosomes Cancer 24: 306–314. 39. Yana I, Kurahashi H, Nakamori S, Kameyama M, Nakamura T, et al. (1995) Frequent loss of heterozygosity at telomeric loci on 22q in sporadic colorectal cancers. Int J Cancer 60: 174–177. 40. Ghadimi BM, Grade M, Monkemeyer C, Kulle B, Gaedcke J, et al. (2006) Distinct chromosomal profiles in metastasizing and non-metastasizing colorectal carcinomas. Cell Oncol 28: 273–281. 10 August 2012 | Volume 7 | Issue 8 | e42683 Genomics 97 (2011) 86–93 Contents lists available at ScienceDirect Genomics j o u r n a l h o m e p a g e : w w w. e l s e v i e r. c o m / l o c a t e / y g e n o Segmentation of genomic and transcriptomic microarrays data reveals major correlation between DNA copy number aberrations and gene–loci expression M. Ortiz-Estevez a, J. De Las Rivas b, C. Fontanillo b, A. Rubio a,⁎ a b Department of Electronics and Communication, CEIT and TECNUN (Univeristy of Navarra), Paseo Manuel Lardizabal 15, 20009, San Sebastian, Spain Centro de Investigacion del Cancer (CiC-IBMCC), CSIC and USAL, E37007 Salamanca, Spain a r t i c l e i n f o Article history: Received 4 June 2010 Accepted 22 October 2010 Available online 29 October 2010 Keywords: Gene expression Copy number Microarrays Segmentation a b s t r a c t DNA copy number aberrations (CNAs) are genetic alterations common in cancer cells. Their transcriptional consequences are still poorly understood. Based on the fact that DNA copy number (CN) is highly correlated with the genomic position, we have applied a segmentation algorithm to gene expression (GE) to explore its relation with CN. We have found a strong correlation between segmented CN (sCN) and segmented GE (sGE), corroborating that CNAs have clear effects on genome-wide expression. We have found out that most of the recurrent regions of sGE are common to those obtained from sCN analysis. Results for two cancer datasets confirm the known targets of aberrations and provide new candidates to study. The suggested methodology allows to find recurrent aberrations specific to sGE, revealing loci where the expression of the genes is independent from their CNs. R code and additional files are available as supplementary material. © 2010 Elsevier Inc. All rights reserved. 1. Introduction The presence of genomic aberrations in tumoral cells is a wellknown fact. In recent years, several studies have shown that the alteration of DNA copy number (CN) can be related to similar modifications in the expression levels of some specific genes [1–3]. These changes can be amplifications (gains) or deletions (losses) of a region of a chromosome, or even a whole chromosome and they are commonly called DNA copy number aberrations (CNAs). These abnormalities are assumed to affect gene expression (GE) and ultimately some of them may coadjuvate to the development of a particular cancer. However, the relationship between CN and GE is complex and not well understood: there are genes whose expression is not apparently affected by their CNs and genes which show their expression strongly correlated with them. One reason for this unclear relationship is that CN is only one of the several factors that can affect the regulation of GE and gene function in complex metazoans. Recently, new studies focused on the relationship between CNAs and GE have performed joint analysis based on different strategies. Some of them calculated the correlation between CN and GE gene by gene across samples [2,4,5]. These correlations are not particularly large, although they are significant for many genes. Others, like Tsafrir et al. [6], obtained a correlation along the genome using filtered CN and filtered GE. Witten et al. use a sparsified version of the canonical correlation between CN and GE [7]. Moreover, Jarvinen et al. [8] and Cifola et al. [9] based their experiments on differential expression ⁎ Corresponding author. E-mail address: [email protected] (A. Rubio). 0888-7543/$ – see front matter © 2010 Elsevier Inc. All rights reserved. doi:10.1016/j.ygeno.2010.10.008 calculated between groups defined by genomic alterations. Finally, other studies are based on the hypothesis that some genes are grouped in the genome by their functions and, because of this, they consider that CNAs affect groups of cofunctional genes [10,11]. Here, we hypothesize that there should be a common behavior of the genes under the influence of CNAs. From this viewpoint we look for a global consistent relationship between CN and GE. Knowing that CNAs are highly correlated with the position on the genome, we propose that the global GE modifications produced by CNAs should be also correlated with the genomic position. In order to study and evaluate the relationship between CN and GE, we have used a global approach that does not focus only in gene by gene relationships but that considers the complete genome and treats the loci with a coherent common approach, both when measuring CN and transcriptomic activity. To test the validity of our hypothesis, we have analyzed two different set of samples that have matched CN and GE. One of them is a study of glioblastoma multiforme (GBM) [2] and the other is a study of acute lymphoblastic leukemia (ALL) [3]. Since the CN values of two adjacent positions in the genome are (unless there is a CNA) identical, segmentation of raw CN improves the estimation of real CN. The segmentation algorithm (in the case of CN) identifies contiguous subsets of SNPs in the genome that have the same CN value. It provides “sharp” edges between regions instead of smooth transitions as standard filters do. This characteristic is important when working with CN data because when a region is lost (or amplified) the change between the two sides of the break point is not smooth. Therefore, the segmentation methods applied to raw CN data (sCN) give better results than linear or median filters [12] and they are customarily applied. We applied a similar segmentation approach (in the two datasets) to both analysis (GE and CN). Applying M. Ortiz-Estevez et al. / Genomics 97 (2011) 86–93 a segmentation algorithm to GE removes (to a certain extent) the possible effects of the regulation of GE that are not related with the genomic position. We found that segmented values of GE (sGE) are strongly correlated with sCN. Finding recurrent aberrations in segments of the genome has been an active field of research on the last years [13]. Copy number data can be used to find chromosomal regions in which aberrations (deletions or amplifications) frequently appear. It is essential to find the recurrent changes in samples to get a common CNA signature of a given disease. In cancer, full agreement within tumor samples is difficult to find due to tumor heterogeneity. However, if there is a consistent region of aberration which happens more often than expected by chance, it could reveal one of the causes of the detected cancer. These chromosomal regions might include genes which change their expression because of these CNAs and they would be also found as recurrent using sGE data. The recurrent aberrated regions in sCN and sGE in this work have been independently calculated and the results show that most of them appear in the same cytobands in sGE and sCN. 87 Contrary to this general trend, in some cases we found genome regions or loci where CNAs do not correlate with GE changes, for example where the sGE is significantly altered but the sCN is neutral. These regions can be affected by another level of regulation, e.g., epigenetic methylation/demethylation, or occur in zones with recurrent copy neutral loss of heterozygosity (LOH) [14,15]. However, in our datasets, we did not find a conclusive evidence of this effect. The calculation of sGE using expression microarray data can be, on its own, an interesting approach to putatively pinpoint loci in the genome affected by different positional factors, such as alteration in the number of copies, epigenetic modifications, LOH or other events linked to the position in the genome. 2. Materials and methods The analysis of the arrays can be divided into two different parallel processes for CN and GE. Fig. 1 outlines the steps followed in this research. Fig. 1. Analysis work flow for CN and GE. The gene expression arrays are processed with RMA [16] and the SNPs copy number arrays are analyzed using CRMAv2 [17]. The summarization of the probes is done using a specific cdf which has the information on how to group the probes (by genes in the case of expression data or by SNPs for copy number data). Once the data have been processed, a segmentation algorithm is applied dividing the genome in regions of consecutive elements (SNPs or genes) with similar values and assigning a single value, log2 ratio of CN for SNPs and log2 ratio of expression for genes. SNP CN and gene expression data can be matched using their locations in the genome as explained in the main text. Once both identifiers are matched, we have computed the correlation (that was strongly significant) and generated the ROC curves that show the similarities between regions over/under expressed and regions with gain/loss of copy numbers. Finally, GISTIC, an algorithm to detect recurrent aberrated regions is applied to the segmented data (sCN and sGE) in order to find altered loci in a significant group of samples and the results are compared. Pipelines for CN and GE data are completely independent. 88 M. Ortiz-Estevez et al. / Genomics 97 (2011) 86–93 2.1. Data Two different studies have been used to validate our method. Both include measurements of genome-wide copy number and expression for each sample. The first dataset is a study of brain tumors carried out by Kotliarov et al. [2]. We used a subgroup of 64 cases (listed in the supplementary material) from the whole dataset related with glioblastoma multiforme (GBM). The second dataset consists of 28 cases of pediatric acute lymphoblastic leukemia (ALL) from the GSE10792 [3]. These leukemia samples are listed in the supplementary material. 2.2. Material and data preprocessing Gene expression data have been analyzed using RMA [16] over the HGU133 plus2 array. The chip definition file (cdf) to perform the analysis was downloaded from version 10 of Brainarray [18], which corresponds to version 46 of Ensembl genes and genomes. Affymetrix Human Mapping 50K SNP array has been used for the analysis of the CN data. The cdf file needed in this case is the Affymetrix GeneChip Mapping 50K Xba240_SNP array cdf. CRMAv2 [17] has been applied to the CN signals in order to obtain the raw CN. The analysis of both types of data have been performed under R [19] using the aroma.affymetrix package [20]. 2.3. Segmentation A segmentation algorithm divides a set of ordered data into regions of adjacent elements which have similar values. Each region is assigned a single value which represents all the data that belong to it. Segmentation methods are a family of algorithms that were initially applied to image analysis and, more recently, to genomic data. There are several algorithms to segment genomic data such as circular binary segmentation (CBS) [21,22], CGHseq [23], GLAD [24] or HAAR [25], among others. CBS has been chosen in this experiment because different independent comparisons [12,26] have proved that it is an accurate method. It is also widely used and implemented both in Matlab and R. Before the segmentation algorithm is applied, the raw data are normalized dividing by the median of the samples from each element (SNP or gene) and computing its log2, Δ CNi; j = log2 CNi; j =median CNi;1:n ð1Þ Δ GEk; j = log2 GEk; j =median GEk;1:n ; ð2Þ where i and k represent the elements (SNPs or genes, respectively), j is the sample and n is the number of samples analyzed in the experiment. The input of the segmentation methods are the raw data (i.e., GE or CN values previously calculated) and a list with the name, chromosome and position of each of the probesets of the array. CBS proceeds as follows. It considers each of the chromosomes as a “ring”: both extremes of the chromosomes are assumed to be connected. Each ring is split in two parts and the copy numbers of each of these parts are compared using a t-test Sj −Si = ð j−iÞ− Sn −Sj + Si = ðn−j + iÞ pffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffi Zij = 1 = ð j−iÞ + 1 = ðn−j−iÞ ð3Þ for each pair of positions i, j. Sn is the sum of the raw copy number data from the 1st SNP to the nth SNP. The method is based on the statistic ZC = max 1 b i b j b n|Zij|. If the ZC is above a threshold, established using a bootstrap method, then a new segment is found. The same algorithm is applied recursively to each of the found segments. Using bootstrap to select the threshold is time-consuming. The authors of CBS derived an estimation of the threshold one order of magnitude faster [22]. Recently, they have developed an even faster version. The output of the segmentation method is sGE and sCN for gene expression and copy numbers. respectively. sGE and sCN are matrices with constant values along the positions in the genome for points (genes or SNPs) within the same segment. As shown in Eq. (2), each gene is previously normalized by the median of its expression across the samples. Therefore, sGE provides regions of the genome that show their expression upregulated or downregulated if compared with the median across the samples. sCN has been normalized in a similar way. Segmentation of GE shows a specific problem that does not occur with CN data: a gene is itself a “segment” of the genome, not a single point, as with a SNP. RMA (like other summarization algorithms) provides an estimation of the concentration of the whole gene and as indicated before, a segmentation method needs a file with the position of the elements. Then, when dealing with GE data, a single position point has to be assigned to each gene. We decided to use the middle point of the genes as their representative positions (this middle point pos pos is calculated for each gene as: genepos middle=(geneend+ genestart)/2). Most of the segmentation methods are able to adapt their accuracy according to the noise level of the data: if the data is clean, narrower segments can be detected. If the data is noisier, only broad segments are statistically significant. Since GE is affected by other factors different from CN, GE data is noisier than CN data and the segmentation algorithm is expected to provide broader segments. We used CBS algorithm with the default parameters for GE segmentation, adapting the input data to the gene signals as indicated above. The genome information of the genes was generated using ENSMART [27]. The file and the code to generate it are included as supplementary material. 2.4. Recurrent aberrations in chromosomal segments There are different algorithms to find recurrent segments with aberrations such as STAC [28], SIRAC [29] or GISTIC [30], among others. For a review of different methods, the reader can consult [31]. All of them, based on different statistical techniques, look for regions with aberrations that occur in a significant number of samples. We have selected GISTIC [30] for our study. GISTIC is a freely available method that distinguishes random background from true aberrations. It takes into account the values of CN and lets the user set the different parameters to find deletions/amplifications and the p-value to determine if an aberration is recurrent. GISTIC, after a careful analysis of the samples (to exclude duplicates or noisy samples), accepts as input sCN values. In its first stage, a statistic for each SNP is computed as follows: amp Gi = 1 amp ∑cij I cij N θ ; n ð4Þ where cij is the log2 ratio of the CN, I is an indicator function that equals 1 if its argument is true and 0 otherwise, and θamp is a threshold to consider that a locus has an amplification. This statistic takes into account both the strength of the amplification as its frequency. Using a semi-exact approximation, to avoid a computer intensive bootstrap, GISTIC identifies the regions of the genome were Gamp is statistically significant, with FDR correction for multiple i hypothesis. Once the recurrent regions are selected, GISTIC identifies the peak or peaks (if the region shows a multimodal distribution). Genes that are located in these peaks are suggested by GISTIC to be the targets of the recurrent amplifications. The same algorithm is used to identify the deletions. M. Ortiz-Estevez et al. / Genomics 97 (2011) 86–93 GISTIC was developed to be applied to sCN, but in our experiments, we also applied it to sGE to find recurrent over-expressed or underexpressed regions in the genome. The thresholds established for this experiment are the default values in GISTIC. As a result, GISTIC returns a list of the recurrent regions with their statistical significances. 2.5. Matching DNA copy number and gene expression data The process to match both identifiers (genes and SNPs) is not straightforward because there are genes that have several SNPs in the array and there are genes with no SNPs. Moreover, there are SNPs in the intergenic regions that do not match any gene coding region. Our first attempt was a direct assignation using Ensembl database [32]. Only the genes that had SNPs assigned in the database were matched and if there was a CNA within a gene, the median of the CN values for all the SNPs belonging to that gene were calculated. With this assignation only 50% of the genes had at least one corresponding SNP in the SNP array. This loss of data drove us to use a different approach. Considering the sCN, the whole genome is divided into regions depending on their sCN values. Then, using the position of a gene, their corresponding sCN value can be assigned. So, even if a gene has no SNPs, it always lies in a region that has a predicted sCN (by the segmentation method). Fig. 2 illustrates this point. Gene A is located in a segment of the genome with several SNPs mapped to it and a single CN estimation (signal about −0.5). This is the CN value assigned to gene A. Gene B has no SNPs located close to it, but the zone of the genome where it is located has an assigned CN value. Finally, gene C belongs to two different segments. In this last case, we have considered the CN of a single point for each gene located at the center point of its genomic position. 3. Results As indicated in Section 2, we have used two different datasets of cancer samples that have matched CN and GE data from genome wide microarrays. One dataset is from a GBM study and the other one from an ALL study. Since both studies have matched samples, we have compared sGE with sCN with two different validation methods. Firstly, we have generated a sCN matrix with the dimensions genes by samples in order to check if the CNAs affect the sGE. We have done this using ROC curves. And the second method uses GISTIC to look for recurrent aberrated regions in each of the data-types and check the similarities and differences within the results. 89 Figs. 3 and 4 show the results from both datasets. Both figures show the recurrent amplified regions (red) and the recurrent overexpressed zones (pink). In GBM (Fig. 3), there are regions such as chromosomes 10, 19, 20 and 22 which are amplified and overexpressed and all of them have been previously published in different articles [33,35]. The recurrent deleted and under-expressed regions from GBM are shown in Fig. 3 in dark and light green (negative part of the plot). For example, arm 4q and regions 6q25, 11p15, 14q and 19p13 have been described as LOH regions because of the deletions [14,15]. All of the LOH regions seem to affect the GE of genes lying in those zones of the genome. On the other hand, there are some recurrent CN aberrated regions that do not seem to affect sGE. This can be due to the fact that they are so small that they are missed by the segmentation method, or because these regions are regulated by other factors that minimize the effect of CN. From the ALL data we can see in Fig. 4 that chromosomes 4, 6, 14, 17, 18, and 21 are amplified and also found as recurrently overexpressed. Small regions of arm p of chromosomes 7, 16 and 19 are also selected using both types of data. Chromosome 1 seems to have some genes over-expressed independently from sCN. The negative part of the figure shows common aberrations in chromosome arms 7p, 9p, 20q and the whole chromosome 21. These regions are both recurrently deleted and under-expressed. There are also some recurrent CN aberrated regions that do not seem to affect sGE. 3.1. Similarities between sCN and sGE After performing the matching between sCN and sGE, both types of data have the same dimensions (genes by samples). The Pearson correlation coefficient between them in GBM was 0.60, with a strong statistical significance (p b 2.210− 16). Correlation for the ALL dataset was weaker (0.19) but still strongly significant (p b 2.210− 16). Figs. 5 and 6 show the ROC curves for three different tests. These tests check how CNAs affect sGE based on ROC curves. Firstly, we generated a ROC curve to test if the CN amplifications affect sGE. In order to do this, we considered that there was an amplification if the measured CN was larger than 2.5. This threshold (for all the samples) gave a set of loci that showed amplifications. After that, different thresholds for sGE data were set. Then, for a particular threshold there were true positives (TP, i.e., loci with amplifications and also overexpressed), false positives (FP, i.e., loci over-expressed and not amplified) and, with equivalent definitions, true negatives (TN) and false negatives (FN). Having these values, the true positive rate (TPR) and the false positive rate (FPR) were calculated as: TPR=TP/(TP+FN) and FPR=FP/(FP+TN). Second, the same reasoning was applied to Fig. 2. Mapping between genes and sCN regions. This step is performed in order to assign a CN value to each gene and test how both (CN and GE) matrices behave. On the Y axis the log2 ratio of the CN are represented and on the X axis the genomic position. The green dots are the raw copy number values, the black horizontal lines are the segmented copy numbers and the dotted black lines are the “expected” values of a gain to three copies (log2(3/2) = 0.58), a normal region (log2(2/2) = 0) and a deletion to one copy (log2(1/2) = − 1). However, these values are not obtained when using real CN data, this can be due to saturation of the probes, normalization methods or contamination with normal tissue. Once the CNs have been segmented, the genome is divided into regions of SNPs with an assigned number of copies. After that, the assignation of a CN value to each gene is performed based on its genomic position. The procedure for different cases is indicated in the figure: gene A includes several SNPs which belong to a region of the segmentation; gene B has no SNPs but its CN can be estimated using the segmented data; finally, gene C displays a possible problem because there are two regions with different CN values within it. In this experiment, if there is a CNAs within a gene we have simply assigned the CN that corresponds to the center point of the gene. 90 M. Ortiz-Estevez et al. / Genomics 97 (2011) 86–93 Fig. 3. Output of the GISTIC package for the GBM dataset using sCN and sGE. One of the outputs of GISTIC is a file where the recurrent regions it founds are assigned a g-score (value calculated by GISTIC related to the q-value). In this figure the positive part of the Y axis represents the g-scores given to the amplified/over-expressed regions and the negative part represents the (−)g-scores given to the deleted/under-expressed regions. We have done this change of sign in order to show both graphs in the same figure. On the other hand, the X axis represents the genomic position grouped by chromosomes. There also are four horizontal lines that show the thresholds to consider a g-score significant (FDR equals to 25%). The two straight lines highlight the threshold corresponding to sCN, and the dotted lines highlight the ones corresponding to sGE. Depending on the aberration under study (amplifications/over-expressions, deletions/under-expressions) they are respectively plotted in the positive and negative part of the figure. Only the autosomes are shown here. The positive part of Fig. 3 shows the values obtained using GISTIC with both types of data. It shows the recurrent amplified regions (red) and the recurrent over-expressed zones (pink). Regions such as chromosomes 10, 19, 20 and 22 are amplified and over-expressed and all of them have been previously published in different articles [33,34]. The recurrent deleted and under-expressed regions are shown in Fig. 3 in dark and light green (negative part of the plot). For example, arm 4q and regions 6q25, 11p15, 14q and 19p13 have been described as a LOH regions [14,15] and all of them seem to affect the GE of genes lying in those zones of the genome. On the other hand, there are some recurrent CN aberrated regions that do not seem to affect sGE, this can be due to the fact that they are missed by the segmentation method, because of the large level of noise, or because these regions are regulated by other factors that minimize the effect of CN. The Y axis were clipped to 0.2 and −0.2 to ease the comparison with the other dataset. The (maximum, minimum) values of the g-scores for sCN and sGE are (0.880, −0.391) and (0.426, −0.140) respectively. The names of chromosomes 17, 19 and 21 are omitted owing to lack of space. check deletions (considering a CN deletion when CN value was equal or lower than 1.5). Finally, a third test to check strong amplifications (four or more copies) is also performed. These figures also include a ROC curve obtained using raw GE (instead of sGE) to test gains. Fig. 5 shows for all the curves that use sGE, a high TPR (around 0.70) compared to a much lower (less than 0.05) FPR. These curves show a very steep slope for low values of FPR in contrast to the ROC curve obtained using raw GE. They can be interpreted as follows: there are very few loci that show changes in sGE that do not directly correspond to CNAs, i.e., most of the changes in sGE occur due to a change in the CN (although there are some exceptions). However, there are some CNAs that do not show the corresponding alteration in Fig. 4. GISTIC applied to the ALL data. In this figure the positive part of the Y axis represents the g-scores given to the amplified/over-expressed regions and the negative part represents the (−)g-scores given to the deleted/under-expressed regions. Depending on the aberration under study (amplifications/over-expressions, deletions/under-expressions) they are respectively plotted in the positive and negative part of the figure. As in Fig. 3, the recurrent amplified regions are shown in red and the recurrent over-expressed zones in pink, while the recurrent deleted and under-expressed regions are shown in dark and light green (negative part of the plot). In this figure we see recurrent amplifcations/overexpressions in both sCN and sGE. Chromosomes 4, 6, 14, 17, 18 and 21 are amplified and also found as recurrently over-expressed. Small regions of arm p of chromosomes 7, 16 and 19 are also selected using both types of data. Chromosome 1 seems to have some genes over-expressed independent from sCN. The negative part of the figure shows common aberrations in chromosome 7 and 9 arm p, chromosome 20 arm q and the whole chromosome 21. These regions seem to be both deleted and under-expressed. The Y axis were clipped to 0.2 and −0.2. The (maximum, minimum) values of the g-scores for sCN and sGE are (0.189, −0.370) and (0.200, −0.188) respectively. Chromosome names 17, 19 and 21 are omitted owing to lack of space. M. Ortiz-Estevez et al. / Genomics 97 (2011) 86–93 ROC curves 0.8 0.6 0.4 0.2 Amplifications Deletions High Amplifications Amplif. using raw data 0.0 TPR (correctly calling CNAs aberrations) 1.0 aberrations (deletions, amplifications and high amplifications) are reflected in segmented GE more than in raw GE. TPR (correctly calling CNAs aberrations) is around 0.9 for a FPR (incorrectly calling CNAs normal (CN = 2)) equal to 0.02 for amplifications and high amplifications (black dots and red crosses). This means that 90% of all the “real CN amplifications” are found using segmented gene expression, or that almost all the regions that are amplified are also over-expressed. In the case of deletions (blue triangles), the slope is a bit lower and we get a TPR of almost 0.8 and a FPR of 0.09. When using raw expression data (green squares) ROC curve is only slightly above the diagonal, i.e., results are only slightly better than those expected by chance. 3.2. Recurrent aberrated regions in sCN and sGE data 0.0 0.2 0.4 0.6 0.8 1.0 FPR (incorrectly calling CNAs normal (CN=2)) Fig. 5. Using the GBM dataset, we have calculated the ROC curves of the CNAs (amplifications (copy number equal or higher than 2.5), deletions (copy number equal or lower than 1.5) and high amplifications (four or more copies)) that also appear in sGE, and also the same analysis using raw GE. The AUC (area under curve) using raw GE is much smaller than using sGE. Amplifications and high amplifications strongly affect sGE. sGE. This fact moves the curve downwards for larger FPRs, i.e., the curve approaches 1.0 only for large FPRs. The origin of this fact is twofold. On one hand, the segmentation algorithm over GE cannot discover narrow segments because of the inherent variability of GE owing to the different regulators. And, on the other hand, not all the CNAs affect GE, and some genes (that do show aberrations in their CN) are regulated by other factors that minimize the effect of CN. In Fig. 6 the ROC curves obtained from the ALL dataset are shown. As happens in GBM, here the ROC curves demonstrate that the 0.2 0.4 0.6 0.8 1.0 ROC curves Amplifications Deletions High Amplifications Amplif. using raw data 0.0 TPR (correctly calling CNAs aberrations) 91 0.0 0.2 0.4 0.6 0.8 1.0 FPR (incorrectly calling CNAs normal (CN=2)) Fig. 6. As done before with GBM, this figure presents the ROC curves of the predictions of CNAs (amplifications (copy number equal or higher than 2.5), deletions (copy number equal or lower than 1.5) and high amplifications (four or more copies)) using segmented gene expression data, and the predictions of amplifications using raw expression data of pediatric acute lymphoblastic leukemia (ALL). TPR (correctly calling CNAs aberrations) is around.9 for a FPR (incorrectly calling CNAs normal (CN = 2)) equal to 0.02 for amplifications and high amplifications (black dots and red crosses). When using raw expression data (green squares) the line we get is almost diagonal. Usually researchers are interested in the location of recurrent CNAs, i.e., amplifications or deletions, because they can be the drivers of pathology. In our case, we have used GISTIC to provide the locations of the genome especially enriched in over/under expressions (using sGE data) and also in amplifications/deletions (using sCN data). Figs. 3 and 4 show the g-scores provided by GISTIC for amplified/ over-expressed loci (red lines, positive part of the plot) and deleted/ under-expressed (green lines, negative part of the plot). It can be seen that the significant recurrent regions (if sCN and sGE are compared) are very similar to each other, i.e., most of the recurrent aberrations affect sGE and most of the recurrent over/under-expressed loci of the genome are related with recurrent aberrations. The list provided by GISTIC with the most significant aberrated loci and a table showing the statistical ratios at different thresholds are given as supplementary material. 3.2.1. Common recurrent altered regions to sCN and sGE In this section, we illustrate that the regions selected by GISTIC as recurrently over/under-expressed using sGE are consistent with the results from sCN, and also with the information already published about GBM. GBM is the first cancer sequenced by The Cancer Genome Atlas (TCGA [35]) and we have compared our findings with the results published by this consortium. In the case of common regions to both analysis, it is likely that the reason for the changes in GE are the CNAs, i.e., regions with a deletion tend to be under-expressed and regions with a gain tend to be overexpressed. Fig. 3 shows that most of the regions selected as recurrent using sCN also appear with sGE data. We independently study both the deletions/under-expressions and the gains/over-expressions. 3.2.1.1. Recurrent deleted and under-expressed regions. In this section we focus on the recurrent deleted and under-expressed regions shown in Figs. 3 and 4 in dark and light green (negative part of the plot). 3.2.1.1.1. GBM. Arm 4q and regions 6q25, 11p15, 14q and 19p13 have been described as deleted regions [14,15] and all of them seem to affect the GE of genes lying in those zones of the genome. The chromosome arm 4q has also been studied as a loss region [36,37] which can be the reason for the change in the GE data. McLendon et al. [35] describe region 9p21.3 as the most recurrently deleted in GBM, and we show that it is also recurrent in segmented gene expression data as an under-expressed zone. PTEN (10q23.31) is known to be mutated in GBM and to have a homozygous deletion in a high percentage of samples [30,35]. Arm 15q has been reported to be deleted in GBM samples in a study performed by Vranova et al. [38]. Region 13q14 [35] and 22q13 [39] have been reported to be related with the progression of the GBM. All these regions appear to be recurrently under-expressed and deleted in our study. 3.2.1.1.2. ALL. In this dataset, the analysis of the ALL samples based on recurrent deleted/under-expressed regions (Fig. 4) shows that 92 M. Ortiz-Estevez et al. / Genomics 97 (2011) 86–93 chromosome 9 has a significant loss of the p arm which is also seen in sGE data. In this way, there is a clear agreement between our analyses and the results published by Bungaro et al. [3]. However, in our dataset we detect higher frequencies of the 9p deletion than Bungaro et al. 3.2.1.2. Recurrent amplified and over-expressed regions. The positive part of Figs. 3 and 4 show the recurrent amplified and over-expressed regions obtained using GISTIC with both datasets respectively. It shows the recurrent amplified regions (red) and the recurrent overexpressed zones (pink). 3.2.1.2.1. GBM. Regions such as chromosomes 10, 19, 20 and 22 are amplified and over-expressed and all of them have been previously published in different articles [34]. Gene EGFR, located at 7p11.2 has been previously found to have been activated in glioblastomas [30,35] and here it appears as recurrent in both sCN and sGE data. A narrow region in 1q32 has been reported as an amplification related with the progression of the gliomas [40]. Weber et al. [33] also associated region 5q34 with the proliferative activity of malignant glioma cell lines. CDK4 on 12q14 is frequently amplified in GBMs [41]. Knobbe et al. [42] and Van et al. [43] reported region 13q34 as amplified and overexpressed. Finally, Korshunov et al. [44] described cytoband 14q32 as a frequently amplified region in GBMs. 3.2.1.2.2. ALL. Fig. 4 shows that chromosome 21 suffer one of the clearest alteration with a significant gain that can be also seen in sGE data too. Again, there is an agreement between our analyses and the results published by Bungaro et al. [3]. The “chr 21 amplification” affects 64.2% of the cases. Moreover, the method here proposed also allows to detect significant alterations in other chromosomes that were not indicated by Bungaro et al. and that also occur in both data types (sCN and sGE), as the gain of chromosomes 6, 17 and 18 (see Fig. 4) which have already been published [45]. 3.2.2. Noncommon recurrent altered regions In addition to the over/under-expressed regions caused by CNAs, there are zones in sGE which appear to be correlated with the position in the genome but not with the observed CNAs. These regions can appear due to other causes different from sCN (as methylation, LOH with neutral copy number or clusters of genes regulated for the same factor). In our case, a LOH analysis (for loci with neutral CN) was executed and no significant results were found. 3.2.2.1. Recurrent over/under-expressed regions 3.2.2.1.1. GBM. The closest gene to region 15q21.1 is THBS1 which appears to be under-expressed. It has been identified as a methylated tumor suppressor in different cancers [46]. This fact could be the reason why this region appears more clearly when studying sGE than with sCN. There also are a group of loci where different gene families are located that seem to have their expression altered, as MT1 gene family (16q12.2), IRX (5p15.33), NEF (8p21.2) and CXC (4q13.3). These results can be due to a common regulation factor that impacts the whole gene family and can be found using sGE. 3.2.2.1.2. ALL. In the ALL data there are also a number of genomic regions which seem to have the genes within them be affected by a factor related with the position in the genome. These regions are mostly in chromosomes 1, 5, 13 and 19, and most of them have already been studied [47,48]. 4. Discussion In this study, we propose to segment GE data derived from genome-wide expression microarrays. Segmentation of gene expression tends to reduce the effects not related with the position in the genome: if the regulators are not related with the genomic position, upregulation and downregulation of close genes along the genome will tend to cancel out each other. Therefore, sGE is an indirect measurement of the effect on GE of the regulators related with the genomic position. In Section 3, it is shown that one of the effects related with the genomic position and in fact the most important one is CNA. None of the datasets (both GBM and ALL) includes reference samples. The normalization of the CN and GE estimates has been done using the median of all the samples. This method is valid if most of the samples behave normally. However, in the case of very frequent aberrations, the value of this reference can be biased towards the direction of the alteration. This is the reason why, for example, chromosome 7 in the GBM dataset appears to be both recurrently deleted and amplified (when it is known to be amplified in GBM). If the studies include reference samples it is advisable to use them both for CN and GE normalization, i.e., in Eqs. (1) and (2), the median that appears in the denominator must be performed over the reference samples instead of all the samples. sGE and sCN data have a close relationship as shown by the global correlation between sGE and sCN which is strongly significant. In addition, the ROC curves of the CNAs and sGE show that, depending on the threshold, it is possible to get specificities and sensitivities over 75% (Figs. 5 and 6). Figs. 3 and 4 also show that most of the recurrent aberrated regions commonly occur in both types of data. GE, as expected, has a very strong variation across the genome since many factors that affect GE are not related with the genomic position. This additional variability is reflected in the probabilities of recurrent aberrations. As can be seen in Fig. 3, g-scores for sCN are larger (more significant) than for segmented expression data. Even though, the predicted recurrent regions are very similar and the overall probabilities provided by sGE are significant. We have also found recurrent “under-expressed segments” not correlated with “CN deletions.” These discrepancies can be attributed to local modifications of the genome, for example, a local methylation of the genome as has been published by Stransky et al. [49] located in one of these zones where CNA and GE do not correlate. Other loci not regulated by CN are gene families affected by a common regulation factor. In summary, at least for an exploratory analysis, sGE provides initial regions to search for possible target genes whose CNAs affect GE. In addition, the combination of sGE and sCN also provides loci uncorrelated GE/CN that can be related to other regulatory events. Supplementary materials related to this article can be found online at doi:10.1016/j.ygeno.2010.10.008. Acknowledgments The authors would like to thank Jose Angel Martinez-Climent for his support and advice in the interpretation of the results. References [1] J.R. Pollack, T. Sørlie, C.M. Perou, C.A. Rees, S.S. Jeffrey, P.E. Lonning, R. Tibshirani, D. Botstein, A.-L. Børresen-Dale, P.O. Brown, Microarray analysis reveals a major direct role of DNA copy number alteration in the transcriptional program of human breast tumors, Proc. Natl Acad. Sci. USA 99 (2002) 12963–12968. [2] Y. Kotliarov, M.E. Steed, N. Christopher, J. Walling, Q. Su, A. Center, J. Heiss, M. Rosenblum, T. Mikkelsen, J.C. Zenklusen, H.A. Fine, High-resolution global genomic survey of 178 gliomas reveals novel regions of copy number alteration and allelic imbalances, Cancer Res. 66 (2006) 9428–9436. [3] S. Bungaro, M. Dell'Orto, A. Zangrando, D. Basso, T. Gorletta, L. Lo Nigro, A. Leszl, B. Young, G. Basso, S. Bicciato, A. Biondi, Integration of genomic and gene expression data of childhood ALL without known aberrations identifies subgroups with specific genetic hallmarks, Genes Chromosom. Cancer (2009). [4] E. Hyman, P. Kauraniemi, S. Hautaniemi, M. Wolf, S. Mousses, E. Rozenblum, M. Ringnér, G. Sauter, O. Monni, A. Elkahloun, O.-P. Kallioniemi, A. Kallioniemi, Impact of DNA amplification on gene expression patterns in breast cancer, Cancer Res. 62 (2002) 6240–6245. [5] Y. Kotliarov, S. Kotliarova, N. Charong, A. Li, J. Walling, E. Aquilanti, S. Ahn, M. Steed, Q. Su, A. Center, J. Zenklusen, H. Fine, Correlation analysis between singlenucleotide polymorphism and expression arrays in gliomas identifies potentially relevant target genes, Cancer Res. (2009). M. Ortiz-Estevez et al. / Genomics 97 (2011) 86–93 [6] D. Tsafrir, M. Bacolod, Z. Selvanayagam, I. Tsafrir, J. Shia, Z. Zeng, H. Liu, C. Krier, R.F. Stengel, F. Barany, W.L. Gerald, P.B. Paty, E. Domany, D.A. Notterman, Relationship of gene expression and chromosomal abnormalities in colorectal cancer, Cancer Res. 66 (2006) 2129–2137. [7] D. Witten, R. Tibshirani, T. Hastie, A penalized matrix decomposition, with applications to sparse principal components and canonical correlation analysis, Biostatistics 10 (2009) 515. [8] A.-K. Jarvinen, R. Autio, S. Haapa-Paananen, M. Wolf, M. Saarela, R. Grenman, I. Leivo, O. Kallioniemi, A.A. Makitie, O. Monni, Identification of target genes in laryngeal squamous cell carcinoma by high-resolution copy number and gene expression microarray analyses, Oncogene 25 (2006) 6997–7008. [9] I. Cifola, R. Spinelli, L. Beltrame, C. Peano, E. Fasoli, S. Ferrero, S. Bosari, S. Signorini, F. Rocco, R. Perego, V. Proserpio, F. Raimondo, P. Mocarelli, C. Battaglia, Genomewide screening of copy number alterations and LOH events in renal cell carcinomas and integration with gene expression profile, Mol. Cancer 7 (2008) 6. [10] F. Turkheimer, F. Roncaroli, B. Hennuy, C. Herens, M. Nguyen, D. Martin, A. Evrard, V. Bours, J. Boniver, M. Deprez, Chromosomal patterns of gene expression from microarray data: methodology, validation and clinical relevance in gliomas, BMC Bioinform. (2006). [11] G. Hu, R. Chong, Q. Yang, Y. Wei, M. Blanco, F. Li, M. Reiss, J. Au, B. Haffty, Y. Kang, MTDH activation by 8q22 genomic gain promotes chrmoresistance and metastasis of poor-prognosis breast cancer, Cancer Cell (2009). [12] W. Lai, M. Johnson, R. Kucherlapati, P. Park, Comparative analysis of algorithms for identifying amplifications and deletions in array CGH data, Bioinformatics 21 (2005) 3763–3770. [13] D. Pinkel, D. Albertson, Array comparative genomic hybridization and its applications in cancer, Nat. Genet. 37 (Suppl) (2005) S11–S17. [14] K. Wong, Y. Tsang, Y. Chang, J. Su, A. Di Francesco, D. Meco, R. Riccardi, L. Perlaky, R. Dauser, A. Adesina, M. Bhattacharjee, M. Chintagumpala, Genome-wide allelic imbalance analysis of pediatric gliomas by single nucleotide polymorphic allele array, Cancer Res. (2006). [15] J. Boulay, U. Stiefel, E. Taylor, B. Dolder, A. Merlo, F. Hirth, Loss of heterozygosity of TRIM3 in malignant gliomas, BMC Cancer 9 (2009) 71. [16] R. Irizarry, B. Hobbs, F. Collin, Y. Beazer-Barclay, K. Antonellis, U. Scherf, T. Speed, Exploration, normalization, and summaries of high density oligonucleotide array probe level data, Biostatistics 4 (2003). [17] H. Bengtsson, P. Wirapati, T. Speed, H. Bengtsson, P. Wirapati, T. Speed, A single-array preprocessing method for estimating full-resolution raw copy numbers from all Affymetrix genotyping arrays including GenomeWideSNP 5 & 6, Bioinformatics (2009). [18] Brainarray, http://brainarray.mbni.med.umich.edu, 2002. [19] R Development Core Team, R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna, Austria, 2008. ISBN 3-900051-07-0. [20] H. Bengtsson, K. Simpson, J. Bullard, K. Hansen, aroma.affymetrix: A generic framework in R for analyzing small to very large Affymetrix data sets in bounded memory, Tech Report 745, Department of Statistics, University of California, Berkeley, 2008. [21] A. Olshen, E. Venkatraman, R. Lucito, M. Wigler, Circular binary segmentation for the analysis of array-based DNA copy number data, Biostatistics 5 (2004) 557–572. [22] E. Venkatraman, A. Olshen, A faster circular binary segmentation algorithm for the analysis of array CGH data, Bioinformatics 23 (2007) 657–663. [23] F. Picard, S. Robin, M. Lavielle, C. Vaisse, J. Daudin, A statistical approach for array CGH data analysis, BMC Bioinform. 6 (2005) 27. [24] P. Hupe, N. Stransky, J. Thiery, F. Radvanyi, E. Barillot, Analysis of array CGH data: from signal ratio to gain and loss of DNA regions, Bioinformatics 20 (2004) 3413–3422. [25] E. Ben-Yaacov, Y. Eldar, A fast and flexible method for the segmentation of aCGH data, Bioinformatics 24 (2008) i139–i145. [26] H. Willenbrock, J. Fridlyand, A comparison study: applying segmentation to array CGH data for downstream analyses, Bioinformatics 21 (2005) 4084–4091. [27] A. Kasprzyk, D. Keefe, D. Smedley, D. London, W. Spooner, C. Melsopp, M. Hammond, P. Rocca-Serra, T. Cox, E. Birney, EnsMart: A generic system for fast and flexible access to biological data, Genome Res. (2004). [28] S. Diskin, T. Eck, J. Greshock, Y. Mosse, T. Naylor, C.J. Stoeckert Jr., B. Weber, J. Maris, G. Grant, STAC: A method for testing the significance of DNA copy number aberrations across multiple array-CGH experiments, Genome Res. (2006). [29] C. Lai, H. Horlings, M. van de Vijver, E. van Beers, P. Nederlof, L. Wessels, M. Reinders, SIRAC: Supervised Identification of Regions of Aberration in aCGH datasets, BMC Bioinform. 8 (2007). [30] R. Beroukhim, G. Getz, L. Nghiemphu, J. Barretina, T. Hsueh, D. Linhart, I. Vivanco, J. Lee, J. Huang, S. Alexander, J. Du, Assesing the significance of chromosomal [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] [47] [48] [49] 93 aberrations in cancer: Methodology and application to glioma, Proc. Natl Acad. Sci. USA (2007). O. Rueda, R. Diaz-Uriarte, Finding recurrent copy number alteration regions: a review of methods, Curr. Bioinf. 5 (2010) 1–17. Ensembl, http://www.ensembl.org/index.html, 2000. R. Weber, M. Sabel, J. Reifenberger, C. Sommer, J. Oberstrass, G. Reifenberger, M. Kiessling, T. Cremer, Characterization of genomic alterations associated with glioma progression by comparative genomic hybridization, Oncogene 13 (1996) 983–994. E. Burton, K. Lamborn, B. Feuerstein, M. Prados, J. Scott, P. Forsyth, S. Passe, R. Jenkins, K. Aldape, Genetic aberrations defined by comparative genomic hybridization distinguish long-term from typical survivors of glioblastoma, Cancer Res. (2002). R. McLendon, A. Friedman, D. Bigner, et al., Comprehensive genomic characterization defines human glioblastoma genes and core pathways, Nature 455 (2008) 1061–1068. Y. Li, C. Tzeng, J. Song, F. Tsia, L. Hsieh, S. Liao, C. Tsai, E. Van Meir, C. Hao, C. Lin, Genomic alterations in human malignant glioma cells associate with the cell resistance to the combination treatment with tumor necrosis factor-related apoptosis-inducing ligand and chemotherapy, Clin. Cancer Res. 12 (2006) 2716–2729. A. Idbaih, R. Carvalho Silva, E. Crinière, Y. Marie, C. Carpentier, B. Boisselier, S. Taillibert, A. Rousseau, K. Mokhtari, F. Ducray, J. Thillet, Genomic changes in progression of low-grade gliomas, J. Neurooncol. (2008). V. Vranova, E. Necesalova, P. Kuglak, P. Cejpek, M. Pesakova, E. Budanska, J. Relichova, R. Veselska, Screening of genomic imbalances in gliobastoma multiforme using highresolution comparative genomic hybridization, Oncol. Rep. (2007). M. Nakamura, E. Ishida, K. Shimada, M. Kishi, H. Nakase, T. Sakaki, N. Konishi, Frequent LOH on 22q12.3 and TIMP-3 inactivation occur in the progression to secondary glioblastomas, Lab. Investig. 85 (2005) 165–175. G. Roversi, R. Pfundt, R. Moroni, I. Magnani, S. van Reijmersdal, B. Pollo, H. Straatman, L. Larizza, E. Schoenmakers, Identification of novel genomic markers related to progression to glioblastoma through genomic profiling of 25 primary glioma cell lines, Oncogene (2006). C. Knobbe, A. Trampe-Kieslich, G. Reifenberger, Genetic alteration and expression of the phosphoinositol-3-kinase/Akt pathway genes PIK3CA and PIKE in human glioblastomas, Neuropathol. Appl. Neurobiol. 31 (2005) 486–490. G.R. Christiane, B. Knobbe, Genetic alterations and aberrant expression of genes related to the phosphatidyl-lnositol-3’-kinase/protein kinase B (Akt) signal transduction pathway in glioblastomas, Number Brain Pathol. (2003). J. van den Boom, M. Wolter, R. Kuick, D. Misek, A. Youkilis, D. Wechsler, C. Sommer, G. Reifenberger, S. Hanash, Characterization of gene expression profiles associated with glioma progression using oligonucleotide-based microarray analysis and real-time reverse transcription-polymerase chain reaction, Am. J. Pathol. (2003). A. Korshunov, R. Sycheva, A. Golanov, Genetically distinct and clinically relevant subtypes of glioblastoma defined by array-based comparative genomic hybridization (array-CGH), Acta Neuropathol. 111 (2006) 465–474. N. Kawamata, S. Ogawa, M. Zimmermann, M. Kato, M. Sanada, K. Hemminki, G. Yamatomo, Y. Nannya, R. Koehler, T. Flohr, et al., Molecular allelokaryotyping of pediatric acute lymphoblastic leukemias by high-resolution single nucleotide polymorphism oligonucleotide genomic microarray, Blood 111 (2008) 776. W. Park, J. Park, R. Oh, N. Yoo, S. Lee, M. Shin, H. Lee, S. Han, S. Yoon, S. Kim, C. Choi, P. Kim, A distinct tumor suppressor gene locus on chromosome 15q21.1 in sporadic form of colorectal cancer, Cancer Res. (2000). J. Davidsson, A. Andersson, K. Paulsson, M. Heidenblad, M. Isaksson, A. Borg, J. Heldrup, M. Behrendtz, I. Panagopoulos, T. Fioretos, et al., Tiling resolution array comparative genomic hybridization, expression and methylation analyses of dup (1q) in Burkitt lymphomas and pediatric high hyperdiploid acute lymphoblastic leukemias reveal clustered near-centromeric breakpoints and overexpression of genes in 1q22-32.3, Hum. Mol. Genet. 16 (2007) 2215. H. Cave, S. Suciu, C. Preudhomme, B. Poppe, A. Robert, A. Uyttebroeck, M. Malet, P. Boutard, Y. Benoit, L. Mauvieux, et al., Clinical significance of HOX11L2 expression linked to t (5; 14)(q35; q32), of HOX11 expression, and of SIL-TAL fusion in childhood T-cell malignancies: results of EORTC studies 58881 and 58951, Blood 103 (2004) 442. N. Stransky, C. Vallot, F. Reyal, I. Bernard-Pierrot, S. de Medina, R. Segraves, Y. de Rycke, P. Elvin, A. Cassidy, C. Spraggon, A. Graham, J. Southgate, B. Asselain, Y. Allory, C.C. Abbou, D.G. Albertson, J.-P. Thiery, D.K. Chopin, D. Pinkel, F. Radvanyi, Regional copy number–independent deregulation of transcription in cancer, Nat. Genet. 38 (2006) 1386–1396. Fontanillo et al. BMC Genomics 2012, 13(Suppl 5):S5 http://www.biomedcentral.com/1471-2164/13/S5/S5 RESEARCH Open Access Combined analysis of genome-wide expression and copy number profiles to identify key altered genomic regions in cancer Celia Fontanillo1, Sara Aibar1, Jose Manuel Sanchez-Santos2, Javier De Las Rivas1* From X-meeting 2011 - International Conference on the Brazilian Association for Bioinformatics and Computational Biology Florianópolis, Brazil. 12-15 October 2011 Abstract Background: Analysis of DNA copy number alterations and gene expression changes in human samples have been used to find potential target genes in complex diseases. Recent studies have combined these two types of data using different strategies, but focusing on finding gene-based relationships. However, it has been proposed that these data can be used to identify key genomic regions, which may enclose causal genes under the assumption that disease-associated gene expression changes are caused by genomic alterations. Results: Following this proposal, we undertake a new integrative analysis of genome-wide expression and copy number datasets. The analysis is based on the combined location of both types of signals along the genome. Our approach takes into account the genomic location in the copy number (CN) analysis and also in the gene expression (GE) analysis. To achieve this we apply a segmentation algorithm to both types of data using paired samples. Then, we perform a correlation analysis and a frequency analysis of the gene loci in the segmented CN regions and the segmented GE regions; selecting in both cases the statistically significant loci. In this way, we find CN alterations that show strong correspondence with GE changes. We applied our method to a human dataset of 64 Glioblastoma Multiforme samples finding key loci and hotspots that correspond to major alterations previously described for this type of tumors. Conclusions: Identification of key altered genomic loci constitutes a first step to find the genes that drive the alteration in a malignant state. These driver genes can be found in regions that show high correlation in copy number alterations and expression changes. Background Acquisition of somatic genetic alterations plays an important role in the development of cancer. Several systematic efforts have addressed the study of genetic alterations to characterize human cancers [1,2], including: copy-number alterations (CNAs), translocations, insertions or single-nucleotide polymorphisms (SNPs). Most of these approaches are focused on finding frequent alterations, which occur in a high number of cases. * Correspondence: [email protected] 1 Cancer Research Center (CIC-IBMCC), Consejo Superior de Investigaciones Científicas (CSIC), Campus Miguel de Unamuno, Salamanca, Spain Full list of author information is available at the end of the article According to the selective pressure theory, a genomic alteration that confers an advantage to a malignant state is likely to be found in more tumors than expected by chance [3]. However, most methods that look for recurrent aberrations using copy number information find many regions, containing many genes [4,5]. Therefore, to identify recurrently altered genomic regions -biologically relevant- it is necessary to integrate gene and genome information, as proposed by Akavia et al. [3]. Several reports have recently shown that integrative strategies can be very useful to identify driver genes, considering the hypothesis that disease-associated gene expression changes are frequently induced by genomic alterations [3,6-10]. © 2012 Fontanillo et al.; licensee BioMed Central Ltd. This is an open access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by/2.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited. Fontanillo et al. BMC Genomics 2012, 13(Suppl 5):S5 http://www.biomedcentral.com/1471-2164/13/S5/S5 Most of these reports are focused on finding gene-based relationships. Built on these hypotheses -that relate transcriptomic and genomic alterations-, we propose a new integrative method based on the location of both types of signals along the genome. Our method takes into account the genomic loci, both in the copy number (CN) analysis and also in the gene expression (GE) analysis, and applies the segmentation step proposed by Ortiz-Estevez et al. [11]. These authors designed a method for robust comparison between CN and GE using paired samples. Such approach is based on a search for correlation between segmented CN regions and segmented GE regions to find the most significant simultaneous alterations. We follow this approach introducing two new steps to asses the matching between CN and GE loci: (i) first, a signal correlation analysis; (ii) second, an alteration frequency analysis. Using these analyses we propose a set of significantly altered genomic regions in the studied pathological state. In order to show the performance and demonstrate the value of our method, we use a dataset of 64 Glioblastoma Multiforme (GBM) samples with paired measurements of GE and CN (taken from [7,8]). Results and discussion The method is designed for combined analysis of datasets from two types of genome-wide arrays: DNA genomic microarrays and RNA expression microarrays. These arrays provide copy number and expression quantitative data, respectively. The analysis places both types of signals along the genome, taking into account the gene loci for the CN data and the GE data. The rationale of the method is to search for copy number alterations with a major influence in the expression levels of the genes encoded. As a distinctive element from other integrative approaches we do not consider only SNPs or genes individually. We take into account the gene loci following the strategy described in [11], that is based on the application of the same smoothing and segmentation algorithm to CN and GE in order to establish comparable regions. Once we get the smoothed segments, we perform two independent analyses for each gene loci: a signal correlation analysis and an alteration frequency analysis. (The workflow described in Materials and Methods, presented in last figure, illustrates the procedure of the method including these two independent analyses). Analysis of correlation between gene expression and copy number levels The method matches the CN and GE segmented signals within each chromosomal region -i.e., the log2 ratio signals of the corresponding segments- and selects the gene loci that show a significant correlation. These loci can be considered candidate hotspots. In Figure 1 we present the Page 2 of 11 results of this analysis done for the GBM dataset, marking in purple the number of gene loci with Pearson Correlation Coefficient r ≥ 0.60 (that corresponds to a Bonferroni-adjusted p-value < 0.005). Such cutoff (r ≥ 0.60) includes around 55 % of the human gene loci, providing a good coverage with a significant p-value. Setting more stringent cutoffs reduces the coverage too much: r ≥ 0.70 includes only ~26 % of the gene loci; r ≥ 0.80 includes only ~6 %. The number of probes in the SNP arrays -used to calculate the segmented signals for CN- is large and uniform along the genome. However, in the expression arrays some genomic regions do not have enough allocated gene loci and the number of probes is sparse. This fact is a problem when a GE segment includes outliers (i.e. gene locus which have expression levels very different from the mean of their neighbours). To solve this problem, we look for statistically significant outliers within the GE segments -which were at least in 1/3 of the samples- and we recalculate the signal correlation between their unsegmented GE and the corresponding CN segments. In this way, we find a new set of gene loci with correlation r ≥ 0.60, which is added to the initial set of candidate hotspots identified. This step of the procedure is important to recover some gene loci with quite significant correlation (e.g. EGFR or SEC61G), which were missed in the first step due to the described problem. Analysis of frequencies for the categorical states Up-Gain and Down-Loss The method also proposes to find the genomic regions that present a significant GE and CN alteration in the same direction. To assess this, we included a second selective step based on stratification of the segmented data. The genomic regions are stratified in several categories: up-regulation (U), down-regulation (D) or no-change (N) for expression; and gain (G), loss (L) or no-change (N) for copy number. This approach allows a discretization of the genomic regions into 9 different categories as shown in Figure 2 (inserted table): U-G, N-G, D-G, U-N, N-N, D-N, U-L, N-L, D-L. Figure 2 also presents the empirical cumulative distributions for these 9 categories of the GBM samples per gene loci, counting the frequency of samples for all the gene loci in each category. As expected, the distributions show that the “no change” (i.e. N-N, neutralneutral) is the most frequent state. The analysis of distributions also finds some regions that show a clear correspondence between GE and CN alterations: i.e. the scenario where GE up-regulation is observed co-located with a CN gain (U-G category) and the scenario where GE down-regulation is co-located with a CN loss (D-L category). Our interest focuses on these regions, since they are the ones altered in the same way in both types of data. The analysis of the empirical frequency distributions for Fontanillo et al. BMC Genomics 2012, 13(Suppl 5):S5 http://www.biomedcentral.com/1471-2164/13/S5/S5 Page 3 of 11 Figure 1 Density distribution of the correlation coefficients between GE and CN for the GBM dataset. Purple represents the number of gene loci that present significant correlation (r ≥ 0.60) between gene expression and copy number signals, counted considering all the samples. Blue are the rest, not considered significant. the U-G and D-L categories allows identifying the frequency cutoffs that correspond to the 10% upper quantiles. These cutoffs were: 13 samples for U-G and 11 samples for D-L (out of 64 in GBM dataset). The set up of these thresholds identifies those genomic regions that are the most frequently assigned to such altered categories (U-G and D-L) in the studied dataset. Genome-wide identification of hotspots: candidate key genomic regions Our method identifies candidate key regions that show high correlation between CN and GE and that are frequently altered in the same direction, in both types of signals. The overlapping between the regions with the most significant correlation and the ones with the highest frequencies of simultaneous alteration (CN and GE) along the genome, will constitute hotspots where putative driver genes are likely to be encoded. Figure 3 presents the combined view of GE and CN alterations on the complete genome obtained for the GBM dataset. The graph shows the alteration frequency, either in CN or in GE independently, along all the genome (22 human chromosomes). The dark colors correspond to GE up-regulated regions (red) or down-regulated regions (green), and the light colors -placed on top- correspond to CN gains (pale red) and losses (pale green). These results Fontanillo et al. BMC Genomics 2012, 13(Suppl 5):S5 http://www.biomedcentral.com/1471-2164/13/S5/S5 Page 4 of 11 Figure 2 Observed frequency distributions of the 9 categorical states for the GBM dataset: U-G, N-G, D-G, U-N, N-N, D-N, U-L, N-L, D-L. Boxplots corresponding to the distributions of number of samples assigned to each category for all the gene loci. Insert: Contingency table showing the 9 possible categories for the gene expression and copy number. The total number of GBM samples analysed was 64. show that the method finds the alterations previously described for CN in GBM cancer [12,13]. In fact, the most frequent alterations in glioblastoma are the gain of chromosome 7 and the loss of chromosome 10. Our analysis finds such alterations in CN, and also finds their correlation with GE up-regulation for chromosome 7 and with GE down-regulation for chromosome 10. Figure 4 presents a detailed view of the alterations that occur in chromosome 7. It includes a profile of the regions with significant correlation (purple dots along the chromosome) and a profile of the frequency of U-G regions (pale red). They cover nearly the complete chromosome. A figure with the representation for all the 22 human chromosomes for the GBM samples is included as Additional File 3. Key genomic regions found for the 64 paired GBM cancer samples As shown in Figure 3, the method presented in this work allows the identification of relevant altered genomic regions suffering significant changes in most of the GBM samples. The results also show that many of the detected CN alterations and GE changes overlap along the genome. These regions can be proposed as relevant “hotspots”. In Table 1 and Table 2 we present a detailed description of the common genomic regions found in GBM; indicating the correlation and frequency of the U-G regions (Table 1, which includes 19 regions), and the D-L regions (Table 2, which includes 24 regions). The tables include the correlation between GE and CN for each region (as average correlation for all the gene loci); and the percentage of samples -frequency- in each region, counting only the samples where simultaneous GE and CN alterations occur: either up gene expression and gain in copy number (U-G) or down gene expression and loss in copy number (D-L). The regions detected are in the chromosomes that suffer the most significant changes in GBM samples: U-G, chr 7 and chr 20; D-L chr 10, chr 13, chr 14 and chr 22. The tables also include the genes enclosed in these regions. The most remarkable changes correspond to a Fontanillo et al. BMC Genomics 2012, 13(Suppl 5):S5 http://www.biomedcentral.com/1471-2164/13/S5/S5 Page 5 of 11 Figure 3 Combined view of GE and CN alterations obtained for the GBM dataset. The regions for all the human chromosomes (chr) that are altered either in CN or in GE are presented along the whole genome keeping the proportional size of the chromosomes. The graph shows the frequency of such alterations in the GBM samples. The colors correspond to GE up-regulated regions (in red) or down-regulated regions (in green), and -plotted on top- the CN gains (in pale red) or the CN losses (in pale green). Blue lines mark the regions that change in more than 25% of the GBM patients. The chromosomes with most significant changes (that present large regions included in the categories U-G or D-L) are labeled: U-G chr 7, chr 19, chr 20; D-L chr 10, chr 13, chr 22. large part of chr 7 (U-G) and to a large part of chr 10 (D-L). Two important genes are precisely located in these chromosomes: EGFR (in chr 7) usually up-regulated and PTEN (in chr 10) usually down-regulated [12,13]. PTEN is not found in our analysis, but it has been reported an absence of PTEN alterations in more than half of de novo glioblastomas and more than 90 % of glioblastomas developed from a pre-existing lower grade gliomas [14], which has been linked to the presence of additional tumor suppressor genes on chr 10, such as LGI1 [15] and MXI1 [16]. We found these two genes in regions 8 and 10 of the D-L list (Table 2), and we observed a very variable profile of PTEN in the GBM samples. These facts may indicate that PTEN is not the best genomic marker for this altered Figure 4 Detailed view of chromosome 7 showing the CN and GE correlation and the U-G category frequency for the GBM dataset. The genomic regions for chromosome 7 are represented in X-axis. Blue and purple dots show the correlation coefficients between CN and GE for each gene loci (purple when r ≥ 0.60). Pink profile represents the frequency values for the Up-Gain category (U-G). regions chr cytobands start end Correlation (average r coefficient) U-G Frequency (average %) Number of genes gene symbols 1 7 p22.3,,p22.2,p22.1,... 13912 12407180 0.75 53.13 97 PDGFA,PRKAR1B,HEATR2,... 2 7 p21.2,p21.1 13980952 18581782 0.83 48.34 16 ETV1,DGKB,TMEM195,... 3 7 p21.1 19741898 19786077 0.77 48.44 2 TWISTNB,TMEM196 4 7 p21.1 20735744 20825207 0.81 50.00 2 ABCB5,SP8 5 7 p15.3,p15.2 22277336 26372745 0.85 50.00 28 RAPGEF5,IL6,TOMM7,... 6 7 7 7 p15.2 p14.3 26682190 29901392 27829944 33407268 0.68 0.78 50.00 50.00 18 29 SKAP2,HOXA1,HOXA2,... WIPF3,SCRN1,FKBP14,... 8 7 p14.3,p14.2 34692740 36658380 0.72 48.44 13 NPSR1,DPY19L1,TBX20,... 9 7 p14.1,p13,p12.3,... 37856706 50759460 0.72 49.60 83 GPR141,TXNDC3,SFRP4,... 10 7 p11.2 54819940 54826939 0.77 * 59.38 1 SEC61G 11 7 p11.2 55086725 55275031 0.77 * 60.94 1 EGFR 12 7 p11.2 55572215 56043680 0.70 59.06 5 VOPP1,SEPT14,ZNF713,... 13 7 p11.2 56125502 56171766 0.70 57.81 4 CCT6A,SUMF2,PHKG1,... 14 15 7 7 p11.2,p11.1,q11.21 q11.22,q11.23,q21.11,... 57269897 69660980 66582330 91851882 0.66 0.68 56.56 57.74 25 131 ERV3,VKORC1L1,GUSB,... AUTS2,WBSCR17,CALN1,... 16 7 q21.2,q21.3, 92738082 97975672 0.72 56.51 36 SAMD9,SAMD9L,HEPACAM2,... 17 7 q22.1,q22.3,q31.1,... 98456252 141707080 0.71 55.94 343 TMEM130,TRRAP,SMURF1,... 18 7 q34,q35,q36.1,... 141954920 158879258 0.75 56.26 154 TRBV12-2,TRBC1,PRSS1,... 19 20 p13,p12.3,p12.2,... 72762 62897316 0.83 25.62 570 DEFB125,DEFB126,DEFB12,... Fontanillo et al. BMC Genomics 2012, 13(Suppl 5):S5 http://www.biomedcentral.com/1471-2164/13/S5/S5 Table 1 Significant U-G regions with the associated genes. Table with the significant Up-regulated and Gained (U-G) regions, indicating: chromosomal bands covered by each region; percentage of samples (%) that are in the U-G category in each region (calculated as average frequency for all the gene loci in the region); correlation between GE and CN for each region (calculated as average correlation of the gene loci in the region); number of genes located in each region. Total number of GBM samples analysed: N = 64. Marked with * the correlations calculated between unsegmented GE and segmented CN. Due to size limitations the table only includes a maximum of 3 cytobands or 3 genes. Complete information corresponding to this U-G regions is included as supplementary material: Additional-file-1. Page 6 of 11 regions chr cytobands start end Correlation (average r coefficient) U-G Frequency (average %) Number of genes gene symbols 1 10 p14 9365826 11653762 0.62 57.19 5 CUGBP2,C10orf31,USP6NL,... 2 10 p13,p12.33,p12.31,... 16746068 24410224 0.64 59.98 39 RSU1,CUBN,TRDMT1,... 3 10 p12.1,p11.23,p11.22,... 25189544 47921720 0.63 60.50 103 PRTFDC1,ENKUR,THNSL1,... 4 10 p11.2 38238795 38265453 0.60 * 60.94 1 ZNF25 5 10 q11.22,,q11.23 49203737 53404614 0.68 62.91 42 FAM25C,BMS1P7,PTPN20C,... 6 10 q21.1,q21.2,q21.3,... 59989486 82351987 0.65 64.07 152 IPMK,CISD1,UBE2D1,... 7 8 10 10 q23.1, q23.31,q23.32,q23.33 84190870 91498034 87742781 97024055 0.66 0.62 65.63 67.19 9 39 NRG3,GHITM,PCDH21,... KIF20B,HTR7,RPP30,... 9 10 q24.1 97391080 97763109 0.62 66.41 6 ALDH18A1,TCTN3,ENTPD1,... 10 10 q24.1,q24.2,q24.31,... 98081203 134474152 0.67 68.70 253 DNTT,OPALIN,TLL2,... 11 13 q12.13,q12.2 27693163 28017254 0.60 28.13 5 USP12,RPL21,RASL11A,... 12 13 q12.2,,q12.3 28367434 30381664 0.61 30.29 13 GSX1,PDX1,ATP5EP2,... 13 13 q13.3,q14.11,q14.12,... 35881808 61059301 0.73 35.48 124 NBEA,MAB21L1,DCLK1,... 14 13 q21.32,q21.33 67340716 70478658 0.62 35.94 2 PCDH9,KLHL1 15 16 13 13 q22.2,q22.3,q31.1 q31.3, 76451567 92785210 80912598 94467454 0.63 0.62 37.40 34.38 15 2 KCTD12,IRG1,CLN5,... GPC5,GPC6 17 13 q32.1,q32.2,q32.3,... 95812885 106130800 0.64 33.35 38 ABCC4,CLDN10,DZIP1,... 18 13 q33.3 108170700 108931486 0.95 27.73 4 FAM155A,LIG4,ABHD13,... 19 13 q34 110422550 111549152 0.89 23.44 9 IRS2,COL4A1,COL4A2,... 20 21 22 14 14 14 q11.2,q12,q13.1,... q24.2 q24.2,,q24.3 19686156 71478110 70583360 72101080 0.75 0.74 18.44 17.19 389 2 TTC5,CCNB1IP1,PARP2,... PCNX,SIPA1L1 73223406 76274521 0.69 17.19 52 DPF3,DCAF4,ZFYVE1,... 23 24 14 22 q24.3,,q31.1 q11.1,q11.21,q11.22,... 77825772 16157622 80673424 51224902 0.75 0.73 17.19 24.93 14 490 TMED8,AHSA1,ISM2,... POTEH,CESK1,XKR3,... Fontanillo et al. BMC Genomics 2012, 13(Suppl 5):S5 http://www.biomedcentral.com/1471-2164/13/S5/S5 Table 2 Significant D-L regions with the associated genes. Table with the significant Down-regulated and Lost (D-L) regions, indicating: chromosomal bands covered by each region; percentage of samples (%) that are in the D-L category in each region (calculated as average frequency for all the gene loci in the region); correlation between GE and CN for each region (calculated as average correlation of the gene loci in the region); number of genes located in each region. Total number of GBM samples analysed: N = 64. Marked with * : correlations calculated between unsegmented GE and segmented CN. Due to size limitations the table only includes a maximum of 3 cytobands or 3 genes. Complete information corresponding to this D-L regions is included as supplementary material: Additional-file-2. Page 7 of 11 Fontanillo et al. BMC Genomics 2012, 13(Suppl 5):S5 http://www.biomedcentral.com/1471-2164/13/S5/S5 region. By contrast, we found RB1 tumor suppressor in region 13 of the D-L list; and this gene -included in chr 13- is a clear candidate to drive the alteration of tumor cells. With respect to EGFR, it has the highest U-G frequency observed (60.9%, Table 1) and therefore the method reveals this gene locus as the most common GE up-regulated and CN gained in the GBM samples. The alteration of EGFR can be associated with other genes that regulate its function, also found by the method. This is the case of VOPP1 and RAB11FIP2. VOPP1 is also known as ECOP (EGFR-coamplified and overexpressed protein) or GASP (Glioblastoma-amplified secreted protein), and is found in region 12 of the U-G list (Table 1). RAB11FIP2 is a suppressor of the endocytic internalization of EGFR and it is found in region 10 of the D-L list (Table 2) [17]. The presence of these genes in the hotspots found for GBM supports the value of the method described. There are many other interesting genes in the identified altered genomic regions, that can be useful for further investigations on the disease studied. Complete information corresponding to the genes found in the significant U-G regions and D-L regions is included respectively as supplementary material in Additional-file-1 (for the data corresponding to Table 1) and Additional-file-2 (for the data corresponding to Table 2). Conclusions The combined analysis of CN and GE data obtained using DNA genome and RNA expression microarrays for paired samples is a very powerful approach to uncover key altered regions in a biological state studied. We present a robust method to find genomic regions that show simultaneous significant changes in both CN and GE. Our calculations applied to a cancer dataset find expected known genomic alterations and many others identified as key altered genomic regions. This approach is also proposed as an adequate strategy to identify driver or causal genes under the hypothesis that disease-associated gene expression changes are frequently induced by genomic alterations. Materials and methods Data In this study we use a dataset of 64 human samples from Glioblastoma Multiforme (GBM) [7] that includes for each sample: Affymetrix DNA microarrays applied to detect of genome-wide CN changes and Affymetrix RNA expression microarrays applied to detect of GE changes. We used the same subgroup of samples that was previously analysed in Ortiz-Estevez et al. [11]. GE and CN normalization and signals calculation GE data were processed using RMA algorithm [18] applied to the human gene expression microarrays: Affymetrix HGU133 plus 2.0 (using the same strategy Page 8 of 11 followed in [19,20]). CRMAv2 algorithm [21] was applied to normalize the raw data and obtain the signals from the Affymetrix Human Mapping 500K SNP arrays. The processed signals were divided by the median of the normal samples for each element (SNP or gene) and then the log2 was computed. These log2 ratio signals were smoothed and segmented using Circular Binary Segmentation (CBS) algorithm [22] with the default parameters implemented in the DNAcopy R package. Correlation between GE and CN Pearson Correlation Coefficients (r) of the segmented GE and CN data were calculated taking the values of the segmented copy number and gene expression at the central point of the genomic position for each gene. P-values for the correlation coefficient of every gene loci were computed and adjusted by Bonferroni method. The established threshold for the selection of significantly correlated gene loci was correlation coefficient r ≥ 0.60, which corresponds to adjusted p-value < 0.005. When using the gene loci GE unsegmented signal, the same correlation threshold and p-value cutoff were applied. Frequency of U-G and D-L alterations The thresholds that define DNA copy number gains and losses and up and down gene regulation were established applying k-Means algorithm, fixing three clusters (k = 3) on the segmented data, and done independently for the CN data and for the GE data. The CN data values were classified into gained (G), lost (L) or no-change (N) and the GE values were classified as up-regulated (U), downregulated (D) or no-change (N). The thresholds found by k-Means for CN in the GBM dataset were > 0.19 (of the log2 ratio signals) for gain and < -0.15 for loss. The thresholds found for GE in the GBM were > 0.10 (of the log2 ratio signals) for up-regulation and < -0.12 for down-regulation. A contingency table with the 9 possible categorical states for the two types of data was built for every gene locus. A cutoff threshold was set up for the frequency of up-regulated and gained (U-G) and for the down-regulated and lost (D-L) categories, based on the empirical cumulative distributions of the categories. Taking into account the gene loci, the significant altered regions were defined as the ones that had a frequency ≥ than the upper 10% quantile of the distribution of U-G or the distribution of D-L. General workflow for identification of key regions in the genome Following the steps described above, we present a general workflow (Figure 5) that illustrates the strategy to achieve a combined paired analysis of datasets from genome-wide microarrays, both for GE and CN. Fontanillo et al. BMC Genomics 2012, 13(Suppl 5):S5 http://www.biomedcentral.com/1471-2164/13/S5/S5 Page 9 of 11 Figure 5 Workflow of the method for the analysis of gene expression and copy number changes. The figure illustrates the strategy to achieve a combined paired analysis of data sets from genome-wide microarrays both for GE and CN. The method searches for high correlation between segmented chromosomal regions that present a significant CN alteration (gain or loss) and segmented regions with significant GE change (up or down). The frequency of alteration is also analysed. The selected loci (hotspots) are regions chosen as significantly correlated and frequently altered in both GE and CN. The workflow includes the different steps, the applied methods and the progression of the analysis. The strategy designed searches for high correlation between chromosomal regions that present a significant CN alteration (as gain or loss) and regions with significant GE change (as up or down). In this way, it determines which CN alterations have a strong influence on GE patterns. Key regions, i.e. hotspots in the genome, are defined as those regions simultaneously chosen as significantly correlated and frequently altered in both GE and CN. Fontanillo et al. BMC Genomics 2012, 13(Suppl 5):S5 http://www.biomedcentral.com/1471-2164/13/S5/S5 Page 10 of 11 Additional material Additional file 1: Spreadsheet with the complete data corresponding to Table 1. Additional file 2: Spreadsheet with the complete data corresponding to Table 2. Additional file 3: Detailed view of all the 22 chromosomes showing the CN and GE correlation and the U-G or D-L categories frequency for the GBM dataset. The genomic regions are represented in X-axis. Blue and purple dots show the correlation coefficients between CN and GE for each gene loci (purple when r ≥ 0.60). Pink and green profiles represent the frequency values for the Up-Gain (U-G) category or the Down-Loss (D-L) category respectively. 6. 7. 8. Acknowledgements This work has been supported by funds provided by the Local Government Junta de Castilla y León (JCyL, ref. project: CSI07A09), by the Spanish Government (ISCiii, ref. project PS09/00843) and by the European Commission (Research Grant ref. FP7-HEALTH-2007-223411). SA thanks the JCyL and the European Social Fund (ESF-EU) for a research grant. The funders had no role in study design, data collection and analysis, decision to publish, or preparation of the manuscript. This article has been published as part of BMC Genomics Volume 13 Supplement 5, 2012: Proceedings of the International Conference of the Brazilian Association for Bioinformatics and Computational Biology (X-meeting 2011). The full contents of the supplement are available online at http://www.biomedcentral.com/bmcgenomics/supplements/13/S5. 9. 10. 11. Author details 1 Cancer Research Center (CIC-IBMCC), Consejo Superior de Investigaciones Científicas (CSIC), Campus Miguel de Unamuno, Salamanca, Spain. 2 Department of Statistics, University of Salamanca (USAL), Salamanca, Spain. 12. Authors’ contributions CF carried out most of the analyses, developed the proposed method and drafted the manuscript. SA helped in the computational analyses and in the presentation of the results. JMSS participated in the design of the study and in the statistical methods applied. JDLR conceived of the study, participated in its design and coordination and wrote the main manuscript. All authors read and approved the final manuscript. 13. 14. 15. Competing interests The authors declare that they have no competing interests. 16. Published: 19 October 2012 References 1. Futreal PA, Coin L, Marshall M, Down T, Hubbard T, Wooster R, Rahman N, Stratton MR: A census of human cancer genes. Nature Rev Cancer 2004, 4:177-83. 2. Stratton MR, Campbell PJ, Futreal PA: The cancer genome. Nature 2009, 458:719-24. 3. Akavia UD, Litvin O, Kim J, Sanchez-Garcia F, Kotliar D, Causton HC, Pochanard P, Mozes E, Garraway L a, Pe’er D: An integrated approach to uncover drivers of cancer. Cell 2010, 143:1005-17. 4. Beroukhim R, Getz G, Nghiemphu L, Barretina J, Hsueh T, Linhart D, Vivanco I, Lee JC, Huang JH, Alexander S, Du J, Kau T, Thomas RK, Shah K, Soto H, Perner S, Prensner J, Debiasi RM, Demichelis F, Hatton C, Rubin MA, Garraway LA, Nelson SF, Liau L, Mischel PS, Cloughesy TF, Meyerson M, Golub TA, Lander ES, Mellinghoff IK, Sellers WR: Assessing the significance of chromosomal aberrations in cancer: methodology and application to glioma. Proc Nat Acad Sci USA 2007, 104:20007-12. 5. Beroukhim R, Mermel CH, Porter D, Wei G, Raychaudhuri S, Donovan J, Barretina J, Boehm JS, Dobson J, Urashima M, Mc Henry KT, Pinchback RM, Ligon AH, Cho Y-J, Haery L, Greulich H, Reich M, Winckler W, Lawrence MS, Weir BA, Tanaka KE, Chiang DY, Bass AJ, Loo A, Hoffman C, Prensner J, Liefeld T, Gao Q, Yecies D, Signoretti S, Maher E, Kaye FJ, Sasaki H, 17. 18. 19. 20. 21. Tepper JE, Fletcher JA, Tabernero J, Baselga J, Tsao M-S, Demichelis F, Rubin MA, Janne PA, Daly MJ, Nucera C, Levine RL, Ebert BL, Gabriel S, Rustgi AK, Antonescu CR, Ladanyi M, Letai A, Garraway LA, Loda M, Beer DG, True LD, Okamoto A, Pomeroy SL, Singer S, Golub TR, Lander ES, Getz G, Sellers WR, Meyerson M: The landscape of somatic copy-number alteration across human cancers. Nature 2010, 463:899-905. Pollack JR, Sørlie T, Perou CM, Rees CA, Jeffrey SS, Lonning PE, Tibshirani R, Botstein D, Børresen-Dale A-L, Brown PO: Microarray analysis reveals a major direct role of DNA copy number alteration in the transcriptional program of human breast tumors. Proc Nat Acad Sci USA 2002, 99:12963-8. Kotliarov Y, Steed ME, Christopher N, Walling J, Su Q, Center A, Heiss J, Rosenblum M, Mikkelsen T, Zenklusen JC, Fine HA: High-resolution global genomic survey of 178 gliomas reveals novel regions of copy number alteration and allelic imbalances. Cancer Res 2006, 66:9428-36. Kotliarov Y, Kotliarova S, Charong N, Li A, Walling J, Aquilanti E, Ahn S, Steed ME, Su Q, Center A, Zenklusen JC, Fine H a: Correlation analysis between single-nucleotide polymorphism and expression arrays in gliomas identifies potentially relevant target genes. Cancer Res 2009, 69:1596-603. Turner N, Lambros MB, Horlings HM, Pearson A, Sharpe R, Natrajan R, Geyer FC, van Kouwenhove M, Kreike B, Mackay A, Ashworth A, van de Vijver MJ, Reis-Filho JS: Integrative molecular profiling of triple negative breast cancers identifies amplicon drivers and potential therapeutic targets. Oncogene 2010, 29:2013-23. Kim Y-A, Wuchty S, Przytycka TM: Identifying causal genes and dysregulated pathways in complex diseases. PLoS Computational Biology 2011, 7:e1001095. Ortiz-Estevez M, De Las Rivas J, Fontanillo C, Rubio A: Segmentation of genomic and transcriptomic microarrays data reveals major correlation between DNA copy number aberrations and gene-loci expression. Genomics 2011, 97:86-93. De Tayrac M, Etcheverry A, Aubry M, Saïkali S, Hamlat A, Quillien V, Le Treut A, Galibert MD, Mosser J: Integrative genome-wide analysis reveals a robust genomic glioblastoma signature associated with copy number driving changes in gene expression. Genes Chromosomes Cancer 2009, 48:55-68. Ruano Y, Mollejo M, Ribalta T, Fiaño C, Camacho FI, Gómez E, de Lope AR, Hernández-Moneo JL, Martínez P, Meléndez B: Identification of novel candidate target genes in amplicons of glioblastoma multiforme tumors detected by expression and CGH microarray profiling. Molecular Cancer 2006, 5:39. Reifenberger G, Collins VP: Pathology and genetics of astrocytic gliomas. J Mol Med 2004, 82:656-670. Chernova OB, Somerville RP, Cowell JK: A novel gene, LGI1, from 10q24 is rearranged and downregulated in malignant brain tumors. Oncogene 1998, 17:2873-2881. Wechsler DS, Shelly CA, Petroff CA, Dang CV: MXI1, a putative tumor suppressor gene, suppresses growth of human glioblastoma cells. Cancer Res 1997, 57:4905-4912. Cullis DN, Philip B, Baleja JD, Feig LA: Rab11-FIP2, an adaptor protein connecting cellular components involved in internalization and recycling of epidermal growth factor receptors. J Biol Chem 2002, 277:49158-49166. Irizarry R a, Hobbs B, Collin F, Beazer-Barclay YD, Antonellis KJ, Scherf U, Speed TP: Exploration, normalization, and summaries of high density oligonucleotide array probe level data. Biostatistics 2003, 4:249-64. Vicent S, Luis-Ravelo D, Antón I, García-Tuñón I, Borrás-Cuesta F, Dotor J, De Las Rivas J, Lecanda F: A novel lung cancer signature mediates metastatic bone colonization by a dual mechanism. Cancer Res 2008, 68:2275-85. Hernández JA, Rodríguez AE, González M, Benito R, Fontanillo C, Sandoval V, Romero M, Martín-Núñez G, de Coca AG, Fisac R, Galende J, Recio I, Ortuño F, García JL, De Las Rivas J, Gutiérrez NC, San Miguel JF, Hernández JM: A high number of losses in 13q14 chromosome band is associated with a worse outcome and biological differences in patients with B-cell chronic lymphoid leukemia. Haematologica 2009, 94:364-371. Bengtsson H, Wirapati P, Speed TP: A single-array preprocessing method for estimating full-resolution raw copy numbers from all Affymetrix genotyping arrays including GenomeWideSNP 5 & 6. Bioinformatics 2009, 25:2149-56. Fontanillo et al. BMC Genomics 2012, 13(Suppl 5):S5 http://www.biomedcentral.com/1471-2164/13/S5/S5 Page 11 of 11 22. Venkatraman ES, Olshen AB: A faster circular binary segmentation algorithm for the analysis of array CGH data. Bioinformatics 2007, 23:657-63. doi:10.1186/1471-2164-13-S5-S5 Cite this article as: Fontanillo et al.: Combined analysis of genome-wide expression and copy number profiles to identify key altered genomic regions in cancer. BMC Genomics 2012 13(Suppl 5):S5. Submit your next manuscript to BioMed Central and take full advantage of: • Convenient online submission • Thorough peer review • No space constraints or color figure charges • Immediate publication on acceptance • Inclusion in PubMed, CAS, Scopus and Google Scholar • Research which is freely available for redistribution Submit your manuscript at www.biomedcentral.com/submit Functional Analysis beyond Enrichment: Non-Redundant Reciprocal Linkage of Genes and Biological Terms Celia Fontanillo1., Ruben Nogales-Cadenas2., Alberto Pascual-Montano2, Javier De Las Rivas1* 1 Cancer Research Center (CiC-IBMCC, CSIC/USAL), Campus Miguel de Unamuno, Salamanca, Spain, 2 National Center of Biotechnology (CNB, CSIC), Campus de Cantoblanco UAM, Madrid, Spain Abstract Functional analysis of large sets of genes and proteins is becoming more and more necessary with the increase of experimental biomolecular data at omic-scale. Enrichment analysis is by far the most popular available methodology to derive functional implications of sets of cooperating genes. The problem with these techniques relies in the redundancy of resulting information, that in most cases generate lots of trivial results with high risk to mask the reality of key biological events. We present and describe a computational method, called GeneTerm Linker, that filters and links enriched output data identifying sets of associated genes and terms, producing metagroups of coherent biological significance. The method uses fuzzy reciprocal linkage between genes and terms to unravel their functional convergence and associations. The algorithm is tested with a small set of well known interacting proteins from yeast and with a large collection of reference sets from three heterogeneous resources: multiprotein complexes (CORUM), cellular pathways (SGD) and human diseases (OMIM). Statistical Precision, Recall and balanced F-score are calculated showing robust results, even when different levels of random noise are included in the test sets. Although we could not find an equivalent method, we present a comparative analysis with a widely used method that combines enrichment and functional annotation clustering. A web application to use the method here proposed is provided at http://gtlinker.cnb.csic.es. Citation: Fontanillo C, Nogales-Cadenas R, Pascual-Montano A, De Las Rivas J (2011) Functional Analysis beyond Enrichment: Non-Redundant Reciprocal Linkage of Genes and Biological Terms. PLoS ONE 6(9): e24289. doi:10.1371/journal.pone.0024289 Editor: Debashish Bhattacharya, Rutgers University, United States of America Received May 18, 2011; Accepted August 3, 2011; Published September 16, 2011 Copyright: ß 2011 Fontanillo et al. This is an open-access article distributed under the terms of the Creative Commons Attribution License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited. Funding: Dr. De Las Rivas receives financial support provided by EU FP7-HEALTH-2007-B (project 223411), by Spanish Ministry of Science and Innovation MICINNISCiii (projects PI061153 and PS09/00843), and by the Regional Government, Junta de Castilla y Leon JCyL (project CSI07A09). Dr. Pascual-Montano receives financial support provided by MICINN grant BIO2010-17527. Dr. Nogales-Cadenas thanks the Juan de la Cierva Program (MICINN-JDC 2010) and Dr. Fontanillo thanks the CSIC JAE-PREDOC Program. The funders had no role in study design, data collection and analysis, decision to publish, or preparation of the manuscript. Competing Interests: The authors have declared that no competing interests exist. * E-mail: [email protected] . These authors contributed equally to this work. KEGG hsa04110, etc) or that are segregated in very similar terms with the same biological meaning (e.g. GO:0007049 cell cycle and GO:0022402 cell cycle process). (ii) Bias in the annotation space due to highly frequent use of certain ‘‘promiscuous’’ terms that are unspecific (e.g. GO:0050789 regulation of biological process includes more than 44% of all human genes annotated to GO-BP). (iii) Inadequate functional annotation of many genes that are well-known (e.g. NRAS human gene product P01111 is not annotated to GO:0043410 positive regulation of MAPKKK cascade, but the role of this gene in the MAPK signaling is well-known, since it is paralogous to gene HRAS, which has a central role in such pathway). To overcome these limitations and challenges we have developed a new computational method that finds significant and coherent metagroups of genes and terms, performing several steps to eliminate redundant and non-informative data. The method takes the output of an enrichment analysis and produces a simple result that includes genes and co-annotations associated in metagroups. These metagroups are ranked by analysis of their significance and coherence, as a way to find the most relevant functions present in the query gene list. The algorithm is tested with a small set of well known interacting proteins and with a large reference set of data from three heterogeneous resources: mammalian multiprotein complexes (CORUM), yeast cellular Introduction Genome- and proteome-wide analyses performed using highthroughput techniques are providing many collections of genes and proteins that are associated to studies performed over specific sets of samples in definite biological contexts. One of the major challenges of current computational biology is to provide robust automatic methods for a meaningful functional annotation of the long lists of genes or proteins derived from such high-throughput studies. Functional enrichment analysis (EA) is at present the most popular available methodology to derive functional implications of sets of cooperating genes. It uses statistical testing to find significant annotations in groups of genes. A recent review of enrichment tools categorizes them in three major classes: singular (SEA), modular (MEA) and gene-set (GSEA) [1]. Modular analysis (MEA) can be considered a second generation of functional enrichment since it uses concurrent gene annotation improving coverage [2,3,4]. Gene set enrichment analysis (GSEA) has become a popular tool to extract biological insight from complete ranked gene lists without the need of pre-selecting top genes [5]. Functional enrichment analysis, however, does not address several key problems associated to the biological annotations: (i) Redundancy of the biological terms, that are repeated in many different annotation resources (e.g. cell cycle GO:0007049, cell cycle PLoS ONE | www.plosone.org 1 September 2011 | Volume 6 | Issue 9 | e24289 Functional Linkage of Genes and Biological Terms the standard deviation (sx) of the distributions of terms in each annotation space for each organism, we set up a Z-score threshold to identify the outlier terms that had a number of genes assigned +nsx). The deviation factor n (Ng) deviated from average: Ng.(X was set up at 4 for human. This threshold allows identification of the biological terms that are ‘‘generic’’ and ‘‘promiscuous’’, and – on their own– they can be considered not very informative. These generic terms affect a significant proportion of genes. In the case of human, generic GO-BPs include 10,038 genes (34.5% of the total), generic GO-MFs include 12,991 genes (44.6% of the total) and generic GO-CCs include 15,179 genes (52.2% of the total). In the case of KEGG only 2 terms were considered nonspecific and they only affect to 700 genes. All the generic terms were tagged in order to further use them only in the case that they appear in cooccurrence with other terms. pathways (SGD) and human diseases (OMIM). Statistical Precision, Recall and balanced F-score are calculated for each test, and we observe robust results even introducing different percentages of randomly selected genes in the queries. The computational method can be applied to the output result of any enrichment analysis. We provide a web application to use the method (http:// gtlinker.cnb.csic.es) that only needs as input a gene list, because in a first step it runs an enrichment analysis tool [3] implemented within the same workflow. Results Analysis of the distributions of terms/genes in different Annotation Spaces Functional annotation and enrichment analysis relies on the use of biological databases that include groups of genes associated to specific biological functions, such as: metabolic and signaling pathways, cellular processes and apparatus, organisms, etc. Some of the biological databases most used in functional profiling are: GO (repository of gene and gene product ontological attributes across species) [6], KEGG (atlas of biological pathways) [7], UniProt (catalog of structural and functional information on proteins) [8]. In these databases the functions are annotated with specific terms that define and describe the biological roles and actions. They usually apply controlled vocabularies, i. e. structured collections of terms with numerical IDs. As it happens in language evolution, the use of the terms can modulate their meaning, because when some expressions become too trendy, fashionable or promiscuous they can lose significance. In addition, most of these vocabularies are defined to be organism-independent and therefore in some cases they encode global definitions that are not useful to explain very specific biological processes. We have analyzed and compared the frequency distributions of the biological terms in two worldwide used databases (GO and KEGG). This analysis counts the number of genes assigned to each term and reveals that the distributions are quite uneven, existing a large proportion of terms that include very small number of genes and a considerable amount of outliers assigned to many genes. In fact, for the case of GO-BP (Biological Process), GO-MF (Molecular Function) and GO-CC (Cellular Component) more than 50% of the terms have less than four genes assigned in human (see Figure 1A, boxplots of the distributions of GO and KEGG terms assigned to human genes). The distribution is more homogeneous for the case of KEGG terms, which shows a Gaussian-like curve (Figure 1C and 1D). The black vertical lines in these plots indicate the percentage of genes per term with respect to the total number of human genes (i.e. 29095 genes using ENSEMBL v57, March 2010). The results show that the most used GO-BP term is assigned to 6.43% human genes (1872 genes assigned to signal transduction, GO:0007165). Figure 1B presents for each GO category (BP, MF, CC) the three terms most frequently annotated to human genes. Such terms (e.g. term protein binding) are outliers in the distributions (Figure 1A) and therefore they can be considered terms with low-information-content, too generic to provide clear and meaningful functional annotation on their own. Most of the enrichment analyses are based in searching for frequent patterns of association between biomolecular elements (e.g. genes, proteins) and the corresponding annotations or descriptions found in biological databases. In the data-mining field those patterns are called frequent itemsets [9]. A formal mathematical definition of frequent itemsets can be as follows: given a set of items I~fi 1 , i 2 ::: i n g and a database of transactions T~ft1 , t2 ::: tm g where each transaction is a subset of I, F(I is a frequent itemset if it is included in a number of transactions greater than a specified threshold, e. That number of transactions is called the support of the itemset. Translating these concepts to the biological context of enrichment analyses, the items will be the ‘‘terms’’ (i.e. the biological annotations) from the different databases, and the transactions will be the ‘‘genes’’ (i.e. the biological entities). In this way, it is possible to generalize the frequent patterns obtained by any enrichment analysis as a list of annotations related with a subset of genes, both associated by the score or p-value of the enrichment that measures the strength of the relationship. Formally, such combination of terms/genes/p-value is a frequent itemset derived from a functional annotation procedure, and we define such as GeneTerm-set element: E i ~SG i ,Ai ,pi T. Where Ei is the ith element in the results, Ai is a set fa1 ,a2 ,:::an g of biological annotations or terms, Gi is a set of genes fg 1 ,g 2 ,:::g m g and pi the p-value. In terms of enrichment Ai is a set of annotations over-represented in a list of genes and Gi is the subset of genes that support that overrepresentation with a p-value of pi. When using singular (SEA) or concurrent modular (MEA) enrichment analyses, the difference in the data structure of the result consists only in the number of elements in Ai, that is 1 in the first case and $1 in the latest. Most of the enrichment tools provide large lists of these GeneTerm-set elements derived from the analysis on different annotation spaces. Such multiple lists are many times very redundant, provided as independent or non-related and including many generic terms. This hampers the extraction of meaningful biological insights because the interpretation of such redundant and complex data sets is quite difficult, time-consuming and daunting, many times dependent on the expertise and the area of interest of the biologists that analyze the lists. Identification of over-represented terms to improve functional annotation Method: non-redundant reciprocal linkage of GeneTermsets to go beyond Enrichment The analysis of the distribution of terms indicates that there are some biological annotations that are over-represented, mainly in GO. Such over-representation can be quantified by the deviation from the average number of assignments (red and green vertical ) and on lines in Figure 1C and 1D). Based on such average (X We have developed a computational method to find metagroups of genes and annotations composed by linked GeneTerm-sets, eliminating redundant and non-informative elements. The method, called GeneTerm Linker has 2 major goals: (i) to provide a robust automatic way to analyse the large PLoS ONE | www.plosone.org Definition of GeneTerm-sets as a type of Frequent Itemsets 2 September 2011 | Volume 6 | Issue 9 | e24289 Functional Linkage of Genes and Biological Terms Figure 1. Distributions of biological terms in GO and KEGG databases. Distributions of biological terms from GO and KEGG databases counting the number of genes assigned to each term. The data correspond to human genes. (A) Boxplots of the distributions for GO categories (BP, MF, CC) and for KEGG. (B) Most frequent GO terms. (C) Left: density distribution of GO-BP -marking the average with a red line-; right: proportion of genes per term with respect to the total number of genes (%). (D) Same as C for KEGG. doi:10.1371/journal.pone.0024289.g001 collections of GeneTerm-sets produced by enrichment methods; (ii) to produce significant and coherent metagroups of genes associated to concurrent terms and annotations that describe the specific biological functions of the metagroup. In the following paragraphs we describe the four major procedure steps that the method includes: genes. Such over-represented terms are considered outliers. Once the outliers are found in each biological annotation category for each organism, the first step of the method consists in removing the GeneTerm-set elements that only correlate groups of genes with over-represented terms. If one element in the enrichment result includes outliers in its set of annotations but also contains other terms, the element is not discarded because the generic terms are related with other specific annotations. In this way, given an element Ei from the enrichment result, the whole element will be set aside only if its set of annotations Ai is composed by outliers. This first step of the method significantly reduces the number of elements in the list of results, removing useless information. Step 1 Filtering GeneTerm-sets that only include over-represented terms. As we showed above, those terms whose frequency of appearance in databases is strongly greater than average can provide obvious and non-interesting results, while masking significant functional patterns present in the query PLoS ONE | www.plosone.org 3 September 2011 | Volume 6 | Issue 9 | e24289 Functional Linkage of Genes and Biological Terms Each metagroup is described by the total set of terms and the total set of genes included in their elements. So, to find redundant elements inside a metagroup the method searches for the ones with all its genes and terms included in another elements of the same metagroup. In this search the GeneTerm-sets are always ordered by increasing p-values to eliminate consistently the less significant sets. Following this approach, redundant GeneTerm-sets present in the enrichment outputs are found and removed. Step 2 Retrieve metagroups using reciprocal linkage between GeneTerm-sets. The second step of the algorithm creates metagroups of elements that are related by sharing common genes or by sharing common terms. The method is reciprocal because it considers both the genes and the terms included in each GeneTermset. First, to find the linkage between genes it uses a similarity coefficient that provides a preliminary grouping of GeneTerm-sets. Second, to find the linkage between terms it uses a greedy algorithm that explores the annotations to merge the common ones. Gupta et al. showed that the use of the Jaccard Similarity coefficient to measure the distance between the transactions that support frequent patterns get better results than the distance between the items, demonstrating its fitness to catch the interactions between those sets in the data and its robustness regardless the size of the data [10]. This is an approach that does not take into account the strength of the relationships between transactions and items, i.e. between genes and terms in our case. Considering these ideas, our method finds the linkage between GeneTerm-set elements by creating for each Ei a vector vi which contains the occurrence of each gene with respect to the whole gene list of the input (in binary numbers 1/0) and incorporates as an additional component the p-value of each element Ei weighted by factor M (the total number of genes in the list). This additional parameter represents the strength of the relationship within each GeneTerm-set. The pairwise distances between all vectors vi are calculated using Cosine Similarity, a generalization of the Jaccard Similarity coefficient for nonbinary attributes. Once the similarity is calculated, the distances are analyzed using Ward’s hierarchical clustering in order to find the linkage between GeneTerm-sets (i.e. the clusters formed by the elements). This linkage is considered fuzzy because each gene or combination of genes can be included in several GeneTerm-sets. A heuristic threshold consisting of a cutoff set up at a given depth of the cluster tree is used to define the preliminary metagroups. By default the threshold is set up at 20% of the tree depth, but if it is not enough to define metagroups, the algorithm increases the cutoff in 10% steps till at least one metagroup is found. In this way, we identify coherent modules of information based on common genes. After this process, the algorithm proceeds performing a greedy recursive exploration of terms within the preliminary clusters (premetagroups) to merge the ones that share the same terms. At the end of this second step the method provides metagroups where the convergence of genes and terms is maximized. A formal mathematical description of the process is included in the Materials and Methods. Step 4 Calculate significance and coherence of the metagroups. After the final metagroups have been generated and the redundant GeneTerm-sets removed, a series of parameters are calculated to evaluate their significance and coherence. Our assumption is that a functional coherent metagroup should be compact and well separated from other, therefore such coherence tries to measure both the intra-groups compactness and the intergroups distance. In order to evaluate the statistical significance a Hypergeometric test is performed with all the genes and terms assigned to each metagroup [2,12]. The resultant p-values are adjusted for multiple tests using the FDR method [13]. In order to assess the compactness (maximum distance in between data points of clusters) and proximity (minimum distance between clusters) the main parameter calculated is the Silhouette Width, which ranges from 1 to 21 and measures both the compactness and proximity of multiple groups [14]. The method also calculates the Diameter, that is the maximum Cosine distance within the GeneTerm-sets of each metagroup and ranges from 0 to 1; and the Similarity Coefficient, which is [1 – average Cosine distance] within the GeneTerm-sets of each metagroup and also ranges from 0 to 1. All these distance and similarity calculations are done based on the genes present in the metagroups. Testing the method with a set of yeast nuclear proteins We investigate the ability of GeneTerm Linker method to find metagroups of functionally related genes using as test set of 59 nuclear proteins from yeast (Figure 2A) that have been characterized by protein interaction methods and form five welldefined protein complexes [15]. This set had been previously used in the evaluation of a method to find densely connected regions in protein interaction networks [15] and it includes a collection of well-annotated proteins with strong functional links. A network of experimentally proven interactions between these proteins was build, using APID and APID2NET [16,17], showing that they form 5 distinct clusters (Figure 2B). These clusters constitute a good set for use as a benchmark. The analysis of the set of yeast proteins is shown in Figure 2C. The output of the algorithm shows that five compact metagroups are found, all having a Silhouette Width.0.5, that is a good indication of the internal tightness of each metagroup and its external separation from the other metagroups [14]. Moreover, the Hypergeometric test also indicates that the metagroups are significant. The size of the 5 metagroups found was: [1] 13 genes and 9 GeneTerm-sets; [2] 11 genes and 4 GeneTerm-sets; [3] 14 genes and 9 GeneTerm-sets; [4] 14 genes and 13 GeneTerm-sets; [5] 14 genes and 14 GeneTerm-sets. The terms corresponding to each metagroup are presented in Figure 2C (co-annotations column), showing the main functions and biological roles found associated to each metagroup (a complete version of this table is included in Table S1). Some concurrent terms are synonymous, like in the 3rd metagroup ‘‘proteasome complex’’ (GO:0000502) and ‘‘proteasome’’ (KEGG:03050); but other terms are complementary, like in the 4th metagroup ‘‘U4/U6 tri-snRNP complex’’ (GO:0046540) Step 3 Remove redundancy within the selected metagroups. Once the metagroups are created, it is possible to compact and reduce their size by removing the redundant elements included inside each metagroup. Toivonen et al. proposed the concept of cover of a set of association rules (a special case of frequent itemsets) as the minimal subset that contains all the relationships present in an original set [11]. To avoid losing any item, we extend the concept of cover of a collection of itemsets (i.e., in our case, a metagroup of GeneTerm-sets) with the requirement of completeness of the data. In this way, in our algorithm we redefine and apply the concept of complete cover. The mathematical description to calculate this parameter is presented in Materials and Methods. To assess the complete cover we do not contemplate only the terms included in the metagroups, but also the genes that support them. PLoS ONE | www.plosone.org 4 September 2011 | Volume 6 | Issue 9 | e24289 Functional Linkage of Genes and Biological Terms PLoS ONE | www.plosone.org 5 September 2011 | Volume 6 | Issue 9 | e24289 Functional Linkage of Genes and Biological Terms Figure 2. Analyses of a highly connected set of yeast proteins with GeneTerm Linker. Analyses of a set of 59 yeast proteins using the algorithm proposed. (A) Lists of the proteins that form 5 known protein complexes. (B) Protein interaction network form by such 59 yeast proteins. Each node is a protein and the color scheme corresponds to GO-BP and InterPro terms marked using APID2NET [17]. (C) Output of the analysis of the 59 genes with the algorithm proposed (full table in Table S1). doi:10.1371/journal.pone.0024289.g002 and ‘‘Like-Sm ribonucleoprotein (LSM) domain’’ (IPR001163). The overall result shows that the method finds the 5 complexes expected, including in each one all its proteins. In the case of metagroups 3, 4 and 5 some extra proteins are included: APC2 and DOC1 in the 3rd metagroup; PAP1, PTA1 and YSH1 in the 4th metagroup; and RPN6 and CFT2 in the 5th metagroup. when using the agglomeration algorithm FAC [4], which by default finds many more groups or modules of genes and terms (15 functional modules). Tuning the parameters of FAC algorithm to find just the 5 expected metagroups the Accuracy still does not reach 90% (0.88). The Jaccard coefficient measures the proportion of gene pairs that belong to the same metagroup in both the expected and the computed partition, relative to all pairs that belong to the same metagroup in at least one of the two partitions. This coefficient for the case studied was 0.769 using our method and 0.562 using FAC method. Comparison of the method with another functional annotation approach To perform a comparative analysis with other methods, we carried out a systematic identification of the gene pairs that compose the test set of five yeast complexes, described above, and all the gene pairs found by the functional association method. In this way, we count all possible gene pairs and all true positive (TP) gene pairs found in the reference complexes, and we can calculate the Accuracy (i.e. Rand statistic) and the Jaccard coefficient defined as: Accuracy~ Testing the method with reference sets from three heterogeneous resources: Complexes, Pathways and Diseases To achieve a more comprehensive evaluation of the method, we did a series of trials with reference sets of gene metagroups defined in three broad biomolecular resources: (1) sets composed of multiprotein complexes identified in mamals (from CORUM) [19], (2) sets composed by groups of genes involved in yeast pathways (from SGD) [20], (3) sets of groups of genes involved in human diseases (from OMIM) [21]. We select from each database ten of sets with at least 8 genes/proteins each (Figure 3). Using this collection of reference gene sets we run the method once for each set, to investigate how many of the reference genes are included in the first, most significant, metagroup found. We performed the analyses using not just each reference metagroup alone, but also mixing it with randomly selected genes to introduce two levels of noise in the set: 20% and 60% (i.e. in order to acquire 20% noise, if the reference group had 10 genes then 2 genes were randomly selected from the whole gene list of such resource and included with the 10 true genes). The results using GeneTerm Linker over the whole collection of reference gene sets is shown in Figure 3, which presents in each row the most significant metagroup found and its overlap with the corresponding reference gene set used as query. For example, in the case of the first group (1c): the C complex spliceosome is composed ðTPzTN Þ ; ðTPzTNzFPzFN Þ Jaccard Coefficient~ ðTPÞ ðTPzFPzFN Þ These parameters measure the relationship between pairs of points using the co-occurrence matrices for the expected partition and the partition generated by a given method [18]. The statistical evaluation was done (see Table 1) for the results obtained with our method and for the results obtained with a widely used Functional Annotation Clustering (FAC) method developed by DAVID Bioinformatics Resources [4]. This is the only method that we found in the literature that has a similar goal of finding functional modules (that include genes and terms) and use data derived from enrichment analysis. The results indicate that GeneTerm Linker method is quite accurate to find the biological complexes present in the test set of 59 yeast nuclear proteins (Accuracy = 0.95). Such Accuracy drops Table 1. Comparison of methods: GeneTerm Linker and Functional Annotation Clustering. GeneTerm Linker DAVID FAC (used by default) DAVID FAC (tuned to find 5 groups) Total groups reference 5 5 5 Total groups found 5 15 5 All possible gene pairs 1711 1711 1711 TP 320 320 254 FN 82 1179 132 FP 0 0 66 TN 1309 212 1259 Jaccard Coefficient 0.769 0.213 0.562 Accuracy 0.952 0.311 0.884 Comparative results for the set of 59 yeast proteins: Accuracy and Jaccard Coefficient obtained using the present method and using Functional Annotation Clustering (FAC) method with its parameters by default or tuned to find 5 groups. doi:10.1371/journal.pone.0024289.t001 PLoS ONE | www.plosone.org 6 September 2011 | Volume 6 | Issue 9 | e24289 Functional Linkage of Genes and Biological Terms Figure 3. Analysis of gene sets from 3 biomolecular resources: CORUM, OMIM, SGD. Results of the analysis of thirty gene sets derived from three biomolecular resources: mammalian multiprotein complexes (CORUM), human diseases (OMIM) and yeast cellular pathways (SGD). Each row corresponds to an independent gene set and it includes the result of the functional analysis showing the first metagroup obtained running the method. Each analysis is evaluated with respect to the reference gene sets calculating the Precision, Recall and F-score (in %). The analyses are done introducing 20% random noise; meaning the proportion of random-selected genes added to each query gene set. The number of terms found is indicated in each row. Not all the terms are described due to space restrictions (last column). A complete table, including also the results at 60% random noise and all the information about the specific genes and terms found in each metagroup, is provided as Table S2. doi:10.1371/journal.pone.0024289.g003 of 80 genes, 96 genes are tested (introducing 20% extra randomly selected genes) and the method finds 68 genes, all included in the reference set and functionally linked to 6 terms with a significance of 5.25 e2138 (adjusted p-value). Following the same steps, we calculate the results for each one of the thirty reference gene sets. As indicated above these reference sets were taken from three heterogeneous biological sources: complexes (c), diseases (d) and pathways (p). A complete table, including all the results about the specific genes and terms found in each metagroup, is provided as Table S2. ðTPÞ ðTPÞ ; Recall~ ; ðTPzFPÞ ðTPzFN Þ ðPrecision:Recall Þ F score~2 ðPrecisionzRecall Þ Precision~ The Precision is a measure of exactness and fidelity, whereas the Recall is a measure of completeness. The results (Figure 3) reveal that the new functional analysis method proposed is quite precise, because it shows an average Precision of 100%, 99.7% and 97.8% in the identification of gene metagroups from protein complexes, diseases and pathways, respectively. Such Precision was obtained using a noise level of 20%. This also indicates that it is a rather robust method which allows perturbation in gene lists without losing the major functional signal included in a given metagroup. The Recall –also with 20% noise– was 93.6% and 81.5% for the gene sets obtained for multiprotein complexes and pathways, respectively; and 54.4% for gene sets assigned to protein diseases. This is an interesting observation because it seems that the decrease of the Recall follows the same tendency expected if we were considering the strength of ‘‘functional units’’. It is easy to understand that the average cohesion and tightness of the genes associated in multiprotein complexes (i.e. in ‘‘molecular machines’’) should be higher that the cohesion of the genes associated within a pathway, and much stronger that the cohesion of the Calculating the Precision, Recall and F-score of the method Since the correct answer is known for each metagroup of the reference gene sets, we can calculate the error rates and estimate the Precision and Recall of our method. In an information retrieval scenario, Precision is defined as the number of relevant documentitems retrieved by a search divided by the total number of document-items retrieved by that search, and Recall is defined as the number of relevant document-items retrieved by a search divided by the total number of existing relevant document-items (which should have been retrieved). The document-items in our context are the genes. The balanced F-score is a measure that combines Precision and Recall evenly weighted, being the harmonic mean of both. In statistical terminology these parameters –related to type I and type II errors– are defined as: PLoS ONE | www.plosone.org 7 September 2011 | Volume 6 | Issue 9 | e24289 Functional Linkage of Genes and Biological Terms and the overuse of certain popular terms (e.g. signal transduction or regulation of transcription, Figure 1B) produce a strong influence on the power of the annotation resources and on the quality of their specific application to large query gene lists. Functional characterization of large gene lists, derived from genome-wide experiments, aims ideally to provide a set of annotated groups of genes that should be smaller than the number of genes in the query list [24]. However, currently most researchers in the field realize that is quite difficult to obtain a single and meaningful result using the functional enrichment tools available. The method here proposed (Figure 4) solves this problem providing a unique result where the related genes and terms are fuzzy enclosed in metagroups which are evaluated by enrichment, functional coherence and similarity. In conclusion, after search and comparison with other methods, we can say that the innovation and genuine value of the algorithm presented is to provide a single coherent solution to the problem of functional annotation of lists of genes or proteins. To achieve this, it address the problem of using multiple non-orthogonal and nonhomogeneous biological annotation spaces, going beyond enrichment analysis (EA) approaches that provide many lists of genes and annotations usually not integrated, redundant or with low information content. Knowing the use and value of these enrichment approaches, a clear practical problem remains for many biologists that try computer-driven exploration of their candidate gene lists. We expect that the method here presented, GeneTerm Linker, will help to alleviate such difficulties offering a step forward to many gene-based biomedical and biomolecular studies. genes associated to a disease. In fact, many times there is not a clear functional reason about why a human gene is associated to a given disease [21]. The association is most times heuristic, observational, phenomenological, and not really linked to a known biomolecular cause. This reasoning also provides support to the method, since it shows its power to unravel different types of functional associations, and to disclose cases where the ‘‘functional units’’ holding the linkage between genes are not so well defined. Finally, it seems that the size of the query groups does not affect the error rates of the method, because sets from 8 to 84 genes were assayed and the values of Precision and Recall were not dependent on the size. The only need is that each metagroup has to include a minimal number of genes to retrieve enough annotations and terms that allow functional associations. We observed that bellow seven genes it was quite difficult to achieve the linkage between genes and terms, although we do not consider it a critical constraint for high-throughput analysis. Discussion Inferring functional linkage between genes and biological terms Some eloquent studies have asserted that functional annotation has become a bottleneck in biomedical science in the current era of high-throughput sequence and structure determination [22,23]. Many genes and gene products are normally annotated by homology, assigning known functions to similar sequences. This procedure can be a potential error-prone which propagates and can contaminate most of the biomolecular databases [23]. The lack of specific knowledge about the biological function of many genes added to a recurrent annotation by simple homology and the frequent use of some terms that become ‘‘fashionable’’ or ‘‘promiscuous’’ under the influence of certain biomedical areas (e.g. cancer) can be a pitfall for many functional enrichment approaches. Using several information theory principles, we propose a new method for biological functional analysis called GeneTerm Linker, developed with a clear aim of avoiding redundancy and reducing complexity in computational functional annotation, also aiming to combine multiple annotation resources. In Figure 4 we present a scheme that illustrates the rational followed by GeneTerm Linker. The power of the method is given by the fact that it combines all sources of annotations and biological information regardless of their internal structure in order to provide a single result, in this way it brings together all annotation spaces where a gene list had been interrogated. Lots of efforts have been devoted to use gene ontology (GO) as a main functional annotation space and to find functional similarity metrics in GO using its hierarchical structure and the relationship between its terms. While this is a valid approach, its application cannot be exported to other resources of nonhierarchical but very relevant biological information. As shown in Figure 4, our method is able to locate in the same frame terms from GO and from other annotation spaces (KEGG, InterPro, etc) providing metagroups of genes and terms linked with significance scores. A secondary contribution of our study is to present a comparative analysis of different annotation resources. Figure 1 reflects that KEGG annotations are more stable and contain less outliers than GO. This is caused by the existence of a thorough curation in KEGG and the fact that GO is, by definition, an ontology resource based on a controlled vocabulary, that many times has to take general broad terms applicable to genes present in very different organisms. We showed that the lack of specificity PLoS ONE | www.plosone.org Materials and Methods Reference sets to test the method A reference set of 59 nuclear proteins from yeast (Saccharomyces cerevisiae) that form five well-defined protein complexes [15] was selected as first test set and used in the comparative analysis versus the FAC method [4]. The method was also tested using 30 reference sets of gene metagroups from three biomolecular resources: (1) CORUM, comprehensive resource of mammalian multiprotein complexes [19]; (2) SGD, yeast resource that includes a collection of groups of genes involved in cellular pathways [20]; (3) OMIM, resource that includes groups of genes involved in human diseases [21]. We downloaded these 3 resources and searched for groups composed of at least 8 genes/ proteins assigned to specific biological entities within each database, i.e.: assigned to specific multiprotein complexes (c), diseases (d) or pathways (p). Then, we select from each database 10 groups and consider them as reference metagroups in order to test how our method was able to find such groups. The groups are numbered 1c-10c, 1d-10d and 1p-10p. The names of the 10 groups selected from each database are included in Figure 3 and all the details about the genes included in each reference metagroup are provided in Table S2. Formal definition of GeneTerm-sets The input to the algorithm are elements defined as GeneTerm-sets that correspond to combinations of genes/terms/p-value (considered frequent itemset) derived from functional annotation enrichment: Ei ~SGi ,Ai ,pi T Ei ith element; Gifg 1 ,g 2 :::g m g set of genes; Aifa1 ,a2 :::an g set of terms; pi p-value 8 September 2011 | Volume 6 | Issue 9 | e24289 Functional Linkage of Genes and Biological Terms Figure 4. Scheme of the rational followed by GeneTerm Linker method. Scheme that illustrates the rational followed by the GeneTerm Linker method proposed. The method provides a single result combining all annotation spaces where a gene list has been interrogated. The method uses filters for promiscuous and redundant terms/annotations as it is described in the step 1 and 3 of the algorithm. doi:10.1371/journal.pone.0024289.g004 Mathematical description of the calculation of distances For each element Ei a vector vi contains the occurrence of each gene with respect to the whole input gene list and the p-value of each element Ei weighted by factor M = total number of genes in the list: PLoS ONE | www.plosone.org vi ~ðd(g1 ,Gi ),d(g2 ,Gi ), . . . ,d(gM ,Gi ),Mpi Þ 1 gk [Gi d(gk ,Gi )~ 0 gk = [G 9 September 2011 | Volume 6 | Issue 9 | e24289 Functional Linkage of Genes and Biological Terms The pair-wise distances between all vectors vi are calculated using the Cosine Similarity that is derived from the Jaccard Similarity coefficient: D(Ei ,Ej )~1{cos(vi ,vj )~1{ Supporting Information Table S1 Complete functional analysis of 59 yeast proteins using GeneTerm Linker method. Data file (.xls) containing the complete results provided by GeneTerm Linker corresponding to the functional analysis of the 59 nuclear yeast proteins (which has been partially presented in Figure 2C). The file has two spreadsheets: (A) includes a complete view of the same table as Figure 2C; (B) includes the complete output results provided by GeneTerm Linker algorithm, showing the five metagroups found with all GeneTerm-sets assigned to each metagroup. (XLS) vi :vj kvi k vj Mathematical description of complete cover and application to redundancy removal Each resulting metagroup is formed by a selected collection of GeneTerm-sets that keep maximum similarity. The redundancy within the preliminary metagroups is eliminated calculating the complete cover of each metagroup (to guarantee the completeness of the data) and then removing the GeneTerm-sets that do not include any new gene or any new term. Formally: Table S2 Complete functional analysis of 30 gene sets from 3 resources (CORUM, OMIM and SGD) using GeneTerm Linker method. Data file (.xls) containing the complete results provided by GeneTerm Linker corresponding to the analysis of 30 gene sets derived from 3 biomolecular resources: CORUM, OMIM and SGD (which has been partially presented in Figure 3). Each row corresponds to the functional analysis of one gene set and shows only the first metagroup found by the method. All genes and terms found in the first metagroups of each gene set are included, together with the statistical parameters (Precision, Recall and F-score in %) and the adjusted p-value corresponding to such metagroups. Each analysis is done twice for each gene set, introducing 20% or 60% random-selected genes. (XLS) given a metagroup C~fE1 ,E2 . . . EN g and a subset D(C, D is a cover of C if 0 1 [ [ D is cover of Cu@ c(Ek )~ c(Ek )A^ Ek [D Ek [C [ [ 0 @ a(Ek )~ Ek [D 1 a(Ek )A Ek [C Author Contributions c(Ei )~Gi Conceived and designed the experiments: JR CF. Performed the experiments: CF RN. Analyzed the data: CF RN AP JR. Contributed reagents/materials/analysis tools: CF RN AP JR. Wrote the paper: JR. Developed the programming code: CF RN. Implemented the algorithm steps: CF RN. Developed the mathematical formulation: RN AP JR. Developed the web-site to use the method: RN JR. Critical contribution and manuscript correction: CF RN AP. a(Ei )~Ai References 12. Draghici S, Khatri P, Martins RP, Ostermeier GC, Krawetz SA (2003) Global functional profiling of gene expression. Genomics 81: 98–104. 13. Benjamini Y, Hochberg Y (1995) Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing. J Roy Stat Soc (Ser B) 57: 289–300. 14. Rousseeuw PJ (1987) Silhouettes: a graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics 20: 53–65. 15. Bader GD, Hogue CW (2003) An automated method for finding molecular complexes in large protein interaction networks. BMC Bioinformatics 4: 2. 16. Prieto C, De Las Rivas J (2006) APID: Agile Protein Interaction DataAnalyzer. Nucleic Acids Res 34: W298–302. 17. Hernandez-Toro J, Prieto C, De Las Rivas J (2007) APID2NET: unified interactome graphic analyzer. Bioinformatics 23: 2495–2497. 18. Dalton L, Ballarin V, Brun M (2009) Clustering algorithms: on learning, validation, performance, and applications to genomics. Curr Genomics 10: 430–445. 19. Ruepp A, Waegele B, Lechner M, Brauner B, Dunger-Kaltenbach I, et al. (2010) CORUM: the comprehensive resource of mammalian protein complexes - 2009. Nucleic Acids Res 38: D497–501. 20. Engel SR, Balakrishnan R, Binkley G, Christie KR, Costanzo MC, et al. (2010) Saccharomyces Genome Database provides mutant phenotype data. Nucleic Acids Res 38: D433–436. 21. Hamosh A, Scott AF, Amberger JS, Bocchini CA, McKusick VA (2005) Online Mendelian Inheritance in Man (OMIM), a knowledgebase of human genes and genetic disorders. Nucleic Acids Res 33: D514–517. 22. Medrano-Soto A, Pal D, Eisenberg D (2008) Inferring molecular function: contributions from functional linkages. Trends Genet 24: 587–590. 23. Llewellyn R, Eisenberg DS (2008) Annotating proteins with generalized functional linkages. Proc Natl Acad Sci U S A 105: 17700–17705. 24. Merico D, Isserlin R, Stueker O, Emili A, Bader GD (2010) Enrichment map: a network-based method for gene-set enrichment visualization and interpretation. PLoS One 5(11): e13984. 1. Huang DW, Sherman BT, Lempicki RA (2009) Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res 37: 1–13. 2. Carmona-Saez P, Chagoyen M, Tirado F, Carazo JM, Pascual-Montano A (2007) GeneCodis: a web-based tool for finding significant concurrent annotations in gene lists. Genome Biol 8: R3. 3. Nogales-Cadenas R, Carmona-Saez P, Vazquez M, Vicente C, Yang X, et al. (2009) GeneCodis: interpreting gene lists through enrichment analysis and integration of diverse biological information. Nucleic Acids Res 37: W317–322. 4. Huang DW, Sherman BT, Lempicki RA (2009) Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nat Protoc 4: 44–57. 5. Subramanian A, Tamayo P, Mootha VK, Mukherjee S, Ebert BL, et al. (2005) Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc Natl Acad Sci U S A 102: 15545–15550. 6. Gene Ontology Consortium (2010) The Gene Ontology in 2010: extensions and refinements. Nucleic Acids Res 38: D331–335. 7. Kanehisa M, Goto S, Furumichi M, Tanabe M, Hirakawa M (2010) KEGG for representation and analysis of molecular networks involving diseases and drugs. Nucleic Acids Res 38: D355–360. 8. Apweiler R, Martin MJ, O’Donovan C, Magrane M, Alam-Faruque Y, et al. (2010) The Universal Protein Resource (UniProt) in 2010. Nucleic Acids Res 38: D142–148. 9. Alves R, Rodriguez-Baena DS, Aguilar-Ruiz JS (2010) Gene association analysis: a survey of frequent pattern mining from gene expression data. Brief Bioinform 11: 210–224. 10. Gupta T, Seifoddini H (1990) Production data based similarity coefficient for machine-component grouping decisions in the design of a cellular manufacturing system. International Journal of Production Research 28: 1247–1269. 11. Toivonen H, Klemettinen M, Ronkainen P, Hatonen K, Mannila H (1995) Pruning and grouping discovered association rules. In: MLnet Workshop on Statistics, Machine Learning, and Discovery in Databases, Crete, Greece. pp 47–52. PLoS ONE | www.plosone.org 10 September 2011 | Volume 6 | Issue 9 | e24289