Download Données

Document related concepts
no text concepts found
Transcript
Les biopuces et le grand séquençage:
des outils pour comprendre le vivant
à l’échelle génomique
Partie 3: applications
Philippe Kastner
ESBS – septembre 2009
Utilisation des biopuces pour l’étude du
transcriptome
1. Conception d’une expérience de microarray
2. Méthodes d’analyse
3. Exemples d’application
Comment concevoir une expérience
de microarrays ?
But: déterminer les variations biologiques
entre différents échantillons.
Mais il faut distinguer celles-ci des variations
liées à la technologie, ou à celles liées à la
variabililé intrinsèque des échantillons
Thomas Hudson, Montreal Genome Center
Intensité croissante
Différences d’expression réelles ou artéfactuelle ?
6 échantillons: A1, A2, A3, B1, B2, B3
Microarray comprenant 20 000 gènes
échelle d’expression: 1- 10000
Mesures pour un gène X
A1
A2
A3
B1
B2
B3
25
30
35
55
50
66
Test t: p = 0,01
Pour combien de gènes une telle valeur peut-elle être obtenue
par hasard ? (« false discovery rate », ou FDR)
Estimation du nombre de gènes différentiels « réels »
Comparaison
Nombre de gènes différentiels
(Changement > 2x, p <0,01)
(A1, A2, A3) vs (B1, B2, B3)
300
(A1, B2, A3) vs (B1, A2, B3)
150
(A1, B2, B3) vs (B1, A2, A3)
200
(A1, A2, B1) vs (B2, B3, A3)
100
La moitié des gènes différentiels est artéfactuelle !
Solutions:
multiplier les réplicats
augmenter la stringence des critères de
sélection.
Combien de réplicats sont-ils nécessaires pour une
expérience réussie ?
variabilité
Number of replicates
Type of sample
Cell
lines
Interested by
Mouse
cells
Mouse
organs
Human
cells
Human
tumors
Big
2
changes
2-3
3-4
5-6
>30
Small
4-5
changes
5-6
10
10-15
>60
Deux grands types de méthodes de « clustering »
A.
Méthodes hiérarchique: génération d’un dendogramme
(arbre) qui relie tous les gènes ou échantillons entre eux.
B.
Méthodes par partitionnement, qui divise les gènes en K
classes ayant des profils similaires (K défini par
l’utilisateur)
- K-means
- Self-organizing maps (SOM)
- analyse par composantes principales (PCA)
700 gènes
Regroupement en fonction
de profils d’expression
similaires
1. Gènes
Évolution temporelle de
l’expression des gènes dans des
fibroblastes humains stimulés par
du sérum (Pat Brown, 1997)
(Première expérience publiée de microarrays)
Visualisation d’une chorégraphie de l’expression
génique dans le temps.
Regroupement en fonction de profils d’expression similaires
2. échantillons
Fold Changes
-6 -4 -2
Genes belonging
to one cluster
Different cell lines to be compared
1 +2 +4 +6
Méthodes par partitionnement
(K-means, Fuzzy C-means, Self organizing maps)
– N expériences
– chaque gène est considéré comme un vecteur dans un espace de dimension
N (coordonnées = valeurs d’expression dans chaque expérience)
– Partitionnement des gènes en K classes optimisées selon des critères de
proximité des gènes dans l’espace vectoriel
Analyse par partitionnement de données correspondant à 5
types de leucémies T (20 groupes)
Visualisation et sélection des classses de gènes intéressantes
Analyse par partitionnement de données correspondant à 5
types de leucémies T (20 groupes)
Ikaros
bcat
TelJak2
Tal-Lmo1
Visualisation des clusters FCM (4208 genes)
B-catenin
ICN1
Ikaros
TelJak2
Tal-Lmo1
Applications des microarrays
1. Expression différentielle
Question: pourquoi B est-il différent de A ?
(KO vs WT; effet d’un traitement; sain vs malade, etc …)
Comparaison de A et B
Et ensuite ??? ….
200 gènes différentiels !!
Extraction d’un sens biologique
-Analyse biographique
- Annotation fonctionnelle des gènes (gene ontology: codification
des annotations)
Identification de gènes candidats ou voies moléculaires
Exemple 1: Lymphomes thymiques chez des souris
mutantes pour le gène Ikaros
Recherche de la voie moléculaire impliquée dans le
développement de ces tumeurs par une analyse du transcriptome.
Conception expérimentale
6 IkL/L tumors
4 Tel-Jak2 tumors
5 non tumoral
thymocytes
Genes specifically
deregulated in IkL/L
tumors ?
Notch upregulation is associated with tumors lacking Ikaros
IkL/L
tumors
TelJak2
tumors
IkL/L
tumor
pT
Deltex 1
Hes1
Notch pathway
signature
Notch1
Expérience fondatrice d’un projet concernant le
rôle d’Ikaros dans la régulation de la voie Notch.
Applications des microarrays
2. Transcriptome comme mesure phénotypique
d’un système biologique
Concept:
Profil apparenté de l’expression des gènes
implique une similitude d’état biologique
Application principale: classification des tumeurs
Meta-analysis of 2285 tumors, from 20 different cancer types
Projet « carte d’identité des tumeurs » de la Ligue contre le Cancer
2285 échantillons de tumeurs
de 20 types de cancer différents
2198 probe sets
Example 2 : Cancer Expression Analysis
•Large Diffuse B-Cell Lymphomas (LDBCL)
•No reliable indicators to subtype them
• Analysis of >100 LDBCL samples, as well as normal subsets of
B lymphocytes
•Hybridise to 18K human “lymphoma” slide
•Alizadeh et al. , Nature 2000
• Distinct types of diffuse large B-cell lymphoma identified by gene
expression profiling.
Identification de deux groupes de tumeurs distincts
Mortality and LDBCL
Pronostic différent pour les deux groupes de tumeurs
Signature transcriptomique
Ensemble de gènes caractéristiques d’un
état biologique donné
- type cellulaire (ex: signature des pDCs)
- stimulation d’une voie moléculaire (ex: Notch)
Exemple 3: analyse de la signature de cellules
dendritiques plasmacytoïdes
Liu et al, Nature Immunol, 2004
Comment les pDCs se développent-elles ?
Controverses dans la littérature:
Les pDCs sont-elles apparentées aux cellules myéloïdes (macrophages,
monocytes) ou lymphoïdes (lymphocytes) ?
Les pDCs sont-elles apparentées aux autres types de cellules dendritiques
« conventionnelles », impliquées dans la présentation des antigènes ?
Une vue génomique des cellules dendritiques
1.
Assemblage de profils d’expression génique pour la plupart
des types cellulaires immunitaires (macrophages,
neutrophiles, lymphocytes B, T, NK, pDCs, cDCs)
= « compendium »
2.
Pour l’homme et la souris
3.
Clustering pour visualiser les distances entre lignage
4.
Identification de programmes d’expression géniques
conservés
Robbins et al, 2008 (Genome Biology)
Similitude des profils transcriptomiques des DC
1. SOURIS
Hierarchical clustering
Principal component analysis (PCA)
(Projection on first 2 dimensions)
Similitude des profils transcriptomiques des DC
Publicly available datasets on Affymetrix U133 v2
2. HOMME
Signature des DC de souris
Pan-DC genes
Conventional DC genes
pDC specific genes (500 genes)
(Fuzzy C-means clustering)
Signatures des DC humaines
Conventional DC genes
Pan DC genes
pDC genes
Gènes les plus fortement associés à des types de cellules
spécifiques
Rouge: connu pour être spécifique de ces lignages
B cells
T cells
pDCs
cDCs
Ebf1
Camk4
Epha2
Arhgap22
Cd19
4430004N04Rik
Pacsin1
Btbd4
Klhl14
Trat1
Zfp521
Slamf8
Bank1
CxCr6
Sh3bgr
9130211l03Rik
Pax5
Tnfrsf25
Tex2
Nav1
Blr1
Ccdc64
Runx2
Ct2a
Ralgps2
Plcg1
Atp13a2
Avpi1
CD79b
Lat
Maged1
Spint1
Conclusion des études transcriptomiques

Proximité des programmes géniques des pDC
et cDC: les DC constituent-elles une branche
développementale séparée du système
hématopoîétique ?

Signatures conservées entre l’homme et la
souris

Les gènes spécifiques des DCs sont largement
inconnus
Exemple 4: Absence de cellules dendritiques
plasmacytoïdes (pDC) chez les mutants IkL/L
Spleen
LN
Blood
0.21
0.08
0.04
0.01
0.01
0.0
IkL/L
B220
WT
120G8
Les pDC sont-elles bloquées dans leur différenciation
dans la moelle osseuse ?
IkL/L
41.4
120G8
B220
B220
WT
Gated on CD11c+ cells
120G8
Présence d’une population exprimant un marqueur des pDC,
120G8, mais pas B220
La population 120G8+ mutante appartient-elle
au lignage des pDC ?
Analyse du transcriptome (Affymetrix: 45000
gènes)
Comparaison à divers types cellulaires
hématopoïétiques
(scatter plot)
Surexpression de la plupart des gènes dérégulés
Visualisation des gènes spécifiques des populations WT et mutantes
Clustering
hiérarchique)
Les pDC IkL/L possèdent la signature pDC
Dérégulation (surexpression) d’un grand nombre de gènes
Sous-signature commune avec les DC conventionnelles
Applications des microarrays
3. Data mining
Recherche d’informations « cachées » dans les données de
transcriptome
Confrontation des données:
- à d’autres sets de données transcriptomiques
- aux données de séquence et d’organisation des génomes
- aux données de fonctions des gènes
Exemple 5: Profils d’expression et recherche de motifs régulateurs
Nature Genetics 22, 281 (1999)
Question: En confrontant les séquences des promoteurs de gènes co-régulés, peuton découvrir de nouvelles séquences régulatrices ?
Données: de transcriptome du cycle cellulaire de levure (2 cycles)
1.
partition en 30 classes de gènes (K-means)
2.
pour chaque classe:
Enrichissement par rapport à une fonction ?
Présence de motifs spécifiques dans les promoteurs (1kb en amont du
site d’initiation)?
méthode: déplacement d’une fenêtre de 10pb à travers la séquence,
recherche de séquences homologues dans les autres gènes du cluster
 calcul d’un score (MAP score). Si MAP score >10 , = significatif
18 motifs dans 12 clusters
Motifs spécifiques d’un cluster donné
Éléments régulateurs connus et inconnus
Identification de nouveaux sites régulateurs
Gènes co-exprimés
Présence d’un
ou plusieurs
motifs donné
Motif régulateur commun ?
Gènes corégulés ?
General scheme (1)
• clustering-based approaches for finding motifs from gene
expression and sequence data
classify
General scheme (2)
• sequence(/knowledge)-based approaches for finding motifs
from gene expression and sequence data
Données: levures cultivées dans différentes conditions
Etude des promoteurs des groupes 1 et 4: enrichissement de
deux motifs régulateurs, PAC et RRPE, souvent présents de
façon conjointe.
Question: la présence de l’un ou des deux motifs PAC et/ou RRPE
permet-elle de prédire la régulation du gène correspondant?
Très bonne corrélation des profils d’expression qui
contiennent la suite RRPE, PAC
Exemple 6: découverte de fonction de gènes
Idée: gènes aux fonctions similaires sont régulés de
façon similaire
Compendium : base de données de profils d’expression
(levures cultivées dans différentes conditions, souches
mutantes, etc …)
Gène à la fonction inconnue:
- profil d’expression similaire à ???
- Souche mutante pour ce gène: profil similaire à ???
Exemple: découverte de la fonction du gène YER044C
Souches
mutantes
Gènes
Forte association avec des gènes
impliqués dans la synthèse de
l’ergostérol
Validation fonctionelle
Exemple 7: recherche de gènes voisins co-régulés
Question: la comparaison des profils d’expression géniques et des localisations
chromosomiques permet-elle d’identifier des région de gènes corégulés ?
Données: cycle cellulaire de la levure
1. Pour tous les couples de gènes, calcul des corrélation des profils d’expression
(valeurs entre -1 et 1)
2. Représentation par ordre sur les chromosomes
Exemple de résultats
Exemple 8: influence de la localisation chromosomique sur le niveau
d’expression génique
Question: l’expression des gènes humains varie-t-elle en fonction de
domaines chromosomiques ?
1.
Mesure du niveau d’expression de tous les gènes humains dans
12 tissus (SAGE)
2.
Représentation du niveau d’expression en fonction de la
position géographique sur les chromosomes
Exemple: chromosome 11
Identification de domaines
d’expression génique élevée
(RIDGE)
Positions sur le
chromosome
 influence de l’environnement
chromosomique large sur la façon
dont un gène est exprimé
Intégration du niveau
d’expression sur une fenêtre
de 39 gènes
tissus
Variations importantes des niveaux
d’expression entre chromosomes
Corrélation entre densité génique et niveaux d’expression
Biopuces
• Analyse sans à priori des systèmes
biologique: outils puissant générer des
hypothèses
• Analyse globale, permettant de révéler des
propriétés nouvelles, non visibles par des
études restreintes.