Omics-Analyse
(Immunantwort auf Infektionen)

(Stand: Januar 2016)

Zur Beantwortung biologischer Fra­ge­stel­lun­gen werden häufig Ex­pe­ri­men­te durchgeführt, bei denen unter Variation bestimmter Be­din­gun­gen eine Vielzahl von Daten erhoben werden. Handelt es sich um eine umfangreiche Aufnahme von Daten "einer Klasse", wird dann von "-omics" gesprochen, (z. B. Transcriptomics oder Se­cre­to­mics). Nach der Erhebung müssen diese Daten analysiert werden, wofür BioControl über den bio­lo­gisch-tech­ni­schen Hintergrund, die geeigneten Al­go­rith­men und gut interpretierbare Er­geb­nis­dar­stel­lun­gen verfügt. Im Fol­gen­den wird dies am Beispiel einer Transkriptom-Analyse und ihrer Fra­ge­stel­lung zur Immunantwort auf Infektionen gezeigt.

Wichtig: bei ähnlichen Analysen werden durch BioControl die Methoden und Analysen in Absprache mit den experimentellen Partnern an das jeweilige Problem angepasst.

Fragestellung


Die biologischen Fragestellungen hinter einer Omics-Analyse betreffen ausgewählte Prozesse und ihre zugrundeliegenden Me­cha­nis­men. Im Allgemeinen geht es um die Reaktion biochemischer Komponenten auf unterschiedliche Bedingungen (z. B. Mu­ta­tion, Umweltbedingungen, Erreger).

Das vorliegenden Beispiel analysiert reale Transkriptom-Daten, die mit Illumina Mi­cro­ar­rays ("Illumina HumanHT-12 V4.0 expression beadchip") gewonnen wurden und öffentlich nutzbar sind:

[1] Sanne P. Smeekens et al.: "Functional genomics identifies type I interferon pathway as central for host defense against Candida albicans." In: Nat Commun, 4:1342, 2013. doi: 10.1038/ncomms2343, GEO: GSE42606.

Es geht um die Antwort des durch mononukleäre Zellen des peripheren Blutes (PBMC) repräsentierten Immunsystems auf verschiedene Be­din­gun­gen, insbesondere mit dem Schwerpunkt auf die Infektion mit Candida albicans. Dabei steht u.a. der Pathway des Typ 1 Interferons im Mit­tel­punkt. In der Studie sind Replikate von nicht-infiziertem Blut (30+35) sowie Infektionen bzw. Stimulation mit Borrelien (31+36), Candida (24+34), LPS (26+24) und Tuberkulose (23+36) zu 4h und 24h enthalten. Es werden im Folgenden nicht die Ergebnisse der genannten Publikation dupliziert (insbesondere nicht der Vergleich zwischen gesunden und kranken Spen­dern), sondern eine Auswahl an eigenen Analyseergebnissen gezeigt.

Methoden und Ergebnisse


Im folgenden werden die einzelnen Ana­ly­se­schrit­te vorgestellt. Sie umfassen die mess­me­tho­den-spe­zi­fi­sche Da­ten­vor­ver­ar­bei­tung, statistische Tests für die differentielle Veränderungen von Tran­skrip­ten und ein "Enrichment", also die Be­stim­mung von signifikant auftretenden Kategorien. Auf die Vorstellung einer Netzwerkinferenz, siehe [2, 3], sowie weiterer (z. B. in der Original-Publikation gezeigter) Ergebnisse wird an dieser Stelle verzichtet.

Datenvorverarbeitung

In diesem ersten Schritt werden mess­me­tho­den-spe­zi­fi­sche Vor­ver­ar­bei­tungs­schrit­te durch­ge­führt. Sie hängen von der Art des Ex­pe­ri­ments, der Mess­platt­form (für Microarrys z. B. Affymetrix oder Illumina) und den damit verbundenen Daten- bzw. Fehlermodellen ab. Im vorliegenden Bei­spiel wird unter der Annahme, dass die Proben, also das Transkriptom der einzelnen Illumina Microarrays, eine ähnliche Verteilung (der Quantile) besitzen müssen, die entsprechende Nor­ma­li­sie­rung durchgeführt, siehe [4]. Erst nach diesem Nor­ma­li­sie­rungs­schritt können die signifikant veränderten Komponenten bestimmt werden.

In den folgenden zwei Abbildungen werden die Verteilungen von 10 zufällig ausgewählten Proben vor und nach der Nor­ma­li­sie­rung miteinander verglichen:

comparisonNormalisation

Für eine erste Auswertung der Ähnlichkeit zwischen den Proben bzw. definierten Gruppen können die ersten beiden Haupt­kom­po­nen­ten dieser normalisierten Daten dargestellt werden. Dafür wird hier die Methode "Multi-Dimensional Scaling" eingesetzt, siehe [5]. In den Abbildungen (gefärbt nach Zeitpunkt oder Infektion, mit und ohne Kontrolle) ist erkennbar, wie sich die Daten nach Mess-Zeitpunkt bzw. Infektion trennen lassen (wobei (1) die Trennung nach der Zeit am stärksten ist, (2) die Spender selbst einen großen Einfluss haben und (3) sich Candida am besten von den anderen 3 Bedingungen trennen lässt):

sampleRelation

Statistische Tests
(Differentielle Expression und spezifische Antworten)

Mithilfe statistischer Tests können die Da­ten auf signifikant veränderte Kom­po­nen­ten (im Vergleich zur Kontrolle) untersucht werden. Die Ergebnisse bilden dann die Grundlage sowohl für eine Analyse dieser Komponenten (Namen, Anzahl, In­ten­si­tät) als auch für weiterführende Un­ter­su­chun­gen ("Enrichment" be­zie­hungs­wei­se funktionelle An­no­tie­rung).

Den Ausgangspunkt der statistischen Tests stellen die normalisierten und logarithmierten Daten dar. Mithilfe der einzelnen Replikate und unter bestimmten Mo­dell­an­nah­men (hier: lineares Modell, normalverteilter Fehler) können die verschiedenen Bedingungen miteinander verglichen werden. Im vorliegenden Fall werden die Infektions-Bedingungen zu ihren entsprechenden Kontrollen der jeweiligen Zeit­punk­te (4h und 24h) verglichen (da auch die Kontrolle sich mit der Zeit verändert, wie in den oben gezeigten Haupt­kom­po­nen­ten sichtbar ist)

Als Testmethode wird hier "TREAT" angewendet, siehe [6]. Es werden Schwellwerte für Foldchange (hier: 1.1) und adjustierten p-Wert (hier: 0.05, siehe [7]) benutzt. Diese Methode ist als eine Variante in dem R-Paket für lineare Modelle "limma" enthalten, siehe [8]. Als Ergebnisse sollen hier Heatmaps, Mengendarstellungen und Er­geb­nis­ta­bel­len gezeigt werden.

Begonnen wird mit den Zahlenwerten für Gene, welche nach Infektion mit Candida am stärksten differentiell exprimiert sind:

Candida: Diff. Expression
ProbeID EntrezID SymbolID fc padj
ILMN_2218856414062CCL3L348.791.51E-55
ILMN_22072913458IFNG44.711.27E-64
ILMN_17281067124TNF44.451.16E-66
ILMN_1747355414062CCL3L342.471.41E-50
ILMN_16715096348CCL341.251.52E-48
...............
ILMN_21973655997RGS2-3.255.80E-25
ILMN_1774761729230CCR2-3.601.01E-14
ILMN_16638667045TGFBI-3.751.41E-07
ILMN_16866231436CSF1R-3.946.55E-12
ILMN_16873011462VCAN-4.576.01E-11

Nun sollen die Mengen bzw. die Anzahl von Genen bestimmt werden, welche für die verschiedenen Be­din­gun­gen SPEZIFISCH exprimiert sind. Dafür werden im Fol­gen­den zwei unterschiedliche Er­geb­nis­dar­stel­lun­gen vorgestellt. Die erste Dar­stel­lungs­form ist ein herkömmliches Venn-Dia­gramm basierend auf der Aussage, welche Gene im Vergleich zur Kontrolle verändert sind. Die zweite ist eine matrixartige Darstellung, die auch für viele Be­din­gun­gen eine gute Übersicht bietet, basierend auf der Aus­sa­ge, welche Gene auch ZWISCHEN allen Bedingungen differentiell verändert sind.

specificVennlists specificTestrules

Hier ist zum einen erneut erkennbar, dass bei einer Infektion mit Candida im Ver­gleich zu den anderen Bedingungen viele spezifische Gene existieren, aber zum anderen auch sehr viele Gene (510) in allen Bedingungen gemeinsam differentiell exprimiert sind. Auf der Basis der Ergebnisse der zweiten Darstellung, können die Daten auch als Heatmap (hier herunterladen) mit Dendrogrammen zum Erkennen von Gen­grup­pen gemeinsamer Eigenschaften dargestellt werden. Auch hier ist zu sehen, dass im Gegensatz zu den anderen Bedingung viele Gene nur bei Candida hochreguliert sind (prominente Beispiele: CCL8, CXCL10 und TNFSF13B), es aber noch mehr Gene - beispielsweise CCL3L3, TNF, CCL3 oder CCL3L1 - einer gemeinsamen Antwort gibt.

Neben den Abbildungen sind nun auch die eigentlichen Zahlenwerte interessant. Da­für werden im Folgenden die allgemeine und Candida-spezifische Antwort der 10 am stärksten (bezogen auf Candida, hoch- und runterexprimiert) differentiell exprimierten Gene gezeigt:

Allgemeine Antwort
ProbeID EntrezID SymbolID fc_Borrelia_4h fc_Candida_4h fc_LPS_4h fc_Mtb_4h padj_Borrelia_4h padj_Candida_4h padj_LPS_4h padj_Mtb_4h
ILMN_2218856414062CCL3L318.9148.7936.0715.651.57E-401.51E-555.80E-514.28E-32
ILMN_17281067124TNF6.1544.456.514.262.87E-241.16E-665.38E-249.02E-14
ILMN_1747355414062CCL3L320.7542.4735.9418.072.30E-401.41E-501.86E-486.09E-33
ILMN_16715096348CCL323.1441.2537.3420.404.71E-411.52E-481.01E-475.97E-34
ILMN_17732456349CCL3L112.0540.4528.1310.957.12E-242.57E-413.59E-363.09E-19
.................................
ILMN_1769895729230CCR2-2.90-3.25-3.05-2.481.85E-125.11E-147.84E-131.33E-07
ILMN_21973655997RGS2-2.32-3.25-2.77-2.362.10E-145.80E-251.29E-199.48E-13
ILMN_1774761729230CCR2-3.06-3.60-3.27-2.552.67E-121.01E-146.68E-133.20E-07
ILMN_16638667045TGFBI-4.77-3.75-7.67-3.132.34E-111.41E-071.57E-175.14E-05
ILMN_16866231436CSF1R-4.67-3.94-7.38-3.133.12E-166.55E-123.65E-241.54E-07
Candida-spezifische Antwort
ProbeID EntrezID SymbolID fc_Borrelia_4h fc_Candida_4h fc_LPS_4h fc_Mtb_4h padj_Borrelia_4h padj_Candida_4h padj_LPS_4h padj_Mtb_4h
ILMN_17729646355CCL81.9827.481.621.764.52E-013.85E-231.00E+001.00E+00
ILMN_17917593627CXCL10-1.1114.24-1.25-1.181.00E+002.31E-191.00E+001.00E+00
ILMN_18013078743TNFSF101.015.641.33-1.401.00E+001.01E-337.92E-017.82E-01
ILMN_21487852633GBP11.365.061.721.201.00E+001.56E-131.76E-011.00E+00
ILMN_17011142633GBP11.314.281.531.011.00E+006.70E-125.94E-011.00E+00
.................................
ILMN_172823655106SLFN12-1.061.20-1.04-1.051.00E+004.92E-021.00E+001.00E+00
ILMN_1684634NARP3-365I19.1-001-1.061.20-1.02-1.021.00E+009.40E-031.00E+001.00E+00
ILMN_208899080231CXorf21-1.021.19-1.00-1.031.00E+008.59E-031.00E+001.00E+00
ILMN_171203511070TMEM1151.01-1.261.011.051.00E+004.91E-031.00E+001.00E+00
ILMN_16992537417VDAC21.01-1.27-1.021.011.00E+006.10E-041.00E+001.00E+00

Enrichment-Analyse
(Funktionelle Annotierung)

Schließlich sollen Gruppen von Genen dahingehend untersucht werden, inwieweit in ihnen Gene mit bestimmten Funk­tio­na­li­tä­ten überrepräsentiert sind. Damit kann bestehend auf dem umfangreichen und aktuellen Wissen für eine möglicherweise unbekannte Bedingung die Antwort auf funktionaler Ebene bestimmt werden. Dafür bietet sich die sogenannte Enrichment-Analyse an, siehe [9], welche in mindestens zwei Teilklassen bezüglich der "Testziele" unterschieden werden kann: (1) Verteilung und (2) Auftrittshäufigkeiten. Bei letzteren und im Folgenden werden verschiedene Testmethoden (χ²-Test, Hy­per­geo­me­tri­scher Test, exakter Fisher-Test) auf Vier­fel­der­ta­feln (Kon­fu­sions­ma­trit­zen) angewendet.

Die Grundlage des Enrichments bilden immer Datenbanken mit Annotierungen und somit der Bildung von Gruppen bzw. Kategorien. Die am häufigsten untersuchten Kategorien entstammen der "Gene Ontology"-Annotierung und der "KEGG-Pathways". Hier ist zu beachten, dass erstere die Form eines gerichteten azyklischen Graphen besitzt, bei dem Terme in untergeordneten Kategorien auch zu übergeordneten gehören (aber nicht anders herum). Daher ist es notwendig, diese Abhängigkeit mitzuberücksichtigen, wie es beispielsweise in [10] beschrieben wurde.

Die folgenden Abbildungen zeigen auf der Basis von Listen der differentiell veränderten Gene nach Candida-Infektion und der allgemein veränderten Gene einer Auswahl der wichtigsten Kategorien aus der Gene Ontology und von KEGG (für letztere wurde hier die Plattform FungiFun2 benutzt, siehe [11]):

enrichmentPlots

Die GO-Annotierungen bezüglich der zellulären Komponenten und der molekularen Funktionen bestätigen vor allem die Erwartungen. Als wichtigstes Ergebnis bei den biologischen Prozessen nach Candida-Infektion ist - wie auch in der ursprünglichen Publikation gezeigt - die Kategorie bezüglich Typ I Interferon hervorzuheben. Der Vergleich der KEGG-Pathways zeigt sehr schön die unterschiedlich aktiven Signalpfade für die allgemeine Antwort und nach Candida-Infektion. Weitere Interpretationen dieser Ergebnisse müssten dann gemeinsam mit Experten der Biologie und Medizin erfolgen.

(Auf Anfrage sind die vollständigen Ergebnisse bei BioControl verfügbar)

Referenzen


  1. [1] S. P. Smeekens, A. Ng, V. Kumar, M. D. Johnson, T. S. Plantinga, C. van Diemen, P. Arts, E. T. P. Verwiel, M. S. Gresnigt, K. Fransen, S. van Sommeren, M. Oosting, S.-C. Cheng, L. A. B. Joosten, A. Hoischen, B.-J. Kullberg, W. K. Scott, J. R. Perfect, J. W. M. van der Meer, C. Wijmenga, M. G. Netea and R. J. Xavier: Functional genomics identifies type I interferon pathway as central for host defense against Candida albicans. In: Nat Commun, 4:1342, 2013. doi: 10.1038/ncomms2343
  2. [2] J. Linde, S. Schulze, S. G. Henkel and R. Guthke: Data- and knowledge-based modeling of gene regulatory networks: an update. In: EXCLI Journal, 14:346–378, 2015.
    doi: 10.17179/excli2015-168
  3. [3] M. Weber, S. G. Henkel, S. Vlaic, R. Guthke, E. J. van Zoelen and D. Driesch, Inference of dynamical gene-regulatory networks based on time-resolved multi-stimuli multi-experiment data applying NetGenerator V2.0. In: BMC Syst Biol, 7:1, 2013.
    doi: 10.1186/1752-0509-7-1
  4. [4] B. M. Bolstad, R. A. Irizarry, M. Astrand and T. P. Speed: A comparison of normalization methods for high density oligonucleotide array data based on variance and bias. In: Bioinformatics, 19(2):185–193, 2003. doi: 10.1093/bioinformatics/19.2.185
  5. [5] W. S. Togerson: Theory and methods of scaling. New York: J. Wiley, 1958. ISBN: 978-0471879459
  6. [6] D. J. McCarthy and G. K. Smyth: Testing significance relative to a fold-change threshold is a TREAT. In: Bioinformatics, 25(6):765–771, 2009. doi: 10.1093/bioinformatics/btp053
  7. [7] Y. Benjamini and Y. Hochberg: Controlling the False Discovery Rate: a practical and powerful approach to multiple testing. In: Journal of the Royal Statistical Society, Series B, 57(1):289–300, 1995.
  8. [8] M. E. Ritchie, B. Phipson, D. Wu, Y. Hu, C. W. Law, W. Shi and G. K. Smyth: limma powers differential expression analyses for RNA-sequencing and microarray studies. In: Nucleic Acids Research, 43(7):e47, 2015. doi: 10.1093/nar/gkv007
  9. [9] D. W. Huang, B. T. Sherman and R. A. Lempicki: Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. In: Nucleic Acids Research, 37(1):1–13, 2009. doi: 10.1093/nar/gkn923
  10. [10] S. Falcon and R. Gentleman: Using GOstats to test gene lists for GO term association. In: Bioinformatics, 23(2):257–258, 2007. doi: 10.1093/bioinformatics/btl567
  11. [11] S. Priebe, C. Kreisel, F. Horn, R. Guthke and J. Linde: FungiFun2: a comprehensive online resource for systematic analysis of gene lists from fungal species. In: Bioinformatics, 31(3):445–446, 2015. doi: 10.1093/bioinformatics/btu627