Versuchsplanung/
optimales Design von Experimenten

(Stand: September 2021)

Anwendungsbeispiel


Folgendes Anwendungsbeispiel illustriert den Nutzen der Versuchsplanung als Teil der Fallzahlplanung und damit Vorbereitung einer Datenanalyse: der Hersteller einer Salbe möchte in einer Studie herausfinden, welchen Einfluss sein Präparat unter Berücksichtigung weiterer Faktoren auf die Reduzierung von Altersflecken hat. Zum einen soll die Studie statistisch belastbare Ergebnisse liefern, zum anderen sollen nur soviele Probanden wie nötig daran teilnehmen.

Es wird vermutet, dass neben der Salbe auch das Alter, das Geschlecht, der Hauttyp sowie Nahrungsergänzungsmittel beeinflussende Faktoren darstellen. Der Erfolg ist definiert durch eine gewünschte Angleichung des Farbtons der Haut innerhalb eines vorher festgelegten Zeitraums der Behandlung. Die Aufgabe lautet, diese Studie mit einer adäquaten Anzahl von Probanden in verschiedenen Kombinationen der Faktoren und entsprechenden Gruppengrößen zu planen.

Im Folgenden wird kurz der methodische Hintergrund für die Lösung dieser rein datenbasierten Aufgabe vorgestellt und nachfolgend für das Anwendungsbeispiel genutzt.

Methodischer Hintergrund


In vielen Bereichen von Forschung, Entwicklung und Betrieb (Produktion und Verwaltung) fehlt nicht nur bei einer Innovation ausreichendes Wissen über das Verhalten eines Systems. Es existiert auch der stetige Wunsch nach Optimierung von Produkten und Prozessen. In diesen Fällen besteht eine Möglichkeit darin, Experimente bzw. Versuche durchzuführen, um Messdaten für eine Datenanalyse zu gewinnen und damit diese Systeme zu beschreiben.

Die statistische Versuchsplanung (engl.: (statistical) design of experiments/DoE) umfasst eine Vielzahl von Verfahren, damit solche Experimente auf methodische Weise zur Analyse bestimmter Zusammenhänge oder zur Optimierung geplant werden können, [1,2,3,4]. Das bedeutet auch, dass die Versuchsplanung durch Annahmen an das System und damit durch die anschließende Datenanalyse der Experimente beeinflusst wird. Gleichzeitig besteht eine weitere Aufgabe darin, die Versuchsplanung selbst zu optimieren, um aus verschiedenen Gründen die Anzahl von Experimenten zu reduzieren. Grundsätzlich werden innerhalb der Experimente die vermuteten Eingangsvariablen, auch "Faktoren" genannt, auf bestimmte "Stufen" (auch: "Level") gesetzt und die resultierende(n) Ausgangsvariable(n) gemessen.

Die konkret verwendete Methode hängt vom jeweiligen Wissensstand ab und kann außerdem iterativen Charakter besitzen. Je nach verfügbaren Informationen und Zielstellung kann folgende kleine Auswahl von Methodenklassen genannt werden: (1) "Factor Screening" (deu. etwa: Ursache-Wirkungs-Beziehungen) mit den Untermethoden (i) "one factor at a time" (deu. etwa: separate Analyse von Einflussgrößen), (ii) vollständiger Versuchsplan und (iii) Teilfaktorplan und danach (2) komplexere Modelle sowie Optimierung der Zielgrößen (Wechselwirkungen, Blockbildung und Nichtlinearitäten, v.a. "Response-Surface-Methoden") sowie mit (3) die Reduzierung von Streuung (insbesondere bei Methoden nach Taguchi).

Für das oben genannte Anwendungsbeispiel soll eine Versuchsplanung mit unter (1) genannten Methoden durchgeführt werden. "One factor at a time" hat ähnlich wie seine nicht-methodische Alternative "Versuch und Irrtum" den Nachteil von Unausgewogenheit und Ineffektivität (mehr Einzelversuche bei gleichen statistischen Eigenschaften beziehungsweise mehr Replikate bei vermeintlich geringerer Anzahl von Versuchen). Außerdem bleiben damit auch Effekte von Wechselwirkungen (Interaktionen) zwischen Eingängen auf Ausgänge unberücksichtigt.

Die Vollkombinatorik eines vollständigen Versuchsplans, also Kombinationen aller Level aller Faktoren, führt meist zu einer nicht durchführbaren großen Anzahl von Experimenten. Daher soll im fortgesetzten Anwendungsbeispiel der häufig einsetzbare Teilfaktorplan (engl. "fractional factorial design") vorgestellt werden. Dadurch kann die Anzahl notwendiger Experimente stark verringert werden (unter dem Nachteil der Vermengung von Haupteffekten und Wechselwirkungen).

Fortsetzung Anwendungsbeispiel


Für das oben eingeführte Anwendungsbeispiel soll der Faktor "Alter" im Zuge der experimentellen Planung ausgeklammert werden: zum einen ist es in diesem Fall nicht naheliegend, diese kontinuierliche Größe in eine diskrete mit wenigen Leveln umzuformen, und zum anderen kann es unter Umständen vorteilhaft für die Rekrutierung der Studienteilnehmer sein. Bleiben noch 4 weitere Faktoren, für die in diesem Szenario der Kunde folgende zu untersuchende Level vorschlägt: Salbe (ja/nein), Geschlecht (m/w), 6 verschiedene Hauttypen (nach Thomas Fitzpatrick, 1975) sowie Nahrungsergänzungsmittel (keines, Selen, Vitamin E). Die Vollkombinatorik ergibt sich dadurch zu einer Anzahl von Experimenten $N=2\times2\times6\times3=72$ (hier anschauen).

Diese Vorgaben ermöglichen bereits eine Reduzierung auf einen Teilfaktorplan in Form eines orthogonalen Arrays, wie sie in einer guten Übersicht durch Kuhfeld publiziert und im R-Paket DoE.base verfügbar sind, [5, 6, 7]. Die Anzahl notwendiger Experimente verringert sich dadurch von 72 auf 36 (hier anschauen). Es kann hier jedoch noch ein weiterer Effekt dieser Methode genutzt werden, die ihren Ursprung wohl in zahlentheoretischen Eigenschaften hat: eine gewisse Erhöhung der Levelanzahl führt zwar zu einer vergrößerten Vollkombinatorik jedoch zu einer geringeren Anzahl an Experimenten im reduzierten Teilfaktorplan. So kann im vorliegenden Szenario noch ein weiteres Nahrungsergänzungsmittel hinzugenommen werden: Astaxanthin. Diese Vollkombinatorik hätte $N=2\times2\times6\times4=96$ Experimente (hier anschauen). Im reduzierten Teilfaktorplan bzw. dem orthogonalen Array genügen hingegen folgende 24 Versuche:

# treatment sex skintype nutrsuppl
1 FALSE m I 0
2 FALSE m II selenium
3 FALSE m III astaxanthin
4 FALSE m IV 0
5 FALSE m V vitE
6 FALSE m VI vitE
7 FALSE f I astaxanthin
8 FALSE f II 0
9 FALSE f III vitE
10 FALSE f IV selenium
11 FALSE f V astaxanthin
12 FALSE f VI selenium
13 TRUE m I selenium
14 TRUE m II vitE
15 TRUE m III 0
16 TRUE m IV astaxanthin
17 TRUE m V selenium
18 TRUE m VI astaxanthin
19 TRUE f I vitE
20 TRUE f II astaxanthin
21 TRUE f III selenium
22 TRUE f IV vitE
23 TRUE f V 0
24 TRUE f VI 0

Auch mit den Experimenten dieses orthogonalen Arrays werden alle Informationen erhoben: alle Level kommen in der gleichen Anzahl vor, und es existieren alle paarweisen Informationen der Level. Mit diesem Versuchsplan kann die Fallzahlplanung mit Replikaten fortgesetzt und anschließend eine Ereigniszeitanalyse zur Bewertung der Salbe durchgeführt werden.

Referenzen


  1. [1] R. A. Fisher: The Design of Experiments. 9. Auflage. New York: Hafner Press, Macmillan Publishers, 1971. ISBN: 978-0028446905.
  2. [2] D. Rasch, J. Pilz, R. Verdooren, A. Gebhardt: Optimal experimental design with R. Boca Raton: Chapman und Hall, 2011. ISBN: 978-1439816974.
  3. [3] D. Montgomery: Design and Analysis of Experiments. 8. Auflage. Hoboken: John Wiley & Sons, 2013. ISBN: 978-1118146927.
  4. [4] W. Kleppmann: Versuchsplanung. Produkte und Prozesse optimieren. 10. Auflage. München: Carl Hanser Verlag, 2020. ISBN: 978-3446461468.
  5. [5] W. F. Kuhfeld: Orthogonal Array Lists. SAS Institute. url: https://support.sas.com/techsup/technote/ts723.pdf
  6. [6] W. F. Kuhfeld: Orthogonal Arrays. SAS Institute. 2019. url: https://support.sas.com/techsup/technote/ts723b.pdf
  7. [7] U. Grömping: R Package DoE.base for Factorial Designs. In: Journal of Statistical Software, 85(5):1–41, 2018. doi: 10.18637/jss.v085.i05