Der Beitrag wurde größtenteils so als Forumsbeitrag von mir erstellt.
Evidenzbasierte Medizin vs. Komplementärmedizin (Seite 659) (Beitrag von Zotteltier)

Hauptsächlich ging es um medizinische Studien. Teilweise lassen sich die Punkte aber auch auf andere Forschungsfelder übertragen.

Grundsätzlich gilt, dass es keine Daten gibt, die keiner Schwankung unterliegen. Das heißt, bezogen auf medizinische Studien, dass der Erfolg einer Behandlung mal stärker mal schwächer ausfällt. Selbiges gilt auch für das Placebo.

Schlägt die Statistik jetzt bei der Verum-Gruppe zum positiven Ausgang hin aus, und bei der PlaceboGruppe eher negativ, dann bekommt man zwangsläufig ein signifikant positives Ergebnis für die getestete Therapie, selbst wenn das Verum völlig unwirksam ist.

Der p-Wert sagt jetzt aus, wie wahrscheinlich ein solches Ereignis ist. Ein p=0,05 heißt dann gerade, dass eine 5%ige Wahrscheinlichkeit besteht, dass das Ergebnis zufällig zustande gekommen ist.
Wenn wir jetzt eine pharmakologisch unwirksame Therapie studieren, und viele qualitativ hochwertige Studien dazu machen, dann werden im Schnitt 5% davon einen signifikant positiven Effekt zeigen. 1% sogar hochsignifikant.

Also selbst wenn wir einen perfekten Forschungsbetrieb unterstellen sind 5% der Studien zu einer unwirksamen Therapie signifikant positiv.

Der Forschungsbetrieb läuft aber leider nicht perfekt. Es gibt verschiedene systematische Fehler* die das Ergebnis noch positiv beeinflussen können.

Eine Auswahl (nicht vollständig)

Unsauberes Studiendesign:
Schlechte Randomisierungsmethoden können signifikante Ergenisse hervorrufen. Ein Beispiel ist die Abwechslungsmethode. Probanden werden, in der Reihenfolge in der sie in die Studie aufgenommen werden, abwechselnd in Verum oder Placebogruppe eingeteilt. Hier kann der Studienleiter Einfluß nehmen. Wenn die Verumgruppe dran ist, kann er Patienten mit schlechter Prognose ausschließen, bzw bei Placebo dann jene mit guter Prognose. So wird allein durch die Auswahl ein signifikantes Ergebnis erzeugt, auch wenn die Therapiemethode unwirksam ist.

Unsaubere Verblindung kann zu signifikanten Ergebnissen führen. Es gibt zum Beispiel Schmerz-Skalen anhand derer ein Proband seine Schmerzen einordnen soll. Schwankt der Proband zwischen zwei Werten, neigt man unbewusst dazu sich für den höheren oder niedrigeren zu entscheiden, je nachdem in welcher Gruppe er ist. Goldstandard ist inzwischen sogar dreifache Verblindung, d.h. weder Proband und Therapeut, noch der Auswertende wissen, wer in welche Gruppe gehört. Bei der Auswertung kann man nämlich auch noch mit den statistischen Methoden spielen, bis was signifikantes herauskommt.

Das führt uns zum nächsten Punkt. Wendet man die falsche statistische Methode an, so kann man eigentlich unsignifikante Ergebnisse schönrechnen, so dass sie signifikant werden. Das ist vermutlich der am schwierigsten zu erkennende Punkt, da man dafür teilweise hochversierte Statistiker benötigt.

Fishing for significance:
Wird in der Studie kein spezifischer Messpunkt angenommen, sondern mehrere verschiedene Parameter untersucht, so hat man innerhalb einer Studie quasi gleich mehrfach die Chance allein per Zufall ein signifikantes Ergebnis zu erhalten. Untersucht man 10 Parameter hat man immerhin schon eine 40%ige Chance, dass einer der Parameter rein zufällig statistisch signifikant abweicht. Das lässt sich aber statistisch herausrechnen, wenn man darauf achtet.

Publikationsfehler:
Unerwünschte Ergebnisse neigen dazu, nicht publiziert zu werden. Erwünschte Ergebnisse werden auf jeden Fall publiziert. Erwünscht kann hier ein Therapieerfolg sein, wenn man von einer Methode überzeugt ist, oder man Millionen in die Erforschung eines Medikaments gesteckt hat. Diesen Effekt kann man in Reviews nachweisen.

Dieser Fehler verstärkt die oben genannten zusätzlich.

Es gibt also eine Menge Möglichkeiten, wie signifikante Ergenisse zustandekommen, ohne dass die untersuchte Massnahme tatsächlich wirksam ist.

Es gibt sogar Schätzungen, die für bestimmte Forschungsfelder eine falsch positiv Rate von bis zu 50% erwarten.
http://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.0020124

*Fehler ist hier wertungsfrei. Weder wird hier Absicht unterstellt, noch ist das etwas was man einer Person negativ anlasten könnte. Diese Dinge passieren jedem, wenn keine besonderen Maßnahmen ergriffen werden, diese zu umgehen.