Real Time Response — alte Technologie, die nach wie vor begeistert

von Dirk Martens · 17. April 2018

„Real Time Response Measurement“ (RTR) ist ein apparatives Forschungsverfahren, dessen Ursprünge bis in die 1930er Jahre zurückreichen. Trotz des Alters ist es alles andere als überholt. Mit dieser Methode lassen sich Medieninhalte sekundengenau und zeitgleich zur Rezeption durch Probanden in Fokusgruppen oder größeren Hall-Tests evaluieren.

Paul Felix Lazarsfeld ist vielen Lesern durch seine soziographische Studie „Die Arbeitslosen von Marienthal“ (1933) bekannt, in der er die soziologischen Veränderungen nach der Schließung einer Fabrik in einem kleinen österreichischen Ort untersuchte, in der die meisten Bewohner vormals in eben dieser Fabrik arbeiteten und von einem Tag auf den anderen alle arbeitslos wurden.

Mindestens ebenso berühmt ist seine für die Kommunikationsforschung bahnbrechende Studie „The people’s choice“, in der Wähler eines Countys von Ohio zur bevorstehenden Präsidentschaftswahl 1940 befragt wurden und mit der die Entstehung persönlicher Wahlentscheidungen untersucht wurde. Er begründete damit das Kommunikationsmodell des „two step flow“, nach der die Medien zunächst „opinion leader“ erreichen, die dann die ursprüngliche Information gefiltert und gewichtet an ihre „peer group“ weitergeben. Auch wenn das Modell insgesamt durch die Wirkungskraft des damals erst aufkommenden Massenmediums Fernsehens an Bedeutung verloren hat, so spielt der Begriff „Meinungsführer“ in der empirischen Forschung nach wie vor eine große Rolle.

Etwas weniger bekannt ist, dass der Österreicher Lazarsfeld ursprünglich Mathematik studierte und dieses Fach in den 20er Jahren als Gymnasiallehrer in Wien unterrichtete, bevor er Anfang der 30er am Psychologischen Institut an der Universität Wien lehrte. Diese Disziplinen waren dann wohl auch maßgeblich für seine technischen Entwicklungen, die er nach seiner Emigration in die USA 1933 vorantrieb. Als Direktor des „Office of Radio Research“ an der Princeton University entwickelte er mit Frank Stanton, dem späteren Präsidenten von CBS, den „Stanton-Lazarsfeld Program Analyzer“. Mithilfe einer Apparatur konnten Probanden, während sie ein „Radio Drama“ (frühe Form der Soap Opera) hörten, mitteilen, wie sehr sie das Gehörte mögen. In jedem Moment konnte durch Drücken eines grünen Knopfes eine positive, oder eines roten Knopfes eine negative Bewertung abgeben werden. Jeder Proband erhielt dazu ein entsprechendes Handgerät, das dann elektrische Impulse abgab, die der Program Analyzer, von den Erfindern liebevoll „Little Annie“ genannt, auf einer Art Rollenplotter als lange Linie zeichnete. Vergleichbar mit einer EKG-Grafik ließ sich darauf der Grad der Likes bzw. Dislikes auf der Zeitachse darstellen, sodass man im Nachhinein jede Szene des Dramas genau analysieren konnte.

Dieses „Real Time Response“-Verfahren (das manche auch „Continous Response“-Verfahren nennen) erlangte dann in den USA immer mehr Bedeutung. Wurden anfangs vor allem Radiosendungen untersucht, standen später zunehmend auch Fernsehsendungen im Fokus. Die Handgeräte zur Bewertungsabgabe wurden weiterentwickelt und erhielten einen Drehknauf, mit dem jetzt nicht mehr nur dichotome Antworten wie „yes/no“ etc. erfasst werden konnten. Mit dem fortan als „Dial“ bezeichneten Handset konnte nun auch eine Verhältnisskala von 0 bis 100 für eine quasi stufenlose Abfrage verwendet werden, wodurch eine feingliedrige Abstufung der Bewertung für die Messung im Zeitverlauf möglich wurde. Mit der Einführung von drahtlosen Dials, die ihre Messwerte kontinuierlich per Funk an die im Raum befindliche Basis schickten, nahm vor allem die Usability für die Probanden zu, die sich nun freier und entspannter platzieren konnten. Auch wurde der Testaufbau viel einfacher und schneller, da das Verkabeln der Geräte und das Verkleben der stolpergefährlichen Kabel entfielen.

Eingabegerät eines RTR-Systems („Dial“)

Ein spannendes Feld wurden zum Beispiel die „Presidential Debates“, bei denen sich die Anwärter ums Weiße Haus vor der Kamera ein Wortgefecht liefern. Egal ob Ronald Reagan, Bill Clinton, Barack Obama und viele andere: Sie und ihre Gegenspieler mussten sich alle der harten Jury von Forscher-Teams stellen, die zeitgleich mit Teilnehmern größerer Fokusgruppen vor dem Fernseher saßen und Moment für Moment, Wort für Wort und Argument für Argument genau evaluierten. Bewertet wird aber nicht nur das explizit Gesagte. Auch die non-verbale Kommunikation, die Gestik und Mimik, spielt dabei in die Bewertung der Probanden hinein. Diese fehlende Trennung zwischen kognitiven und affektiven Einflüssen auf die Bewertung ist dabei aber nicht unbedingt ein Nachteil. Ganz nach dem amerikanischen Prinzip des „keep it simple“ wird nämlich genau das vermengt, was auch bei der Wahlentscheidung den Ausschlag gibt: eine Mischung aus Kopf und Bauchgefühl, aus Kenntnis konkreter Wahlaussagen und Sympathie oder Antipathie gegenüber den Kandidaten.


RTR-Messung des TV-Rededuells 2002

Den TV-Debatten wird auch deshalb eine große Rolle für den Wahlausgang zugeschrieben, weil sich unentschlossene Wähler oft erst vor der Wahlurne für eine Partei entscheiden, wo dann für eine Abwägung von Sachargumenten keine Zeit mehr bleibt. Viele entscheiden sich dann für die Partei, von der sie glauben, dass sie die Wahl gewinnen wird, da sie eher zur Gewinnerseite zählen möchten. Dieser „band wagon effect“ war übrigens auch ein Ergebnis von Lazarsfelds „The People’s Choice“-Studie.

Wie die Erfahrungen des Autors zeigen, lassen sich ganz unterschiedliche Untersuchungsobjekte mit dem RTR-Verfahren sehr gut in Fokusgruppen oder in größeren Auditorien analysieren. Prinzipiell bieten sich alle audiovisuellen und auditiven Medien dazu an, also zum Beispiel jegliche Art von Fernsehformat, Werbespots, Programmstrecken oder ganze Musikkataloge von Radiosendern bis zu Langfilmen im Kino. Auch Live-Veranstaltungen wie Musicals oder Parteitage können untersucht werden, da die drahtlosen Geräte mit Funkübertragung keine speziellen Testräumlichkeiten erfordern.


Bewertungsverlauf eines Arthouse-Films durch Personen mit hoher (rot) und niedrigerer Format-Affinität (grün)

Reizvoll an der Technik ist dabei nicht nur, die Likes/Dislikes jeder Sekunde eines Medieninhalts betrachten zu können, sondern auch, die auf- und absteigende Bewertungskurve zeitgleich zu sehen, also während der Rezeption des Medieninhalts durch die Probanden. In der Fokusgruppe hört man zum Beispiel das Gelächter oder sieht die ernsten Gesichter während die Probanden ihre Dials in Negativstellung bringen, was der Interpretation hilft.

Im August 2002 fanden in Deutschland zum ersten Mal Rededuelle zwischen Kanzlerkandidaten im deutschen Fernsehen statt. Nachdem Helmut Kohl dies immer abgelehnt hatte, wagte sich Gerhard Schröder als erster in den Ring der TV-Journalisten. Während sich Schröder parallel auf Sat.1 und RTL mit seinem Herausforderer Edmund Stoiber verbal duellierte, sahen zeitgleich 100 nach Parteienproporz und soziodemographischen Merkmalen ausgesuchte Probanden die Live-Übertragung in einem Berliner Hotelsaal auf einer Großleinwand und bewerteten währenddessen das Geschehen mit ihrem Dial. Die Bewertungskurve verriet sekundengenau, bei welchen Argumenten Schröder vorne lag, und wo Stoiber punkten konnte. Der Aufriss nach Parteianhängerschaften kann interessante Dissonanzen aufzeigen, wenn etwa die Zustimmung des gegnerischen Lagers größer ist als des eigenen.

Auch wenn diese Messung den späteren Wahlsieg von Schröder sehr klar abbildete, ist es natürlich kein Prognoseinstrument. Aufgrund der in der Regel auf wenige hundert Teilnehmer begrenzten Fallzahl, aber auch wegen des Fehlens eines repräsentativen Stichprobenansatzes, handelt es sich um ein qualitatives Forschungsverfahren, dessen Ergebnisse sich nicht hochrechnen lassen. Vielmehr liegt der Nutzen des Verfahrens in der qualitativen Analyse der Medienwirkung. Wie werden in obigem Beispiel etwa politische Botschaften inhaltlich, sachlich bewertet? Inwieweit kann die Art der Präsentation durch den Redner, dessen Rhetorik, Gestik und Mimik, dessen Glaubwürdigkeit und zugesprochene Themenkompetenz überzeugen? Den Einfluss dieser Faktoren auf ihre Medienwirkung wohl wissend, sollen sich in den USA auch schon einige Präsidentschaftskandidaten auf die TV-Debatten mithilfe von RTR vorbereitet haben lassen.

Ganz ähnlich wie mit Politikerdebatten verhält es sich mit Werbespots, die ebenso auf ihre Kommunikationsleistung per RTR untersucht werden können. Hier werden alternative Motive gegeneinander getestet oder auch Storyboards untersucht, bevor sie teuer produziert werden. Teilweise bietet sich auch eine Kombination von RTR mit physiologischen Verfahren an, um der unbewussten (Werbe-) Wirkung näher zu kommen. Nach meiner Meinung empfiehlt sich dies jedoch nicht grundsätzlich, sondern eher bei Grundlagenstudien, die hohen Aufwand für kleine Stichproben rechtfertigen. Auch die affektiven Komponenten können mit RTR nämlich recht gut erfasst werden, wenn die Methode richtig operationalisiert wird.

Gerade Unkenntnis von der richtigen Operationalisierung führt jedoch bisweilen zu einer Methodenskepsis, die oft nicht gerechtfertigt ist. So ist es etwa sehr entscheidend, wie die Endpunkte der Skala bei der RTR-Messung benannt werden. Eine Skala von „mag ich sehr“ bis „mag ich überhaupt nicht“ macht zum Beispiel bei der Evaluierung eines Dramas überhaupt keinen Sinn. Eine gewalthaltige Szene kann für die Erzählung und auch für die Zuschauer sehr wichtig sein. Doch würde kaum ein normaler Mensch hierbei mit „mag ich“ antworten. Dieses Problem hat bekanntlich ja auch Facebook mit dem Daumen, der immer nach oben zeigt und mal für Zustimmung und mal für das Gegenteil benutzt werden soll. Hier benötigt man dann eher eine Skala für das Involvement der Zuschauer, das den verschiedenen Bedürfnissen und Erwartungen an die Filmnutzung wie Unterhaltung, Spaß, Spannung unter anderem viel besser Rechnung trägt.

Skepsis gibt es teilweise auch bezüglich der Länge des zu untersuchenden Formates, je länger der Test, desto eher würden die Probanden apathisch erstarren und das Evaluieren vergessen. Wenn die Probanden in einem Warm-up richtig instruiert werden, dann lernen sie jedoch schnell, den Dial sehr intuitiv und fast unbewusst zu bedienen, ohne dass es zu nennenswerten Ermüdungserscheinungen kommt. Zeigen lässt sich das sowohl mit einer Betrachtung der hoch bleibenden Volatilität der individuellen Bewertungskurven, als auch mit einer hohen Test-Retest-Reliabilität zwischen der Bewertung eines Inhalts am Testanfang und nochmals derselben am Testende.

Wie die RTR-Kurve eines Langfilms aus dem Arthouse-Bereich zeigt, lässt sich die RTR-Kurve nicht nur live beobachten, sondern auch ex-post für beliebige Subgruppen drucken wobei dann auch die interessierenden Szenen oder markante Wendungen im Handlungsablauf gut darstellen und interpretieren lassen.

Trotz der Informationstiefe, die ein gut geplanter RTR bieten kann, sollte er zumindest bei AV-Medien in anschließende Fokusgruppen eingebunden werden, um auch die Dimensionen beurteilen lassen zu können, die erst nach dem Film möglich sind.

Dieser Artikel ist im Dezember 2015 als Dossier auf marktforschung.de erschienen.

← Alle Blogeinträge