50
105 5. Das Partial-Least-Squares-Verfahren zur quantitativen Analyse von Strukturgleichungsmodellen 5.1. Entstehungsgeschichte des Partial-Least-Squares-Ansatzes In den 50er und 60er Jahren des vergangenen Jahrhunderts beschäftigt sich der schwedi- sche Statistiker und Ökonometriker Herman Ole Andreas Wold mit Fragestellungen zur kau- salen Interpretierbarkeit simultaner Gleichungssysteme (Whittle, 1992; Wold, 1960). Da die damals häufig verwendeten Maximum-Likelihood-Schätzer sehr empfindlich bei Messfehlern reagieren, verwendet er einen robusten Algorithmus, die Methode der alternierenden kleins- ten Quadrate aus der Hauptkomponenten- und kanonischen Korrelationsanalyse (Scholderer und Balderjahn, 2006, S. 57 f.), und legt so in zwei Beiträgen aus dem Jahr 1966 (Wold, 1966a; Wold, 1966b) die Basis für das PLS-Verfahren. Dort wird der von ihm entwickelte sog. NILES (Nonlinear Iterative Least Squares)-Algorithmus, angelehnt an die Methode der alternierenden kleinsten Quadrate, vorgestellt. Inspiriert von der Parallelentwicklung der Ko- varianzstrukturanalyse durch Jöreskog, Wolds akademischen Schüler, findet in Wolds Veröf- fentlichung 1973 neben algorithmischen Erweiterungen durch Einbeziehung weiterer Überle- gungen zur kanonischen Korrelationsanalyse auch eine namentliche Weiterentwicklung zu NIPALS (Nonlinear-Iterative-Partial-Least-Squares) statt (Wold, 1973). Die Entwicklung des vollständigen Basis-PLS-Algorithmus wird 1977 abgeschlossen (Wold, 1982b), publiziert in einem Arbeitspapier der Universität Genf im Jahr 1979 (Wold, 1979). Wold erreicht damit sei- ne Ziele „… [to] take an intermediate position between data analysis and traditional modelling based on ‘hard’ assumptions” (Wold, 1982a, S. 200) und „… [to] give [models] a closer fit to the given observations, as is reflected in successful application to real-world data.” (Wold, 1973, S. 384). Nichtsdestotrotz findet die Diffusion von PLS in die (empirische) Wissenschaft in weit gerin- gerem Maße als die der Kovarianzstrukturanalyse statt (Fassott, 2005). Grund dafür ist zum einen der frühe Tod von Wolds Doktoranden Jan-Bernd Lohmöller, der inklusive methodi- scher Weiterentwicklung ein erstes Computerprogramm (LVPLS 1.8) entwickelt (Lohmöller, 1989). Zum anderen findet anders als im Bereich der Kovarianzstrukturanalyse zunächst keine wesentliche Weiterentwicklung dieses Programms statt. Erst seit Beginn dieses Jahr- tausends stehen ausgereifte und leistungsfähige PLS-Programme wie SmartPLS, PLS Graph, SPAD-PLS und PLS-GUI zur Verfügung (Temme und Kreis, 2005). Über diese Grün- de hinaus steht die Dominanz der Verwendung reflektiver Messmodelle in der Forschung ei- ner zügigen Diffusion von PLS im Wege. 83 Damit entfällt ein wesentlicher Vorteil der Ver- wendung von PLS, nämlich die unkomplizierte Verwendung formativer Messmodelle (vgl. Abschnitt 2.2.2.). Da ferner PLS in den ersten Veröffentlichungen als weniger geeignet für Theorietests bezeichnet wird (Jöreskog und Wold, 1982, S. 270), erscheint PLS für viele wissenschaftliche Fragestellungen nicht als das Verfahren erster Wahl. Erst seit einigen Jah- 83 Die Dominanz reflektiver Messmodelle kann für den Untersuchungskontext der vorliegenden Arbeit bestätigt werden (vgl. Abschnitt 4.3.3.).

5. Das Partial-Least-Squares-Verfahren zur … · 105 5. Das Partial-Least-Squares-Verfahren zur quantitativen Analyse von Strukturgleichungsmodellen 5.1. Entstehungsgeschichte …

Embed Size (px)

Citation preview

105

5. Das Partial-Least-Squares-Verfahren zur quantitativen Analyse von Strukturgleichungsmodellen

5.1. Entstehungsgeschichte des Partial-Least-Squares-Ansatzes In den 50er und 60er Jahren des vergangenen Jahrhunderts beschäftigt sich der schwedi-sche Statistiker und Ökonometriker Herman Ole Andreas Wold mit Fragestellungen zur kau-salen Interpretierbarkeit simultaner Gleichungssysteme (Whittle, 1992; Wold, 1960). Da die damals häufig verwendeten Maximum-Likelihood-Schätzer sehr empfindlich bei Messfehlern reagieren, verwendet er einen robusten Algorithmus, die Methode der alternierenden kleins-ten Quadrate aus der Hauptkomponenten- und kanonischen Korrelationsanalyse (Scholderer und Balderjahn, 2006, S. 57 f.), und legt so in zwei Beiträgen aus dem Jahr 1966 (Wold, 1966a; Wold, 1966b) die Basis für das PLS-Verfahren. Dort wird der von ihm entwickelte sog. NILES (Nonlinear Iterative Least Squares)-Algorithmus, angelehnt an die Methode der alternierenden kleinsten Quadrate, vorgestellt. Inspiriert von der Parallelentwicklung der Ko-varianzstrukturanalyse durch Jöreskog, Wolds akademischen Schüler, findet in Wolds Veröf-fentlichung 1973 neben algorithmischen Erweiterungen durch Einbeziehung weiterer Überle-gungen zur kanonischen Korrelationsanalyse auch eine namentliche Weiterentwicklung zu NIPALS (Nonlinear-Iterative-Partial-Least-Squares) statt (Wold, 1973). Die Entwicklung des vollständigen Basis-PLS-Algorithmus wird 1977 abgeschlossen (Wold, 1982b), publiziert in einem Arbeitspapier der Universität Genf im Jahr 1979 (Wold, 1979). Wold erreicht damit sei-ne Ziele „… [to] take an intermediate position between data analysis and traditional modelling based on ‘hard’ assumptions” (Wold, 1982a, S. 200) und „… [to] give [models] a closer fit to the given observations, as is reflected in successful application to real-world data.” (Wold, 1973, S. 384). Nichtsdestotrotz findet die Diffusion von PLS in die (empirische) Wissenschaft in weit gerin-gerem Maße als die der Kovarianzstrukturanalyse statt (Fassott, 2005). Grund dafür ist zum einen der frühe Tod von Wolds Doktoranden Jan-Bernd Lohmöller, der inklusive methodi-scher Weiterentwicklung ein erstes Computerprogramm (LVPLS 1.8) entwickelt (Lohmöller, 1989). Zum anderen findet anders als im Bereich der Kovarianzstrukturanalyse zunächst keine wesentliche Weiterentwicklung dieses Programms statt. Erst seit Beginn dieses Jahr-tausends stehen ausgereifte und leistungsfähige PLS-Programme wie SmartPLS, PLS Graph, SPAD-PLS und PLS-GUI zur Verfügung (Temme und Kreis, 2005). Über diese Grün-de hinaus steht die Dominanz der Verwendung reflektiver Messmodelle in der Forschung ei-ner zügigen Diffusion von PLS im Wege.83 Damit entfällt ein wesentlicher Vorteil der Ver-wendung von PLS, nämlich die unkomplizierte Verwendung formativer Messmodelle (vgl. Abschnitt 2.2.2.). Da ferner PLS in den ersten Veröffentlichungen als weniger geeignet für Theorietests bezeichnet wird (Jöreskog und Wold, 1982, S. 270), erscheint PLS für viele wissenschaftliche Fragestellungen nicht als das Verfahren erster Wahl. Erst seit einigen Jah-

83 Die Dominanz reflektiver Messmodelle kann für den Untersuchungskontext der vorliegenden Arbeit bestätigt werden (vgl. Abschnitt 4.3.3.).

106

ren erfährt PLS eine Renaissance, auch begünstigt durch bessere Softwareverfügbarkeit (Fassott, 2005; Fassott, 2006). Es mangelt aber derzeit bei der sprachlichen Verwendung von PLS z. T. noch an Trennschär-fe, da auch die sog. PLS-Regression, ein Teil des PLS-Algorithmus, vor allem durch Arbeiten von Wolds Sohn Swante großen Erfolg in der Chemometrie feiert (Martens, 2001; Tenen-haus und Naes, 2001; Wold, 2001). Daraus ergeben sich vereinzelt auch Verwechslungen von Vater und Sohn (Tenenhaus et al., 2005). Unter PLS im Kontext dieser Arbeit wird der von Herman Ole Andreas Wold entwickelte Al-gorithmus zur Schätzung von Strukturgleichungsmodellen verstanden.

5.2. Schätzung von Modellen mit mehreren latenten Variablen

5.2.1. Schätzalgorithmus Die Ausführungen beziehen sich auf den von Wold (1982b) als „Basic Design“ eingeführten Basisalgorithmus und ein Modell mit mehr als zwei Konstrukten. Für die weitergehenden Er-läuterungen liegt hier das Modell bzw. Pfaddiagramm aus Abbildung 21 zugrunde.

Abbildung 21: Pfaddiagramm zur Detailerläuterung des PLS-Verfahrens84 In der PLS-Literatur wird üblicherweise in algebraischer Darstellung nicht zwischen endoge-nen, d.h. abhängigen und exogenen, d.h. unabhängigen Konstrukten unterschieden (Eberl, 2006b, S. 90). Aus Gründen der Vereinfachung wird für die folgende Detailerläuterung – im Gegensatz zur sonstigen Darstellung in der vorliegenden Arbeit – ebenfalls auf diese Unter-scheidung verzichtet. Diese Nichtunterscheidung impliziert keine Änderung des Verfahrens. In Abbildung 21 werden demnach exogene wie endogene latente Variable mit �k bezeichnet. Die manifesten Variablen zur Messung der latenten Variablen �k sind mit xkh bezeichnet. Die Pfadkoeffizienten im Strukturmodell sind mit �kj, die sog. Ladungen reflektiver Indikatoren mit kh und die sog. Gewichte formativer Indikatoren mit �kh angegeben. �, �, und � stellen Mess-

84 Die Abbildung ist eine Erweiterung von Backhaus (2006, S. 355).

Messmodelle der endogenen latenten Variablen �2 (reflektiv) und �3 (formativ)

Strukturmodell Messmodell der exogenen latenten Variablen �1 (reflektiv)

�1

� 2

� 3

x11

x12

x21

x22

x31

x32

�11

�12

�21

�22

��2

��3 � �3

�13

�12

�32 11

12

21

22

�31

�32

107

fehler dar, auf die im Weiteren aber nicht näher eingegangen wird, weil sie für die Illustration von PLS anhand eines Zahlenbeispiels nicht relevant sind.85 Im Basismodell von Wold (1982b) wird von intervallskalierten, manifesten Variablen ausge-gangen. Im weiteren Verlauf wird sich jedoch auf den Fall „beschränkt“, dass die manifesten Variablen, die in die PLS-Untersuchung eingehen, in standardisierter Form vorliegen. Diese Annahme ist nicht schädlich und auch keine zwingende Notwendigkeit, erleichtert aber die Notation und die weiteren Ausführungen (Betzin und Henseler, 2005, S. 52 f.). Eine Be-schreibung des Algorithmus ohne diese Annahme findet sich bei Chatelin et al. (2002, S. 8 ff.). Das PLS-Verfahren durchläuft drei Phasen (vgl. Abbildung 22). Nach einer Initialisierung werden in der ersten Phase über einen Iterationsprozess unter Berücksichtigung der gesam-ten Modellbeziehungen Schätzwerte für die latenten Variablen ermittelt. Unterschieden wird dabei zwischen zwei (verschiedenen) Schätzwerten, einem äußeren Schätzwert aus dem Messmodell und einem inneren Schätzwert aus dem Strukturmodell. Die Phase 1 zur Schät-zung der latenten Variablen besteht aus jeweils zwei zweiteiligen Schritten. Iterativ wird in jedem Schritt ein Schätzwert festgehalten (abwechselnd der innere und der äußere), wäh-rend a) die Gewichtungsfaktoren und b) die jeweils anderen Schätzwerte berechnet werden. Über dieses Vorgehen wird erreicht, dass die Schätzwerte jeder latenten Variablen sowohl die Information ihres zugehörigen Messmodells als auch (über die Beziehungen zu den an-deren latenten Variablen im Strukturmodell) die gewichtete Information der restlichen mani-festen Variablen enthalten. Mittels der in Phase 1 geschätzten Konstruktwerte erfolgt in der zweiten Phase die Bestim-mung aller Strukturgleichungsparameter auf Basis von (multiplen) Regressionen. In einer dritten Phase können Lageparameter wie Mittelwerte oder Standardabweichungen der latenten Variablen geschätzt werden. Aus diesen können unstandardisierte Fallwerte be-rechnet werden, da die Konstrukte bis zu diesem Zeitpunkt als standardisiert angenommen werden (Wold, 1982b).

85 Vgl. die Detailerläuterung des Strukturgleichungsmodells in den Abschnitten 2.2.1. und 2.2.2.

108

Abbildung 22: Schematische Darstellung des PLS-Verfahrens86 Detailerläuterung der ersten Phase87 Die erste Phase ist die zentrale und gleichzeitig rechenaufwendigste im gesamten Verfahren und besteht – nach einer Initialisierung – aus zwei Schritten: 1. der „Inneren Approximation“ und 2. der „Äußeren Approximation“. 0.) Initialisierung Der Initialisierungsschritt zum Starten des iterativen Prozesses ist eine erste äußere Kon-

struktwertschätzung 0k�̂ aller latenten Variablen. Die Konstruktwerte bestimmen sich als ge-

wichtete Summen ihrer zugehörigen manifesten Variablen xkh mit Formel 5

k)x•�̂(•f=�̂kH

1=hkh

0khk

0k , (Chin, 1998b, S. 302).

Dabei können diese Konstruktwerte prinzipiell eine beliebige nichttriviale ( hk, 0�̂0kh , mit

0kh�̂ als Initialisierungsgewicht) Linearkombination aus den zugehörigen manifesten Variab-

len sein. Ob es sich um formative oder reflektive manifeste Variable handelt, ist damit uner-heblich.88 Eine Standardisierung erfolgt über das Skalar fk. 1.) Innere Approximation 1a) Schätzung der inneren Gewichte

86 Die Abbildung ist eine Weiterentwicklung von Spreen (2009, S. 186). 87 Die Nummerierung der Teilschritte erfolgt analog zu der in Abbildung 22 88 Für eine weitere Diskussion der Initialisierungsgewichte sei auf Tenenhaus et al. (2005) verwiesen.

1. Phase Iterative Schätzung der

latenten Variablen

2. Phase Berechnung der Modellparameter

Berechnung der finalen Gewichte bzw. Ladungen der Messmodelle

Berechnung der Pfadkoeffizienten im Strukturmodell

1. S

chrit

t: In

nere

App

roxi

mat

ion

1b) innere Schätzung der latenten Variablen

1a Schätzung der inneren Gewichte

1b

2b äußere Schätzung der latenten Variablen

3. Phase

optional

Berechnung von Lageparametern

Berechnung unstandardisierter Fallwerte 2.

Sch

ritt:

Äuß

ere

App

roxi

mat

ion

2a Schätzung der äußeren Gewichte

0 I

nitia

lisie

rung

Konver-genz- kriterium erfüllt

109

Die Konstruktschätzungen aus der Initialisierung 0k�̂ werden im ersten Teilschritt der inneren

Approximation (vgl. Abbildung 22, Teilschritt 1a) zur Schätzung der inneren Gewichte a1kj� im

Strukturmodell verwendet. Dazu gibt es drei Möglichkeiten: a) Wold verwendet ursprünglich das sog. Zentroidschema, bei dem die inneren Gewich-te a1

kj� = a1jk� auf die Werte +1 oder -1 gesetzt werden, je nachdem, ob die Korrelation (Korr)

zwischen zwei Schätzwerten von Konstrukten, die direkt miteinander über einen Pfeil ver-bunden sind, positiv oder negativ ist. Die Richtung des Pfeils spielt dabei keine Rolle (Wold, 1982b). Besteht keine direkte Verbindung über einen Pfeil, wird a1

kj� gleich null gesetzt. Die

„letzten“ Konstruktschätzungen, über die die Korrelationen berechnet werden, sind die 0k�̂

aus der Initialisierung. Bei den folgenden Iterationen handelt es sich hier immer um die Kon-

struktschätzungen b2k�̂ aus dem Teilschritt 2b (vgl. Abbildung 22). 0

k�̂ wird daher in der nach-

folgenden Darstellung durch b2k�̂ ersetzt:

{ } j,ksonst 0

sind verbunden Pfeil einen über direkt � und � wenn))�̂;�̂( Korr (sign=:� jk

b2j

b2ka1

kj .

Dieses „grobe“ Gewichtungsschema hat den Nachteil, dass es nicht die exakte Stärke des Zusammenhangs berücksichtigt. Bei Korrelationen in der Nähe des Wertes null können da-her starke Schwankungen entstehen, da bereits geringfügige Änderungen der Korrelationen zu einem Vorzeichenwechsel führen. Dennoch ergeben sich daraus für praktische Anwen-dungen keine Probleme (Chin, 1998b, S. 302; Tenenhaus et al., 2005, S. 168). b) Den „Nachteil“ des sprunghaften Wechsels des Vorzeichens behebt das Faktorge-wichtungsschema. Es berücksichtigt den konkreten Wert der Korrelation bei der Bestimmung von a1

kj� = a1jk� :

{ } j,ksonst 0 sind verbunden Pfeil einen über direkt � und � wenn))�̂;�̂( (Korr

=:� jkb2

jb2

ka1kj .

Die dritte Methode als Weiterentwicklung des Faktorgewichtungsschemas ist das Pfadge-wichtungsschema. Dabei werden nur die Vorgänger eines jeden Knotens k� betrachtet.89

Für die Pfadbeziehung der Vorgänger P( k� ) werden Regressionskoeffizienten bjk als innere

Gewichte a1kj� = a1

jk� mit

89 Einige Autoren (Fassott, 2007; Henseler, 2006) erklären die Notwendigkeit, für jedes Konstrukt �k die Unter-scheidung zwischen Vorgängern P(�k) und Nachfolgern S(�k) zu beachten und die Pfadgewichtung der Nachfolger entsprechend dem Faktorgewichtungsschema vorzunehmen. Dieses Vorgehen ist zwar nicht schädlich, aber für eine adäquate Darstellung des Pfadgewichtungsschemas nicht unbedingt effizient. Alle Knoten aus der Menge S(�k) werden bei der Einzelbetrachtung auch hinsichtlich ihrer Vorgänger geprüft und die Pfadgewichtungen ebenfalls mittels (multipler) Regression bestimmt. Sofern ein Knoten �j � S(�k) nur einen Vorgänger – also den Knoten �k – besitzt, ist der Regressionskoeffizient mit �k als unabhängiger und �j als abhängiger Variable im Fall standardisierter Daten gerade die Korrelation zwischen �k und �j. In diesem Spezialfall wird, wie von den Autoren vorgeschlagen, die Beziehung zum Knoten �j � S(�k) analog zum Faktorgewichtungsschema bestimmt.

110

{ } jk, )�P( � wennb =:� kjjka1

kj

verwendet, die aus der (multiplen) Regression mit den Schätzwerten aller Vorgänger P( k�̂ )

als unabhängige Variable und dem Schätzwert k�̂ als abhängige Variable gebildet werden.

Auf diese Weise wird sichergestellt, dass eine latente Variable alle Nachfolgervariablen bestmöglich erklärt und zugleich bestmöglich durch alle Vorgängervariablen erklärt wird. Sie ist gleichzeitig optimaler Prädiktor und Prädiktand (Fornell und Cha, 1994, S. 65). Im Rahmen der empirischen Schätzung kommt das Pfadgewichtungsschema sehr häufig zum Einsatz, da es als einziges die Richtung der Zusammenhänge im Strukturmodell be-rücksichtigt (Panten, 2005, S. 220). Unterschiedliche Studien zeigen jedoch, dass die Wahl des Gewichtungsschemas nur einen geringen Einfluss auf die finalen Ergebnisse hat und so von eher geringer Bedeutung ist (Chin, 1998b, S. 309; Chin und Newsted, 1999, S. 317; Jo-hansson und Yip, 1994, S. 587; Lohmöller, 1989, S. 41 f.). 1b) Innere Schätzung der latenten Variablen Mit Hilfe der bestimmten inneren Gewichte a1

kj� werden die letzten Konstruktschätzungen je-

weils durch Schätzungen ersetzt bzw. verbessert, die sich aus den Konstruktwerten ihrer di-

rekten Nachbarkonstrukte im Strukturmodell ergeben. Der verbesserte Konstruktwert b1k�̂ ist

also die gewichtete Summe aus den bisherigen Konstruktwerten b2k�̂ direkt benachbarter Va-

riablen, ungeachtet dessen, ob es sich um Vorgänger P( k� ) oder Nachfolger S( k� ) handelt.

Als Gewichte fungieren die zuvor bestimmten Werte für a1kj� . Eine Standardisierung erfolgt

über Formel 6

k�̂•�•� :=�̂ b2j

J

))�(S )�(P( j

a1kjk

b1k

kk

, mit k� als Skalar.

Mittels dieser Bestimmung werden Informationen aus dem Strukturmodell in den Algorithmus aufgenommen. Die erste innere Approximation ist damit abgeschlossen. 2.) Äußere Approximation 2a) Schätzung der äußeren Gewichte

Es werden neue äußere Gewichte ( a2kh�̂ ) geschätzt, die in der ersten Iteration die Gewichte

( 0kh�̂ ) aus der Initialisierung ersetzen. Die neuen äußeren Gewichte a2

kh�̂ werden mit Hilfe der

Konstruktwerte b1k�̂ aus der inneren Approximation bestimmt. Abhängig von der Art des je-

weils zugrunde liegenden Messmodells fungieren die Konstruktwerte b1k�̂ aus der inneren

Approximation (1b) im Rahmen einer (multiplen) Regression als unabhängige oder abhängi-ge Variable:

111

Bei einem reflektiv gemessenen Konstrukt (sog. „Mode A“ (Wold, 1982b, S. 10)) stellt das Konstrukt die unabhängige Variable dar – jeder Indikator xkh wird auf das Konstrukt regres-siert. Die Gewichte a2

kh�̂ sind dann die einzelnen Regressionskoeffizienten, die den Zusam-

menhang zwischen dem Konstrukt und dem jeweiligen Indikator ausdrücken. Die Regressi-onskoeffizienten entsprechen den Korrelationskoeffizienten, da sowohl die Indikatoren als auch die inneren Schätzwerte der Konstrukte standardisiert sind (Urban und Mayerl, 2008, S. 65 ff.). Dadurch erhalten die Indikatoren ein umso größeres Gewicht zugewiesen, je mehr Varianz sie sich mit dem Konstrukt teilen (Henseler, 2006, S. 125):

AMode im �)�̂,x(Korr=:�̂ b1k

b1kkh

a2kh .

Bei einem formativ gemessenen Konstrukt (sog. „Mode B“ (Wold, 1982b, S. 10)) wird eine multiple Regression der latenten Variablen auf alle Indikatoren durchgeführt, da der komplet-te Indikatorenblock die latente Variable formt. Das Konstrukt stellt somit die abhängige Vari-able dar. Die multiplen Regressionskoeffizienten bkh werden dann als Gewichte verwendet:

B Mode im �b=:�̂ b1kkh

a2kh .

2b) Äußere Schätzung der latenten Variablen Mit Hilfe der bestimmten Gewichte a2

kh�̂ erfolgt im zweiten Teilschritt der äußeren Approxima-

tion (2b) eine Neuschätzung aller latenten Variablen anhand des ihnen zugeordneten Indika-torenblocks. So wird erreicht, dass Informationen aus der Messung bzw. den Messmodellen

in die Schätzung durch den Algorithmus aufgenommen werden. Die neuen Schätzwerte b2k�̂

werden dabei von außen als Linearkombinationen der jeweiligen manifesten Variablen unter Verwendung der in 2a) bestimmten Gewichte ermittelt. Ob die Messmodelle formativ oder re-flektiv spezifiziert sind, ist dabei unerheblich. Eine Standardisierung erfolgt über Formel 7

k)x•�̂(•f=�̂kH

1=hkh

a2khk

b2k , (Chin, 1998b, S. 302).

Die äußere Approximation ist damit abgeschlossen. Der iterative Algorithmus aus den Schrit-ten (1a) bis (2b) wird so oft wiederholt, bis ein vorzugebendes Konvergenzkriterium erfüllt ist. Als Kriterium dient dabei häufig die Summe der Änderungen der Beträge der Gewichte oder die (relative oder absolute) Veränderung eines jeden einzelnen Gewichts von einer Iteration zur nächsten (Chin, 1998b, S. 302; Wold, 1982b, S. 14). Chin (1998b, S. 302) schlägt vor, die Iteration zu beenden, wenn die relative Veränderung eines jeden Gewichts <10-3 ist. Wold (1982b, S. 14) schlägt die Beendung vor, wenn die absolute oder relative Gewichtsver-änderung eines jeden Gewichts den Wert 10-5 unterschreitet. Die Phase des PLS-Algorithmus endet somit stets mit der äußeren Approximation der laten-ten Variablen (2b).

112

Detailerläuterung der zweiten Phase In der zweiten Phase werden die finalen Modellparameter des Strukturmodells (�kj) und der Messmodelle (kh, �kh) bestimmt. Auf der äußeren Modellebene ermittelt man für die reflekti-ven Messmodelle die sog. Ladungen �kh mittels Regressionen. Die Ladungen ergeben sich als Korrelationskoeffizienten zwischen dem jeweiligem Indikator xkh und den standardisierten

Konstruktwerten aus letzter äußerer Schätzung ( b2k�̂ ). Die finalen Gewichte im formativen

Modell �kh liegen bereits vor. Sie entsprechen den standardisierten Gewichtungskoeffizien-ten aus der letzten äußeren Schätzung. Standardisierte Gewichte erhält man, durch die Divi-

sion der äußeren Gewichte kha2

kh b=:�̂ mit der Standardabweichung der zugehörigen latenten

Variablen b2k�̂ . Die Pfadkoeffizienten des Strukturmodells �kj werden durch multiple Regres-

sionen mit jeweils einem endogenen Konstrukt als abhängiger Variable und allen Vorgän-gern als unabhängigen Variablen geschätzt. Verwendung finden die aus der letzten äußeren

Approximation ermittelten standardisierten Schätzwerte der latenten Variablen ( b2k�̂ ).

Zur Illustration des PLS-Algorithmus wird nachfolgend ein numerisches Beispiel präsentiert.

5.2.2. Numerisches Fallbeispiel Das nachfolgende Zahlenbeispiel basiert auf dem Strukturmodell aus Abbildung 21. Die je-weiligen Schritte im Algorithmus sind analog zu Abbildung 22 mit 1ar) bis 2br) nummeriert – r sei dabei der Iterationszähler. Bei den Variablen wird der Zähler erst ab der zweiten Iteration (r=2) als hochgestellte „2“ eingefügt. Es liegen für die latenten Konstrukte �k sieben Datenreihen für sechs manifeste Variablen xkh vor (vgl. Tabelle 9), die – überlagert von einer Zufallskomponente – mit dem Ziel konstruiert worden sind, Zusammenhänge der Konstrukte zu generieren. Als Abbruchkriterium wird vor-gegeben, dass die Iterationen der erster Phase beendet werden, sofern die absolute Verän-derung eines jeden standardisierten Gewichts den Wert 0,04 unterschreitet

( h,k0,04<�̂ -�̂r1+r 2a

kh2akh ).

x11 x12 x21 x22 x31 x32

Fall 1 2 4 3 1 6 7 Fall 2 3 5 6 2 5 6 Fall 3 4 7 2 1 4 5 Fall 4 5 7 5 2 3 5 Fall 5 3 6 6 1 5 6 Fall 6 2 3 2 1 6 7 Fall 7 1 3 7 3 7 7

Mittelwert () 2,8571 5 4,4286 1,5714 5,1429 6,1429 Standardabweichung ( ) 1,2454 1,6036 1,9166 0,7284 1,2454 0,8330

Tabelle 9: Rohdaten zur PLS-Erläuterung90

90 Da es um die Erläuterung des Verfahrens geht, wird von der Problematik abstrahiert, dass die Fallzahl für das vorliegende Modell unausreichend sein könnte (vgl. dazu Abschnitt 6.3.1.) Die Berechnungen wurden mit MS-Excel 2002 durchgeführt. In der Darstellung sind die Ergebnisse auf die vierte Nachkommastelle gerundet.

113

Die standardisierten Daten sind Tabelle 10 zu entnehmenden. Als Standardabweichung Formel 8

ii )² -x(

N1

=

wird die Formel für die Grundgesamtheit verwendet, weil dies in Standardsoftware wie z. B. SmartPLS ebenso implementiert ist. Prinzipiell erscheint aber die Formel für die Standard-abweichung der Stichprobe hier angebrachter. Der Unterschied verliert aber für größere Fall-zahlen an Bedeutung. x11 x12 x21 x22 x31 x32

Fall 1 -0,6882 -0,6236 -0,7454 -0,7845 0,6882 1,0290 Fall 2 0,1147 0,0000 0,8199 0,5883 -0,1147 -0,1715 Fall 3 0,9177 1,2472 -1,2671 -0,7845 -0,9177 -1,3720 Fall 4 1,7206 1,2472 0,2981 0,5883 -1,7206 -1,3720 Fall 5 0,1147 0,6236 0,8199 -0,7845 -0,1147 -0,1715 Fall 6 -0,6882 -1,2472 -1,2671 -0,7845 0,6882 1,0290 Fall 7 -1,4912 -1,2472 1,3416 1,9612 1,4912 1,0290

Tabelle 10: Standardisierte Rohdaten zur PLS-Erläuterung91 Start der ersten Phase (Iterative Schätzung der latenten Variablen) 0.) Initialisierung (erste äußere Schätzung der Konstruktwerte) Aus der allgemeinen Berechnungsvorschrift Formel 9

k)x•�̂(•f=�̂kH

1=hkh

0khk

0k mit

h,k1=�̂0kh – da jede nichttriviale Linearkombination aus den zugehörigen manifesten

Variablen xkh möglich ist – ergeben sich die Konstruktwertschätzungen in Tabelle 11. Die un-standardisierten Konstruktwertschätzungen, die für die Berechnung des Skalars fk (mit fk=1/ ) notwendig sind, sind durch ein „*“ kenntlich gemacht.

01�̂* 0

1�̂ 02�̂* 0

2�̂ 03�̂* 0

3�̂ Fall 1 -1,3119 -0,6677 -1,5298 -0,8188 1,7172 0,8708 Fall 2 0,1147 0,0584 1,4082 0,7537 -0,2862 -0,1451 Fall 3 2,1649 1,1019 -2,0516 -1,0980 -2,2897 -1,1611 Fall 4 2,9678 1,5106 0,8865 0,4745 -3,0926 -1,5683 Fall 5 0,7383 0,3758 0,0354 0,0190 -0,2862 -0,1451 Fall 6 -1,9355 -0,9851 -2,0516 -1,0980 1,7172 0,8708 Fall 7 -2,7384 -1,3938 3,3028 1,7677 2,5202 1,2780

Mittelwert () 0 0 0 0 0 0 Standardabweichung ( ) 1,9647 1,0000 1,8684 1,0000 1,9719 1,0000

Tabelle 11: Konstruktwertschätzungen aus der Initialisierung 91 Die Standardisierung erfolgt über (xkh-)/ .

114

Schritt 1a1) Schätzung der inneren Gewichte Aus Gründen der Einfachheit soll hier das Zentroidschema mit

{ } j,ksonst 0

sind verbunden Pfeil einen über direkt � und � wenn))1�̂;�̂( Korr (sign=:� jk

b2j

b2ka1

kj

verwendet werden. Aus Tabelle 12 sind die Korrelationskoeffizienten der standardisierten latenten Konstrukt-

schätzungen 0k�̂ aus der Initialisierung zu entnehmen.

02�̂ 0

3�̂ 01�̂ -0,1825 -0,990302�̂ 0,1441

Tabelle 12: Korrelationsmatrix der latenten Konstruktschätzungen aus der Initialisierung Nach dem Zentroidgewichtungsschema ergeben sich damit die inneren Gewichte

-1=� a112 , -1=� a1

13 und 1+=� a123 .

Schritt 1b1) Innere Schätzung der latenten Variablen

Mit Hilfe der a1kj� werden die letzten Konstruktschätzungen – hier die 0

k�̂ aus der Initialisierung

– über die Berechnungsvorschrift Formel 6

0j

n

))�(S )�(P( j

a1kjk

b1k �̂•�•� :=�̂

kk

verbessert. Diese aktualisierten Konstruktwertschätzungen aus der inneren Schätzung sind in Tabelle 13 angegeben.

b1

1�̂* b11�̂ b1

2�̂* b12�̂ b1

3�̂* b13�̂

Fall 1 -0,0521 -0,0344 1,5386 0,7711 -0,1510 -0,0982 Fall 2 -0,6086 -0,4023 -0,2035 -0,1020 0,6953 0,4521 Fall 3 2,2591 1,4935 -2,2630 -1,1343 -2,1999 -1,4305 Fall 4 1,0938 0,7231 -3,0789 -1,5432 -1,0362 -0,6738 Fall 5 0,1262 0,0834 -0,5209 -0,2611 -0,3568 -0,2320 Fall 6 0,2272 0,1502 1,8560 0,9302 -0,1129 -0,0734 Fall 7 -3,0457 -2,0135 2,6719 1,3392 3,1615 2,0558

Mittelwert () 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 Standardabweichung ( ) 1,5127 1,0000 1,9952 1,0000 1,5379 1,0000

Tabelle 13: Konstruktwertschätzungen aus der inneren Approximation Schritt 2a1) Schätzung der äußeren Gewichte Die neuen äußeren Gewichte a2

kh�̂ werden mit Hilfe der zuvor geschätzten Konstruktwerte b1

k�̂ aus der inneren Approximation bestimmt. In Abhängigkeit von der Art des jeweils

115

zugrunde liegenden Messmodells fungieren die Konstruktwerte b1k�̂ aus der inneren Appro-

ximation (1b) im Rahmen einer (multiplen) Regression als unabhängige (Mode A) oder ab-hängige (Mode B) Variable. Im Mode A (reflektiv) werden die Konstrukte �1 und �2 gemessen. Im Mode B (formativ) wird das Konstrukt �3 gemessen. Die beiden einfachen Regressionen

mit den manifesten Variablen x11 bzw. x12 (x21 bzw. x22) als Regressanden und b11�̂ ( b1

2�̂ ) als

Regressor liefern die Regressionskoeffizienten – und damit neuen äußeren Gewichte – a2

11�̂ =0,7859 bzw. a212�̂ =0,7374 ( a2

21�̂ =0,1032 bzw. a222�̂ =0,2026).92 Die Regressionskoeffi-

zienten der multiplen Regression mit b13�̂ als Regressand und x31 und x32 als Regressoren

haben die Werte 1,1510 und -0,4028. Sie stellen damit ebenfalls die neuen äußeren Gewich-te dar. Schritt 2b1) Äußere Schätzung der latenten Variablen Mittels der in Schritt 2a1) bestimmten äußeren Gewichte a2

kh�̂ werden die latenten Variablen

neu geschätzt und durch Formel 7

k)x•�̂(•f=�̂kH

1=hkh

a2khk

b2k

standardisiert. Die Ergebnisse sind in Tabelle 14 wiedergegeben.

b2

1�̂* b21�̂ b2

2�̂* b22�̂ b2

3�̂* b23�̂

Fall 1 -1,0007 -0,6688 -0,2359 -0,8193 0,3777 0,4830 Fall 2 0,0901 0,0602 0,2038 0,7080 -0,0629 -0,0805 Fall 3 1,6409 1,0966 -0,2898 -1,0064 -0,5036 -0,6440 Fall 4 2,2719 1,5182 0,1500 0,5209 -1,4277 -1,8259 Fall 5 0,5500 0,3676 -0,0743 -0,2581 -0,0629 -0,0805 Fall 6 -1,4606 -0,9761 -0,2898 -1,0064 0,3777 0,4830 Fall 7 -2,0916 -1,3978 0,5359 1,8612 1,3018 1,6649

Mittelwert () 0 0 0 0 0 0 Standardabweichung ( ) 1,4964 1 0,2879 1 0,7819 1

Tabelle 14: Konstruktwertschätzungen aus der äußeren Approximation Eine Überprüfung des Konvergenzkriteriums findet an dieser Stelle noch nicht statt, da erst eine Iteration durchlaufen wurde und ein Vergleich mit den willkürlich gesetzten Startgewich-ten nicht adäquat ist. Es folgt daher die zweite Iteration. Schritt 1a2) Schätzung der inneren Gewichte Tabelle 15 sind die Korrelationskoeffizienten der latenten Konstruktschätzungen aus der äu-ßeren Approximation zu entnehmen. 92 Die Regressionskoeffizienten entsprechen den Korrelationskoeffizienten, da sowohl die Indikatoren als auch die inneren Schätzwerte der Konstrukte standardisiert sind.

116

b2

2�̂ b23�̂

b21�̂ -0,2052 -0,9478

b22�̂ 0,2682

Tabelle 15: Korrelationsmatrix der latenten Konstruktschätzungen aus der äußeren Approximation Dem Zentroidgewichtungsschema entsprechend ergibt sich für die inneren Gewichte

-1=�2a1

12 , -1=�2a1

13 und 1+=�2a1

23 .

Schritt 1b2) Innere Schätzung der latenten Variablen Die innere Schätzung der latenten Variablen erfolgt wieder über die Berechnungsvorschrift Formel 6

b2j

n

))�(S )�(P( j

a1kjk

b1k �̂•

�•� :=�̂

kk

2.

Die Schätzwerte sind Tabelle 16 zu entnehmen.

2b1

1�̂* 2b11�̂

2b12�̂*

2b12�̂

2b13�̂*

2b13�̂

Fall 1 0,3363 0,2112 1,1518 0,5835 -0,1505 -0,0970 Fall 2 -0,6275 -0,3940 -0,1407 -0,0713 0,6478 0,4172 Fall 3 1,6504 1,0363 -1,7406 -0,8819 -2,1029 -1,3545 Fall 4 1,3050 0,8194 -3,3441 -1,6943 -0,9973 -0,6424 Fall 5 0,3386 0,2126 -0,4481 -0,2270 -0,6256 -0,4030 Fall 6 0,5234 0,3286 1,4591 0,7393 -0,0303 -0,0195 Fall 7 -3,5261 -2,2140 3,0627 1,5517 3,2589 2,0991

Mittelwert () 0 0 0 0 0 0 Standardabweichung ( ) 1,5926 1,0000 1,9737 1,0000 1,5525 1,0000

Tabelle 16: Konstruktwertschätzungen (zweite Iteration) aus der inneren Approximation Schritt 2a2) Schätzung der äußeren Gewichte Die beiden einfachen Regressionen mit den manifesten Variablen x11 bzw. x12 (x21 bzw. x22)

als Regressanden und 2b1

1�̂ (2b1

2�̂ ) als Regressor liefern die neuen äußeren Gewichte 2a2

kh�̂ ,

0,7529 bzw. 0,6667 (0,1540 bzw. 0,2624).93 Die Regressionskoeffizienten aus der multiplen

Regression mit 2b1

3�̂ als Regressand und x31 und x32 als Regressoren (1,1675 und -0,4199)

komplettieren die neuen äußeren Gewichte. Schritt 2b2) Äußere Schätzung der latenten Variablen Die äußere Schätzung der latenten Variablen erfolgt über Formel 7

k)x•�̂(•f=�̂k

22H

1=hkh

a2khk

b2k .

93 Die Regressionskoeffizienten entsprechen wieder den Korrelationskoeffizienten, da sowohl die Indikatoren als auch die inneren Schätzwerte der Konstrukte standardisiert sind.

117

Die Neuschätzung der latenten Variablen mittels der in 2a2) bestimmten äußeren Gewichte 2a2

kh�̂ ergibt die in Tabelle 17 angegebenen Werte.

2b2

1�̂* 2b2

1�̂ 2b2

2�̂* 2b2

2�̂ 2b2

3�̂* 2b2

3�̂ Fall 1 -0,9339 -0,6697 -0,3206 -0,8202 0,3714 0,4742 Fall 2 0,0864 0,0619 0,2806 0,7179 -0,0619 -0,0790 Fall 3 1,5224 1,0917 -0,4009 -1,0257 -0,4952 -0,6323 Fall 4 2,1269 1,5251 0,2003 0,5124 -1,4327 -1,8291 Fall 5 0,5021 0,3601 -0,0796 -0,2036 -0,0619 -0,0790 Fall 6 -1,3496 -0,9678 -0,4009 -1,0257 0,3714 0,4742 Fall 7 -1,9541 -1,4013 0,7211 1,8449 1,3089 1,6710

Mittelwert () 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 Standardabweichung ( ) 1,3945 1,0000 0,3909 1,0000 0,7833 1,0000

Tabelle 17: Konstruktwertschätzungen (zweite Iteration) aus der äußeren Approximation Überprüfung des Konvergenzkriteriums

Das recht grobe Konvergenzkriterium ( h,k0,04<�̂ -�̂r1+r 2a

kh2akh ) führt dazu, dass die

erste Phase nach zwei Iterationen abgeschlossen wird, wie aus Tabelle 18 ersichtlich ist.94 Standardisierte Gewichte aus äußeren Approximationen

a211�̂ a2

12�̂ a221�̂ a2

22�̂ a231�̂ a2

32�̂

Iteration 1 0,5252 0,4928 0,3585 0,7037 1,4719 -0,5151

Iteration 2 0,5399 0,4781 0,3939 0,6712 1,4905 -0,5361 Betragsmäßige Veränderung 0,0147 0,0147 0,0354 0,0325 0,0186 0,0210 Abbruchkriterium 0,04<�̂ -�̂ 2a

kh2akh

2 � � � � � � Tabelle 18: Überprüfung des Konvergenzkriteriums Start der zweiten Phase (Berechnung der Modellparameter) Auf der äußeren Modellebene werden für die reflektiven Messmodelle die Ladungen �kh mit-tels Regressionen ermittelt. Die Ladungen �11=0,9844, �12=0,9801, �21=0,8943 und �22=0,9649) ergeben sich also als Korrelationskoeffizienten zwischen dem jeweiligem Indika-tor xkh und den standardisierten Konstruktwerten aus der letzten äußeren Approximation der

ersten Phase (2b2

k�̂ ).

Die finalen Gewichte im formativen Modell �kh liegen bereits vor. Sie entsprechen den stan-dardisierten Gewichtungskoeffizienten aus der letzten äußeren Schätzung, �31=1,4905 und �32=-0,5361 (vgl. Tabelle 18). Die Pfadkoeffizienten des Strukturmodells �kj werden durch multiple Regressionen mit jeweils einem endogenen Konstrukt als abhängiger Variable und allen Vorgängern als unabhängigen Variablen geschätzt. Als unabhängige Größen werden die aus der letzten äußeren Approximation ermittelten standardisierten Schätzwerte der la- 94 Standardisierte Gewichte erhält man, indem die äußeren Gewichte a2

kh�̂ durch die Standardabweichung der zu-

gehörigen latenten Variablen b2k�̂ dividiert werden. Als Beispiel ergibt sich für

2a211�̂ =0,7529 / 1,3945 = 0,5399. Die

Daten sind aus Tabelle 16, Tabelle 17 und Tabelle 18 zu entnehmen.

118

tenten Variablen verwendet (2b2

k�̂ ). Es ergibt sich �12=0,5139, �13=-0,9473 und �32=0,7552.

Die hier berechneten Ergebnisse können mit einem PLS-Makro von Ringle und Schlittgen (2007) für die Standardsoftware GAUSS 8.0 verifiziert werden. Standard PLS-Software wie SmartPLS oder PLS-Graph, die sich auf Lohmöllers (1989, S. 241 f.) LVPLS stützt, verwendet zur Berechnung der finalen Modellparameter in Phase 2 ei-ne leicht abgewandelte Form des Algorithmus. Zur Berechnung der Ladungen der reflektiven Konstrukte (�kh) sowie der Pfadkoeffizienten im inneren Strukturmodell (�kj) werden die Kon-

struktschätzungen aus der vorletzten äußeren Approximation der ersten Phase b2k�̂ verwen-

det. Dadurch erzielen die Programme einen Geschwindigkeitsvorteil, da im Rahmen der Fortran-Standard-Prozedur, auf der LVPLS basiert, die Werte bereits in der vorletzten äuße-ren Approximation berechnet und hinterlegt werden. Da i. d. R. ein wesentlich kleinerer Wert für das Abbruchkriterium gewählt und damit eine Vielzahl von Iterationen durchlaufen wird, sind zwar rein mathematisch Ergebnisunterschiede vorhanden, diese sind aber dann i. d. R. sehr gering und damit vernachlässigbar. Dies ist für das vorliegende Zahlenbeispiel mit nur zwei Iterationen hingegen nicht der Fall. Insofern sollte je nach Datenkonstellation bei Ver-wendung einschlägiger Software diese Besonderheit berücksichtigt werden. Der Vollständigkeit halber werden nachfolgend auch die Ergebnisse dieser leicht abgewan-delten Form der zweiten Phase des Algorithmus präsentiert. Die Ladungen der reflektiven Messmodelle sind 11=0,9834, 12=0,9811, 21=0,8831 und 22=0,9710. Die Parameter im Strukturmodell sind �12=0,4821, �13=-0,9477 und �32=0,7251 (vgl. SmartPLS-Ergebnis in Abbildung 23).

Abbildung 23: Lösung bei der „leicht abgewandelten Form“ der zweiten Phase95 Quelle: SmartPLS 2.0 (Ringle et al., 2005). Im Folgenden wird der Umgang mit umfangreicheren Strukturmodellzusammenhängen (vgl. z.B. das hier entwickelte Modell in Abbildung 20, Abschnitt 4.3.4.) dargestellt.

95 Innerhalb der blau eingefärbten Konstrukte gibt SmartPLS die Bestimmtheitsmaße aus.

119

5.2.3. Schätzung von Modellen mit Konstrukten höherer Ordnung Von einem Konstrukt höherer Ordnung oder einem mehrdimensionalen Konstrukt wird ge-sprochen, „… when it refers to several distinct but related dimensions treated as a single theoretical concept“ (Edwards, 2001, S. 144). Ein Konstrukt wird somit aus mehreren ver-wandten latenten Variablen abgeleitet und stellt damit ein Konstrukt höherer Aggregati-onsstufe dar (vgl. Abbildung 24) (Albers und Götz, 2006; Law et al., 1998). Besonders in den Gegenstandsbereichen empirischer betriebswirtschaftlicher Forschung spielen derartige Konstrukte eine wichtige Rolle (Homburg, 2007, S. 42). Die Parameter von Modellen mit Konstrukten in hierarischer Struktur lassen sich ebenfalls ohne Modifikationen mit dem PLS-Verfahren bestimmen (Wold, 1982b). Prinzipiell kann eine Modellierung und Berechnung bis auf ein beliebig hohe Ebene erfolgen (Huber et al., 2007, S. 27). Die Entscheidung, ein Konstrukt auf höherer Ebene zu konzeptionalisieren, ist letztendlich davon abhängig, wie differenziert eine Thematik im Rahmen des Forschungsvorhabens er-fasst werden soll. Die Verwendung von Konstrukten höherer Ordnung ist häufig dann ange-bracht, wenn das betreffende Konstrukt im Fokus der Untersuchung steht und unterschiedli-che Facetten betrachtet werden sollen. Dies macht die Gegenüberstellung einer Vielzahl von Einflussgrößen einer Reihe von Zielgrößen möglich (Giere et al., 2006). So ist es in der vorliegenden Arbeit z. B. von Interesse, wie das Konstrukt Vertrauen durch Kompetenz, Integrität und Wohlwollende Intention gebildet wird (vgl. Abschnitt 4.2.1. und Abbildung 24).

Abbildung 24: Modell mit Konstrukten höherer Ordnung Des Weiteren besteht vielfach das „Motiv der kausalen Simplifikation“ (Albers und Götz, 2006, S. 672). Hierbei wird durch die Reduktion der inhaltlichen Komplexität eine Untersu-chung von in den beiden nachfolgenden Abschnitten erläuterten moderierenden Effekten an-gestrebt.

Kompetenz

Integrität

Wohlwollende Intention

Vertrauens-einstellung

Indikator 1

Indikator 2

Indikator 1

Indikator 2

Indikator 1

Indikator 2

Indikator 1

Indikator 2

Konstrukte 1. Ordnung Konstrukt 2. Ordnung

120

Grundsätzlich sind verschiedene Grundtypen von Konstrukten höherer Ordnung möglich. Dies resultiert daraus, dass sowohl die Konstrukte erster Ordnung auf Messmodellebene re-flektiv oder formativ operationalisiert als auch die Konstrukte auf n-ter Ebene durch die vor-gelagerten Facetten-Konstrukte reflektiv oder formativ gebildet werden können. Beschränkt man sich auf den Fall mit Konstrukten zweiter Ordnung, so resultieren daraus vier verschie-dene Grundtypen von Konstrukten höherer Ordnung, die in Abbildung 25 typisiert dargestellt werden (Jarvis et al., 2003, S. 204).96

Abbildung 25: Konstrukte zweiter Ordnung – vier Grundtypen Quelle: In Anlehnung an Jarvis (2003). Nach Jarvis et al. (2003) dominieren in der Literatur die Typen I und III. Kausalitätsüberle-gungen führen Albers und Götz (2006) jedoch dazu, die sinnvolle Verwendung der Typen in der betriebswirtschaftlichen Forschung in Frage zu stellen. Bei Typ I, der dem faktoranalyti-schen Weltbild folgend auf allen Ebenen nur reflektive Zusammenhänge unterstellt, müssten alle Indikatoren der Messmodelle austauschbar sein (vgl. Abschnitt 2.2.1.). Sie könnten so prinzipiell auch direkt für die Messung des Konstrukts zweiter Ordnung verwendet werden. Typ III versteht, wie auch Typ I, die Konstrukte erster Ordnung als austauschbare Messun-gen des Konstrukts zweiter Ordnung und nicht als inhaltlich verschiedene Dimensionen. Der Aussagegehalt einer formativen Spezifizierung auf Messmodellebene ist dadurch begrenzt. Die Verwendung von Konstrukten zweiter Ordnung ist somit eher sinnvoll, sofern die Facet-

96 Auf hybride Modelltypen, d. h. Messmodelle der Konstrukte erster Ordnung liegen in formativer und reflektiver Spezifizierung vor, wird hier nicht weiter eingegangen, da es nur um die grundsätzliche Erläuterung von Konstruk-ten höherer Ordnung geht.

Kompetenz

Integrität

WohlwollendeIntention

Vertrauens-einstellung

Indikator 1

Indikator 2

Indikator 1

Indikator 2

Indikator 1

Indikator 2

Kompetenz

Integrität

Wohlwollende Intention

Vertrauens-einstellung

Indikator 1

Indikator 2

Indikator 1

Indikator 2

Indikator 1

Indikator 2 Typ I

Kompetenz

Integrität

Wohlwollende Intention

Vertrauens-einstellung

Indikator 1

Indikator 2

Indikator 1

Indikator 2

Indikator 1

Indikator 2

Kompetenz

Integrität

WohlwollendeIntention

Vertrauens-einstellung

Indikator 1

Indikator 2

Indikator 1

Indikator 2

Indikator 1

Indikator 2 Typ II

Typ III Typ IV

121

tenkonstrukte wirkliche Facetten darstellen und das Konstrukt zweiter Ordnung formen. Ob Typ II oder IV gewählt wird, hängt vom Ziel der Untersuchung ab. Geht es um abstrakte Konstrukte, die aus verschiedenen Dimensionen bestehen, und um die simultane Berück-sichtigung von Messfehlern, ist Typ II die richtige Wahl.Geht es um die Ableitung von Hand-lungsempfehlungen, so gilt es, die einzelnen Facetten zu betrachten und die Indikatoren formativ (Typ IV) im Sinne der Ausprägung einzelner Treiber zu spezifizieren. Nur so sind Ableitungen bzgl. der Treiber auch auf höherer Ordnung zu treffen. Aus anwendungsorientierter Perspektive hat bei der Verwendung eines formativen mehrdi-mensionalen Konstrukts zunächst eine klare inhaltliche Definition des Konstrukts zu erfolgen und der Wirkungsbereich des Konstrukts ist einzugrenzen. Aufbauend darauf sind die ein-zelnen Facetten zu identifizieren und definieren (vgl. Abschnitt 4.1. und 4.2.1.). Die Facetten des Konstrukts bestimmen dabei nicht nur dessen inhaltlichen Bereich, sondern auch die Reichweite der Aussagen, die aus dem Modell abgeleitet werden können. Die Ermittlung von Indikatoren zur Messung der Facetten sollte auf Basis einer umfassenden Literaturrecher-che, von Expertengesprächen und Beobachtungen erfolgen, um eine hohe Inhaltsvalidität zu erreichen (Albers und Hildebrandt, 2006; Giere et al., 2006). In der Literatur werden Konstrukte höherer Ordnung vom Typ II und IV bisher nur vereinzelt verwendet (Albers und Götz, 2006). Dennoch existieren für ihre Umsetzung in der For-schungspraxis mehrere Vorgehensweisen, wobei noch keine Einigung auf einen gemeinsa-men Standard im Schrifttum zu erkennen ist (Giere et al., 2006). Folgende Vorgehensweisen sind möglich:

a) Das Konstrukt höherer Ordnung wird durch eigene manifeste Indikatoren operationalisiert, bspw. durch reflektive Indikatoren. Dieses Vorgehen ähnelt dem MIMIC–Modell (vgl. Ab-schnitt 2.2.2.) und leistet die Validierung der formativen Spezifizierung des Konstrukts höhe-rer Ordnung im Strukturmodell. Wird nämlich die Varianz des Konstrukts auf nachgelagerter Ebene durch die vorgelagerte Ebene unzureichend erklärt, so ist dies ein Indiz für die unvoll-ständige Berücksichtigung der Facetten des Konstrukts (Albers und Götz, 2006). b) Beim Hierarchical Component Model nach Wold (1980) werden die Indikatoren der Kon-strukte niedriger Ordnung auch als Indikatoren des direkt übergeordneten Konstrukts ver-wendet. Dieses Vorgehen wird häufig auch als „Methode der wiederholten Indikatoren“ oder „Repeated Indicators Approach“ bezeichnet. Problematisch wird dieses Vorgehen bei Typ IV, sofern die Messmodelle eine unterschiedli-che Anzahl von Indikatoren aufweisen. Dann ergäbe sich eine unangebrachte implizite Ge-wichtung der Konstrukte erster Ordnung. Der Bedeutungsinhalt des Konstrukts zweiter Ord-nung würde durch die Gewichtung verändert werden. c) Beim faktorwert- oder mittelwertbasierten Ansatz kann die Problematik der Gewichtung umgangen werden. Es wird eine Ebene von Messmodellen eliminiert, indem die Faktorwerte

122

oder Mittelwerte97 der Konstrukte erster Ordnung als direkte Indikatoren des Konstrukts zwei-ter Ordnung Verwendung finden. Da dieser Ansatz problembehaftet ist (Edwards, 2001; For-nell und Bookstein, 1982a; Giere et al., 2006, S. 688 ff.), findet eine weitere Betrachtung hier nicht statt.

5.2.4. Segmentierungsmethoden

5.2.4.1. Schätzung von Modellen mit moderierenden Effekten Bei der klassischen Schätzung von Kausalmodellen im Allgemeinen wird von der Homogeni-tät der Daten ausgegangen. Mit der Annahme der Homogenität über alle Beobachtungswerte wird unterstellt, dass alle Fälle durch ein Globalmodell, welches auf Basis des gesamten Da-tensatzes geschätzt wird, gleichermaßen gut repräsentiert werden können (Spreen, 2009). Oftmals ist jedoch zu vermuten, dass innerhalb der Datenbasis verschiedene Klassen bzw. Segmente existieren, die in sich nur zu einem gewissen Grade homogen sind. Die Be-schränkung auf die Schätzung eines Globalmodells kann dann zu vergleichsweise schwa-chen Beziehungen im Strukturmodell führen und birgt dementsprechend die Gefahr, dass wichtige Erkenntnisse schlichtweg übersehen werden (Agarwal und Malhotra, 2005; Hense-ler und Fassott, 2009; Huber et al., 2006; Jaccard und Wan, 1996, S. 24 ff.; Lee und Zhu, 2002; Moulder und Algina, 2002; Schumacker, 2002). Segementierungsrelevante Variable werden als Moderatoren oder Moderatorvariable be-zeichnet. Häufig wird synonym die Bezeichnung Interaktionsvariable verwendet (Henseler und Fassott, 2009). Die Auswirkung von Moderatoren nennt man moderierende Effekte bzw. Interaktionseffekte (Jaccard und Turrisi, 2003, S. 1 ff.). Zusammengefasst nimmt ein Moderator somit Einfluss auf die Stärke und unter Umständen auch auf die Richtung eines Zusammenhangs zwischen Variablen (für den zweidimensiona-len Standardfall ist dies in Abbildung 26 illustriert) (Baron und Kenny, 1986).

Abbildung 26: Das Grundprinzip moderierender Effekte Quelle: Homburg (2007). 97 Neben Mittelwerten werden auch Indikatorsummen verwendet (Homburg und Baumgartner, 1995).

Unabhängige Variable

Abhängige Variable

Niedriger Wert des Moderators

Hoher Wert des Mo-derators

123

Trotz der hohen Plausibilität und Relevanz von moderierenden Effekten in vielen betriebs-wirtschaftlichen Bereichen fällt es Forschern häufig schwer, solche Effekte zu identifizieren (Homburg, 2007). Dies liegt z. T. am methodischen Instrumentarium, das die Umsetzung mo-derierender Effekte nicht oder nur inadäquat ermöglicht (vgl. Abschnitt 2.2.2.). Vielfach wer-den moderierende Effekte aber schlichtweg ignoriert (Henseler und Ringle, 2008, S. 3; Huber et al., 2006). Die Analyse von Kausalmodellen zur Erklärung komplexer Sachverhalte ohne moderierende Effekte wird von vielen Autoren als nicht angemessen eingestuft (Agarwal und Malhotra, 2005; Henseler und Fassott, 2009; Huber et al., 2006; Jaccard und Wan, 1996, S. 24 ff.; Lee und Zhu, 2002; Moulder und Algina, 2002; Schumacker, 2002). Ein derartiges Pauschalurteil ist jedoch kritisch zu hinterfragen, da prinzipiell eine Einzelfall-beurteilung notwendig ist. Dennoch zeigt es die Tendenz in der betriebswirtschaftlichen For-schung auf, vermehrt moderierende Effekte bzw. segmentierungsrelevante Variable in Un-tersuchungen einzubeziehen, da ansonsten „… unsinnige theoretische und praktische Schlussfolgerungen wahrscheinlich [sind]“ (Scholderer et al., 2006, S. 647). Im Zusammenhang mit PLS gibt es zwei verschiedene Möglichkeiten der Segmentbildung: Die Segmente können zum einen auf Grundlage bereits bekannter bzw. beobachteter Krite-rien a priori definiert oder zum anderen erst a posteriori anhand der Auswertung gewonnener Modellergebnisse gebildet werden (Huber et al., 2007, S. 47 f.).

5.2.4.2. A priori-Segmentierungsmethoden Zur Überprüfung des Effektes moderierender Variablen im Fall a priori definierter Segmente kommen in Abhängigkeit von der Skalierung der Variablen sowie der Anzahl der beeinfluss-ten Strukturmodellgleichungsparameter unterschiedliche Verfahren zum Einsatz – zum einen das Verfahren der multiplen Gruppenanalyse, zum anderen ein Verfahren mit Implementie-rung sog. Produkt- bzw. Interaktionsterme (Henseler und Fassott, 2009; Huber et al., 2007, S. 48 ff.). Handelt es sich um eine kategorial skalierte Moderatorvariable, so eignet sich die multiple Gruppenanalyse zur Ermittlung des moderierenden Effekts auf die Modellparameter. Bei der Multigruppenanalyse werden alle Beobachtungswerte anhand externer Kontextfaktoren, die typischerweise nicht im Erklärungsbereich des Modells liegen, in zwei oder mehrere Grup-pen klassifiziert (Huber et al., 2006). Sowohl die Anzahl als auch die Zusammensetzung der Segmente wird entsprechend bereits a priori definiert. Als Segmentierungskriterien kommen einerseits Variablen der Befragungssubjekte zum Einsatz, bspw. soziodemografische Fakto-ren. Andererseits können die Segmente anhand befragungsobjektspezifischer Merkmale ge-bildet werden, bspw. im Sinne der Klassifizierung nach verschiedenen Unternehmen. Für je-des der Segmente wird ein lokales Modell geschätzt und im Anschluß im Hinblick auf Unter-schiede in den Modellparametern analysiert. Durch dieses Vorgehen wird implizit unterstellt, dass die Gruppierungsvariablen auf der Ebene des gesamten Modellkontextes relevant sind (Henseler und Fassott, 2009; Huber et al., 2007, S. 48 ff.; Spreen, 2009, S. 206 ff.).

124

Für metrisch skalierte Moderatorvariablen eignet sich die multiple Gruppenanalyse nur be-dingt. Da eine Transformation der metrischen in eine kategoriale Größe notwendig ist, ergibt sich z. T. ein erheblicher Informationsverlust. Ein Vorteil des Einsatzes der multiplen Grup-penanalyse im Fall metrisch skalierter Moderatoren ist indes die Einfachheit der Anwendung im Vergleich zur Vorgehensweise bei der Implementierung sog. Interaktionsterme. Insbe-sondere gilt dies, wenn der Einfluss des Moderators nicht allein für einzelne Beziehungen, sondern für einen Großteil oder das gesamte Kausalmodell überprüft wird (Henseler und Fassott, 2009; Huber et al., 2007, S. 49 ff.). Unterliegen nur eine oder wenige Beziehungen dem moderierenden Effekt bei metrischem Skalenniveau wie in Abbildung 27 dargestellt, führt die Implementierung von Interaktionster-men zu einem geringeren Datenverlust und besseren Ergebnissen (Huber et al., 2007, S. 51). Anstatt den Datensatz auf Basis des Einflussfaktors zu gruppieren, wird dieser als mo-derierende Variable direkt in den Modellkontext integriert.

Abbildung 27: Schematische Darstellung eines Moderatoreffekts auf Einzelbeziehungsebene Quelle: In Anlehnung an Eggert (2005, S. 104). Zur Analyse eines derartigen moderierenden Effektes in einem PLS-Strukturmodell wird so-wohl ein direkter Einfluss des Moderators auf die endogene Variable als auch der Einfluss eines Interaktionstermes, welcher als Produkt aus exogener und moderierender Variable er-mittelt wird, inspiziert (vgl. Abbildung 28). Die Messung des Interaktionstermes erfolgt in Ab-hängigkeit der Art der Operationalisierung der exogenen und der moderierenden Variablen. Sind die Konstrukte reflektiv gemessen, werden die Indikatoren des Interaktionstermes durch paarweise Multiplikation der standardisierten bzw. zentrierten Indikatorvariablen der exoge-nen und der moderierenden Variablen berechnet (Produkt-Indikator-Ansatz) (Chin et al., 2003). Die Standardisierung bzw. Zentrierung ist erforderlich, um einem möglichen Multikolli-nearitätsproblem als Resultat der Multiplikation entgegen zu wirken und ferner die Interpreta-tion der Pfadkoeffizienten a, b und c (vgl. Abbildung 28) zu erleichtern (Eberl, 2006b, S. 127 ff.; Eggert et al., 2005; Huber et al., 2007, S. 48 ff.).98

98 Es sollte der Standardisierung Vorzug gegeben werden und nur dann ein Rückgriff auf die Zentrierung erfolgen, wenn die inhaltliche Interpretation einzelner Indikatoren unbedingt die Erhaltung der Maßeinheiten erfordert bzw. wenn einzelne Indikatoren aufgrund theoretischer Überlegungen wichtiger als andere sind (Chin et al., 2003; Eg-gert et al., 2005).

Moderator

Exogene Variable

Endogene Variable

125

Abbildung 28: Implementierung von Interaktionstermen in PLS Quelle: In Anlehnung an Henseler und Fassott (2009). Nach der Berechnung der Indikatoren der Interaktionsvariablen erfolgt eine herkömmliche PLS-Schätzung. Der Wert des berechneten Pfadkoeffizienten a beschreibt den Einfluss der exogenen Variablen auf die endogene Variable, wenn die Moderatorvariable ihren Mittelwert – d. h. null – annimmt. Der Pfadkoeffizient der Interaktionsvariablen (b) gibt an, in welchem Ausmaß sich der Einfluss der exogenen auf die endogene Variable ändert, wenn sich die Moderatorvariable ändert. Es ändert sich der Einfluss bspw. um a+b, wenn sich die Modera-torvariable um eine Standardabweichung von ihrem Mittelwert vergrößert. Es ist zu beach-ten, dass der Pfadkoeffizient c der Moderatorvariablen respektive seine Veränderung c+b auch als Abhängigkeit von der Ausprägung der exogenen Variablen a interpretiert werden kann. Auf Basis des algorithmischen Schätzergebnisses kann prinzipiell nicht entschieden werden, ob anstelle der moderierenden Wirkung des Moderators auf die Beziehung der exo-genen zur endogenen Variablen nicht möglicherweise eine moderierende Wirkung der exo-genen Variablen auf die Beziehung der Moderatorvariablen zur endogenen Variablen vor-herrscht. Zur Klärung sind sachlogische Überlegungen heranzuziehen (Eberl, 2006b, S. 127 ff.; Eggert et al., 2005; Huber et al., 2007, S. 48 ff.). Liegt die exogene Variable oder die Moderatorvariable formativ operationalisiert vor, ist das vorstehend beschriebene Vorgehen nicht zulässig: „Since formative indicators are not as-sumed to reflect the same underlying construct…, the product indicators between two sets of formative indicators will not necessarily tap into the same underlying interaction effect.” (Chin et al., 2003, Appendix D). Ein zweistufiges Verfahren kommt dann zum Einsatz (Zwei-Phasen-Methode). Zunächst werden im Haupteffektmodell jeweils die standardisierten Kon-struktwerte für die exogene und die moderierende Variable auf Fallebene ermittelt. Anschlie-ßend wird das Modell um den Interaktionsterm (bzw. das Interaktionskonstrukt) erweitert, der (das) mit nur einem Indikator modelliert wird. Der Indikator wird aus der Multiplikation der je-weiligen Konstruktwerte ermittelt (Eggert et al., 2005; Götz und Liehr-Gobbers, 2004; Hense-ler und Fassott, 2009). Neben den vorgestellten Ansätzen zur Verwendung von Interaktionstermen existieren aber noch zwei weitere, die in der einschlägigen Literatur (vgl. Eberl, 2006b; Eggert et al., 2005;

Endogene Variable

Interaktions- variable

Exogene Variable

Moderator

x1

x2

m1

m2

x1 · m1

x1 · m2

x2 · m1

x2 · m2

a

b

c

126

Götz und Liehr-Gobbers, 2004; Henseler und Fassott, 2009; Huber et al., 2007) häufig nicht erwähnt werden. Dabei handelt es sich um einen hybriden Ansatz nach Wold (1982b) sowie einen Orthogonalisierungsansatz nach Little et al. (2006). Diese werden hier jedoch nicht vorgestellt, da eine Simulationsstudie Hinweise auf die Überlegenheit des Produkt-Indikator-Ansatzes und der Zwei-Phasen-Methode gibt (Henseler und Ringle, 2008). Die vorstehend vorgestellten Verfahren können analog auch zur Analyse moderierender Ef-fekte für Konstrukte höherer Ordnung (vgl. Abschnitt 5.2.3.) angewendet werden (Henseler und Fassott, 2009). Dennoch findet die Untersuchung moderierender Effekte auf Konstrukte höherer Ordnung bisher in der betriebswirtschaftlichen Forschung nur vereinzelt statt (Streukens et al., 2009).99 In Rückgriff auf Abschnitt 2.2.2. ist zu erwähnen, dass die Schätzung von Interaktionseffek-ten für kovarianzbasierte Verfahren ein Problem darstellt. Die Verfahren gehen von der Prä-misse aus, dass die Fehlerterme der Indikatorvariablen unkorreliert sind. Diese Prämisse wird von den Moderatorenmodellen durchbrochen, die Produktterme enthalten, da die Inter-aktionsvariable dann unumgänglich sowohl mit dem Prädiktor als auch mit dem Moderator Varianz teilt (Kenny und Judd, 1984). Demzufolge werden auch die Fehlervarianzen der In-dikatoren systematisch korreliert sein. Eine Untersuchung mit kovarianzbasierten Verfahren wäre demnach verfehlt. Dies mag auch ein Grund dafür sein, dass ein Interaktionseffekt von Vertrauen und Risiko, der in Forschungshypothese 6 (Abschnitt 4.2.4.) formuliert ist und über den auf Basis reiner Theorie (vgl. Abschnitt 2.1. und die dort zitierten Quellen) weitgehend Einigkeit herrscht, in kausalanalytischen Verfahren bisher kaum Beachtung findet. Der PLS-Algorithmus setzt hingegen keine rigiden Verteilungs- oder Unkorreliertheitsannah-men voraus. Vorstehend beschriebene potentiell korrelierte Störterme sind damit unproble-matisch. Darüber hinaus ist PLS außerordentlich dafür geeignet, Modelle mit Interaktionsbe-ziehungen zu schätzen, wie Chin et al. (2003, S. 198 ff.) erklären: „While problematic if not accounted for within covarianced-based modelling software such as LISREL, these correla-tions may actually help provide a more accurate estimation of the interaction effect when us-ing PLS.” Durch die konservativere Schätzung (vgl. Abschnitt 2.2.2.) der Strukturmodellparameter (Bagozzi und Yi, 1994; Fornell und Cha, 1994, S. 66 f.) entsteht ein Vorteil, da die abmil-dernde Funktion des Messfehlers in PLS ausdrücklich mitformuliert wird und in der Interakti-on zum Ausdruck kommt (Eberl, 2006b, S. 129). Allerdings nivelliert sich die Unterschätzung bei der Verwendung vieler Indikatoren (Chin et al., 2003, S. 197 ff.) und damit entfällt ebenso der beschriebene Vorteil. Zusammengefasst ist PLS im Vergleich zu kovarianzbasierten Verfahren für die Untersu-chung von Moderationseffekten aber klar besser geeignet.

99 Zur Gütebeurteilung der a priori-Segmentierungsansätze siehe Abschnitt 5.3.4.

127

Im Hinblick auf Vorgehensweisen zur Implementierung moderierender Variablen ist proble-matisch, dass die a priori-Segmentierungsmethoden grundsätzlich voraussetzen, dass dem Forscher die gruppierenden bzw. moderierenden Variablen bekannt sind. Liegen diesbzgl. keine Anhaltspunkte vor, kommen die a posteriori-Methoden zur Anwendung.

5.2.4.3. A posteriori-Segmentierungsmethoden In diesem Abschnitt findet keine Detailbetrachtung der Verfahren statt, weil in der vorliegen-den Arbeit keine a posteriori-Segmentierungsmethoden zum Einsatz kommen. Ferner ist das Forschungsfeld noch relativ neu, und ein einheitlicher Standard hat sich bisher noch nicht herauskristallisiert. Der Vollständigkeit halber sei aber dennoch kurz auf einige Verfahren bzw. Autoren verwiesen. Zunächst bietet sich das traditionelle Verfahren der Clusteranalyse (Esch et al., 2009, S. 127 ff.) an. Mit dessen Hilfe können a posteriori Segmente identifiziert werden. Die traditionelle Clusteranalyse unterstellt jedoch die Unabhängigkeit der Variablen (Backhaus et al., 2006, S. 489 ff.). Dieser Sachverhalt trifft für den Fall reflektiver Messmodelle, innerhalb derer die Indikatoren möglichst hoch korrelieren sollen, jedoch nicht zu. Darüber hinaus können auf diese Art und Weise nur Heterogenitäten auf Ebene der beobachtbaren Indikatorvariablen berücksichtigt werden, nicht jedoch auf Strukturmodellebene (Spreen, 2009, S. 210). Für die Identifikation von im Vorhinein nicht bekannter Heterogenität auf Strukturmodellebene kom-men ferner z. B. der FIMIX(Finite-Mixture)-PLS-Ansatz (Hahn et al., 2002; Ringle et al., 2009; Wedel und Kamakura, 2000), PLS-TPM (Ringle et al., 2007), der REBUS-Algorithmus (Esposito Vinzi et al., 2008) oder genetische Algorithmen (Ringle und Schlittgen, 2007) in Frage.

5.3. Validierung von PLS-Strukturgleichungsmodellen

5.3.1. Gütebeurteilung als Gegenstand neuerer PLS-Forschung Bei der Beurteilung der Güte des Modells bzw. der Modellschätzung handelt es sich um ei-nen wesentlichen Schritt der Anwendung von Strukturgleichungsmodellen (Hair et al., 1998, S. 610 ff.). Dieses Vorgehen ist insbesondere dann sinnvoll, wenn es sich bei den Konstruk-ten um Phänomene zur Erklärung des individuellen Verhaltens handelt, die bspw. den Kauf oder Nichtkauf bei einem Anbieter beeinflussen. Dann bestehen zwei Probleme, die nicht unabhängig voneinander sind: Zum einen besteht das Problem der inhaltlich-theoretischen Abbildung der Konstrukte und zum anderen das Problem des empirisch-statistischen Nach-weises der Güte seiner Messmodelle und seines Strukturmodells (Hildebrandt und Temme, 2006; Petter et al., 2007). Im Rahmen der Gütebeurteilung von PLS-Modellen geht es um die Frage, inwiefern das je-weils vorliegende Modell geeignet ist, Wirkungen zwischen den beobachteten Variablen zu beschreiben (Krafft et al., 2005). Die Entwicklung von Kriterien zur Gütebeurteilung ist Ge-genstand der neueren Forschung im PLS-Bereich, da der PLS-Ansatz erst in den letzten Jahren vermehrt zum Einsatz kommt (Fassott, 2005). Obwohl in den bisher veröffentlichten

128

Arbeiten schon zahlreiche Gütekriterien genannt werden, herrscht bei der Beurteilung und Anwendung geeigneter Kriterien noch eine gewisse Unsicherheit, die auch z. T. einer fehlen-den Softwareimplementierung geschuldet sein könnte (Krafft et al., 2005). In den nachfolgenden Abschnitten findet eine Zusammenstellung häufig verwendeter Güte-kriterien statt. Dabei wird zwischen Kriterien zur Beurteilung der Messmodelle und des Struk-turmodells unterschieden. Die Unterscheidung ist zweckmäßig, da die Gütebeurteilung in ei-nem mehrstufigen Prozess erfolgt. Zunächst muss die Reliabilität und Validität für die reflek-tiven bzw. formativen Messmodelle nachgewiesen werden, um im Anschluss daran die Güte des Strukturmodells zu begutachten. Ein Messmodell ist reliabel (zuverlässig), wenn bei wiederholten Versuchen bzw. wiederhol-ten Befragungen unter identischen Umständen die Messergebnisse identisch bzw. nahezu identisch sind. Der Zufallsfehler der Messung ist in diesem Fall nicht vorhanden bzw. sehr gering. Die Reliabilität ist notwendige Voraussetzung für die Validität (konzeptionelle Richtig-keit). Diese gibt die Eignung des Messmodells bzgl. seiner Zielsetzung an.100 Das Messmo-dell ist valide, wenn die erhobenen Werte geeignete Kennzahlen für die zu untersuchende Fragestellung sind. In diesem Fall liegt kein systematischer Fehler vor (Churchill, 1987, S. 65 ff.; Hildebrandt und Temme, 2006). Reliabel und valide gemessene Konstrukte sind die Voraussetzung für die Validität der Be-ziehungen im Strukturmodell (Fornell und Larcker, 1981; Henseler und Ringle, 2006b, S. 57). Nur so kann sichergestellt werden, dass Schlüsse über Zusammenhänge zwischen den Konstrukten im Strukturmodell nicht auf Basis unzuverlässiger und konzeptionell falscher Messmodelle gezogen werden. Diller (2006, S. 612) merkt jedoch kritisch an, dass die Identi-fikation von Messfehlern eine notwendige, aber keine hinreichende Bedingung für wissen-schaftlichen Fortschritt ist: „Messung ist in einer angewandten Wissenschaft kein Selbst-zweck!“ Forscher werden „nicht selten“ dazu verleitet, aus einem bestätigten Messmodell unkritisch auf hohe Validität des Strukturmodells zu schließen (Diller, 2006, S. 612). Insofern ist neben der Gütebeurteilung von Messmodellen, auf die im nachfolgenden Ab-schnitt 5.3.2. eingegangen wird, auch eine Gütebeurteilung auf Strukturmodellebene genau-so unumgänglich (vgl. Abschnitt 5.3.3.)

5.3.2. Gütebeurteilung von Messmodellen

5.3.2.1. Gütebeurteilung reflektiver Messmodelle Im reflektiven Fall ist jeder Indikator als eine fehlerbehaftete Messung des latenten Kon-strukts anzusehen. Diese Messphilosophie folgt dem Weltbild der Faktorenanalyse, so dass sich zur Beurteilung der Güte reflektiv operationalisierter Messmodelle Kriterien aus der tra-ditionellen Faktorenanalyse anbieten. Im Einklang mit der weiten Verbreitung reflektiver Messmodelle wird eine Vielzahl von Gütekriterien entwickelt, die letztlich auf die Eigenschaft

100 Bspw. ist die Anzahl an Fehltagen eine Maßzahl für den Gesundheitsstand einer Belegschaft, nicht jedoch für die Arbeitszufriedenheit, da Anwesenheit nicht dasselbe wie Zufriedenheit ist.

129

reflektiver Indikatoren abstellen, im Idealfall hoch korreliert zu sein. In diesem Fall ist die Be-urteilung der Reliabilität mittels statistischer Maßzahlen als „absolut sinnvoll“ anzusehen (Eberl, 2006b, S. 97). Von großer Bedeutung ist die Beurteilung der Indikatorreliabilität, welche mittels der Höhe und Signifikanzen der Ladungen der Indikatoren auf das Konstrukt beurteilt wird (Hulland, 1999). Die Indikatorreliabilität weist den Anteil gemeinsamer Varianz eines Indikators mit dem zugehörigen latenten Konstrukt aus und kann mit der Faktorladung untersucht wer-den. Die Faktorladung stellt bei standardisierten Daten die Korrelation zwischen Indikator und latenter Variable dar. Somit gibt ² den Anteil der Varianz des Indikators an, der durch das zugrunde liegende Konstrukt erklärt werden kann. In der Literatur wird häufig gefordert, dass zumindest 50 % der Varianz eines Indikators auf die latente Variable zurückzuführen sein soll (Chin, 1998b, S. 325; Fornell und Larcker, 1981, S. 45; Götz und Liehr-Gobbers, 2004, S. 727; Nunnally, 1967, S. 226). Daraus folgt, dass die gemeinsame Varianz zwischen Konstrukt und Indikator größer ist als die Varianz des Messfehlers (Krafft et al., 2005, S. 73).

Dies impliziert, dass jede Faktorladung mindestens den Wert 7071,05,0 annehmen soll-

te. Insbesondere in frühen Forschungsstadien oder bei neu entwickelten Skalen können bei empirischen Forschungsarbeiten aber auch geringere Ladungen auftreten (Hulland, 1999). So werden auch Ladungen in Höhe von 0,5 und 0,6 noch akzeptiert (Bagozzi und Baumgart-ner, 1994, S. 402; Chin, 1998b, S. 325; Fornell und Larcker, 1981; Götz und Liehr-Gobbers, 2004, S. 727). Insgesamt sollte keine unkritische Übernahme von Kriterien zur Indikatorreliabilität erfolgen (Scholderer et al., 2006).101 Welche Reliabilitätswerte im Einzelfall noch akzeptiert werden können, hängt nämlich von Einflussgrößen wie inhaltlicher Bandbreite eines Konstrukts, An-zahl der Indikatoren, Redundanz der Indikatorformulierungen oder dem Stichprobenumfang ab (Hildebrandt und Temme, 2006). Hulland (1999, S. 198) akzeptiert bspw. noch Indikato-ren, deren Ladungen größer als 0,4 sind. Die Überprüfung der Signifikanz der Ladungen, d.h., ob Ladungen signifikant von null ver-schieden sind, erfordert im strengen inferenzstatistischen Sinne eine grundlegende Vertei-lungsannahme (Eberl, 2006b, S. 93). Diese wird im Kontext des Einsatzes von PLS jedoch vielfach nicht getroffen, weil sie für das Verfahren nicht notwendig ist (vgl. Abschnitt 2.2.2.). Eine elegante Methode, um die Signifikanz dennoch beurteilen zu können, sind sog. Re-sampling-Methoden wie Bootstrapping und Jackknifing (Efron, 1979).102 Es handelt sich hier-bei um nichtparametrische Verfahren, d. h., die Signifikanzbeurteilung des jeweiligen Parame-ters benötigt keine Verteilungsannahme weil die Prüfgröße direkt aus den Daten der unter-suchten Stichprobe geschätzt wird. Die statistischen Rückschlüsse basieren auf wiederholten Stichprobenziehungen aus dem zu untersuchenden Datensatz und den daraus

101 Für eine weitergehende Diskussion vgl. Scholderer und Balderjahn (2006) sowie Scholderer et al. (2006). 102 Wegen fortschreitender Entwicklung leistungsstarker Rechner und Software erfahren „rechenintensive“ Re-samplingmethoden derzeit steigende Bedeutung (Reimer, 2007).

130

resultierenden empirischen Verteilungseigenschaften (Lunneborg, 2000, S. 11 f.; Reimer, 2007). Standardmäßig wird auf das Bootstrapping-Verfahren zurückgegriffen (Chin, 1998b, S. 320; Demirel und Willemain, 2002; Eberl, 2006b, S. 93).103 Dabei werden aus einer einzi-gen Stichprobe durch wiederholte Zufallsziehungen mit Zurücklegen viele weitere Stichpro-ben generiert (Efron, 1979; Efron und Gong, 1983).104 Für jedes Subsample wird eine PLS-Modellschätzung vorgenommen.105 Nach Schätzung der Subsamples sind Mittelwerte und Standardfehler der Schätzparameter zu berechnen, um robuste Konfidenzintervalle zu ermit-teln. Der empirische t-Wert zum Signifikanztest ergibt sich aus dem Quotienten des Origi-nalwertes der Schätzung und dem Standardfehler (Ringle und Spreen, 2007). In Bezug auf die empfohlen Anzahl der Bootstrapping-Subsamples herrscht keine Einigkeit. Henseler (2006, S. 132) genügen 100 bis 200 Subsamples. Eberl (2006b, S. 93) schließt sich Efron und Tibshirani (1993, S. 17 ff.) an, die bei 300 Subsamples von ausreichend stabilen Ergeb-nissen ausgehen. Typischerweise sollten jedoch so viele Subsamples generiert werden, wie die originale Stichprobe Fälle enthält (Eberl, 2006b, S. 93). Mit der Signifikanzprüfung ist die Beurteilung der Messung auf Ebene der einzelnen reflekti-ven Indikatoren abgeschlossen. Im Anschluss ist die lokale Gütebeurteilung auf der Ebene des Konstrukts (Konstruktvalidität) mittels Konvergenz- und Diskriminanzvalidität notwendig (Huber et al., 2007, S. 35). Die Konvergenzvalidität bezeichnet den Grad, zu dem mehrere Messungen desselben Kon-strukts übereinstimmen (Hulland, 1999, S. 198). Hingegen bezeichnet die Diskriminanzvalidi-tät den Grad, zu dem sich ein Konstrukt in einem Strukturgleichungsmodell von anderen Konstrukten unterscheidet (Panten und Boßow-Thies, 2007). Zur Beurteilung der Konvergenzvalidität werden in erster Linie die Konstruktreliabilität (KR) und die durchschnittlich erfasste Varianz (DEV) herangezogen (Huber et al., 2007, S. 35 ff.). Die Konstruktreliabilität (KR) (auch Faktorreliabilität oder Composite Reliability genannt) gibt an, wie gut ein latentes Konstrukt durch die ihm zugeordneten Indikatorvariablen gemessen wird (Krafft et al., 2005). Die Überprüfung auf Konstruktreliabilität erfolgt mit Hilfe der Be-rechnung der sog. internen Konsistenz 103 Bootstrapping ist dem Jackknifing aufgrund eines geringeren Standardfehlers vorzuziehen. Für eine weiterge-hende Erläuterung vgl. Efron (1979) und Efron und Gong (1983). 104 Das Ziehen mit Zurücklegen ermöglicht es, Resamples (auch Subsamples genannt) mit dem gleichen Umfang wie bei der Originalstichprobe zu bilden 105 Bei der Schätzung der Gewichte und Pfadkoeffizienten kann es zu Vorzeichenwechseln in den Subsamples kommen. Werden diese beibehalten (sicherzustellen z. B. durch die No-Sign-Changes-Option im Computerpro-gramm SmartPLS (Ringle et al., 2005)), steigen oftmals die Standardfehler stark an. Um dies zu vermeiden und um die Vergleichbarkeit der Schätzwerte in den Subsamples zu ermöglichen, stehen zwei Methoden (vgl. auch SmartPLS (Ringle et al., 2005)) zur Auswahl: „Individual Sign Changes“ und „Construct Level Changes“. Es emp-fiehlt sich die Verwendung der Individual-Sign-Changes-Option, die eine exakte Anpassung der Vorzeichen der Subsamples an die Originalschätzung vornimmt (für weitere Erläuterungen siehe Tenenhaus et al., 2005).

131

Formel 10

)�var(+)(

)(

=IK

hh

2

hkh

2

hkh

k

im Sinne der Homogenität der in einem Block zusammengefassten Indikatoren (Chin, 1998b; Fornell und Larcker, 1981). Dabei ist kh die Ladung einer Indikatorvariablen h im Block der Indikatoren, die zum latenten Konstrukt k gehören, und var(�h) die Streuung des Messfehlers der Indikatorvariablen h, die über 1-²kh bestimmt werden kann. Die interne Konsistenz ist im Intervall [0,1] definiert. Auch bei diesem Kriterium gibt es unterschiedliche Auffassungen hin-sichtlich des kritischen Schwellenwertes. So wird von einigen Autoren ein Wert von 0,6 als akzeptabel angesehen (Bagozzi und Yi, 1988, S. 82; Homburg und Baumgartner, 1998, S. 170), während andere mindestens einen Wert von 0,7 fordern (Hair et al., 1998, S. 612; Huber et al., 2007, S. 35; Nunnally, 1978, S. 245 f.). Die IK ähnelt der bekannten Maßzahl Cronbachs Alpha (Cronbach, 1951), die standardmä-ßig bei der statistischen Ergebnisprüfung der Faktorenanalyse zum Einsatz kommt. Cron-bachs Alpha ist jedoch in vielfältiger Weise kritisiert worden, weil es bspw. nicht die Höhe der Faktorladungen berücksichtigt, sondern alle Indikatoren gleich gewichtet (Cortina, 1993; Schmitt, 1996; Steiner, 2003; Zimmermann et al., 1993). Eine weitere Betrachtung von Cronbachs Alpha findet daher hier nicht statt. Alternativ zur IK schlagen Fornell und Larcker (1981) die durchschnittlich erfasste Varianz Formel 11106

)�var(+

=DEV

hh

h

2kh

h

2kh

k

als Maßzahl zur Konvergenzvalidität vor. Diese gibt an, wie hoch der durch die latente Vari-able erklärte Varianzanteil in Relation zum Messfehler ist (Chin, 1998b, S. 321; Fornell und Cha, 1994, S. 69). In der Literatur finden sich unterschiedliche Vorschläge zum kritischen Schwellenwert. Viel-fach wird eine DEV von mindestens 0,5 gefordert (Bagozzi und Yi, 1988, S. 82; Fornell und Larcker, 1981, S. 46; Homburg und Baumgartner, 1998, S. 361; Homburg und Giering, 1996, S. 12), so dass im Mittel mindestens die Hälfte der Varianz der Indikatoren durch die zugrun-de liegende latente Variable erklärt wird. Vereinzelt wird aber auch eine DEV von mindestens 0,6 verlangt (Huber et al., 2007, S. 36). Im Vergleich zur IK ist die DEV insofern ein konser-vativeres Gütemaß, als dass für die IK auch dann ein adäquater Wert ermittelt werden kann, wenn mehr als 50 % der Varianz auf den Fehlerterm entfällt (Fornell und Larcker, 1981, S. 46).

106 Die verwendeten Größen sind die gleichen wie in Formel 10 zur internen Konsistenz.

132

Im Hinblick auf die Forderung bestimmter Mindestwerte für die IK und die DEV ist zu beach-ten, dass immer auch die inhaltliche Ausgestaltung des jeweiligen Messmodells zu berück-sichtigen ist (Spreen, 2009, S. 195). Entsprechend merken Bagozzi und Baumgartner (1994, S. 403) an: „It is not difficult to attain composite reliabilities of 0.8 when measuring attitudes with semantic differential scales such as good-bad, favourable-unfavourable, and pleasant-unpleasant; it is much more difficult to reach this level of reliability when less obviously simi-lar indicators are used to measure a construct.” Diese Anmerkung zielt auch in Richtung der simultanen Überprüfung auf Inhaltsvalidität. Dieses qualitative Kriterium dient zur inhaltlich-semantischen Abdeckung eines Konstrukts, die nicht anhand eines mathematischen oder statistischen Tests ermittelt werden kann (Bohrnstedt, 1970; Götz und Liehr-Gobbers, 2004). Hildebrandt und Temme (2006, S. 623) fordern der Inhaltsvalidität die größte Aufmerksam-keit zu schenken, da eine fehlende Inhaltsvalidität ursächlich für das Anzeigen einer gerin-gen Güte über die restlichen statistischen Maßzahlen sein kann. Die Frage nach geeigneten Messindikatoren eines Konstrukts wird üblicherweise durch De-duktion festgelegt (Guttmann, 1971). Eine umfangreiche Literaturrecherche (z. B. bzgl. etab-lierter Skalen) sowie Experteninterviews bieten sich demnach zur Skalenkonstruktion und späteren Absicherung der Inhaltsvalidität an. Im Anschluss an die Konstruktion stellt die Faktorenanalyse eine mögliche Methode dar, die Indikatorvariablen im Hinblick auf die zugrunde liegende Faktorstruktur zu untersuchen (Hildebrandt und Temme, 2006; Tenenhaus et al., 2005). Neben der Betrachtung der Indika-tor- und der Konstruktreliabilität erfordert ein vollständiger Gütebeurteilungsprozess auch – wie oben schon erwähnt – die Überprüfung der Diskriminanzvalidität. Im Rahmen der Analy-se der Diskriminanzvalidität wird ermittelt, inwieweit die einzeln operationalisierten reflektiven Konstrukte auch tatsächlich eigene Faktorgebilde darstellen (Spreen, 2009, S. 196). Das Kri-terium der DEV eignet sich auch zur Bestimmung der Diskriminanzvalidität im PLS-Kontext. Über das sog. Fornell-Larcker-Kriterium Formel 12

)�,Korr(�> )DEV(� bzw. )�,(�)²Korr(>)DEV(� jkjjkj

wird gefordert, dass die DEV eines latenten Konstrukts stets größer sein soll als jede quad-rierte Korrelation dieses latenten Konstrukts mit einem anderen latenten Konstrukt im Modell. Ist dies erfüllt, ist die gemeinsame Varianz zwischen einem Konstrukt und seinen Indikatoren größer als die gemeinsame Varianz mit anderen latenten Konstrukten (Fornell und Larcker, 1981, S. 45 f.). Ferner kann für jedes Paar von Konstrukten überprüft werden, ob der Wert 1 (perfekte Korre-lation) im 95 %-Konfidenzintervall der geschätzten Korrelation zwischen den beiden Kon-strukten liegt. Ist dies nicht der Fall, so kann das als ein Anzeichen für eine inhaltliche Unter-scheidung des Konstruktpaares aufgefasst werden (Hildebrandt und Temme, 2006, S. 629). Als Zusatzverfahren zur Beurteilung der Diskriminanzvalidität schlägt Chin (1998b) vor, die Korrelationen zwischen den Konstruktwerten einer latenten Variablen und anderer Modellin-

133

dikatoren, die dem jeweiligen Konstrukt nicht zugeordnet sind, zu ermitteln. Weisen die er-mittelten Kreuzladungen für einen Indikator eine stärkere Beziehung zu einem anderen als dem ihm zugeordneten Konstrukt auf, ist unter Umständen eine Modifizierung des Modells erforderlich, weil nicht eindeutig feststellbar ist, welches Konstrukt der Indikator tatsächlich reflektiert. Demzufolge sollte jede manifeste Variable die höchste Ladung bzw. Korrelation mit dem ihr zugeordneten Konstrukt aufweisen (Bollen und Lennox, 1991; Chin, 1998b; Spreen, 2009, S. 196). Eine weitere Möglichkeit ist im Falle normalverteilter Daten mit Hilfe eines Chi-Quadrat(�²)-Differenztests zu prüfen, ob die Annahme, die Indikatoren zweier Konstrukte würden das gleiche Konstrukt messen, zu einer signifikanten Verschlechterung der Modellgüte (vgl. 5.3.3.) führt (Anderson und Gerbing, 1988). Eine abrundende Kurzzusammenfassung der vorgestellten reflektiven Gütebeurteilungskrite-rien ist in Abbildung 29 dargestellt.

Abbildung 29: Gütemaße für reflektive Messmodelle

5.3.2.2. Gütebeurteilung formativer Messmodelle Die oben aufgeführten Verfahren zur Gütebeurteilung reflektiver Messmodelle sind nicht auf formative Messmodelle übertragbar. Die latente Variable wird im formativen Fall als Ergebnis der Indikatorausprägungen verstanden und nicht wie im reflektiven Fall als Ursache. Im Ge-gensatz zu reflektiven Konstrukten ist die Kausalrichtung bei formativen Konstrukten somit umgekehrt. Die Indikatoren formen bzw. begründen die latente Variable und stellen i. d. R. nicht wie bei reflektiver Spezifikation beliebig austauschbare Symptome der latenten Variab-

Indikatorreliabilität

� 0,7071

� 0,4 bei neu entwickelten Skalen

statistisch signifikant von null verschieden

Konstruktvalidität

Konstruktreliabilität (IK � 0,7)

Durchschnittlich er-fasste Varianz DEV

� 0,5

Fornell-Larcker-Kriterium Betrachtung

- des 95%-Konfidenz-intervalls der berechneten

Korrelation und/oder - der Kreuzladungen

�²-Differenztest (bei NV)

Konvergenz- validität

Diskriminanz- validität

134

len dar (Chin, 1998b, S. 306).107 Die Indikatoren können somit untereinander unabhängig sein, da kausal von jedem Indikator nur das Konstrukt abhängt. Demzufolge müssen formati-ve Indikatoren eines Konstrukts nicht zwingend hochgradig korreliert sein (Eberl, 2006a; Fornell und Larcker, 1981) – anders als im reflektiven Fall (vgl. Kapitel 5.3.2.1.). Ferner wird keine Annahme dahingehend getroffen, dass formative Indikatoren zwangsläufig eine starke Beziehung zu dem zugehörigen Konstrukt aufweisen müssen (Krafft et al., 2005). Formative Indikatoren können auch eine geringe Wirkung auf das latente Konstrukt haben. Im Beispiel der Messung der Anspannung eines Fußballfans (Abbildung 7, Abschnitt 2.2.1.) könnte der Alkoholkonsum einen vergleichsweise geringen Einfluss auf die Stärke der Anspannung ha-ben. Diesen Indikator aber deswegen aus der Messung zu entfernen, wäre unsachgemäß. Im Umkehrschluss müssen formative Konstrukte eine umfassende Spezifikation erfahren (Huber et al., 2007; Petter et al., 2007). D. h., möglichst alle Indikatoren, die einen potentiel-len, wenn auch nur geringen Einfluss auf das Konstrukt haben, müssen vollständig berück-sichtigt werden. Zusammenfassend kann bis auf die Inhaltsvalidität und eine Signifikanzprüfung keins der aus Abbildung 29 ersichtlichen Gütekriterien zur Qualitätsbeurteilung formativer Messmodel-le herangezogen werden. Diamantopoulos und Winkelhofer (2001) schlagen zur Bildung und Gütebeurteilung valider formativer Konstrukte eine Prüfung anhand folgender Punkte vor: 1. Inhalts- und Indikatorspezifikation, 2. Indikatorkollinearität und 3. externe Validität. Ergänzt werden können diese Punkte um die Ausführungen von Fritz (1995, S. 136) zu 4. Diskrimi-nanzvalidität mittels Prädiktorenspezifikation. 1.) Inhalts- und Indikatorspezifikation Wie vorstehend bereits erwähnt, muss die konzeptionelle Breite des zu operationalisieren-den Konstrukts sorgfältig festgelegt werden (Diamantopoulos und Winkelhofer, 2001). Im zweiten Schritt sind dann möglichst alle potentiellen Facetten des Konstrukts zu identifizieren und definieren. Die Ermittlung von Indikatoren zur Messung der Facetten sollte auf Basis ei-ner umfassenden Literaturrecherche, von Expertengesprächen und Beobachtungen erfolgen (vgl. Abschnitte 4.3.4. und 6.1.2.2.), um eine hohe Inhaltsvalidität zu erreichen (Albers und Hildebrandt, 2006, S. 10 f.; Giere et al., 2006, S. 681). Eggert und Fassot (2003, S. 7) emp-fehlen insbesondere einen vollständigen Pilot-Test mit Experten (vgl. Abschnitt 6.1.2.2.). Krafft et al. (2005) sprechen in diesem Zusammenhang von Expertenvalidität. Dafür werden die Experten gebeten, zufällig angeordnete Indikatoren einzelnen Konstrukten zuzuordnen. Als Maß zur Beurteilung der Eindeutigkeit der Zuordnung sowie deren inhaltlicher Relevanz sind der sog. psa- und der sog. csv-Index geeignet (vgl. auch im Folgenden Anderson und Gerbing, 1991).

107 Die Möglichkeit, dass es sich um beliebig austauschbare Indikatoren handelt, wird aber explizit zugelassen (Diamantopoulos und Winkelhofer, 2001).

135

Der psa-Index ist dabei das Maß für die Eindeutigkeit der Zuordnung und Grad der Überein-stimmung zwischen der a priori durch den Forscher beabsichtigten und der durch die Exper-ten vorgenommenen Indikator-Konstrukt-Zuordnung. Prinzipiell wird ein einfaches Verhältnis Formel 13

psa

csa N

n=p ,

mit nc als Anzahl der Experten, die eine Zuordnung übereinstimmend mit dem Forscher vor-nehmen, und Npsa bzw. Ncsv (vgl. Formel 14) als Grundgesamtheit der Experten gebildet. Der Index ist somit im Intervall [0,1] definiert, wobei größere Werte auf ein höheres Maß an Übereinstimmung hindeuten. Das Maß für die inhaltliche Relevanz ist der csv-Index Formel 14

csv

0csv N

n -n=c .

Ergänzend zur Variablenbezeichnung aus Formel 13 ist no die Anzahl der Experten, die den Indikator am häufigsten „falsch“, also einem anderen als dem ursprünglich durch den For-scher zugedachten Konstrukt zuordnen. Der Index ist somit im Intervall [-1,…,1] definiert, wobei größere positive Werte wieder auf eine größere inhaltliche Relevanz hindeuten. Es gilt zu beachten, dass die Überprüfung der Expertenvalidität durch den psa- und csv-Index im Ide-alfall bereits bei der Entwicklung formativer Messmodelle erfolgen sollte (vgl. Abschnitt 6.1.2.2.). In diesem Fall sollten im Zuge der Gütebeurteilung demnach keine kritischen Werte mehr zu erwarten sein bzw. kann auf eine Überprüfung der Expertenvalidität verzichtet wer-den (Krafft et al., 2005). Neben der Expertenvalidität dienen zur Beurteilung der Inhalts- und Indikatorspezifikation zunächst die Gewichte, welche die multiplen Regressionskoeffizienten zwischen dem Kon-strukt und den Indikatoren darstellen. Die Höhe, das Vorzeichen und die Signifikanz der Ge-wichte geben Aufschluss über den Beitrag eines Indikators zur Konstruktbildung und damit auch über seine Vorhersagevalidität (Sambamurthy und Chin, 1994). Wie bei allen standar-disierten Pfaden im PLS-Modell bringen Werte der Gewichte nahe eins bzw. minus eins eine starke und Werte nahe null eine schwache Beziehung zum Ausdruck. Wie auch im reflekti-ven Fall erfolgt anhand der Bootstrapping-Methode die Ermittlung der approximativen empi-rischen t-Werte zur Signifikanzbeurteilung (Diamantopoulos und Winkelhofer, 2001). Bei der Beurteilung der Höhe der Gewichte ist zu beachten, dass der PLS-Algorithmus die Gewichte der einzelnen Indikatoren optimiert, um die Höhe der erklärten Varianz der abhän-gigen Variablen zu maximieren. Daraus ergeben sich bei nicht oder schwach korrelierten In-dikatoren häufig geringe Gewichte, die nicht vorschnell als Anzeichen für ein unpassendes Messmodell fehlinterpretiert werden sollten (Chin, 1998b). Während im Falle einer reflektiven Operationalisierung Indikatoren mit geringen Ladungen zu eliminieren sind, könnte ein ent-sprechendes Vorgehen für die Gewichte im formativen Fall eine Verfälschung des substan-

136

ziellen Inhalts des Konstrukts zur Folge haben (Bollen und Lennox, 1991). Das Vorgehen Lohmöllers (1989, S. 60 ff.), Modelle auf Pfadbeziehungen mit Parametern größer als 0,1 zu begrenzen,108 ist daher im Zusammenhang mit formativen Indikatoren diskussionswürdig: „… item selection to increase the ‚reliability’ of the formed scale is definitely not appropriate“ (Rossiter, 2002, S. 315). Da die Indikatoren dem jeweiligen Konstrukt auf Basis theoretisch-konzeptioneller Überlegungen zugeordnet werden, sollten bei einer Reduktion des Messmo-dells neben statistischen insbesondere auch inhaltliche Aspekte berücksichtigt werden (Diamantopoulos und Winkelhofer, 2001; Eberl, 2006a; Jarvis et al., 2003). Seltin und Kee-ves (1994) schlagen daher vor auf Basis einer theoretischen Begründung auch Pfade mit Werten bis 0,05 im Modell zu behalten. Eine Elimination von Indikatoren im Falle eines Nichteinhaltens des von Lohmöller (1989) vorgeschlagenen Grenzwertes wäre aber bspw. denkbar, falls inhaltlich nicht erklärbare Ergebnisse vorliegen bzw. der konzeptionelle Inhalt des Konstrukts nicht beeinträchtigt wird (Ravichandran und Lertwongsatien, 2005). Im Ge-gensatz dazu kann aber ein Ausschluss von Indikatoren mit geringen Ladungen auch zu ei-ner inhaltlichen Beschneidung des Konstrukts, ggf. sogar zu einer Verfälschung des sub-stanziellen Inhalts führen (Jarvis et al., 2003). Ein sorgfältiges Vorgehen und eine Abwägung zwischen statistischer Absicherung und inhaltlicher Beschneidung sind angebracht. Letztlich gibt es in der Wissenschaftsgemeinde keine einheitliche Meinung zur Indikatorenelimination (Diamantopoulos und Winkelhofer, 2001). Dies gilt ebenso für nicht signifikante Indikatoren. Hier wird als Grenzwert des Signifikanzniveaus häufig ein Wert von 0,1 angegeben (Giere et al., 2006, S. 687 und die dort angegebenen Literatur). Huber et al. (2007, S. 38) fordern aber selbst bei der Überschreitung des Grenzwertes, dass „…eine Eliminierung desselben [Indika-tors] … nur aufgrund inhaltlicher Überlegungen in Betracht gezogen werden [darf].“ Diese Meinung wird auch in der vorliegenden Arbeit vertreten. Insbesondere auch im Hinblick auf die Vergleichbarkeit unterschiedlicher Segmente (im Rahmen der Analyse moderierender Ef-fekte) sollten Indikatoren – wenn überhaupt – nur bei einer handfesten theoretischen Be-gründung und aus Vergleichbarkeitsgründen simultan aus allen Segmentmodellen entfernt werden. Darüber hinaus kann auch ein nicht signifikanter Einfluss – wie im Zusammenhang der vorliegenden Arbeit und der Effizienzbeurteilung von Signalen – eine Erkenntnis darstel-len. 2.) Indikatorkollinearität Die Tatsache, dass sich die Gewichte eines formativen Konstrukts aus den Koeffizienten ei-ner multiplen Regression aller zugehörigen Indikatoren als unabhängige Variable und der la-tenten Variablen als abhängige Variable ergeben, kann zu einem Multikollinearitätsproblem führen und eine verzerrte Parameter- und Signifikanzschätzung zur Folge haben (Diamantopoulos und Winkelhofer, 2001; Fassott und Eggert, 2005; Götz und Liehr-Gobbers, 2004; Grewal et al., 2004; Hair et al., 1998, S. 189; Jarvis et al., 2003). Bei einem hohen Grad an Multikollinearität sind selbst falsche Vorzeichen der Koeffizienten möglich (Belsley, 1991, S. 54 f.). Im Falle der Singularität, der extremsten Form der Multikollinearität, sind zwei

108 Unabhängig vom konkret gewählten Prüfkriterium ist eine betragsmäßige Betrachtung angebracht, da auch negative Beziehungen im Modell auftreten können.

137

oder mehr Variable vollständig linear voneinander abhängig. Eine Schätzung der Regressi-onskoeffizienten wird dadurch unmöglich, da es dann keine Lösung für die Kleinst-Quadrate-Schätzung gibt (Belsley, 1991, S. 22). Die Problematik der Multikollinearität lässt sich auch inhaltlich verdeutlichen. Formative Indi-katoren eines Konstrukts setzen sich aus verschiedenen inhaltlichen Facetten zusammen, die jede für sich zur Bildung des Konstrukts beiträgt. Wenn allerdings einige der Facetten mehrfach, gewissermaßen in abgewandelter Form, Eingang in die Konstruktbildung finden, entsteht eine Übergewichtung dieser Indikatoren in Relation zu den anderen (Schultz, 2006, S. 183). Darüber hinaus wird es bei zunehmender linearer Abhängigkeit zwischen mehreren Indikatoren immer schwieriger, den Beitrag eines einzelnen Indikators zur Varianzerklärung des Konstrukts zu ermitteln, da der Regressionskoeffizient nicht mehr nur die singuläre Be-ziehung zwischen Indikator und Konstrukt widerspiegelt (Belsley et al., 1980; Diamantopou-los und Winkelhofer, 2001, S. 272). Zusammengefasst ergibt sich somit die Notwendigkeit, jedes formative Messmodell auf Mul-tikollinearität zu prüfen. Zunächst bietet sich dazu eine Untersuchung der Korrelationsmatrix aller Indikatoren eines Konstrukts auf paarweise Abhängigkeiten an. Korrelationen von nahe eins bedeuten starke Multikollinearität (Backhaus et al., 2006, S. 91; Belsley et al., 1980; Krafft et al., 2005). I. d. R. wird vorgeschlagen nur die Indikatoren eines Konstrukts auf paar-weise Korrelation zu testen (vgl. Krafft et al., 2005). Prinzipiell könnte aber auch eine Über-prüfung aller formativen Indikatoren auf konstruktübergeordneter Ebene sinnvoll sein. Über Grenzwerte, ab deren Überschreitung weitere inhaltliche Überprüfungen auch über mehr als zwei Indikatoren stattfinden sollten, herrscht in der Literatur Uneinigkeit: Schultz (2006, S. 183) befürwortet bereits bei Korrelationen über 0,707, die einer geteilten Varianz von ca. 50 % entsprechen, eine weitergehende inhaltliche Kontrolle der Multikollinearität vor-zunehmen. Panten (2005) dagegen sieht die kritische Schwelle bei 0,5 und Cohen (1992) bei 0,3. Ein Beispiel von Belsley (1991) zeigt aber, dass ein paarweiser Korrelationsvergleich möglicherweise kein allgemeingültiges Indiz zur Beurteilung linearer Abhängigkeiten von mehr als zwei Variablen ist. In dem Beispiel liegt ein Fall vollständiger linearer Abhängigkeit von elf Variablen vor, bei denen jedoch keine paarweise Korrelation einen Wert größer 0,1 annimmt. Insofern erscheint eine detaillierte – über die paarweise Korrelationsprüfung hi-nausgehende – Untersuchung auf potentielle Multikollinearität als Standard im Gütebeurtei-lungsprozess formativer Messmodelle angebracht. Diese Prüfung kann anhand der sog. Toleranz- und Varianzinflationswerte erfolgen. Aus-gangspunkt ist die Berechnung linearer Hilfsregressionen, bei der jeder Indikator jeweils durch alle übrigen erklärt wird. Den Varianzanteil des abhängigen Indikators der Regression, der nicht durch die anderen Indikatoren erklärt werden kann, wird als Toleranz bezeichnet und errechnet sich demnach aus der Differenz zwischen eins und dem Bestimmtheitsmaß R² der jeweiligen Regression. Die Toleranz sollte daher für jeden Indikator jeweils einen Wert

138

von nahe eins annehmen, denn sind die Bestimmtheitsmaße der einzelnen Hilfsregressionen annähernd null, kann von linearer Unabhängigkeit der erklärenden Indikatoren ausgegangen werden (Belsley et al., 1980; Hair et al., 1998, S. 192). Als Kehrwert der Toleranz wird häufig auch der Varianzinflationsfaktor Formel 15

2h

h R11

=VIF-

als anerkanntes Maß zur Überprüfung auf Multikollinearität verwendet (Backhaus et al., 2006, S. 91 f.; Belsley et al., 1980; Hair et al., 1998, S. 191). Dabei gibt der VIF an, um wel-chen Faktor die Varianzen der betroffenen Indikatoren durch Multikollinearität aufgebläht sind – daher auch der Name Varianzinflationsfaktor (Belsley et al., 1980, S. 93). Sind alle In-dikatorvariablen einer Hilfsregression unabhängig, nimmt der VIF den Minimalwert eins an. Mit einem enger werdenden Zusammenhang zwischen den Indikatorvariablen strebt der VIF gegen unendlich. Problematisch am VIF ist, dass es derzeit kein formales Kriterium gibt, durch das festlegt wird, ab welcher Höhe eine Verzerrung der Parameterschätzung zu erwarten ist. Vielfach wird eine Faustregel angeführt, nach der starke Probleme aufgrund von Multikollinearität vor-liegen, wenn der VIF Werte größer zehn annimmt (Chatterjee und Price, 1977, S. 182; Dia-mantopoulos und Winkelhofer, 2001, S. 272; Gujarati, 2003, S. 362; Hair et al., 1998). Aus Formel 15 ist jedoch zu entnehmen, dass dies erst dann der Fall ist, wenn die gemeinsame Varianz eines Indikators mit den anderen Indikatoren im Messmodell über 90 % liegt. Der Wert für die Toleranz läge nicht nahe eins, sondern lediglich bei 0,1. Daher ist es ange-bracht, diese kritische Grenze bei der PLS-Pfadmodellierung (insbesondere bei kleineren Stichproben) deutlich konservativer anzusetzen. Diamantopulos und Siguaw (2006) sehen die kritische Grenze bei einem VIF von 3,3. Schneider (2007) zeigt jedoch, dass bereits VIF-Werte größer zwei tendenziell problematisch sein können, obwohl im statistischen Sinn bei diesem Wert keine Multikollinearität vorliegt (Opp und Schmidt, 1976). Für jede Untersu-chung sollte daher der VIF-Schwellenwert individuell aufgrund sachlogischer Überlegungen festgelegt werden. Die Ergebnisse von Schneider (2007) sprechen bei der Untersuchung des VIF für einen konservativen Schwellenwert von zwei. Da bei der Festlegung eines individuellen Schwellenwertes eine gewisse Willkür involviert ist und das Verfahren weder konkrete Informationen über die Anzahl der Abhängigkeiten noch über die involvierten Variablen liefert, kritisiert Belsley (1991, S. 28; 1980, S. 117 f.) die Me-thode der Berechnung der Varianzinflationswerte. Überdies weisen zwar hohe Varianzinflati-onswerte auf starke Multikollinearität hin, geringe Varianzinflationswerte sind aber nicht au-tomatisch gleichbedeutend mit geringer Multikollinearität (Belsley, 1991, S. 28 ff.). Eine Überwindung dieser Schwächen bietet ein Verfahren, das auf Konditionsindizes und Variablenzerlegung beruht, jedoch nur für nichtstandardisierte Daten anzuwenden ist (vgl. auch im Folgenden Belsley, 1991, S. 40 ff.; Belsley et al., 1980, S. 117 ff.; Eggert und Fas-sott, 2003; Opitz, 1990, S. 353 ff; Schultz, 2006, S. 184 f.). Grundlage dieses Verfahrens ist

139

die Untersuchung der Eigenwerte und -vektoren, um zu ermitteln, wie viele unterschiedliche Dimensionen die formativen Indikatoren einer latenten Variablen bilden. Zunächst wird wie bei einer Hauptkomponentenanalyse (Backhaus et al., 2006, S. 291 ff.) die Kovarianzmatrix der unabhängigen Variablen (formativen Indikatoren) über eine Hauptachsentransformation in so viele orthogonale Dimensionen „zerlegt“, wie unabhängige Variable vorliegen. Die Di-mensionen sind dabei komplett unabhängig und teilen keine gemeinsame Varianz. Die anfal-lenden Eigenwerte geben dann an, welchen Anteil der Gesamtvarianz aller Variablen jede Dimension ausschöpft. Sind die Variablen unkorreliert, nimmt der Eigenwert je Dimension den Wert eins an. Mit steigender Korrelation unter den Variablen steigt die Varianz, die durch die erste Dimension bzw. Hauptkomponente ausgeschöpft wird, d. h. desto höher ist der Ei-genwert der ersten Dimension und desto geringer ist der der übrigen Dimensionen. Sehr kleine Eigenwerte sind demnach Anzeichen für ein Multikollinearitätsproblem.109 „Sehr kleine Eigenwerte“ bedeuten dabei im konkreten Forschungskontext allerdings nicht immer Werte nahe null, sondern es ist eine Relation zum größten vorkommenden Eigenwert E(max) zu bil-den. Für jede Dimension wird so ein Konditionsindex als Quadratwurzel aus dem größten ge-fundenen Eigenwert und dem Eigenwert einer Dimension berechnet. Diese Relation bildet der sog. Konditionsindex (KI) ab: Formel 16

qi11

=KI

Ei

(max)Ei .

Der höchste berechnete Konditionsindex je Konstrukt wird als Konditionsindex auf Kon-struktebene bezeichnet. Ein KI von über 30 deutet i. d. R. auf das Bestehen einer Beinaheab-hängigkeit, also auf starke Multikollinearität hin. „Weak dependencies“ können ab einem KI von etwa 10 auftreten, Werte zwischen 15 und 30 werden als „borderline of tightness in in-formal econometric practice“ eingestuft (Belsley et al., 1980, S. 153). Bei Werten zwischen 15 und 30 sollte das Verfahren daher durch eine Varianzzerlegung ergänzt werden (Hair et al., 1998, S. 220 f.). Durch eine Zerlegung der Varianz-Kovarianzmatrix der Regressionsko-effizienten in Singulärwerte lässt sich die Streuung der einzelnen Koeffizienten in q Teile zer-legen, die jeweils durch einen KI erklärt werden können. So kann eine Varianzzerlegungs-matrix der Regressionskoeffizienten erstellt werden, die für jeden Koeffizienten den Varianz-anteil zeigt, den jeder KI verursacht. Erklärt derselbe KI die Streuung mehrerer Regressionskoeffizienten in hohem Maße, lässt dies auf eine hohe Abhängigkeit des betrof-fenen Indikators schließen. Auf diese Weise lassen sich die entsprechenden Indikatoren identifizieren, die von Multikollinearität betroffen sind. 109 Formal erfolgt die Untersuchung der Eigenwerte und -vektoren über die Kreuzproduktmatrix XTX der Rohda-tenmatrix X – hier die Indikatoren des formativen Konstrukts. Die Eigenvektoren der Kreuzproduktmatrix sind eine Menge von Vektoren K*. Diese verwandeln sich in eine durch den Eigenwert E skalierte Version ihrer selbst, so-fern sie von links mit der Kreuzprodukt-matrix multipliziert werden. Es gilt also: XTXK* = EK*. Die Anzahl der Ei-genvektoren mit zugehörigem Eigenwert ist immer identisch mit der Anzahl q der Spalten in der Matrix, d. h. der Anzahl der Parameter, die zu schätzen sind. Existiert mindestens ein E = 0, so gilt XTXK* = 0 bzw. XK* = 0. Die-ser Sachverhalt ist gleichbedeutend mit linearer Abhängigkeit. Für jeden Eigenwert, der null ist, kann gezeigt werden, dass genau eine vollständige lineare Abhängigkeit existiert. Demzufolge liegt für sehr kleine Eigenwerte der Kreuzproduktmatrix eine annähernde oder Beinaheabhängigkeit vor.

140

Belsley et al. (1980, S. 142) bezeichnen die Abhängigkeiten als „moderately strong“ („strong“), sofern für zwei oder mehr Indikatoren eine Varianzanteil zwischen 0,7 und 0,9 (>0,9) auf diesen KI zurückzuführen ist. Auch Hair et al. (1995, S. 153) sehen ein „collinearity problem“ für Varianzüberschneidungswerte größer als 0,9.Unproblematische Abhängigkeiten bzw. „reasonably weak near dependencies“ sind vorhanden, wenn die erklärten Varianzan-teile bei zwei oder mehr Indikatoren zwischen 0,4 und 0,7 liegen (Belsley, 1991, S. 129). Bei starker Multikollinearität ist eine Eliminierung von mindestens einem der betroffenen Indi-katoren aus dem Messmodell zu empfehlen (Diamantopoulos und Winkelhofer, 2001). Schultz (2006, S. 183) bezeichnet das Vorliegen von Multikollinearität als „… die einzige Si-tuation, in der ein Indikator auch ohne (inhaltlich) theoretische Begründung entfernt werden darf“. Eine andere Möglichkeit schlagen Albers und Hildebrandt (2006) vor. Sie empfehlen, die Zusammenfassung der miteinander korrelierenden Indikatoren zu einem Index, der dann als Single-Item-Konstrukt in die Analyse einfließt. Geht man von einer kompensatorischen Wirkung der Indikatoren aus, wird der Mittelwert der vorher normalisierten Indikatoren zur Gewichtung herangezogen. Bei Konstrukten deren Indikatoren keine kompensatorische Wir-kung haben, wird der Index dagegen als geometrisches Mittel der vorher normalisierten Indi-katoren berechnet (Albers und Hildebrandt, 2006). Die „Bündelung“ der korrelierten Indikato-ren zu einem Index hat allerdings den Nachteil, dass der einzelne Einfluss der zu einem In-dex zusammengefassten Indikatoren auf die Ausbildung des Konstrukts „verwässert“ wird. Je nach Untersuchungsgegenstand ist daher eine Einzelfallentscheidung für oder wider die Elimination von Indikatoren vorzunehmen. 3.) Externe Validität Der PLS-Ansatz unterstellt generell eine fehlerfreie Messung des formativen Messmodells, da keine Fehlerterme im Algorithmus berücksichtigt werden. Eine vollständige Abbildung ei-nes Konstrukts anhand formativer Indikatoren ist jedoch nicht immer möglich (Krafft et al., 2005). In solchen Fällen kann zur Evaluation der Gültigkeit der Konstruktmessung und der Übertragbarkeit auf andere Außenbedingungen das Konstrukt zusätzlich mit reflektiven Indi-katoren operationalisiert werden (vgl. z. B. Abbildung 7, Abschnitt 2.2.1.). Diese werden dann zur inhaltlichen Validierung des formativen Messmodells herangezogen, z. B. über ein MIMIC-Modell (Hauser und Goldberger, 1971; Jöreskog und Goldberger, 1975) oder ein Zwei-Konstrukt-Modell (Diamantopoulos und Winkelhofer, 2001; Eggert und Fassott, 2003). Die gleichzeitige Operationalisierung über reflektive Indikatoren ermöglicht dann die Bestimmung des Fehlerterms der latenten Variablen im MIMIC-Fall (Chin, 1998a; Chin, 1998b) sowie zu-sätzlich eine Beurteilung der Stärke und Signifikanz des Zusammenhanges im Zwei-Konstrukt-Modell (für weitergehende Erläuterungen siehe Eggert und Fassott, 2003; Krafft et al., 2005). Häufig wird jedoch eine zusätzliche Kontrollfrage gestellt, welche die inhaltliche Essenz des Konstrukts erfasst, und bivariate Korrelationen berechnet. Werden stark signifi-kante Beziehungen zwischen Indikatoren und Prüffrage nachgewiesen, die den theoretisch begründeten Zusammenhang widerspiegeln, kann von einer ausreichenden externen Validi-tät ausgegangen werden. D. h., nur die Indikatoren, die mit diesem „global item“

141

(Diamantopoulos und Winkelhofer, 2001, S. 272) signifikant und theoretisch begründet korre-lieren, werden beibehalten (Diamantopoulos und Winkelhofer, 2001; Giere et al., 2006; Spector, 1992). Ist das obige Vorgehen nicht möglich, da bspw. keine reflektiven Indikatoren vorliegen, kann alternativ ein bereits theoretisch begründeter und empirisch belegter Zusammenhang mit anderen Variablen des Strukturmodells hergestellt werden. Sog. nomologische Validität liegt vor, wenn zwischen der Messung eines Konstrukts und den Messungen anderer Konstrukte Abhängigkeitsbeziehungen bestehen, die durch eine übergeordnete Theorie postuliert wer-den (Diamantopoulos und Winkelhofer, 2001). So konstatieren Diamantopoulos und Winkel-hofer (2001), dass externe Validität nachgewiesen werden kann, falls sich der theoretisch erwartete Zusammenhang „tatsächlich“ empirisch ergibt. Diese Sichtweise ist diskussions-würdig, denn ob der theoretisch erwartete Zusammenhang real wirklich vorliegt, ist prinzipiell nicht nachweisbar: „Causal laws cannot be proven; they are always assumed by the resear-cher“ (Fornell, 1982, S. 7) (vgl. auch die Abschnitte 2.1. und 5.3.5.). Dies gilt insbesondere auch deswegen, weil in den Sozial- und Wirtschaftswissenschaften nur in den seltensten Fäl-len abgesicherte Theorien existieren (Homburg, 2000, S. 75). Die Ableitung einer „wahren“ Kausalität und die Sicherung einer zweifelsfreien nomologischen Validität sind in den aller-meisten Fällen unmöglich. Zu beachten ist, dass mit dieser Aussage ein theoriegeleitetes Vorgehen nicht ad absurdum geführt wird. Eine theoriegeleitete Modellentwicklung, wie sie auch bei dieser Arbeit vorgenommen wird, ist als „centerpiece“ (Maruyma, 1998, S. 4) uner-lässlich und die bestätigenden Hinweise bzgl. der theoretisierten Abhängigkeitsbeziehungen, die sich aus der empirischen Schätzung des Modells ergeben, können als Indiz für die nomo-logische Validität angesehen werden. 4.) Diskriminanzvalidität Die im Rahmen der reflektiven Messmodelle zur Überprüfung der Diskriminanzvalidität vor-gestellten Gütemaße können im formativen Fall nicht sinnvoll angewendet werden. Fritz (1995, S. 136) empfiehlt stattdessen, die Eigenschaften der sog. Prädiktorenspezifikation zu nutzen, indem die Korrelationen der Konstruktwerte, die stets im Rahmen des Algorithmus berechnet werden (vgl. Abschnitt 5.2.2.), miteinander verglichen werden. Eine hinreichende Diskriminanz ist gegeben, sofern die Korrelationen kleiner als 0,9 sind (Fritz, 1995, S. 136; Herrmann et al., 2006). Im Zusammenhang mit der Gütebeurteilung formativer Messmodelle und deren Modifikation ist allgemein zu beachten, dass unterschiedliche Sichtweisen bestehen. Rossiter (2002) ver-tritt einen vergleichsweise extremen Standpunkt. Im Rahmen der von ihm vorgeschlagenen C-OAR-SE-Prozedur110 zur Skalenentwicklung übt er grundsätzliche Kritik an der Bereini-gung formativer Skalen anhand statistischer Kriterien. Die Selektion von Indikatoren sollte ausschließlich auf Basis von Expertenurteilen durchgeführt werden. Der Fokus bei der Ope-

110 „Construct definition“, „Object classification“, „Attribute classification“, „Rater identification“, „Scale formation“ und „Enumeration and reporting“.

142

rationalisierung der zu messenden Konstrukte liegt damit ganz klar auf der auf Expertenurtei-le gestützten inhaltlichen Validität (Spreen, 2009, S. 201). Indessen stehen Eberl (2004, S. 15) und Huber et al. (2007, S. 39) der ausschließlichen Ori-entierung an Expertenurteilen kritisch gegenüber, da sich solche oftmals an Analogien sowie an Erfahrungen mit ähnlichen Konstrukten ausrichten. Dies birgt insbesondere für die Spezi-fikation neuartiger Konstrukte eine Gefahr. Eberl (2006a, S. 653) führt weiterhin aus: „… die Verneinung jeglicher statistischer Methoden im Zuge der Operationalisierung [ist] gleichbe-deutend mit der Verweigerung, Korrelation als kausale Konsequenz eines wie auch immer gearteten Zusammenhangs von Informationen zu betrachten.“ Die umsichtige Anwendung statistischer Kriterien auf Basis inhaltlicher Validitätsüberlegun-gen, die nicht ausschließlich auf Expertenurteilen beruhen, erscheint vor dem Hintergrund der beiden Standpunkte als ein sinnvoller Kompromiss. Insgesamt sollte das Entfernen von formativen Indikatoren im Rahmen von Segmentbildungen aus Gründen der Vergleichbarkeit immer simultan aus allen Segmentmodellen erfolgen.

5.3.3. Gütebeurteilung von Strukturmodellen Wird (werden) das (die) Messmodell(e) als zuverlässig und gültig angenommen, ist im An-schluss das innere Pfadmodell auf seine Güte hin zu untersuchen. Hierzu können im Gegen-satz zur Kovarianzstrukturanalyse keine inferenzstatistischen Tests durchgeführt werden, da PLS vergleichsweise wenig restriktive Annahmen zur Verteilung oder zur Unabhängigkeit der einzelnen Beobachtungen zugrunde liegen. Demzufolge kommen nichtparametrische Tests zum Einsatz. Aufgrund der Eigenschaft des PLS-Algorithmus, die endogenen Größen best-möglich zu erklären, sind vor allem auch Maße der Erklärungskraft (sog. Prognoserelevanz) heranzuziehen. Neben der Prognoserelevanz kommen zur Beurteilung der Strukturmodellgü-te auch das (globale) Bestimmtheitsmaß R² sowie die Stärke, Richtung und Signifikanz der Pfadkoeffizienten als Kriterien zum Einsatz (Chin, 1998b). Für jedes endogene Konstrukt lässt sich zunächst zur Beurteilung des inneren Modells das vom Verfahren der Regressionsanalyse bekannte Bestimmtheitsmaß R² ermitteln (Hulland, 1999). Dieses gibt an, welcher Varianzanteil der abhängigen Variablen durch die ursächli-chen Größen erklärt werden kann. Alternativ lässt sich auch ein durchschnittliches Be-stimmtheitsmaß aller Konstrukte angeben, das die Erklärungskraft des gesamten Struktur-modells verdeutlicht (Fornell und Bookstein, 1982b). Chin (1998b, S. 323) bezeichnet die für ein Literaturbeispiel geschätzten Bestimmtheitsmaße dreier latenter endogener Variablen in Höhe von 0,67, 0,33 und 0,19 als „substanziell“, „mittelgut“ bzw. „schwach“. Prinzipiell lässt sich jedoch keine allgemeingültige Aussage darüber machen, ab welcher Höhe ein R² als gut anzusehen ist, da diese Einstufung vielmehr von der spezifischen Problemstellung abhängt (Backhaus et al., 2006, S. 97). Darüber hinaus ist das R² allgemein nicht für alle endogenen Konstrukte ein gleichermaßen bedeutsames Gütemaß. Essentiell ist es vor allem für die Zielkonstrukte, deren Erklärung im Zentrum des Interesses steht (Spreen, 2009, S. 203).

143

Weiterhin kann auch die Veränderung des Bestimmtheitsmaßes bei Eliminierung oder Hinzu-fügung von Variablen Aufschluss über deren substanziellen Einfluss auf die abhängige laten-te Variable geben. Dies ist vor allem interessant, wenn einzelne Beziehungen noch nicht stark durch eine zugrunde liegende Theorie gefestigt sind (Schultz, 2006, S. 187). Dafür er-folgt die Berechnung der von Cohen (1988) entwickelten Effektstärke f²

Formel 17111

2included

2excluded

2included

R-1R -R

=f² .

Diese gibt an, inwieweit der erklärte Varianzanteil einer latenten Variablen durch die Berück-sichtigung der betrachteten exogenen Variablen im Strukturmodell erhöht werden kann. Da-bei stellen R²included bzw. R²excluded Bestimmtheitsmaße einer abhängigen latenten Variablen unter Einbeziehung bzw. Ausschluss einer bestimmten über das Strukturmodell mit ihr in Be-ziehung stehenden unabhängigen latenten Variablen dar, für die die Effektstärke bestimmt werden soll. Effektstärken von 0,02, 0,15 bzw. 0,35 können als Beurteilungsmaße dafür an-gesehen werden, ob eine exogene latente Variable einen geringen, mittleren bzw. großen Einfluss auf eine zu ihr in Beziehung stehende endogene Variable ausübt (Chin, 1998b, S. 317, in Anlehnung an Cohen, 1988, S. 411). In vielen Gebieten der verhaltenswissen-schaftlichen Forschung sind allerdings vergleichsweise kleine Effektgrößen eher die Regel als die Ausnahme (Henseler, 2006, S. 131), so dass die Beurteilungsmaße hier entspre-chend weniger restriktiv interpretiert werden sollten. Ein Mindestniveau von null muss jedoch erreicht werden, damit von einem Einfluss ausgegangen werden kann. Ein alternatives Maß zur Beurteilung der Prognoserelevanz des Strukturmodells ist der nichtparametrische Stone-Geisser-Test (Fornell und Cha, 1994; Geisser, 1975; Stone, 1976; Stone, 1974). Zu beachten ist, dass der Test nur für reflektive endogene Konstrukte anzu-wenden ist. Dieser Test berücksichtigt Ansätze der Kreuzvalidierung und nutzt dazu die sog. Blindfolding-Prozedur, eine Technik zur Wiederverwertung von Daten. Bei dieser Prozedur werden systematisch Teile der empirisch erhobenen Daten für einen bestimmten Block mani-fester Variablen als fehlend angenommen – also ausgelassen – und i. d. R. durch Mittelwerte ersetzt (Henseler und Ringle, 2006a). Im Anschluss wird eine herkömmliche PLS-Schätzung durchgeführt und die Modellparameter zur Rekonstruktion der als fehlend angenommenen Datenpunkte eingesetzt. Diese Prozedur wird so lange wiederholt, bis eine Auslassung und Schätzung sämtlicher Datenpunkte erfolgt ist. Die Anzahl der Blindfolding-Runden resultiert damit aus dem Auslassungsabstand D zwischen zwei nacheinander als fehlend anzuneh-menden und daraufhin zu schätzenden Fällen (Ringle und Spreen, 2007; Wold, 1982b).112

111 Anzumerken ist an dieser Stelle, dass die Formel für die Effektstärke in Chin et al. (2003, S. 211) falsch wie-dergegeben ist. 112 Nach Wold (1982a; 1982b) sollte D eine Primzahl sein, die zwischen der Anzahl der Indikatoren im Messmo-dell und der Anzahl der Fälle N liegt. Chin (1998a; 1998b) schlägt bei großer Fallzahl (N) einen Wert zwischen 5 und 10 vor. Insgesamt ist einsichtig, dass D kein Vielfaches von N sein darf.

144

Mittels dieser Prozedur lässt sich zum einen die Quadratsumme der Prognosefehler (E) er-mitteln. Die einzelnen Prognosefehler ergeben sich aus den Differenzen der wahren Werte der ausgelassenen Datenpunkte und der anhand der Schätzung mit den verbleibenden Da-tenpunkten rekonstruierten Werte (Chin, 1998b, S. 317; Fornell und Cha, 1994). Zum ande-ren lässt sich die Quadratsumme der Residuen einer trivialen Vorhersage auf Basis der Mit-telwerte der verbleibenden Indikatoren (O) bestimmen. Mit den bei jedem Durchlauf (d) ge-wonnenen Ed und Od lässt sich nun das Testkriterium Formel 18

dd

dd2

O

E

1=Q -

als Maß für die Prognoserelevanz eines Blocks manifester Variablen ermitteln. Q² stellt damit ein Maß dar, wie gut die empirisch erhobenen Werte ohne Verlust an Freiheitsgraden durch das Modell und seine Parameterschätzungen rekonstruiert werden können.113 Liegt der Wert dieses Gütekriteriums über null, besitzt das Modell eine hinreichende Prognosefähigkeit, und das Stone-Geisser-Kriterium ist erfüllt. Ein Wert von über null stellt sich ein, wenn die Sum-me der Residuen der trivialen Schätzung größer als die Summe der Residuen des geschätz-ten Modells ist. Liegt hingegen für Q² ein Wert kleiner als null vor, kann die Prognosefähig-keit nicht bestätigt werden – die über den Block manifester Variablen erfolgte Bestimmung einer latenten Variablen ist als unsicher anzusehen (Chin, 1998b, S. 317; Fornell und Cha, 1994; Herrmann et al., 2006). Analog zu Formel 17 können auch Veränderungen der Ergebnisse für Q² genutzt werden. So lässt sich durch Formel 19

2included

2excluded

2included

Q-1Q -Q

=q²

der relative Einfluss der Beziehungen im Strukturmodell auf die beobachteten Werte für jede latente endogene Variable bestimmen (Chin, 1998b). Hierdurch lässt sich ermitteln, ob für eine bestimmte zu analysierende latente endogene Variable andere latente Variable im inne-ren Pfadmodell einen „schwachen“ (q² um 0,02), „mittleren“ (q² um 0,15) oder „substanziel-len“ (q² um 0,35) Einfluss auf die Prognoserelevanz haben (Ringle und Spreen, 2007).114 Obwohl in der vorliegenden Literatur bisher keine Ausführungen dazu zu finden sind, scheint der im Rahmen der Effektstärke f² von Henseler (2006) angebrachte Hinweis hinsichtlich der Gefahr eines zu restriktiven Umgangs mit kritischen Grenzen im verhaltenswissenschaftli-chen Kontext auch für die vorstehend genannten q²-Werte angebracht. Die Erfassung der Strukturmodellgüte wird i. d. R. weiterhin anhand der Stärke, Vorzeichen und Signifikanz der Pfadkoeffizienten im Strukturmodell überprüft, die wie �-Koeffizienten ei-

113 Für eine detaillierte Herleitung von Q² vgl. Fornell und Cha (1994). 114 In Anlehnung an die Beurteilung der Effektstärke f² von Chin (1998b, S. 317).

145

ner herkömmlichen Regression interpretiert werden können. Insofern greifen die gleichen Ausführungen zu Stärke, Vorzeichen und Signifikanz von Beziehungen, wie sie schon bei der Gütebeurteilung formativer Messmodelle dargelegt sind. Hinzu kommt, dass bei der Be-urteilung des Strukturmodells das Gesamtbild und nicht das Gewicht einer einzelnen Bezie-hung die entscheidende Rolle spielt. Einzelne schwache Beziehungen sind unproblematisch, solange im Gesamtmodell substanzielle Beziehungen zu erkennen sind. Auch hier gilt insge-samt, dass – wenn überhaupt – eine Elimination nur auf Basis einer gehaltvollen inhaltlichen Begründung vorgenommen werden darf. Sofern Segmentbildungen durchgeführt werden, sollte aus Gründen der Vergleichbarkeit die Entfernung von Beziehungen im Strukturmodell auf Basis inhaltlicher Überlegungen immer simultan aus allen Segmentmodellen erfolgen. Liegen im jeweiligen Strukturmodell auch eine oder mehrere mediierende Wirkbeziehungen vor, wie etwa in Abbildung 30 mit den Pfadkoeffizienten �i dargestellt, sollten diese ebenfalls hinsichtlich ihrer Güte analysiert werden.

Abbildung 30: Mediatorenmodell Quelle: In Anlehnung an Eggert et al. (2005). Eine Variable fungiert als Mediator, sofern kleine Veränderungen der exogenen Variablen zu signifikanten Effekten auf die mediierende Variable führen, Veränderungen der Mediatorvari-ablen zu signifikanten Effekten auf die endogene Variable führen und ein signifikanter indi-rekter Effekt �1*�2 vorliegt. Falls der Pfad �3 nicht signifikant von null verschieden ist, liegt ei-ne vollständige Mediation vor, ansonsten spricht man von einer partiellen Mediation (Eggert et al., 2005). Alle Voraussetzungen können durch die Analyse eines Strukturmodells in obi-ger Form getestet werden. Zur Untersuchung der Frage, ob der indirekte Effekt �1*�2 von null verschieden ist, kann ein Z-Test nach Sobel (1982) verwendet werden. Die Teststatistik wird berechnet über Formel 20

2�

21

2�

22

21

21 •�+ •�

�•�=Z ,

wobei � die entsprechenden Standardfehler von �1 und �2 sind (Eggert et al., 2005). Zum Abschluss bietet sich die Berechnung der Größe „Variance Accounted For“ Formel 21

321

21

�+�•��•�

=VAF

an, um das Ausmaß des mediierenden Effektes zu ermitteln (Eggert et al., 2005).

Exogene Variable

Endogene Variable

Indikator 1

Indikator 2

Indikator 1

Indikator 2 Mediator-variable

Indikator 1 Indikator 2

�1 �2

�3

146

Eine Güteprüfung mediierender Effekte wird in empirischen Arbeiten bisher kaum durchge-führt. Dies gilt umso mehr für Arbeiten, die ein umfangreicheres als das in Abbildung 30 dar-gestellte Modell untersuchen, wie es bspw. bei der vorliegenden Arbeit der Fall ist (vgl. Ab-bildung 20). Neben fehlender Kenntnis könnte dafür ursächlich sein, dass inhaltliche Überle-gungen hinsichtlich der Theorie, auf deren Basis das Strukturmodell erarbeitet wird, eine partielle Mediation nicht zulassen. Ein bekanntes Beispiel, bei dem von einer vollständig me-diierten Wirkbeziehung ausgegangen wird, ist das Stimulus-Organism-Response-Modell, welches besagt, dass Umweltreize durch psychische Vorgänge im Organismus des poten-tiellen Käufers verarbeitet werden und sich anschließend in einer Verhaltensreaktion äußern (Kotler und Bliemel, 2001, S. 324 ff.). Ein direkter Wirkzusammenhang zwischen Umweltrei-zen und der Verhaltensreaktion ist in dem Modell nicht vorgesehen.

Ein weiterer Grund für die geringe Verbreitung des VAF nach Formel 21 könnte darin liegen, dass der Faktor nicht ohne weitere Modifikation anzuwenden ist, sofern bspw. ein „2-Mediatorenmodell“ wie in Abbildung 31 vorliegt. Eine Interpretation der Höhe des VAF ist daher aufgrund fehlender Vergleichsmaßstäbe schwierig bzw. bei umfangreicheren Modellen ohne Modifikation der Formel unmöglich. Eine modifizierte VAF für ein 2-Mediatorenmodell könnte Formel 22

35421

5421

�+�•�+�•��•�+�•�

=mVAF

sein. In der Literatur sind jedoch keine Ausführungen zu finden, die die Überlegungen zu Formel 22 belegen könnten.

Abbildung 31: 2-Mediatorenmodell Wie bereits in Abschnitt 2.2.2. erwähnt, existiert im PLS-Kontext kein globales Gütemaß, da eine Optimierung nur iterativ-lokal und nicht global stattfindet. Alternativ entwickeln Amato, Esposito Vinzi und Tenenhaus (vgl. dazu Tenenhaus et al., 2005) mit dem Goodness-of-Fit-Index (GoF)

Exogene Variable

Endogene Variable

Indikator 1

Indikator 2

Indikator 1

Indikator 2 Mediator-variable

Indikator 1 Indikator 2

�1 �2

�3

Mediator-variable

Indikator 1 Indikator 2

�4 �5

147

Formel 23

( ) { }( )

V

� explaining s'�,�R

H

�,xKorr

=GoF

V

1=evkv

2

K

1=kk

K

1=k

H

1=hkkh

2k

ein Maß, welches als „index for validating the PLS model globally“ (Tenenhaus et al., 2005, S. 173) interpretiert werden kann. Der GoF berücksichtigt die Güte einer Modellschätzung sowohl auf Messmodell- als auch auf Strukturmodellebene gleichzeitig. Dabei bezeichnet Hk die Zahl der manifesten Variablen für die latente Variable k, wobei K die Anzahl aller latenten Variablen repräsentiert. Der erste Radikand entspricht dem Mittelwert der quadrierten Korre-lationen zwischen den manifesten Variablen mit ihrem korrespondierenden Konstrukt, d. h. der durchschnittlichen Kommunalität (Korrelation zwischen Indikator und Konstrukt) im ge-samten Strukturmodell. Er stellt quasi das Gütemaß für die Messmodelle dar. Der zweite Radikand repräsentiert den Mittelwert der Werte der Bestimmtheitsmaße aller endogenen la-tenten Variablen. Er ist als Ausdruck der Erklärungsgüte der endogenen Variablen „ein mitt-leres“ Gütemaß für das innere Modell (Eberl, 2006b, S. 94). Der GoF ist demnach der geo-metrische Mittelwert aus dem Produkt der durchschnittlichen Kommunalität und dem durch-schnittlichen Bestimmtheitsmaß der endogenen Variablen. Da der GoF noch am Anfang seiner Entwicklung steht, sieht er sich der generellen Kritik ausgesetzt, wenig aussagekräftig zu sein. Zudem ist er nur ein sinnvolles Maß, sofern aus-schließlich reflektive Messmodelle verwendet werden, da eine hohe Kommunalität bzw. star-ke Korrelationen zwischen Indikatoren und zugehörigem Konstrukt für formative Messmodel-le nicht die Regel sind. Dennoch kann der GoF bspw. bei Modellvergleichen als „Trade-off-Gütekriterium“ herangezogen werden (Eberl, 2006b, S. 94).

5.3.4. Gütebeurteilung der Segmentierungsansätze

5.3.4.1. Statistische Ergebnisprüfung der multiplen Gruppenanalyse Bei der Diskussion der Ergebnisse der multiplen Gruppenanalyse werden vielfach keine sta-tistischen Prüfkriterien verwendet, sondern nur die Größe der Pfadkoeffizienten in den unter-schiedlichen Segmenten untersucht. Einerseits wird dieses Vorgehen größtenteils als relativ „naiv“ bezeichnet (Chin, 2003, S. 33; Dibbern und Chin, 2005, S. 146), andererseits befinden sich statistische Prüfkriterien beim PLS-Ansatz vielfach noch in der Entwicklungsphase (Fiedler, 2007), so dass nur einige wenige nachfolgend vorgestellt werden sollen. Standardmäßig kommen Tests auf die Signifikanz von unterschiedlichen Pfadkoeffizienten in unterschiedlichen Gruppen zum Einsatz.115 Derartige Signifikanztests basieren meist auf den klassischen t-Tests.116 Der „most expedient“ Ansatz, den bspw. auch Huber et al. (2007, S.

115 Diese kommen standardmäßig auch für die Prüfung auf Messmodellinvarianz vornehmlich für reflektiv operati-onalisierte Konstrukte zum Einsatz. 116 Die Nullhypothese ist dabei im Allgemeinen, dass kein Unterschied zwischen den Segmenten besteht (Jansen und Laatz, 2007, S. 339).

148

51 f.) im Rahmen des Tests auf Messmodellinvarianz befürworten, ist nach Chin (2000) die Berechnung eines t-Wertes für die Differenz zwischen zwei Schätzern, Formel 24

.

Dabei bezeichnet m (n) die Fallzahl des ersten (zweiten) Segments. 1xp ( 2

xp ) bezeichnet den

Schätzer bzgl. des Modellparameters im ersten (zweiten) Segment. )p( 1x� und )p( 2

x� sind

die Standardfehler, die durch Resampling-Verfahren wie z. B. das Bootstrapping für jedes Segment separat generiert werden. Der nach Formel 24 berechnete Wert t folgt einer t-Verteilung mit m+n-2 Freiheitsgraden (Chin, 2000). Das Vorgehen kann allerdings nur ange-wendet werden, sofern die beiden Standardfehler „… not too different from one another” sind, weil für beide Verteilungen dieselbe Varianz unterstellt wird (Chin, 2000). Andernfalls bietet sich der Smith-Satterthwait-Test mit der Teststatistik Formel 25117

22x

21x

2x

1x

))p( (+))p( (

-ppt=

an. Ein Problem für diese Art von t-Tests nach Formel 24 oder Formel 25 ist, dass die Normal-verteilungseigenschaft annähernd erfüllt sein muss (Chin, 2000).118 Zahlreiche Untersuchun-gen führen jedoch bei Anwendung der Tests keine Prüfung auf Normalverteilung durch bzw. missachten aus Mangel an Alternativen diese Annahmeverletzung bei der statistischen Er-gebnisüberprüfung von Gruppenvergleichen (Fiedler, 2007, S. 237; Rasch et al., 2006, S. 60). Eine Ursache für den unkritischen Umgang mit der Normalverteilungseigenschaft könn-te die Robustheit des t-Tests sein (Bortz, 2005, S. 131 ff.). Simulationsstudien zeigen, dass der t-Test auch bei einer Verletzung der Normalverteilungsannahme noch zuverlässige In-formationen liefern kann (Rasch et al., 2006, S. 59 f.). Für nicht annähernd normalverteilte Daten ist der „approximate randomization test“ geeignet, der keine Verteilungsannahmen voraussetzt (Chin, 2003). Die Durchführung des Verfahrens wird durch die steigenden Com-puterrechenleistungen möglich und generiert eine Teilmenge aller möglichen Datenpermuta-tionen zwischen den Stichprobengruppen. Dazu werden standardisierte Randomisierungs-verfahren für die Erstellung von Zufallsverteilungen verwendet. Die Signifikanz eines zweisei-tigen Permutationstests ergibt sich, sofern die tatsächlich beobachtete Differenz aus dem mittleren Verteilungsbereich (z. B. einem 95-Perzentil) der Differenzen der zufällig berechne-ten Teilmenge herausfällt (Chin, 2003; Chin und Dibbern, 2009; Dibbern und Chin, 2005.; Fiedler, 2007, S. 238).

117 Die Formel unterscheidet sich von vielen Standardformeln aus einschlägigen Lehrbüchern, da der Standard-fehler aus dem Bootstrapping-Verfahren bereits mittelwertadjustiert ist und sich die Formel demnach vereinfacht (Chin, 2000). 118 Der häufig verwendete Chow-Test basiert ebenfalls auf Verteilungsannahmen (Henseler und Fassott, 2009). Er lässt sich nur sinnvoll anwenden, sofern die Daten einer F-Verteilung folgen (Chow, 1960).

( ) ( )n1

+m1

*))p( (•2)-n+m(

1-n+))p( (•

2)-n+m(1-m

-ppt=

22x

221

x

2

2x

1x

149

Henseler und Fassot (2009) bezeichnen aktuell den Test nach Chin und Dibbern (2009), der keine Verteilungsannahmen enthält, als „First Choice“. Bisher sind diese „verteilungsfreien“ Verfahren in den gängigen Softwareversionen nicht verfügbar. Alternativ stehen für den Ver-gleich zwischen zwei unabhängigen Segmenten weitere nicht verteilungsabhängige Tests wie der häufig verwendete Mann-Whitney-Test zur Verfügung (Fiedler, 2007, S. 241). Sollen mehr als zwei unabhängige Segmente verglichen werden, bietet sich der Kruskal-Wallis-Test an. Dabei handelt es sich um eine Weiterentwicklung des Mann-Whitney-Tests (Kruskal und Wallis, 1952). Diese „Alternativtests“ stehen in vielen Softwareprogrammen zur Verfügung (Fiedler, 2007, S. 240 ff.).

5.3.4.2. Kritische Diskussion der statistischen Ergebnisprüfung multipler Gruppenanalysen

Entscheidet man sich für den Einsatz multipler Gruppenvergleiche, so wird empfohlen, vor der Überprüfung der geschätzten Modelle auf Unterschiede in den Segmenten zunächst zu kontrollieren, ob die Messmodelle in den unterschiedlichen Segmenten statistisch nicht signi-fikant voneinander abweichen (Messmodellinvarianz). Chin (2000) merkt dazu an: „One ca-veat … is, that there is an assumption that the underlying weights in the formation of con-structs for each group are approximately equivalent.” Diese Empfehlung resultiert aus dem traditionellen Vorgehen bei der Kovarianzstrukturanalyse, bei der bspw. auch die Fixierung von Messmodellparametern im Gegensatz zu PLS möglich ist (Huber et al., 2006, S. 701). Liegt eine solche Messmodellinvarianz vor, ist gewährleistet, dass die Assoziationen zwi-schen Konstrukten in den Segmenten auch auf denselben Konstruktinhalt zurückgreifen. Bei reflektiven Konstrukten ist demnach auf die Äquivalenz der Ladungen, bei formativen Kon-strukten auf die Äquivalenz der Gewichte zu testen (Chin, 2000; Huber et al., 2007, S. 50; Temme und Hildebrandt, 2009). Das Prüfen auf Messmodellinvarianz sollte allerdings insbesondere bei formativen Messmo-dellen kritisch hinterfragt werden. Der Bedeutungsinhalt einzelner Konstrukte kann in unter-schiedlichen Segmenten zwar durch die gleichen formativen Indikatoren gebildet werden, diese können aber unterschiedlich gewichtet sein. Bspw. könnten sowohl Frauen als auch Männer Online-Einzelhändler als vertrauenswürdig ansehen, die Sonderangebote und Güte-siegel zeigen. Dabei könnten bei Frauen allerdings die Gütesiegel einen wesentlich stärke-ren Einfluss als die Sonderangebote haben, während die Bedeutungsrelation im Männer-segment umgekehrt sein könnte. Häufig liegt in der Identifikation derartiger Sachverhalte durch formative Operationalisierung das originäre Forschungsinteresse. Im Beispiel läge aber nach dem traditionellen Vorgehen bei der Kovarianzstrukturanalyse keine Messmodel-linvarianz vor und eine Segmentbildung wäre problematisch bzw. nach konservativem Ver-ständnis nicht zulässig. Das vorstehend beschriebene originäre Forschungsanliegen würde dadurch aber gewissermaßen untergraben werden. Provokant wäre die These, einen Test auf Messmodellinvarianz vorzunehmen, jedoch nicht aus Sorge, sondern in der Hoffnung, statistisch signifikante Unterschiede der formativen Indikatoren zu identifizieren. Huber et al. (2007, S. 51) umschreiben die Problematik etwas gemäßigter. Sie sehen allgemein in der In-varianzforderung die Gefahr, „aufgrund geringfügiger Abweichung von einem strengen statis-

150

tischen Kriterium einen deutlichen Erkenntnisgewinn“ zu missachten. Nach den Autoren ist die Forderung nach Messmodellinvarianz weitestgehend erfüllt, sollte jedes Konstrukt in je-dem Segment durch die gleichen Indikatoren gemessen werden (Huber et al., 2007, S. 118). Insofern lässt sich darüber diskutieren, ob das von Chin (2003, S. 33) als „naiv“ betitelte Vor-gehen ohne statistischen Test im Einzelfall doch angebracht ist. Andererseits ist es auch denkbar, die Interpretation der Erkenntnisse aus dem Test auf signifikante Unterschiede for-mativer Indikatoren umzukehren. Derartige Unterschiede könnten eher als Erkenntnisgewinn denn als statistischer Mangel angesehen werden. Allerdings stellt sich im ersten Fall die Fra-ge, ob von einem deutlichen Erkenntnisgewinn gesprochen werden darf, sofern Kennziffern zur statistischen Absicherung des Sacherhalts nicht herangezogen werden. Demnach ergibt sich das Problem, entweder die eigentliche Erkenntnis aufgrund der Anwen-dung strenger statistischer Kriterien und deren traditioneller Interpretation zur Absicherung der Erkenntnis zu missachten oder aufgrund unzureichender statistischer Absicherung Er-kenntnisse zu erzielen, die im streng statistischen Sinn nicht als Erkenntnisse tituliert werden dürfen.119 Eine weitergehende Diskussion der „Problematik“ des Prüfens formativer Messmodelle auf Messmodellinvarianz in der Wissenschaftsgemeinde ist somit zu begrüßen.

5.3.4.3. Statistische Ergebnisprüfung von Interaktionstermen Die Bewertung des Interaktionseffektes findet anhand der Höhe der Pfadkoeffizienten und deren Signifikanz statt. Die Höhe des geschätzten Pfadparameters des Interaktionstermes b (vgl. Abbildung 28) zeigt das Ausmaß des Interaktionseffektes zwischen der unabhängigen und der abhängigen Variablen an (Chin et al., 2003). Die Forschungshypothese eines mode-rierenden Effektes kann nicht verworfen werden, wenn im Rahmen der Modellschätzung eine signifikante Interaktionsbeziehung feststellbar ist. Die Ausprägungen der Pfadkoeffizienten a und c sind dabei nicht relevant (vgl. Abbildung 28, Abschnitt 5.2.4.2.) (Baron und Kenny, 1986; Eggert et al., 2005). Um darüber hinaus festzustellen, in welchem Ausmaß der Interak-tionsterm zur Erklärungskraft der abhängigen Variablen beiträgt, kann die Veränderung des Bestimmtheitsmaßes R² im Sinne der bereits dargestellten Effektstärke (vgl. Formel 17, Ab-schnitt 5.3.3.) analysiert werden (Huber et al., 2007, S. 53). Auch hier gilt zu beachten, dass eine geringe Effektstärke nicht zwingend die Unwichtigkeit des zugrunde liegenden moderierenden Effektes bedeutet: „It is important to understand that a small f² does not necessarily imply an unimportant effect. Even a small interaction effect can be meaningful under extreme moderating conditions, if the resulting beta changes are meaningful, then it is important to take these conditions into account.” (Chin et al., 2003). Dies liegt an der Konzeption von f² und der Orientierung an der Höhe des Bestimmtheitsma-ßes. Es ist denkbar, dass die Interaktionsvariable durchaus einen deutlichen Effekt auf das 119 Die Argumentation für oder wider statistische Kriterien ist ebenso bei der generellen Diskussion des Einsatzes der Kovarianzstrukturanalyse oder des PLS-Verfahrens als Schätzmethode für Strukturgleichungsmodelle zu fin-den. Auf weitere Ausführungen soll an dieser Stelle verzichtet werde. Es sei auf Abschnitt 2.2. und die dort ange-gebene Literatur verwiesen.

151

Zielkonstrukt hat, dies jedoch im Vergleich zum Modell ohne Interaktionseffekt mit einer Ver-änderung der Erklärungsbeiträge anderer Variablen einhergeht, die ebenfalls auf das Ziel-konstrukt wirken, so dass sich das Bestimmtheitsmaß der abhängigen Variablen nur gering verändert. Geringe Effektstärke im Sinne von f², die häufig in verhaltenswissenschaftlicher Forschung auftritt (Henseler 2006, S. 131), bedeutet also nicht unbedingt geringe Relevanz des Moderators (Eberl, 2006b, S. 131).

5.3.5. Exkurs: Logik von Hypothesen- und Signifikanztests im Kontext der Gütebeurteilung von PLS-Pfadmodellen

5.3.5.1. (Fehl-)Implikationen aus der Untersuchung der Nullhypothese Die bisherigen Erläuterungen zur Gütebeurteilung von PLS-Pfadmodellen zeigen, dass für die Beurteilungen von Pfadkoeffizienten (im Mess- und Strukturmodell sowie für die Beurtei-lung von Unterschieden) Signifikanztests durchzuführen sind (vgl. auch im Folgenden Kreys-zig, 1991, S. 207 ff.; Schlittgen, 2008, S. 335 ff.; Thiel, 1998, S. 74 ff.). Damit die Untersuchung hypothetisch formulierter, „kausaler“120 Beziehungen (vgl. auch Ab-schnitt 2.1.) zwischen abhängigen und unabhängigen Variablen möglich wird, werden in sta-tistischen Tests (hier Signifikanztests) sog. Nullhypothesen herangezogen, die aussagen, dass keine solche Beziehung besteht und der Zusammenhang bspw. nur durch die Zufällig-keiten in der Datenstichprobe entstanden ist. Die im Verlauf der Arbeit formulierten Hypothe-sen sind daher nicht die Nullhypothese im statistischen Sinn, sondern entsprechend ihrer Ti-tel als Forschungshypothesen zu verstehen. Wird im Rahmen der empirischen Untersuchung die Nullhypothese verworfen, es bestünde kein Zusammenhang, können dabei zwei Fehlertypen auftreten: Beim Fehler 1. Art wird die Nullhypothese verworfen, obwohl sie richtig ist. D. h., die Forschungshypothese wird empi-risch bestätigt, obwohl sie tatsächlich falsch ist. Die Wahrscheinlichkeit für einen solchen Fehler heißt Signifikanzzahl oder Signifikanzniveau des Tests und wird mit � bezeichnet. Häufig wird auch von der Irrtumswahrscheinlichkeit � gesprochen. Je geringer die Irrtums-wahrscheinlichkeit, desto geringer das Risiko, dass ein Fehler 1. Art vorliegt. Empfohlen wird eine Irrtumswahrscheinlichkeit von 0,01, 0,05 oder 0,10, je nach forschungsspezifischen Rahmenbedingungen (Cohen, 1992). Aus dieser Irrtumswahrscheinlichkeit � ergibt sich ein Bereich für die jeweilige Teststatistik – eine aus den Stichprobendaten zu berechnende Kennzahl –, der nicht mehr mit der Nullhypothese vereinbar ist. Liegt die Teststatistik außer-halb des berechneten Bereichs, wird die Nullhypothese abgelehnt. Die empirischen Daten sprechen dann „signifikant" (Schlittgen, 2003, S. 324) für die Forschungshypothese. Die Ab-lehnung der Nullhypothese ist folglich entweder die richtige Entscheidung, oder sie geschieht fälschlicherweise mit einer nur sehr kleinen vorgegebenen Wahrscheinlichkeit.

120 Es ist zu beachten, dass wahre Kausalität nicht über den Hypothesentest selber, sondern nur über das Design der Studie oder logische Folgerungen angenommen, aber nie vollkommen belegt werden kann (Biemann, 2007; Popper, 1935) (vgl. auch die Ausführungen zum sozialwisssenschaftlichen Naturalismus in Abschnitt 2.1.).

152

Ein Fehler 2. Art liegt vor, wenn die Nullhypothese irrtümlich nicht abgelehnt wird. Es wird somit versäumt, einen existierenden empirischen Zusammenhang zu erkennen, obwohl die-ser vorliegt. Die Wahrscheinlichkeit hierfür wird mit 1-� bezeichnet, wobei � die Wahrschein-lichkeit ist, einen solchen Fehler 2. Art zu vermeiden. 1-� wird daher auch als die Teststärke bezeichnet. Die Ziele, die Wahrscheinlichkeit für den Fehler 1. Art und den Fehler 2. Art gleichzeitig zu minimieren, sind konkurrierend. Mit sinkender Wahrscheinlichkeit für den Feh-ler 1. Art steigt die Wahrscheinlichkeit für den Fehler 2. Art (vgl. für weitere Erläuterungen die oben angegebene Literatur). Der konkrete Zusammenhang zwischen � und � ist dabei in der Regel nicht näher bekannt. Ein sorgfältiger sprachlicher Umgang ist mit den Ergebnissen der Signifikanz- bzw. Hypothe-sentests angebracht, wie R. A. Fisher (zitiert aus Salsburg, 2002, S. 107 f.) klarstellt: „For the logical fallacy of believing that a hypothesis has been proved to be true, merely because it is not contradicted by the available facts, has no more right to insinuate itself in statistical than in other kinds of scientific reasoning. … tests of significance, when used accurately, are ca-pable of rejecting or invalidating hypotheses, in so far as they are contradicted by the data: but that they are never capable of establishing them as certainly true.” Auch in Standardlehrbüchern ist die sprachliche Verwendung nicht immer vollständig trenn-scharf. Backhaus et al. (2008, S. 73) stellen bspw. bei der Erläuterung des Signifikanztests fest, „… dass der Test zu einer Annahme der Nullhypothese führen wird, wenn diese korrekt ist, d. h. wenn kein Zusammenhang besteht“. Die Ausführungen von Fisher zeigen jedoch, dass eine Nullhypothese nicht mit demselben Test angenommen oder als korrekt bestätigt werden kann, der zur Verwerfung derselben Nullhypothese verwendet oder konzipiert wird. Zur Bestätigung müsste ein analoger Test und Verwendung der Alternativhypothese als Nullhypothese durchgeführt werden, was i. d. R. schwierig ist, da Verteilungsannahmen für die Alternativhypothese nicht bekannt sind. Die ursprüngliche Nullhypothese kann demnach le-diglich abgelehnt oder nicht abgelehnt werden und damit nur Hinweise auf eine etwaige (Un-)Korrektheit geben. Sprachlich einwandfrei wären demnach die Formulierungen „… die Da-ten haben nicht ausgereicht [die Nullhypothese] H0 abzulehnen“ oder „… Beibehaltung von H0“ (Schlittgen, 2008, S. 343). An dieser Stelle schließt sich der Kreis zu dem in Abschnitt 2.1. vorgestellten Prinzip des so-zialwissenschaftlichen Naturalismus und der Bedarf eines sehr sensiblen Umgangs mit Aus-sagen hinsichtlich der Kausalität, d. h. der „Existenz und Entdeckung kausaler Gesetzmäßig-keiten“ in betriebswirtschaftlichen empirischen Forschungsarbeiten.

5.3.5.2. Die Entscheidung für ein- oder zweiseitige Tests im PLS-Kontext Im Rahmen von Strukturgleichungsmodellen im Allgemeinen und PLS im Besonderen ist nun die Frage zu beantworten, ob ein- oder zweiseitige Tests für die Überprüfung der Zusam-menhangshypothese der Pfadkoeffizienten im Struktur- wie in den Messmodellen durchge-führt werden sollten.

153

Bei einem einseitigen Test lautet die Nullhypothese: „Der Pfadkoeffizient hat den Wert null“. Die Gegenhypothese bzw. Alternativhypothese lautet entweder: „Der Pfadkoeffizient hat ei-nen Wert größer null“ oder „der Pfadkoeffizient hat einen Wert kleiner null“. Die Nullhypothe-se des zweiseitigen Tests ist die gleiche wie beim einseitigen Test. Hingegen lautet die Al-ternativhypothese: „Der Pfadkoeffizient hat einen Wert, der von null verschieden ist“. Das Vorgehen in der Literatur ist diesbzgl. unterschiedlich: Fassott (2007, S. 160 ff.), Eberl (2006b, S. 155 ff.), Ringle (2004a, S. 329 ff.) oder Homburg und Giering (1996) nutzen ein-seitige Tests, während Ringle und Spreen (2007) sowie Huber et al. (2007, S. 45) für die Prüfung formativer Messmodelle und die Beziehungen im Strukturmodell Teststatistiken für zweiseitige Tests darlegen, ohne weitere Ausführungen dazu zu machen. Da es bei der Ent-scheidung für oder gegen ein- bzw. zweiseitige Tests grundsätzlich darum geht, ob es sich um gerichtete oder ungerichtete Hypothesen handelt (Biemann, 2007), könnte die Methodik des jeweils verwendeten Schätzalgorithmus ursächlich für die Unterschiede sein. Implizit könnten hier Annahmen bzw. Besonderheiten über die Gerichtetheit (Müller et al., 2008, S. 24) des Tests (ungerichtet oder gerichtet) enthalten sein. Im Gegensatz zur PLS-Orientierung der anderen oben genannten Autoren argumentieren Homburg und Giering (1996) wegen der damalig vergleichsweise geringen Verbreitung von PLS (vgl. Abschnitt 5.1.) im Kontext der Kovarianzstrukturanalyse. Hier werden ein im Vor-wege postuliertes Hypothesensystem getestet und vielfach etablierte reflektive Skalen ver-wendet. Durch die im Vorwege festgelegten Wirkrichtung(en) (positiv oder negativ) ist ein einseitiger Test adäquat, bei dem es „nur“ darum geht abzusichern, dass die im Vorwege postulierte positive oder negative Wirkrichtung signifikant von null verschieden ist. Demgegenüber ist bei der Anwendung von PLS ein „sensibler“ Umgang mit ein- oder zwei-seitigen Tests angebracht. Auch bei Anwendung der PLS-Schätzmethode erfolgt die Ent-wicklung des zugrunde liegenden Strukturgleichungsmodells theoriegetrieben und i. d. R. wer-den Vermutungen über die grundsätzliche Wirkrichtung (positiv oder negativ) angestellt. Häufig sind diese auch offensichtlich. Es kann z. B. davon ausgegangen werden, dass eine Kostenreduktion positiven Einfluss auf den unternehmensspezifischen Erfolg hat (Ringle, 2004a, S. 329 ff.). Eine eindeutige Wirkrichtung ist demnach sehr wahrscheinlich, und ein einseitiger Test ist damit nachvollziehbar. Andererseits ist bei PLS der prognoseorientierte Charakter und die Anpassung der Parameter hinsichtlich der Reproduktion der Rohdaten zu betonen, weswegen PLS häufig auch in neuartigen Forschungsfeldern Anwendung findet. In derartig explorativen Zusammenhängen liegt meist zwar auch eine theoriebasierte Vermu-tung über die Wirkrichtung vor, jedoch sind durchaus auch überraschende Ergebnisse mög-lich. Denkbar wäre die „zufällige“ Identifikation einer Wirkrichtung, die der ursprünglich theo-riebasierten Vermutung entgegensteht. Liegen demnach im jeweiligen Forschungskontext keine augenscheinlichen Wirkrichtungen vor, die postuliert werden, ist nur ein zweiseitiger Test adäquat. Die Aussage von Homburg und Pflesser (2000, S. 75), in den Sozial- und

154

Wirtschaftswissenschaften existieren nur in den seltensten Fällen abgesicherte Theorien, spricht sogar für die generelle Verwendung zweiseitiger Tests. Prinzipiell ist ein sorgfältiger Umgang mit diesem Thema angebracht und i. d. R. ist ein zwei-seitiger Test anzuraten.