Herzlich willkommen!

Auf dieser Seite finden Sie Aufgaben zum Lehrbuch „Statistik - eine interdisziplinäre Einführung mit interaktiven Elementen“ von Hans-Joachim Mittag und Katharina Schüller, die auch mit R gelöst werden können (7. Auflage, November 2023, und 6. Auflage, September 2020). Der R-Code der Lösungen ist jeweils direkt unter dem Aufgabentext eingestellt.

Rückmeldungen zu dieser Webseite sowie zum Lehrbuch an mail@mittag-statistik.de oder katharina.schueller@stat-up.com sind stets willkommen.

Aufgabe 3.2

(geschichtete Zufallsauswahl)

Von \(600\) Studierenden, die sich in einem erst \(3\) Semester laufenden Bachelor-Studiengang eingeschrieben haben, sollen \(120\) zufällig für eine Befragung ausgewählt werden. Als Schichtungskriterium wird die Semesterzahl verwendet. Es sind \(270\) Studierende im 1. Semester, \(180\) im 2. Semester und \(150\) im 3. Semester. Welchen Umfang haben die drei Schichten bei proportionaler Schichtung?

Bei proportionaler Schichtung entfallen \(\frac{270}{600}\cdot 120 = 54\) Studierende auf Schicht \(1\), \(\frac{180}{600}\cdot 120 = 36\) auf Schicht \(2\) und \(\frac{150}{600}\cdot 120 = 30\) auf Schicht \(3\).

schicht.1 <- (270 / 600) * 120
schicht.1
## [1] 54
schicht.2 <- (180 / 600) * 120
schicht.2
## [1] 36
schicht.3 <- (150 / 600) * 120
schicht.3
## [1] 30

Aufgabe 4.1

(Ergebnisse der Nationalen Verzehrstudie II für Männer)

In der sog. Nationalen Verzehrstudie II wurde vom Max Rubner-Institut von Ende \(2005\) bis Anfang \(2007\) eine etwa \(20.000\) umfassende Stichprobe der deutschen Bevölkerung nach ihrem Ernährungsverhalten befragt. Dabei wurde anhand des Body-Mass-Index BMI (vgl. hierzu Beispiel 8.1) u a. der Anteil der Unter- oder Normalgewichtigen (BMI < 25), der Übergewichtigen (\(25 \leq\) BMI < 30) und der Fettleibigen (BMI \(\geq 30\)) ermittelt. Die nachstehende Tabelle bezieht sich auf das diskrete Merkmal “Gewichtsstatus” mit den drei Ausprägungen \(a_1\), \(a_2\) und \(a_3\) (\(a_1\): Unter- oder Normalgewicht, \(a_2\): Übergewicht, \(a_3\): Fettleibigkeit). Die nachstehende Tabelle zeigt die absoluten und relativen Häufigkeiten dieser Ausprägungen für die an der Studie beteiligten Männer.

Erstellen der Tabelle

namen <- c(
  "Baden-Württember", "Bayern", "Berlin", "Brandenburg", "Bremen", "Hamburg", "Hessen", "Mecklenburg-Vorp.",
  "Niedersachsen", "Nordrhein-Westf.", "Rheinland-Pfalz", "Saarland", "Sachsen", "Sachsen-Anhalt",
  "Schleswig-Holstein", "Thüringen"
)

mh.a1 <- c(264, 345, 74, 51, 24, 35, 140, 28, 242, 405, 101, 24, 96, 42, 64, 50)
mf.a1 <- c(0.312, 0.339, 0.339, 0.311, 0.387, 0.385, 0.307, 0.322, 0.323, 0.327, 0.321, 0.338, 0.318, 0.309, 0.317, 0.309)
mh.a2 <- c(408, 455, 104, 71, 29, 42, 220, 38, 338, 583, 155, 37, 136, 65, 89, 74)
mf.a2 <- c(0.482, 0.447, 0.477, 0.433, 0.468, 0.462, 0.483, 0.437, 0.451, 0.471, 0.492, 0.521, 0.450, 0.478, 0.441, 0.457)
mh.a3 <- c(174, 218, 40, 42, 9, 14, 96, 21, 170, 249, 59, 10, 70, 29, 49, 38)
mf.a3 <- c(0.206, 0.214, 0.184, 0.256, 0.145, 0.154, 0.211, 0.241, 0.227, 0.201, 0.187, 0.141, 0.232, 0.213, 0.243, 0.235)

Tabelle.mann <- data.frame(namen, mh.a1, mf.a1, mh.a2, mf.a2, mh.a3, mf.a3)
Tabelle.mann
##                 namen mh.a1 mf.a1 mh.a2 mf.a2 mh.a3 mf.a3
## 1    Baden-Württember   264 0.312   408 0.482   174 0.206
## 2              Bayern   345 0.339   455 0.447   218 0.214
## 3              Berlin    74 0.339   104 0.477    40 0.184
## 4         Brandenburg    51 0.311    71 0.433    42 0.256
## 5              Bremen    24 0.387    29 0.468     9 0.145
## 6             Hamburg    35 0.385    42 0.462    14 0.154
## 7              Hessen   140 0.307   220 0.483    96 0.211
## 8   Mecklenburg-Vorp.    28 0.322    38 0.437    21 0.241
## 9       Niedersachsen   242 0.323   338 0.451   170 0.227
## 10   Nordrhein-Westf.   405 0.327   583 0.471   249 0.201
## 11    Rheinland-Pfalz   101 0.321   155 0.492    59 0.187
## 12           Saarland    24 0.338    37 0.521    10 0.141
## 13            Sachsen    96 0.318   136 0.450    70 0.232
## 14     Sachsen-Anhalt    42 0.309    65 0.478    29 0.213
## 15 Schleswig-Holstein    64 0.317    89 0.441    49 0.243
## 16          Thüringen    50 0.309    74 0.457    38 0.235

Stellen Sie die relativen Häufigkeiten in Form gestapelter Balkendiagramme dar. Unterdrücken Sie dabei die Wiedergabe der Häufigkeiten \(f(a_1)\) und ordnen Sie die Bundesländer nach zunehmender Größe der Summe \[\begin{align*} f(a_2) + f(a_3) = 1 - f(a_1). \end{align*}\] Aufgrund von Rundungen kann es bei der dritten Nachkommastelle zu Abweichungen kommen.

Lösung

Die folgende Abbildung zeigt die relativen Häufigkeiten für Männer (in \(\%\)) in Form eines gestapelten Balkendiagramms. Die numerischen Werte der beiden dargestellten Teilhäufigkeiten sind jeweils eingeblendet. Die Bundesländer sind nach zunehmender Größe der Summe \(f(a_2) + f(a_3)\) geordnet, also nach zunehmender Balkenlänge.

namen.2 <- c(namen, namen)
wert <- c(mf.a2, mf.a3)
häufigkeit <- c(rep("mf.a2", 16), rep("mf.a3", 16))
f.a2.plus.a3 <- c((mf.a2 + mf.a3), (mf.a2 + mf.a3))
Tabelle.balken <- data.frame(namen.2, wert, häufigkeit, f.a2.plus.a3)

library(ggplot2)

ggplot(data = Tabelle.balken, aes(x = reorder(namen.2, -(f.a2.plus.a3)), y = wert * 100, fill = häufigkeit)) +
  geom_bar(stat = "identity", width = 0.5, color = "black") +
  geom_text(aes(label = wert * 100), size = 3.5, position = position_stack(vjust = 0.5)) +
  scale_fill_manual(values = c("yellow", "red")) +
  theme(legend.title = element_blank(), axis.title = element_blank()) +
  coord_flip()

Püfen ob man ohne Tabelle.balken zu recht kommt

Zusatz

Vergleich mit den Häufigkeiten für die an der Studie beteiligten Frauen

fh.a1 <- c(487, 602, 157, 95, 35, 82, 229, 50, 425, 741, 175, 37, 155, 76, 133, 88)
ff.a1 <- c(0.527, 0.520, 0.581, 0.468, 0.556, 0.617, 0.513, 0.382, 0.499, 0.496, 0.545, 0.440, 0.431, 0.422, 0.506, 0.421)
fh.a2 <- c(287, 340, 65, 56, 14, 32, 135, 43, 261, 425, 74, 24, 113, 59, 87, 68)
ff.a2 <- c(0.311, 0.294, 0.241, 0.276, 0.222, 0.241, 0.303, 0.328, 0.307, 0.284, 0.231, 0.286, 0.314, 0.328, 0.331, 0.325)
fh.a3 <- c(150, 215, 48, 52, 14, 19, 82, 38, 165, 329, 72, 23, 92, 45, 43, 53)
ff.a3 <- c(0.162, 0.186, 0.178, 0.256, 0.222, 0.143, 0.184, 0.290, 0.194, 0.220, 0.224, 0.274, 0.256, 0.250, 0.164, 0.254)

Tabelle.frau <- data.frame(namen, fh.a1, ff.a1, fh.a2, ff.a2, fh.a3, ff.a3)
Tabelle.frau
##                 namen fh.a1 ff.a1 fh.a2 ff.a2 fh.a3 ff.a3
## 1    Baden-Württember   487 0.527   287 0.311   150 0.162
## 2              Bayern   602 0.520   340 0.294   215 0.186
## 3              Berlin   157 0.581    65 0.241    48 0.178
## 4         Brandenburg    95 0.468    56 0.276    52 0.256
## 5              Bremen    35 0.556    14 0.222    14 0.222
## 6             Hamburg    82 0.617    32 0.241    19 0.143
## 7              Hessen   229 0.513   135 0.303    82 0.184
## 8   Mecklenburg-Vorp.    50 0.382    43 0.328    38 0.290
## 9       Niedersachsen   425 0.499   261 0.307   165 0.194
## 10   Nordrhein-Westf.   741 0.496   425 0.284   329 0.220
## 11    Rheinland-Pfalz   175 0.545    74 0.231    72 0.224
## 12           Saarland    37 0.440    24 0.286    23 0.274
## 13            Sachsen   155 0.431   113 0.314    92 0.256
## 14     Sachsen-Anhalt    76 0.422    59 0.328    45 0.250
## 15 Schleswig-Holstein   133 0.506    87 0.331    43 0.164
## 16          Thüringen    88 0.421    68 0.325    53 0.254
Tabelle.b <- data.frame(
  namen, (Tabelle.frau$ff.a2 + Tabelle.frau$ff.a3), (Tabelle.mann$mf.a2 + Tabelle.mann$mf.a3),
  round((Tabelle.frau$ff.a2 + Tabelle.frau$ff.a3) / (Tabelle.mann$mf.a2 + Tabelle.mann$mf.a3), 3)
)
colnames(Tabelle.b) <- c("Bundesland", "Frau BMI", "Mann BMI", "q1")
Tabelle.b
##            Bundesland Frau BMI Mann BMI    q1
## 1    Baden-Württember    0.473    0.688 0.688
## 2              Bayern    0.480    0.661 0.726
## 3              Berlin    0.419    0.661 0.634
## 4         Brandenburg    0.532    0.689 0.772
## 5              Bremen    0.444    0.613 0.724
## 6             Hamburg    0.384    0.616 0.623
## 7              Hessen    0.487    0.694 0.702
## 8   Mecklenburg-Vorp.    0.618    0.678 0.912
## 9       Niedersachsen    0.501    0.678 0.739
## 10   Nordrhein-Westf.    0.504    0.672 0.750
## 11    Rheinland-Pfalz    0.455    0.679 0.670
## 12           Saarland    0.560    0.662 0.846
## 13            Sachsen    0.570    0.682 0.836
## 14     Sachsen-Anhalt    0.578    0.691 0.836
## 15 Schleswig-Holstein    0.495    0.684 0.724
## 16          Thüringen    0.579    0.692 0.837
Tabelle.c <- data.frame(
  namen, Tabelle.frau$ff.a3 / Tabelle.frau$ff.a2, Tabelle.mann$mf.a3 / Tabelle.mann$mf.a2,
  round((Tabelle.frau$ff.a3 / Tabelle.frau$ff.a2) / (Tabelle.mann$mf.a3 / Tabelle.mann$mf.a2), 3)
)
colnames(Tabelle.c) <- c("Bundesland", "Frau BMI", "Mann BMI", "q2")
Tabelle.c
##            Bundesland  Frau BMI  Mann BMI    q2
## 1    Baden-Württember 0.5209003 0.4273859 1.219
## 2              Bayern 0.6326531 0.4787472 1.321
## 3              Berlin 0.7385892 0.3857442 1.915
## 4         Brandenburg 0.9275362 0.5912240 1.569
## 5              Bremen 1.0000000 0.3098291 3.228
## 6             Hamburg 0.5933610 0.3333333 1.780
## 7              Hessen 0.6072607 0.4368530 1.390
## 8   Mecklenburg-Vorp. 0.8841463 0.5514874 1.603
## 9       Niedersachsen 0.6319218 0.5033259 1.255
## 10   Nordrhein-Westf. 0.7746479 0.4267516 1.815
## 11    Rheinland-Pfalz 0.9696970 0.3800813 2.551
## 12           Saarland 0.9580420 0.2706334 3.540
## 13            Sachsen 0.8152866 0.5155556 1.581
## 14     Sachsen-Anhalt 0.7621951 0.4456067 1.710
## 15 Schleswig-Holstein 0.4954683 0.5510204 0.899
## 16          Thüringen 0.7815385 0.5142232 1.520

Aufgabe 4.2

(Gruppierung von Daten und Histogrammerstellung)

Für \(80\) Arbeitnehmer in Singapur wurden für das Referenzjahr \(2019\) folgende Bruttostundenverdienste ermittelt (in Euro und auf eine Dezimalstelle gerundet), hier nach aufsteigender Größe sortiert:

stundenlohn <- c(
  3.8, 4.0, 4.6, 5.0, 5.1, 5.2, 5.2, 5.7, 5.9, 6.2,
  6.4, 6.8, 6.8, 7.0, 7.1, 7.2, 7.3, 7.4, 7.5, 7.5,
  7.8, 7.9, 8.1, 8.3, 8.4, 8.7, 8.9, 9.0, 9.3, 9.4,
  9.4, 9.5, 9.6, 9.6, 9.8, 9.9, 10.8, 11.9, 12.0, 12.5,
  12.7, 12.9, 13.0, 13.2, 13.4, 13.5, 13.9, 14.0, 14.2, 14.6,
  14.9, 15.4, 15.8, 16.4, 17.6, 17.9, 17.9, 18.2, 18.3, 19.1,
  19.9, 20.5, 21.8, 23.0, 23.7, 24.1, 24.6, 26.9, 27.1, 28.9,
  29.8, 32.0, 33.8, 34.8, 36.7, 39.1, 43.2, 45.4, 50.3, 60.7
)

Teilaufgabe a)

Was sind hier Merkmalsträger und Merkmal?

Merkmalsträger: Arbeitnehmer
Merkmal: Bruttoverdienst / Stunde (in EUR).

Teilaufgabe b)

Ordnen Sie die obigen Individualdaten 15 Einkommensklassen zu, in dem Sie die Daten zu Intervallen von 5 Euro gruppieren – analog zu Abbildung 4.7, die sich allerdings auf Bruttojahresverdienste bezog und daher Intervalle von \(5.000\) Euro vorsah. Ermitteln Sie dann für das Merkmal “Bruttostundenverdienste” die absoluten und die relativen Häufigkeiten für die Besetzung der Einkommensklassen, letztere in Prozent. Fertigen Sie eine Tabelle an, die in jeder Zeile eine Klasse sowie die zugehörige absolute und relative Häufigkeit für die Besetzung dieser Klasse ausweist.

Einteilung in Intervalle der Länge 5.

intervall.5 <- findInterval(stundenlohn, vec = (c(0:14) * 5))

absolute.häufigkeit <- vector(mode = "integer", length = 15)

for( i in 1:15 ){
  absolute.häufigkeit[i] <- sum(intervall.5 == i)
}

relative.häufigkeit <- absolute.häufigkeit / length(stundenlohn) * 100

klassengrenzen <-
  c(
  "0-5", "5-10", "10-15", "15-20", "20-25",
  "25-30", "30-35", "35-40", "40-45", "45-50",
  "50-55", "55-60", "60-65", "65-70","70+"
  )

Tabelle <- data.frame(klassengrenzen, absolute.häufigkeit, relative.häufigkeit)

names(Tabelle) <- c("Klassengrenzen", "absolute Häufigkeit", "relative Häufigkeit (in %)")

Tabelle
##    Klassengrenzen absolute Häufigkeit relative Häufigkeit (in %)
## 1             0-5                   3                       3.75
## 2            5-10                  33                      41.25
## 3           10-15                  15                      18.75
## 4           15-20                  10                      12.50
## 5           20-25                   6                       7.50
## 6           25-30                   4                       5.00
## 7           30-35                   3                       3.75
## 8           35-40                   2                       2.50
## 9           40-45                   1                       1.25
## 10          45-50                   1                       1.25
## 11          50-55                   1                       1.25
## 12          55-60                   0                       0.00
## 13          60-65                   1                       1.25
## 14          65-70                   0                       0.00
## 15            70+                   0                       0.00

Teilaufgabe c)

Visualisieren Sie auf der Basis obiger Klasseneinteilung die relativen Klassenbesetzungshäufigkeiten anhand eines Histogramms.

barplot(Tabelle$`relative Häufigkeit (in %)`, names.arg = Tabelle$Klassengrenzen, col = "purple", ylab = "%", las = 2)

Aufgabe 5.1

(Häufigkeitsverteilungen; Kenngrößen)

Teilaufgabe a)

Geben Sie für die \(6\) Merkmalsausprägungen die absoluten und die relativen Häufigkeiten an. Runden Sie die relativen Häufigkeiten auf \(3\) Stellen nach dem Komma oder verwenden Sie Brüche.

zahlen <- c(1, 2, 3, 2, 1, 3)
relativ <- sapply(zahlen, function(x){ round(x / 12, 3) })
Tabelle <- rbind(zahlen, relativ)

Häufigkeitsverteilung für das Merkmal “Augenzahl”:

Tabelle
##          [,1]  [,2] [,3]  [,4]  [,5] [,6]
## zahlen  1.000 2.000 3.00 2.000 1.000 3.00
## relativ 0.083 0.167 0.25 0.167 0.083 0.25

Teilaufgabe b)

Berechnen Sie für die durch die obigen \(12\) Augenzahlen definierte Urliste den Median und, auf \(2\) Nachkommastellen genau, den Mittelwert.

Wenn man die Augenzahlen nach Größe sortiert, erhält man eine Liste mit den Werten \(1\), \(2\) ,\(2\), \(3\), \(3\), \(3\), \(4\), \(4\), \(5\), \(6\), \(6\), \(6\). Der Median ist nach (5.1) wegen \(n = 12\) der Mittelwert aus dem 6. und 7. Element \(x_{(6)}\) resp. \(x_{(7)}\) der geordneten Liste, d. h. es ist \(\widetilde{x} = {\small {\frac{1}{2}}} \cdot(3+4) = 3,5\). % Nach (5.2) erhält man dann \(\overline{x}= \frac{1}{12}\cdot 45 = 3,75\). Wenn man alternativ von (5.4) ausgeht, ergibt sich dieser Wert wie folgt: \[\begin{align*} \overline{x} = \left(1\cdot \frac{1}{12} + 2\cdot \frac{1}{6} + 3 \cdot \frac{1}{4} + 4\cdot \frac{1}{6} +5\cdot \frac{1}{12} +6\cdot \frac{1}{4}\right) = \frac{45}{12} = 3,75. \end{align*}\]

würfel.zahlen <- c(1, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 6)

Median

median(würfel.zahlen)
## [1] 3.5

Mittelwert

round(mean(würfel.zahlen), 2)
## [1] 3.75

Teilaufgabe c)

Berechnen Sie für den obigen Datensatz mit \(12\) Elementen die Spannweite, die Varianz und die Standardabweichung. Die Ergebnisse sind auf \(3\) Stellen nach dem Dezimalkomma genau anzugeben.

Für die Spannweite folgt nach (5.5) der Wert \(R= 6 -1 = 5\). Für die Berechnung der Varianz kann man jede der Formeln (5.6), (5.7) oder (5.10) heranziehen. Bei Verwendung von (5.10) ergibt sich \[\begin{align*} s^2 &= \frac{(-2,75)^2}{12} + \frac{(-1,75)^2}{6} + \frac{(-0,75)^2}{4} + \frac{(0,25)^2}{6} + \frac{(1,25)^2}{12} + \frac{(2,25)^2}{4}. \end{align*}\] Man errechnet hieraus \(s^2 \approx 2,688\) und mit (5.8) dann \(s \approx 1,640\).

Spannweite

diff(range(würfel.zahlen))
## [1] 5

Varianz

würfel.varianz <- sum((würfel.zahlen - mean(würfel.zahlen))^2) / length(würfel.zahlen)
würfel.varianz
## [1] 2.6875

R verfügt über die Funktion var(),jedoch berechnet diese die inferenzstatistische Varianz

Standardabweichung

sqrt(würfel.varianz)
## [1] 1.63936

Aufgabe 5.2

(Quantile und Boxplots)

Teilaufgabe a)

Bestimmen Sie für den in Aufgabe 5.1 veranschaulichten Datensatz mit \(12\) Werten (Würfelexperiment) die Quartile \(x_{0,25}\) und \(x_{0,75}\).

Die Quartile bestimmen sich nach (5.11). Da der geordnete Datensatz durch \(1\), \(2\), \(2\), \(3\), \(3\), \(3\), \(4\), \(4\), \(5\), \(6\), \(6\), \(6\) gegeben ist, erhält man mit \(p = 0,25\) aufgrund der Ganzzahligkeit von \(n \cdot p\) \[\begin{align*} x_{0,25}&= {\small {\frac{1}{2}}} \cdot (x_{(3)} + x_{(4)}) = {\small {\frac{1}{2}}} \cdot (2 + 3) = 2,5. \end{align*}\] Analog folgt für denselben Datensatz mit \(p = 0,75\), wieder bei Beachtung der Ganzzahligkeit von \(n \cdot p\) \[\begin{align*} x_{0,75} &= {\small {\frac{1}{2}}} \cdot (x_{(9)} + x_{(10)}) = {\small {\frac{1}{2}}} \cdot (5 + 6) = 5,5. \end{align*}\]

würfel.zahlen <- c(1, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 6)
quantile(würfel.zahlen, 0.25, type = 2)
## 25% 
## 2.5
quantile(würfel.zahlen, 0.75, type = 2)
## 75% 
## 5.5

Teilaufgabe b)

Die \(12\) Werte lassen sich anhand eines Boxplots visualisieren. Geben Sie die \(5\) Größen an, durch die der Boxplot definiert ist. Wie groß ist der Interquartilsabstand \(Q\), der die Länge der Box festlegt?

Die \(5\) Charakteristika eines Boxplots sind in Abbildung (5.3) wiedergegeben. Es sind dies hier die beiden Extremwerte \(x_{(1)} = 1\) und \(x_{(12)} = 6\), die beiden Quartile \(x_{0,25} = 2,5\) und \(x_{0,75} = 5,5\) sowie der Median \(\widetilde{x} = 3,5\). Der Interquartilsabstand (5.12) beträgt \(Q = x_{0,75} - x_{0,25} = 3\).

Teilaufgabe c)

Wenn noch einmal gewürfelt wird und die Augenzahl \(3\) erscheint, hat man einen Datensatz der Länge $ n= 13$. Wie groß ist nun \(Q\)?

Wenn man den um \(x_{(13)} = 3\) erweiterten Datensatz nach aufsteigender Größe ordnet, hat man \(1\), \(2\), \(2\), \(3\), \(3\), \(3\), \(3\), \(4\), \(4\), \(5\), \(6\), \(6\), \(6\). Die Quartile \(x_{0,25}\) und \(x_{0,75}\) bestimmen sich nach (5.11). Mit \(n = 13\) und \(p = 0,25\) oder \(p = 0,75\) ist \(n \cdot p\) nicht mehr ganzzahlig. Es ist daher die obere Hälfte von (5.11) anzuwenden. Man erhält \[\begin{align*} x_{0,25} = x_{(\left[3,25\right] +1)} = x_{(4)} = 3; \hspace{0.2cm} x_{0,75} = x_{(\left[9,75\right] +1)} = x_{(10)} = 5. \end{align*}\] Für den Interquartilsabstand \(Q\) gilt \(Q = x_{0,75} - x_{0,25} = 2\).

würfel.zahlen.2 <- c(würfel.zahlen, 3)

q.1 <- quantile(würfel.zahlen.2, 0.25, type = 2)
q.1
## 25% 
##   3
q.2 <- quantile(würfel.zahlen.2, 0.75, type = 2)
q.2
## 75% 
##   5
q.2 - q.1
## 75% 
##   2

Aufgabe 5.3

(Quantile und Boxplots)

Teilaufgabe a)

Bestimmen Sie den Median und Interquartilsabstand des Datensatzes.

# Die \(100\) Werte der Rouletteserie lassen sich aus dem Balkendiagramm ablesen. Der Wert \(0\) tritt z. B. gar nicht auf, der Ausgang \(1\) insgesamt zweimal, der Ausgang \(2\) einmal etc. Man erhält den – hier nur unvollständig wiedergegebenen – Datensatz

Für den Median folgt \(\widetilde{x} = x_{0,5} = 19\), für das untere und obere Quartil \(x_{0,25} = 10\) bzw. \(x_{0,75} = 28\) und für den Interquartilsabstand \(Q = 18\).

roulette <- c(
  1, 1, 2, 3, 3, 3, 3, 3, 4, 4, 4, 5, 5, 5, 6, 6, 6, 6, 8, 8, 8, 9, 10, 10, 10, 10, 10, 10, 11, 11, 11, 12, 12, 12, 13, 13, 13, 13, 14, 14, 15, 15, 15, 15, 16, 16, 16,
  18, 19, 19, 19, 20, 20, 20, 20, 21, 21, 22, 22, 22, 22, 22, 23, 24, 24, 24, 25, 25, 26, 27, 27, 27, 27, 28, 28, 28, 30, 30, 30, 31, 31, 31, 32, 32, 32, 32, 33, 33, 33, 33, 33, 34, 34, 34, 35, 35, 36, 36, 36, 36
)

Median und Interquartilsabstand

median(roulette)
## [1] 19
quantile(roulette, type = 2)
##   0%  25%  50%  75% 100% 
##    1   10   19   28   36
quantile(roulette, 0.75, type = 2) - quantile(roulette, 0.25, type = 2)
## 75% 
##  18

Teilaufgabe b)

Welchen Wert nimmt die empirische Verteilungsfunktion für \(x = 2\) und für \(x = 35\) an?

Da die \(0\) gar nicht, der Ausgang \(1\) zweimal und der Ausgang \(2\) einmal auftrat, errechnet sich \(F(2)\) als Summe der zugehörigen relativen Häufigkeiten, d. h. als \(F(2) = 0 + 0,02 + 0,01 = 0,03\). Die relative Häufigkeit für den Ausgang \(36\) betrug \(0,04\). Hieraus leitet man für \(F(35)\) der Wert \(F(35) = 1 - 0,04 = 0,96\) ab.

Plot der empirischen Verteilungsfunktion

plot(ecdf(roulette))

empirische Verteilungsfunktion für x = 3

length(roulette[roulette == 0]) / 100 + length(roulette[roulette == 1]) / 100 + length(roulette[roulette == 2]) / 100
## [1] 0.03

empirische Verteilungsfunktion für x = 35

1 - length(roulette[roulette == 36]) / 100
## [1] 0.96

Teilaufgabe c)

Visualisieren Sie den Datensatz anhand eines Boxplots.

Der Boxplot weist die Extremwerte des Datensatzes, die Box und den innerhalb der Box liegenden Median aus. Der kleinste realisierte Ausgang ist hier \(1\), der größte \(36\). Die Box ist durch \(x_{0,25} = 10\) und \(x_{0,75} = 28\) begrenzt und der Median \(\widetilde{x} = 19\) liegt genau in der Mitte der Box.

Die folgende Grafik zeigt erneut das in der Aufgabe wiedergegebene Säulendiagramm, nun mit der dynamischen Statistiksoftware JMP erzeugt und mit zusätzlich oberhalb des Diagramms eingezeichnetem Boxplot.

boxplot(roulette, horizontal = TRUE, col = "yellow")

Aufgabe 7.1

(Gini Koeffizient)

Es seien \(x_1 = 20\), \(x_2 = 50\), \(x_3 = 60\) und \(x_4 = 70\) die Umsätze von vier Energieversorgungsunternehmen (in Millionen Euro) im letzten Geschäftsjahr. Die folgende Abbildung zeigt die auf der Basis dieser Daten errechnete Lorenzkurve, bei der die Stützpunkte \((u_i,v_i)\) betont sind. In der Tabelle neben der Grafik sind die Abszissenwerte \(u_i\) schon eingetragen.

library("DescTools")

x.1 <- 20
x.2 <- 50
x.3 <- 60
x.4 <- 70

v.1 <- x.1 / 200
v.1
## [1] 0.1
v.2 <- (x.1 + x.2) / 200
v.2
## [1] 0.35
v.3 <- (x.1 + x.2 + x.3) / 200
v.3
## [1] 0.65

Teilaufgabe a)

Errechnen Sie die Ordinatenwerte \(v_1\), \(v_2\) und \(v_3\) sowie den Gini-Koeffizienten \(G\) aus (7.5) und den normierten Gini-Koeffizienten \(G^*\) aus (7.7).

Man erhält für die Ordinatenwerte \(v_1\), \(v_2\) und \(v_3\) mit \(p_4 = 200\): \[\begin{align*} v_1 = \frac{p_1}{p_4} =0,1; \hspace{0.2cm} v_2= \frac{p_2}{p_4} = 0,35; \hspace{0.2cm} v_3= \frac{p_3}{p_4} = 0,65. \end{align*}\] Da die Umsätze nach Größe geordnet vorliegen (\(x_i = x_{(i)}\)), folgt \[\begin{align*} q_4 = 1 \cdot 20 + 2 \cdot 50 + 3 \cdot 60 + 4 \cdot 70 = 580. \end{align*}\] Mit der Merkmalssumme \(p_4 = 200\) und () resultiert \[\begin{align*} G = \frac{1}{4} \cdot \left(\frac{2 \cdot 580}{200} - 1 \right) - 1 = 0,2. \end{align*}\] Nach () folgt für den normierten Gini-Koeffizienten \[\begin{align*} G^* = \frac{4}{3} \cdot G = \frac{4}{15} \approx 0,267. \end{align*}\]

Der Inhalt \(A\) der markierten Fläche ist durch \(A = \frac{G}{2} = 0,1\) gegeben.

Man kann den Gini Koeffizienten manuell berechnen oder die Funktion gini aus dem DescTools package benutzen

x <- c(x.1, x.2, x.3, x.4)

Manuell

(1 / length(x)) * ((2 * sum(x * c(1, 2, 3, 4))) / (sum(x)) - 1) - 1
## [1] 0.2

DescTools

ginix <- Gini(x)
ginix
## [1] 0.2666667
norm.ginix <- round(length(x) / (length(x) - 1) * ginix, 3)
norm.ginix
## [1] 0.356

Teilaufgabe b)

Welchen Inhalt hat die farbig markierte Fläche \(A\)?

Der Inhalt \(A\) der markierten Fläche ist durch \(A = \frac{G}{2} = 0,1\) gegeben.

flaeche <- ginix / 2
flaeche
## [1] 0.1333333

Aufgabe 7.2

(Herfindahl-Index)

library(DescTools)

x.1 <- 20
x.2 <- 50
x.3 <- 60
x.4 <- 70

Teilaufgabe a)

Berechnen Sie mit den Daten aus Aufgabe 7.1 den Herfindahl-Index.

Für den Herfindahl-Index \(H\) erhält man mit \(p_4 = 200\): \[\begin{align*} H &= \frac{1}{p^2_4} \cdot \sum_{i=1}^{4}{x^2_i} = \frac{1}{200^2} \cdot (20^2 + 50^2 + 60^2 + 70^2) = 0,285. \end{align*}\]

Man kann den Herfindahl-Index manuell berechnen oder die Funktion Herfindahl aus dem DesTools package benutzen

x <- c(x.1, x.2, x.3, x.4)

Manuell

(1 / sum(x)^2) * sum(x^2)
## [1] 0.285

DescTools

Herfindahl(c(x.1, x.2, x.3, x.4))
## [1] 0.285

Teilaufgabe b)

Wie groß ist hier die untere Schranke für den Index?

Der Index \(H\) kann im Fall \(n = 4\) nicht kleiner als \(0,25\) sein.

Aufgabe 8.1

(Militärausgaben \(2014\) im Ländervergleich)

Die nachstehende Tabelle zeigt Daten des Stockholmer Friedensforschungsinstituts zu Militärausgaben in \(12\) Ländern für das Referenzjahr \(2014\).

Tabelle erstellen

land <- c("US", "CN", "RU", "SA", "FR", "UK", "IN", "DE", "JP", "BR", "IL", "SG")
absolut <- c(609.9, 216.4, 84.5, 80.8, 62.3, 60.5, 50.0, 46.5, 45.8, 31.8, 15.9, 9.8)
BIP <- c(3.5, 2.1, 4.5, 10.4, 2.2, 2.2, 2.4, 1.2, 1.0, 1.5, 5.2, 3.7)
kopf <- c(1891, 155, 593, 2747, 964, 952, 39, 562, 360, 157, 2040, 1789)
Tabelle <- data.frame(land, absolut, BIP, kopf)

In der Tabelle sind die absoluten Ausgaben ausgewiesen (in Milliarden US-Dollar), der Anteil dieser Werte am BIP (in %) sowie die Ausgaben pro Kopf (in US-Dollar). Die Länder sind nach absteigender Größe der absoluten Werte geordnet. In jeder Datenspalte sind die Extremwerte betont.

Veranschaulichen Sie die Werte in den letzten drei Spalten anhand je eines Säulendiagramms. Ordnen Sie die Werte jeder Spalte zuvor nach absteigender Größe und markieren Sie in den Grafiken jeweils den Balken für China. Verwenden Sie für die Ländernamen die angegebenen internationalen Codes.

Die nachstehend erzeugten Grafiken zeigen die nach absteigenden Werten geordneten Säulendiagramme. Die Betonung eines Landes (hier: China) macht gut sichtbar, dass sich die drei Ranglisten deutlich unterscheiden.

Barplot für die Tabelle

barplot(Tabelle[, "absolut"], ylab = "Militärausgaben (in US Dollar)", names = Tabelle[, "land"], col = c("blue", "green")[c(1, 2, rep(1, 10))])

Barplot für die Tabelle - nach BIP geordnet

Tabelle <- Tabelle[order(Tabelle$BIP, decreasing = TRUE), ]

barplot(Tabelle[, "BIP"], ylab = "Militärausgaben (in % des BIP)", names = Tabelle[, "land"], col = c("blue", "green")[c(rep(1, 8), 2, 1, 1, 1)])

Barplot für die Tabelle - nach pro Kopf Ausgaben geordnet

Tabelle <- Tabelle[order(Tabelle$kopf, decreasing = TRUE), ]

barplot(Tabelle[, "kopf"], ylab = "Militärausgaben pro Kopf (in US Dollar)", names = Tabelle[, "land"], col = c("blue", "green")[c(rep(1, 10), 2, 1)])

Aufgabe 8.2

(Zusammengesetzte Indexzahlen – Medaillenspiegel)

Tabelle (8.1) zeigte die ersten zehn Länder beim Medaillenspiegel für die Olympiade \(2008\). Die beiden wiedergegebenen alternativen Rangfolgen unterschieden sich hinsichtlich der Gewichtung von Gold, Silber und Bronze. Beim ersten Ranking wurde nur Gold berücksichtigt (Gewichte \(1 - 0 - 0\)), beim zweiten alle Medaillen mit gleichem Gewicht (\(1 - 1 - 1\)).

land <- c("China", "USA", "Russland", "Großbritannien", "Deutschland", "Australien", "Südkorea", "Japan", "Italien", "Frankreich")
gold <- c(51, 36, 23, 19, 16, 14, 13, 9, 8, 7)
silber <- c(21, 38, 21, 13, 10, 15, 10, 6, 10, 16)
bronze <- c(28, 36, 28, 15, 15, 17, 8, 10, 10, 17)
gesamt <- gold + silber + bronze

Tabelle <- data.frame(land, gold, silber, bronze, gesamt)
Tabelle
##              land gold silber bronze gesamt
## 1           China   51     21     28    100
## 2             USA   36     38     36    110
## 3        Russland   23     21     28     72
## 4  Großbritannien   19     13     15     47
## 5     Deutschland   16     10     15     41
## 6      Australien   14     15     17     46
## 7        Südkorea   13     10      8     31
## 8           Japan    9      6     10     25
## 9         Italien    8     10     10     28
## 10     Frankreich    7     16     17     40

Teilaufgabe a)

Wie sähe für die zehn Länder der Tabelle (8.2) die Rangfolge aus, wenn man alle Medaillenarten berücksichtigte, aber mit unterschiedlichen Gewichten (\(5 - 3 - 2\)), also jede Goldmedaille mit \(5\) Punkten, jede Silbermedaille mit \(3\) Punkten und jede Bronzemedaille mit \(2\) Punkten bewertete?

Gewichtet man die in Tabelle (8.2) aufgeführten Anzahlen für Gold, Silber und Bronze nach dem Schema \(5 - 3 - 2\) , resultiert folgende Rangfolge:

punkte <- 5 * gold + 3 * silber + 2 * bronze
Tabelle.a <- cbind(Tabelle, punkte)
Tabelle.a[order(Tabelle.a$punkte, decreasing = TRUE), ]
##              land gold silber bronze gesamt punkte
## 1           China   51     21     28    100    374
## 2             USA   36     38     36    110    366
## 3        Russland   23     21     28     72    234
## 4  Großbritannien   19     13     15     47    164
## 6      Australien   14     15     17     46    149
## 5     Deutschland   16     10     15     41    140
## 10     Frankreich    7     16     17     40    117
## 7        Südkorea   13     10      8     31    111
## 9         Italien    8     10     10     28     90
## 8           Japan    9      6     10     25     83

Teilaufgabe b)

Wie sähe die Rangfolge für die zehn Länder aus, wenn man zwar den Ansatz \(5 - 3 - 2\) verwendete, die Punktzahlen aber auf die bezöge? Gehen Sie dabei von folgenden Bevölkerungszahlen aus (in Millionen; Daten des US Census Bureau für \(2008\)): China – 1330,0; USA – 303,8; Russland – 140,7; Japan – 127,3; Deutschland – 82,4; Frankreich – 64,1; Italien – 58,1; Südkorea – 48,4; Australien – 21,0; Großbritannien – 60,9.

Dividiert man die Punktzahlen der obigen Tabelle noch durch die in Klammern angegebene Einwohnerzahl (in Millionen) des jeweiligen Landes, resultiert eine ganz andere Rangfolge, bei der Länder mit hoher Einwohnerzahl erwartungsgemäß an Boden verlieren:

einwohner <- c(1330.0, 303.8, 140.7, 60.9, 82.4, 21.0, 48.4, 127.3, 58.1, 64.1)
Tabelle.b <- cbind(Tabelle.a, einwohner)
Tabelle.b$punkte <- round(Tabelle.b$punkte / Tabelle.b$einwohner, 2)
Tabelle.b[order(Tabelle.b$punkte, decreasing = TRUE), ]
##              land gold silber bronze gesamt punkte einwohner
## 6      Australien   14     15     17     46   7.10      21.0
## 4  Großbritannien   19     13     15     47   2.69      60.9
## 7        Südkorea   13     10      8     31   2.29      48.4
## 10     Frankreich    7     16     17     40   1.83      64.1
## 5     Deutschland   16     10     15     41   1.70      82.4
## 3        Russland   23     21     28     72   1.66     140.7
## 9         Italien    8     10     10     28   1.55      58.1
## 2             USA   36     38     36    110   1.20     303.8
## 8           Japan    9      6     10     25   0.65     127.3
## 1           China   51     21     28    100   0.28    1330.0

Aufgabe 9.1

(Randverteilungen)

Bei einer medizinischen Studie wurde für \(n = 360\) Personen erfasst, ob sie regelmäßig einen erhöhten Alkoholkonsum hatten und ob sie Leberfunktionsstörungen aufwiesen. Es sei \(X\) das Merkmal “Alkoholkonsum” mit den Ausprägungen \(a_1\) (Konsum oberhalb eines definierten Schwellenwerts) und \(a_2\) (nicht oberhalb des Schwellenwerts) und \(Y\) das Merkmal “Leberstatus” mit den Ausprägungen \(b_1\) (Funktionsstörungen vorhanden) und \(b_2\) (keine Funktionsstörungen).

Die Randverteilungen erhält man mit Aufsummieren der Zeilen resp. Spalten:

vierfeldertafel <- matrix(c(62, 14, 96, 188), nrow = 2, ncol = 2)

Zeilensumme berechnen und hinzufügen

zeilen.summen <- c(sum(vierfeldertafel[1, ]), sum(vierfeldertafel[2, ]))
vierfeldertafel <- cbind(vierfeldertafel, zeilen.summen)

Spaltensumme berechnen und hinzufügen

spalten.summen <- c(sum(vierfeldertafel[, 1]), sum(vierfeldertafel[, 2]), NA)
vierfeldertafel <- rbind(vierfeldertafel, spalten.summen)

Spalten und Zeilennamen hinzufügen

colnames(vierfeldertafel)[1:2] <- c("b.1", "b.2")
rownames(vierfeldertafel)[1:2] <- c("a.1", "a.2")

vierfeldertafel
##                b.1 b.2 zeilen.summen
## a.1             62  96           158
## a.2             14 188           202
## spalten.summen  76 284            NA

Aufgabe 10.1

(Zusammenhangsmessung bei Nominalskalierung)

vierfeldertafel <- matrix(c(62, 14, 96, 188), nrow = 2, ncol = 2)

Teilaufgabe a)

Berechnen Sie den \(\chi^2\)-Koeffizienten auf der Basis der Daten aus Aufgabe 9.1. Runden Sie das Ergebnis auf drei Dezimalstellen.

Man erhält mit den Werten der in Aufgabe 9.1 wiedergegebenen Vierfeldertafel bei Anwendung von (10.7) und Beachtung von \(n = 360\) \[\begin{align*} \chi^2 = \frac{360\cdot (62 \cdot 188 - 96\cdot 14)^2}{158 \cdot 202 \cdot76 \cdot284} = \frac{360\cdot 10312^2}{158 \cdot 202 \cdot76 \cdot284} \approx 55,571. \end{align*}\]

Den Chi-Quadrat Koeffizienten findet man unter X-squared

chisq.test(vierfeldertafel, correct = FALSE)
## 
##  Pearson's Chi-squared test
## 
## data:  vierfeldertafel
## X-squared = 55.571, df = 1, p-value = 9.015e-14

Teilaufgabe b)

Bestimmen Sie dann auch den Phi-Koeffizienten \(\Phi\) aus (10.3) und den in (10.5) eingeführten Kontingenzkoeffizienten \(V\) nach Cramér.

Für den \(\Phi\)-Koeffizienten folgt nach (10.3) \[\begin{align*} \Phi = \sqrt{\frac{55,571}{360}} \approx 0,393. \end{align*}\]

Phi Koeffizient

Phi(vierfeldertafel)
## [1] 0.3928916

Das Cramérsche Zusammenhangsmaß \(V\) aus (10.5) ist bei einer Vierfeldertafel wegen \(M -1 = 1\) mit dem \(\Phi\)-Koeffizienten identisch.

Kontingenzkoeffizient V nach Cramer

CramerV(vierfeldertafel)
## [1] 0.3928916

Aufgabe 10.2

(Zusammenhangsmessung bei metrischer Skalierung)

Für \(10\) Staaten \(i\), deren Namen codiert sind (z. B. “AT” für “Austria”), sind für ein bestimmtes Referenzjahr Wertepaare \((x_i, y_i)\) bekannt, wobei \(x_i\) Ausprägungen des Merkmals \(X\) (= Preisanstieg in %) und \(y_i\) Ausprägungen des Merkmals \(Y\) (= Erwerbslosenquote in %) bezeichnen:

Wenn man eine Arbeitstabelle anlegt, erhält man folgende Werte:

x.i <- c(4.1, 2.4, 8.4, 8.2, 11.9, 4.6, 9.4, 3.6, 10.6, 7.9)
y.i <- c(10.1, 4.0, 5.7, 10.2, 7.5, 2.1, 8.0, 1.3, 2.2, 6.3)

Tabelle <-
  data.frame((x.i - mean(x.i)),
             (x.i - mean(x.i))^2,
             (y.i - mean(y.i)),
             (y.i - mean(y.i))^2,
             (x.i - mean(x.i)) * (y.i - mean(y.i))

  )
names(Tabelle) <-
  c("x.i-m(x.i)", "(x.i-m(x.i))^2", "(y.i-m(y.i))",
    "(y.i-m(y.i))^2", "(x.i-..)*(y.i-..)"
  )

Tabelle
##    x.i-m(x.i) (x.i-m(x.i))^2 (y.i-m(y.i)) (y.i-m(y.i))^2 (x.i-..)*(y.i-..)
## 1       -3.01         9.0601         4.36        19.0096          -13.1236
## 2       -4.71        22.1841        -1.74         3.0276            8.1954
## 3        1.29         1.6641        -0.04         0.0016           -0.0516
## 4        1.09         1.1881         4.46        19.8916            4.8614
## 5        4.79        22.9441         1.76         3.0976            8.4304
## 6       -2.51         6.3001        -3.64        13.2496            9.1364
## 7        2.29         5.2441         2.26         5.1076            5.1754
## 8       -3.51        12.3201        -4.44        19.7136           15.5844
## 9        3.49        12.1801        -3.54        12.5316          -12.3546
## 10       0.79         0.6241         0.56         0.3136            0.4424

Relevante Spaltensummen

sum(Tabelle$`(x.i-m(x.i))^2`)
## [1] 93.709
sum(Tabelle$`(y.i-m(y.i))^2`)
## [1] 95.944
sum(Tabelle$`(x.i-..)*(y.i-..)`)
## [1] 26.296

Einsetzen der relevanten Spaltensummen am Tabellenende in (10.11) liefert \[\begin{align*} r = \frac{ \sum_{i=1}^{10}{(x_i - \overline{x})(y_i - \overline{y})} }{ \sqrt{\sum_{i=1}^{n}{(x_i - \overline{x})^2} } \cdot \sqrt{\sum_{i=1}^{10}{(y_i - \overline{y})^2}} } = \frac{26,31}{\sqrt{93,69}\cdot \sqrt{95,94}} \approx 0,278. \end{align*}\]

Dieser Wert beinhaltet schwache Korrelation.

Alternativ lässt sich folgende Tabelle anlegen

land <- c("BE", "DE", "UK", "IE", "IT", "JP", "CA", "AT", "SE", "US")
Tabelle.alt <- data.frame(land, x.i, y.i)
Tabelle.alt
##    land  x.i  y.i
## 1    BE  4.1 10.1
## 2    DE  2.4  4.0
## 3    UK  8.4  5.7
## 4    IE  8.2 10.2
## 5    IT 11.9  7.5
## 6    JP  4.6  2.1
## 7    CA  9.4  8.0
## 8    AT  3.6  1.3
## 9    SE 10.6  2.2
## 10   US  7.9  6.3

Der Korellationskoeffizient nach Pearson lässt sich dann wie folgt bestimmen

cor(Tabelle.alt$x.i, Tabelle.alt$y.i, method = "pearson")
## [1] 0.2773257

Aufgabe 10.3

(Zusammenhangsmessung bei ordinaler Skalierung)

Fünf mit A, B, … , E bezeichnete Mannschaften bestreiten ein Handballturnier im Winter in der Halle und im Sommer im Freien. Nachstehend sind die Platzierungen bei beiden Turnieren wiedergegeben. Untersuchen Sie anhand des Rangkorrelationskoeffizienten von Spearman, ob zwischen dem Abschneiden der Mannschaften in der Halle und im Freien ein Zusammenhang besteht.

Der Rangkorrelationskoeffizient kann nach (10.16) bestimmt werden, weil kein Rangplatz doppelt besetzt ist. Für die Anwendung von (10.16) sind die Rangplatzdifferenzen \(d_i\) und deren Quadrate zu ermitteln:

\(d_i\) wird hier mit rang.diff bezeichnet

mannschaft <- c("A", "B", "C", "D", "E")
platzierung.halle <- c(1, 2, 3, 4, 5)
platzierung.frei <- c(2, 3, 1, 5, 4)
rang.diff <- platzierung.halle - platzierung.frei
Tabelle <- data.frame(mannschaft,platzierung.halle,platzierung.frei,rang.diff, rang.diff^2)
Tabelle
##   mannschaft platzierung.halle platzierung.frei rang.diff rang.diff.2
## 1          A                 1                2        -1           1
## 2          B                 2                3        -1           1
## 3          C                 3                1         2           4
## 4          D                 4                5        -1           1
## 5          E                 5                4         1           1

Hieraus folgt dann für das Zusammenhangsmaß \(r_{SP}\): \[\begin{align*} r_{SP} = 1 - \frac{6 \cdot \sum_{i=1}^{5}{d_i^2}}{5 \cdot(5^2 -1)} = 1 - \frac{6 \cdot 8}{120} = 0,6. \end{align*}\] Rangkorellation nach Spearman

cor(platzierung.halle, platzierung.frei, method = "spearman")
## [1] 0.6

Aufgabe 11.4

(Kombinatorik)

Eine Hochschule ordnet allen Studierenden eine mehrstellige Zahl zu (Matrikel-Nummer), die zu Identifikationszwecken verwendet wird. Wieviele Studierende könnte man maximal unterscheiden, wenn für jede Person anstelle einer Zahl \(5\) Großbuchstaben aus der Buchstabenfolge von A bis J verwendete, also z. B. BCBJD oder AFGGC?

Da Buchstaben mehrfach auftreten können und es hier auf die Reihenfolge der Buchstaben ankommt, liegt der Fall “Ziehen mit Zurücklegen und mit Berücksichtigung der Reihenfolge” der Tabelle (11.1) vor. Da die Folge von A bis J insgesamt \(10\) Buchstaben umfasst, werden \(n = 5\) Elemente aus einer Grundgesamtheit von \(N = 10\) Elementen gezogen. Die Anzahl der Möglichkeiten beträgt insgesamt \(10^5 = 100.000\).

pos <- which(letters == "j")

as.integer(pos^5)
## [1] 100000

Aufgabe 12.1

(Würfeln mit zwei Würfeln)

Es werde mit zwei “fairen” Würfeln gewürfelt, also solchen mit gleicher Eintrittswahrscheinlichkeit für jede Augenzahl, und die Summe \(X\) der beiden Augenzahlen festgestellt.

Teilaufgabe a)

Welche Ausprägungen sind für die Zufallsvariable \(X\) möglich? Welche Eintrittswahrscheinlichkeiten besitzen die Ausprägungen?

Die Augensumme \(X\) beim Würfeln mit zwei Würfeln hat mindestens den Wert \(2\) und höchstens den Wert \(12\). Für die Eintrittswahrscheinlichkeiten \(f(x)\) gilt nach (12.1) \[\begin{align*} f(x)= \begin{cases} \frac{1}{36} \approx 0,0277 \ &\text{ für } x = 2 \text{ und für } x = 12;\\ \frac{1}{18} \approx 0,0556 \ &\text{ für } x = 3 \text{ und für } x = 11;\\ \frac{1}{12} \approx 0,0833 \ &\text{ für } x = 4 \text{ und für } x = 10;\\ \frac{1}{9} \approx 0,1111 \ &\text{ für } x = 5 \text{ und für } x = 9;\\ \frac{5}{36} \approx 0,1388 \ &\text{ für } x = 6 \text{ und für } x = 8;\\ \frac{1}{6} \approx 0,1667 \ &\text{ für } x = 7; \\ 0 \ &\text{ für alle sonstigen } x.\\ \end{cases} \end{align*}\] Die Funktion \(f(x)\) ist symmetrisch bezüglich \(x = 7\).

library(data.table)

eintrittswahrscheinlichkeit <- function(x) {
  Tupeldt <- data.frame(row.names = c("1.Wurf", "2.Wurf"))
  for (i in 1:6) {
    for (j in 1:6) {
      tupel <- c(i, j)
      Tupeldt <- cbind(Tupeldt, tupel)
    }
  }
  Tupeldt <- as.data.table(Tupeldt)
  Anzahl <- Tupeldt[, Tupeldt[, lapply(.SD, sum) == x], with = FALSE]
  return(ncol(Anzahl) / ncol(Tupeldt))
}

Wir wenden die Funktion auf alle Ausprägungen an, also von 2 bis 12.

for (k in 2:12) {
  print(k)
  print(eintrittswahrscheinlichkeit(k))
}
## [1] 2
## [1] 0.02777778
## [1] 3
## [1] 0.05555556
## [1] 4
## [1] 0.08333333
## [1] 5
## [1] 0.1111111
## [1] 6
## [1] 0.1388889
## [1] 7
## [1] 0.1666667
## [1] 8
## [1] 0.1388889
## [1] 9
## [1] 0.1111111
## [1] 10
## [1] 0.08333333
## [1] 11
## [1] 0.05555556
## [1] 12
## [1] 0.02777778

Teilaufgabe b)

Welchen Wert hat die Verteilungsfunktion \(F(x)\) der Augensumme \(X\) an den Stellen \(x = 0,5\), \(x = 3\), \(x = 3,5\) und \(x = 6\)?

Für die gemäß (12.3) definierte Verteilungsfunktion \(F(x)\) gilt z. B. \(F(0,5) = 0\), \(F(3) = f(2) + f(3) = \frac{1}{12} \approx 0,0833\), \(F(3,5) = F(3)\) und \(F(6) = F(3) + f(4) + f(5) + f(6) = \frac{5}{12} \approx 0,41667\).

verteilungsfunktion <- function(x) {
  a <- floor(x)
  Ergebnis <- 0
  for (j in 0:a) {
    Ergebnis <- Ergebnis + eintrittswahrscheinlichkeit(j)
  }
  return(Ergebnis)
}

verteilungsfunktion(0.5)
## [1] 0
verteilungsfunktion(3)
## [1] 0.08333333
verteilungsfunktion(3.5)
## [1] 0.08333333
verteilungsfunktion(6)
## [1] 0.4166667

Teilaufgabe c)

Berechnen Sie auch den Erwartungswert von \(X\).

Da die Augenzahlen bei den beiden Würfeln unabhängig voneinander sind und der Erwartungswert der Augenzahl eines Würfels jeweils den Wert \(3,5\) hat, besitzt der Erwartungswert der Augensumme \(X\) nach (12.13) den Wert \(7\).

mean(2:12)
## [1] 7

Aufgabe 12.2

(Binomialverteilung)

In der Fußgängerzone einer Stadt ist ein Glücksrad installiert. Dieses ist in vier gleich große Teile unterteilt, die farblich unterschieden sind. Interessierte Passanten dürfen das Rad einmal drehen und erhalten in Abhängigkeit von der Farbe des am Ende oben stehenden Sektors einen Preis. Wenn der Sektor “`Rot”’ oben steht, gibt es einen Luftballon, bei “Gelb” einen Kugelschreiber, bei “Blau” ein Freiexemplar der aktuellen Ausgabe einer Tageszeitung und bei “Grün” eine kostenlose Zustellung der Zeitung für eine ganze Woche.

Eine \(4\)-köpfige Familie bleibt vor dem Glücksrad stehen. Jedes Familienmitglied betätigt es einmal. Wie groß ist die Wahrscheinlichkeit, dass bei den \(4\) Versuchen

Das Drehen des Glücksrades entspricht einem Bernoulli-Experiment (mögliche Ausgänge: eine bestimmte Farbe tritt auf / tritt nicht auf). Die Anzahl \(X\) des Auftretens einer bestimmten Farbe ist binomialverteilt mit \(p = 0,25\) und \(n = 4\), weil es vier Farben gibt (jede mit Eintrittswahrscheinlichkeit \(p = 0,25\)) und die Bernoulli-Kette vier Experimente umfasst.

Teilaufgabe a)

mindestens zwei Kugelschreiber gewonnen werden?

Die Wahrscheinlichkeit \(P(X \leq 1)\) die Farbe “Gelb” zu erhalten, errechnet sich als Wert \(F(1)\) der Verteilungsfunktion einer B(4; 0,25)-verteilten Zufallsvariablen. Da Tabelle (19.1) keine Werte mit \(p = 0,25\) ausweist, wird das nebenstehende Lernobjekt verwendet. Es resultiert \(F(1) = 0,7383\). Die gesuchte Wahrscheinlichkeit \(P(X \geq 2)\) dafür, dass die Farbe “Gelb” erscheint, ist die Komplementärwahrscheinlichkeit von \(P(X \leq 1)\), d. h. es gilt \[\begin{align*} P(X \geq 2) = 1 - P(X \leq 1) = 0,2617. \end{align*}\]

1 - pbinom(1, 4, 0.25)
## [1] 0.2617188

Teilaufgabe b)

genau einmal “Grün” auftritt, also ein einwöchiges Freiabonnement gewährt wird?

Die Wahrscheinlichkeit \(P(X = 1)\) die Farbe “Grün” zu erreichen errechnet sich als Differenz der Werte \(F(1) = P(X \leq 1) = 0,7383\) und \(F(0) = P(X \leq 0) = P(X = 0) = 0,3164\) der Verteilungsfunktion der genannten Binomialverteilung. Man erhält \(0,7383 - 0,3164 = 0,4219\).

dbinom(1, 4, 0.25)
## [1] 0.421875

Aufgabe 12.3

(Hypergeometrische Verteilung)

Aus einer Urne mit \(10\) Kugeln, die sich nur hinsichtlich der Farbe unterscheiden, werden nacheinander \(n = 5\) Kugeln Zurücklegen gezogen. Von den Kugeln sind \(M = 7\) rot, die restlichen \(N - M = 3\) Kugeln schwarz. Von Interesse sei die Anzahl \(X\) der insgesamt gezogenen roten Kugeln.

Teilaufgabe b)

Wie groß ist die Wahrscheinlichkeit dafür, dass insgesamt \(4\) rote Kugeln gezogen werden?

Die Wahrscheinlichkeit \(P(X = 4)\) dafür, dass \(4\) rote Kugeln gezogen werden, ist nach (12.26) gegeben durch \[\begin{align*} f(4) = \frac{\binom{7}{4}\binom{3}{1}}{\binom{10}{5}}= \frac{35\cdot 3}{252} \approx 0,4167. \end{align*}\]

dhyper(4, 7, 3, 5)
## [1] 0.4166667

Teilaufgabe c)

Mit welcher Wahrscheinlichkeit sind \(4\) Kugeln rot?

Die Wahrscheinlichkeit \(P(X \leq 4)\) dafür, dass \(4\) rote Kugeln gezogen werden, errechnet sich nach (12.27) als Summe aller von Null verschiedenen Werte der Wahrscheinlichkeitsfunktion \(f(x)\) bis zur Stelle \(x = 4\), d. h. als \(F(4) = f(2) + f(3) + f(4)\). Die Werte \(f(2)\) und \(f(3)\) bestimmt man erneut mit(12.26): \[\begin{align*} f(2) = \frac{\binom{7}{2}\binom{3}{3}}{\binom{10}{5}}= \frac{2520\cdot 1}{252} \approx 0,0833.\\ f(3) = \frac{\binom{4}{3}\binom{6}{2}}{\binom{10}{5}}= \frac{4\cdot 15}{252} \approx 0,4167. \end{align*}\]

Damit folgt schließlich \(F(4) \approx 0,0833 + 0,4167 + 0,4167 = 0,9167\). Diesen Wert kann man auch unter Verwendung des nebenstehenden Lernobjekts erhalten, wenn man dort \(N = 10\), \(M = 7\), \(n =5\) und \(x = 4\) einstellt.

Gleiches gilt für den Wert \(f(4)\). Letzterer ergibt sich als Differenz \(f(4)= F(4) - F(3)\) zweier benachbarter Werte der Verteilungsfunktion \(F(x)\). Für \(F(3)\) erhält man anhand des Lernobjekts bei Wahl von \(N = 10\), \(M = 7\), \(n =5\) und \(x = 3\) den Wert \(F(3) = 0,5000\). Für \(f(4)\) resultiert somit der schon in Aufgabenteil a) errechnete Wert \(f(4) \approx 0,9167 - 0,5000 = 0,4167\).

dhyper(2, 7, 3, 5) + dhyper(3, 7, 3, 5) + dhyper(4, 7, 3, 5) - 0.5
## [1] 0.4166667

Aufgabe 12.4

(Hypergeometrische Verteilung)

In Österreich und der Schweiz wird das Lottospiel “6 aus 45” gespielt, nicht “6 aus 49” wie in Deutschland.

Die Anzahl \(X\) der Richtigen beim Spiel “6 aus 45” ist H(n; M; N)-verteilt mit \(n = 6\), \(M = 6\) und \(N = 45\).

Teilaufgabe a)

Berechnen Sie den Erwartungswert für die Anzahl \(X\) der Richtigen.

Für \(\mu = E(X)\) folgt nach (12.24), dass \(\mu = 6 \cdot \frac{6}{45} = 0,8\).

6 * (6 / 45)
## [1] 0.8

Teilaufgabe b)

Wie groß ist hier die Wahrscheinlichkeit des Ereignisses “6 Richtige”?

Die Anzahl der möglichen Ausgänge beim Spiel “6 aus 45” ist nach Tabelle (11.1) – siehe dort den Fall “Ziehen ohne Zurücklegen und ohne Berücksichtigung der Anordnung” – gegeben durch \[\begin{align*} \binom{45}{6} = \frac{45!}{39!\cdot 6!} = \frac{45\cdot 44\cdot 43\cdot 42\cdot 41\cdot 40}{6\cdot 5\cdot 4\cdot 3\cdot 2\cdot 1}= {8.145.060}. \end{align*}\]

Da von den \(8.145.060\) möglichen Ausgängen, die alle gleichwahrscheinlich sind, nur ein einziger “6 Richtige” beinhaltet, gilt nach (11.5) für die Wahrscheinlichkeit \(f(6) = P(X = 6)\) \[\begin{align*} f(6) = \frac{1}{8.145.060} \approx 0,12277 \cdot 10^{-6}. \end{align*}\]

Die Wahrscheinlichkeit beträgt also ca. \(12,28 \cdot 10^{-6}\) %. Zum Vergleich: Beim deutschen Lottospiel “6 aus 49” beträgt die Wahrscheinlichkeit für “6 Richtige” nur \(0,0715 \cdot 10^{-6}\), also \(7,15 \cdot 10^{-6}\) % (s. Beispiel 12.5).

dhyper(6, 6, 39, 6)
## [1] 1.227738e-07

Aufgabe 12.5

(Hypergeometrische Verteilung)

Aus einer Gruppe von \(6\) Personen, die aus \(2\) Männern und \(4\) Frauen besteht, werden im Rahmen eines Gewinnspiels zwei Gewinner ermittelt. Dazu wird jeder Person eine der Zahlen \(1\), \(2\), …, \(6\) zugeordnet, die jeweilige Zahl auf einem Zettel notiert und die Zettel in identischen Briefumschlägen abgelegt. Nach Durchmischen der Umschläge werden nacheinander und ohne Zurücklegen zwei Umschläge zufällig ausgewählt. Die in den gezogenen Umschlägen enthaltenen Zahlen definieren dann die Gewinner. Wie groß ist die Wahrscheinlichkeit dafür, dass das Gewinnerpaar aus einer Frau und einem Mann besteht?

Die gesuchte Wahrscheinlichkeit lässt sich unter Verwendung der hypergeometrischen Verteilung mit Parametern \(N =6\), \(M = 2\) und \(n =2\) bestimmen. Der Parameter \(M\) entspricht hier der Anzahl der Männer in der Grundgesamtheit, aus der eine Stichprobe gezogen wird. Man erhält für das Ereignis “`eine Frau und ein Mann bilden das Gewinnerpaar”’ nach () bei Einsetzen der genannten Parameter und mit \(\binom{2}{1} = 2\) sowie \(\binom{4}{1} = 4\) \[\begin{align*} f(1)= \frac{\binom{2}{1}\cdot\binom{6-2}{2-1}}{\binom{6}{2}} = \frac{2\cdot4}{\binom{6}{2}} = \frac{8}{15} \approx 0,533. \end{align*}\]

Diese Wahrscheinlichkeit lässt sich alternativ auch allein anhand kombinatorischer Überlegungen errechnen. Seien \(1\), \(2\), \(3\) und \(4\) die Zahlen, die den vier Frauen zugeordnet werden, und \(5\) resp. \(6\) die Codierungen für die beiden Männer. Es gibt \(15\) Möglichkeiten zwei verschiedene Zahlen auszuwählen, nämlich

\((1;2)\), \((1;3)\), \((1;4)\), \((1;\textbf{5})\), \((1;\textbf{6})\), \((2;3)\), \((2;4)\), \((2;\textbf{5})\), \((2;\textbf{6})\), \((3;4)\), \((3;\textbf{5})\), \((3;\textbf{6})\), \((4;5)\), \((4,\textbf{6})\), \((5;6)\)

Die Gesamtzahl der Möglichkeiten aus der Gruppe von \(6\) Personen \(2\) Personen auszuwählen (Ziehen ohne Zurücklegen und Berücksichtigung einer Reihenfolge) lässt sich auch nach Tabelle ermitteln: \[\begin{align*} \binom{6}{2} = \frac{6!}{4! \cdot 2!} = 15. \end{align*}\] Unter diesen \(15\) Wertepaaren sind \(8\) Paare, bei denen genau eine der beiden Zahlen \(5\) und \(6\) vorkommt (s. Markierungen durch fette Schrift). Man errechnet mit () für die gesuchte Wahrscheinlichkeit den Wert \(\frac{8}{15} \approx 0,533\).

dhyper(1, 2, 4, 2)
## [1] 0.5333333

Aufgabe 13.1

(Stetige Rechteckverteilung)

Ein Berufstätiger geht jeden Werktag zu einer Bushaltestelle, von der die Buslinie \(112\) zu seiner Firma fährt. Die Linie verkehrt alle \(20\) Minuten.

Der Fahrgast schlendert in der Regel nach dem Frühstück ohne auf die Uhr zu schauen zur Bushaltestelle und nimmt den nächsten Bus der Linie \(112\). Die Wartezeit \(X\) lässt sich anhand der stetigen Gleichverteilung modellieren. Geben Sie die Dichtefunktion der Verteilung an. Berechnen Sie auch den Erwartungswert \(E(X)\) und interpretieren Sie das Ergebnis.

Der Fahrgast trifft mit Sicherheit innerhalb eines \(20\)-Minuten-Intervalls ein, das durch die Abfahrtszeiten zweier aufeinanderfolgender Busse der Linie \(112\) begrenzt ist. Die Wartezeit \(X\) bis zum Eintreffen des nächsten Busses lässt sich anhand einer stetigen Gleichverteilung über \(\left[0;20\right]\) modellieren. Deren Dichtefunktion ist nach (13.6) durch \[\begin{align*} f(x)= \begin{cases} \frac{1}{20} \ &\text{ für } 0 \leq x \leq 20 \\ 0 \ &\text{ für alle sonstigen } x. \end{cases} \end{align*}\] gegeben. Für den Erwartungswert errechnet man dann mit (13.12) den Wert \(E(X) = 10\), der sich als mittlere Wartezeit bei zufälligem Eintreffen an der Bushaltestelle interpretieren lässt.

Dichtefunktion <- function(x) {
  if (x >= 0 & x <= 20) {
    return(1 / 20)
  } else {
    return(0)
  }
}

mean(0:20)
## [1] 10

Aufgabe 13.2

(Normalverteilung und Standardnormalverteilung)

Teilaufgabe a)

Eine Zufallsvariable \(X\) sei mit Erwartungswert \(\mu = 3\) und Standardabweichung \(\sigma = 4\). Berechnen Sie die Wahrscheinlichkeit \(P(3 \leq X \leq 7)\) dafür, dass \(X\) im Intervall \(\left[3; 7\right]\) liegt.

Für die \(N(3; 4^2)\)-verteilte Zufallsvariable \(X\) gilt mit (13.23) \[\begin{align*} P(3 \leq X \leq 7) &= \Phi(1) - \Phi(0) = 0,8413 - 0,5 = 0,3413. \end{align*}\]

pnorm(7, 3, 4) - pnorm(3, 3, 4)
## [1] 0.3413447

Mit “pnorm(.)” ist die Verteilungsfunktion der Normalverteilung bezeichnet.

Teilaufgabe b)

Bestimmen Sie für eine Zufallsvariable \(Z\) die fünf Wahrscheinlichkeiten \(P(Z \leq 2,9)\), \(P(0 \leq Z \leq 2,3)\), \(P(- 1,3 \leq Z \leq 0)\), \(P(- 0,8 \leq Z \leq 0,8)\) und \(P(- 1,3 \leq Z \leq 1,2)\).

Mit (13.20) – (13.23) und Tabelle (19.2) folgt: \[\begin{align*} P(Z \leq 2,9) &= \Phi(2,9) = 0,9981\\ P(0 \leq Z \leq 2,3) &= \Phi(2,3) - \Phi(0) = 0,9893 - 0,5 = 0,4893\\ P(- 1,3 \leq Z \leq 0) &= \Phi(0) - \left[1 - \Phi(1,3)\right] = 0,4032\\ P(- 0,8 \leq Z \leq 0,8) &= \Phi(0,8) - \left[1 - \Phi(0,8)\right] = 0,5762\\ P(- 1,3 \leq Z \leq 1,2) &= \Phi(1,2) - \left[1 - \Phi(1,3)\right] = 0,7881.\\ \end{align*}\]

Wenn Sie R installiert haben, können Sie Aufgabe 13.2 besonders einfach lösen. Zur Berechnung von Wahrscheinlichkeiten des Typs (13.23) ist in der R Konsole nach dem Zeichen > nur das Kommando pnorm(\(b,\mu, \sigma\)) – pnorm(\(a,\mu, \sigma\)) einzugeben, wobei für den Term in Aufgabenteil a die Werte \(b = 7\), \(a = 3\) sowie \(\mu = 3\), \(\sigma = 4\) einzusetzen sind und z. B. zur Berechnung des letzten Terms in Aufgabenteil b die Werte \(b = 1,2\), \(a = - 1,3\), \(\mu = 0\) und \(\sigma = 1\). Mehrere Berechnungen lassen sich zusammen ausführen. Für die beiden genannten Wahrscheinlichkeiten erhält man

pnorm(7, 3, 4) - pnorm(3, 3, 4)
## [1] 0.3413447
pnorm(1.2, 0, 1) - pnorm(-1.3, 0, 1)
## [1] 0.7881298

Mit “pnorm(.)” ist die Verteilungsfunktion der Normalverteilung bezeichnet.

Die obigen Werte erhält man entsprechend mit

pnorm(2.9, 0, 1)
## [1] 0.9981342
pnorm(2.3, 0, 1) - pnorm(0, 0, 1)
## [1] 0.4892759
pnorm(0, 0, 1) - pnorm(-1.3, 0, 1)
## [1] 0.4031995
pnorm(0.8, 0, 1) - pnorm(-0.8, 0, 1)
## [1] 0.5762892
pnorm(1.2, 0, 1) - pnorm(-1.3, 0, 1)
## [1] 0.7881298

Aufgabe 13.3

(Normalverteilung und Standardnormalverteilung)

In den Krankenhäusern einer Region wurde eine Erhebung zum Geburtsgewicht von Neugeborenen durchgeführt. Dabei blieben Frühgeborene unberücksichtigt. Die Untersuchung ergab, dass sich das in Gramm angegebene Geburtsgewicht \(X\) in guter Näherung durch eine Normalverteilung mit Erwartungswert \(\mu = 2950\) und Standardabweichung \(\sigma = 120\) modellieren lässt.

Teilaufgabe a)

Wie groß ist die Wahrscheinlichkeit, dass ein Neugeborenes nicht mehr als \(2800\) Gramm wog?

Nach (13.21) gilt für die Verteilungsfunktion \(F(x)\) der \(N(2950; 120^2)\)-verteilten Zufallsvariablen \(X\) \[\begin{align*} F(x) &= P(X \leq 2800) = \Phi \left(\frac{2800 - 2950}{120}\right) = \Phi(-1,25). \end{align*}\] Mit (13.20) und Tabelle (19.2) folgt: \[\begin{align*} \Phi(-1,25) = 1 - \Phi(1,25) = 1 - 0,8944 = 0,1056. \end{align*}\] Die Wahrscheinlichkeit dafür, dass ein Neugeborenes ein Geburtsgewicht von höchstens 2800 Gramm aufwies, betrug \(10,56\) %.

pnorm(2800, 2950, 120)
## [1] 0.1056498

Teilaugabe b)

Wie groß ist die Wahrscheinlichkeit für ein Gewicht zwischen \(2800\) und \(3250\) Gramm?

Mit (13.23) verifiziert man, dass \[\begin{align*} P(2800 \leq X \leq 3250) &= \Phi \left(\frac{3250 - 2950}{120}\right) - \Phi\left(\frac{2800 - 2950}{120}\right)\\ &= \Phi(2,5) - \Phi(-1,25). \end{align*}\] Erneuter Rückgriff auf (13.20) und Tabelle (19.2) ergibt \[\begin{align*} \Phi(2,5) - \Phi(-1,25) &= \Phi(2,5) - 1 + \Phi(1,25) = 0,8882. \end{align*}\] Die Wahrscheinlichkeit dafür, dass ein Neugeborenes zwischen 2800 Gramm und 3250 wog, betrug \(88,82\) %.

pnorm(3250, 2950, 120) - pnorm(2800, 2950, 120)
## [1] 0.8881406

Teilaufgabe c)

Was beinhaltet das \(0,1\)-Quantil der Normalverteilung mit \(\mu = 2950\) und Varianz \(\sigma^2 = 120^2\) und welchen Wert hat es hier?

Das \(0,1\)-Quantil \(x_{0,1}\) der Normalverteilung ist mit dem \(0,1\)-Quantil \(z_{0,1}\) der Standardnormalverteilung über (13.26) verknüpft. Man errechnet mit \(z_{0,1} = - z_{0,9} = - 1,2816\) aus Tabelle (19.3) den Wert %

\[\begin{align*} x_{0,1} &= 2950 + z_{0,1} \cdot 120 = 2950 - 1,2816 \cdot 120 \approx 2796,2. \end{align*}\] Das \(0,1\)-Quantil der Normalverteilung ist der Wert \(x = x_{0,1}\), an dem die Verteilungsfunktion \(F(x) = P(X \leq x)\) der Verteilung den Wert \(0,1\) annimmt. Wählt man also ein an der Untersuchung beteiligtes Neugeborenes zufällig aus, so hatte dieses mit einer Wahrscheinlichkeit von \(10\) % ein Gewicht von höchstens \(2796,2\) Gramm.

qnorm(0.1, 2950, 120)
## [1] 2796.214

Aufgabe 13.4

(Quantile von \(t\)- und Standardnormalverteilung)

Bei einem Test werde eine Teststatistik \(T\) eingesetzt, die bei Gültigkeit der Nullhypothese einer \(t\)-Verteilung mit \(n = 10\) Freiheitsgraden folgt.

Teilaufgabe a)

Geben Sie einen Wert an, den eine Ausprägung der Testgröße \(T\) mit Wahrscheinlichkeit \(\alpha = 0,05\) nicht überschreitet.

Der Wert, den eine Ausprägung der als Testgröße fungierenden \(t_{10}\)-verteilten Zufallvariablen \(T\) mit Wahrscheinlichkeit \(\alpha = 0,05\) nicht überschreitet, ist das \(0,05\)-Quantil dieser Verteilung. Mit (13.29) und Tabelle (19.5) erhält man \(t_{10;0,05} = - t_{10;0,95} = - 1,812\).

qt(0.05, 10)
## [1] -1.812461

Teilaufgabe b)

Geben Sie ein bezüglich des Nullpunkts symmetrisches Intervall an, in dem eine Ausprägung von \(T\) mit Wahrscheinlichkeit \(1- \alpha = 0,95\) liegt. Wie groß ist die Wahrscheinlichkeit, mit der eine standardnormalverteilte Zufallsvariable in dieses Intervall fällt?

Das Intervall, in das eine Ausprägung von \(T\) mit Wahrscheinlichkeit \(1- \alpha = 0,95\) fällt, ist durch \(\left[t_{10;0,025}; t_{10;0,975}\right]\), also durch \([-2,228; 2,228]\) gegeben. Eine standardnormalverteilte Zufallvariable \(Z\) würde gemäß (13.23) und Tabelle (19.2) mit der Wahrscheinlichkeit \[\begin{align*} \Phi(2,228) - \Phi(-2,228) &= \Phi(2,228) - \left[1- \Phi(2,228)\right] \approx 0,974 \end{align*}\] in das durch die beiden Quantile der \(t\)-Verteilung definierte Intervall \([-2,228; 2,228]\) fallen.

Anmerkung zu Teil b: Während also die Realisation einer mit \(10\) Freiheitsgraden \(t\)-verteilten Zufallsvariablen mit einer Wahrscheinlichkeit von \(0,05\) (\(5\) %) außerhalb des Intervalls \([-2,228; 2,228]\) liegt, beträgt diese Wahrscheinlichkeit bei einer standardnormalverteilten Zufallsvariablen nur etwa \(1-0,974 = 0,026\), d. h. \(2,6\) %, weil die Dichte der Standardnormalverteilung im Vergleich zu der der \(t\)-Verteilung mit \(10\) Freiheitsgraden etwas steiler verläuft (vgl. auch Abbildung (13.8)).

obere Intervallgrenze

qt(0.975, 10)
## [1] 2.228139

untere Intervallgrenze

qt(0.025, 10)
## [1] -2.228139

Wahrscheinlichkeit dass eine standardnormalverteile Zufallsvariable in das Intervall fällt

pnorm(qt(0.975, 10), 0, 1) - pnorm(qt(0.025, 10), 0, 1)
## [1] 0.9741287

Aufgabe 14.1

(Kovarianz zweier Zufallsvariablen)

Es werden zwei “faire” Münzen nacheinander geworfen, wobei das Ergebnis des ersten Wurfs durch eine Zufallsvariable \(X\) und das des zweiten Wurfs durch \(Y\) beschrieben sei. Die beiden möglichen Ausprägungen “Kopf” und “Zahl” von \(X\) und \(Y\) seien mit “1” (Kopf) resp. mit “0” (Zahl) codiert.

Teilaufgabe a)

Wie groß sind die Wahrscheinlichkeiten

durch die die gemeinsame Wahrscheinlichkeitsverteilung beider Zufallsvariablen bestimmt ist?

Es gibt vier mögliche Ausgänge \((x;y)\), nämlich \((1;1)\), \((1;0)\), \((0;1)\) und \((0;0)\), die alle gleichwahrscheinlich sind. Die Wahrscheinlichkeiten \(p_{11}\), \(p_{12}\) , \(p_{21}\) und \(p_{22}\) haben also alle den Wert \(0,25\).

Tabelle <- data.frame(row.names = c("1.Wurf", "2.Wurf"))
for (i in 0:1) {
  for (j in 0:1) {
    Tabelle <- cbind(Tabelle, c(i, j))
  }
}

Wahrscheinlichkeit für alle Ereignisse, da alle gleich wahrscheinlich sind

p <- 1 / ncol(Tabelle)
p
## [1] 0.25

Teilaufgabe b)

Berechnen Sie die Kovarianz von \(X\) und \(Y\).

Die Kovarianz von \(X\) und \(Y\) kann bestimmt werden. Der Erwartungswert von \(X\) und \(Y\) ist jeweils \(0,5\) (“faire” Münzen). Der Erwartungswert \(E(XY)\) errechnet sich analog zu (11.6) gemäß \[\begin{align*} E(XY) = p_{11} \cdot 1 \cdot 1 + p_{12} \cdot 1 \cdot 0 + p_{21} \cdot 0 \cdot 1 + p_{22} \cdot 0 \cdot 0 = 0,25. \end{align*}\] Die Kovarianz hat somit den Wert \(Cov(X,Y) = 0,25 - 0,5 \cdot 0,5 = 0\). Dieses Ergebnis hätte man aufgrund der Unabhängigkeit der Variablen \(X\) und \(Y\) auch direkt aus (14.13) erschließen können.

cov(c(1, 1, 0, 0), c(1, 0, 1, 0))
## [1] 0

Aufgabe 15.1

(Punktschätzung von Kenngrößen)

Bei \(24\) Patienten wurde im Rahmen einer Studie u. a. das Gewicht \(X\) ermittelt. Es ergaben sich folgende Werte, jeweils auf volle kg gerundet.

Probe <- c(45, 73, 70, 60, 62, 66, 85, 52, 49, 67, 70, 82, 91, 77, 76, 62, 55, 52, 59, 49, 62, 66, 94, 79)

Teilaufgabe a)

Berechnen Sie unter der Annahme, dass das Körpergewicht normalverteilt ist, eine unverzerrte Schätzung \(\widehat{\mu}\) für den Erwartungswert \(\mu\).

Ein unverzerrter Punktschätzer \(\widehat{\mu}\) ist nach (15.6) durch die Ausprägung \(\overline{x}\) des in (14.3) eingeführten Stichprobenmittelwerts gegeben. Man errechnet bei Rundung auf drei Dezimalstellen \(\overline{x} \approx 66,792\).

mean(Probe)
## [1] 66.79167

Teilaufgabe b)

Ermitteln Sie auch für die Varianz \(\sigma^2\) und die Standardabweichung \(\sigma\) der Normalverteilung eine unverzerrte Schätzung. Hier genügt bei Fehlen von Software die Angabe der Bestimmungsformel, also des Lösungsansatzes.

Aus (15.9) ersieht man, dass die korrigierte Stichprobenvarianz \(s^{*2}\) aus (14.5} für die Varianz \(\sigma^2\) der Normalverteilung eine unverzerrte Schätzung liefert. Die Summe (14.5) umfasst hier 24 Quadrattermes und kann z. B. unter Verwendung von SPSS, Excel oder R ermittelt werden. Man erhält \[\begin{align*} s^{*2}: = \frac{1}{23}\cdot \sum_{i=1}^{24}{(x_i - 66,792)^2} \approx 180,346. \end{align*}\] Für die Ausprägung der korrigierten Standardabweichung, die eine unverzerrte Schätzung für \(\sigma\) liefert, folgt dann \(s^* \approx 13,429\).

var(Probe)
## [1] 180.346
sd(Probe)
## [1] 13.4293

Aufgabe 15.2

(Konfidenzintervalle für Erwartungswerte)

Bestimmen Sie mit den Daten aus Aufgabe 15.1 und der Normalverteilungsannahme für das Gewicht \(X\) auch ein Konfidenzintervall zum Niveau \(0,95\) für den unbekannten Parameter \({\mu}\). Geben Sie die Grenzen des Intervalls auf eine Stelle nach dem Dezimalkomma genau an und interpretieren Sie Ihr Ergebnis.

Das Konfidenzintervall ergibt sich aus (15.16) mit \(\alpha = 0,05\) und \(23\) Freiheitsgraden: \[\begin{align*} KI = \left[\overline{X} - t_{23;0,975} \cdot \frac{S^*}{\sqrt{24}}; \overline{X} + t_{23;0,975} \cdot \frac{S^*}{\sqrt{24}}\right]. \end{align*}\] Setzt man für \(\overline{X}\) und \(S^*\) die aus den Daten errechneten Realisationen \(66,792\) resp. \(13,429\) und das Quantil \(t_{23;0,975} = 2,069\) ein (s. Tabelle 19.5), so folgt bei Rundung auf eine Dezimalstelle: \[\begin{align*} KI &= \left[66,792 - 2,069 \cdot \frac{13,429}{\sqrt{24}}; 66,792 + 2,069 \cdot \frac{13,429}{\sqrt{24}}\right]\\ &\approx \left[61,1;72,5\right]. \end{align*}\]

Ergebnisinterpretation: Die Grenzen des berechneten Konfidenzintervalls sind zufallsabhängig. Der unbekannte Parameter \(\mu\) liegt nicht zwingend innerhalb des Intervalls. Das Verfahren der Intervallschätzung ist aber so angelegt, dass bei der Berechnung einer größeren Anzahl von Konfidenzintervallen in \((1-\alpha)\cdot 100\) % der Fälle mit einer Überdeckung von \(\mu\) zu rechnen ist.

Probe <- c(45, 73, 70, 60, 62, 66, 85, 52, 49, 67, 70, 82, 91, 77, 76, 62, 55, 52, 59, 49, 62, 66, 94, 79)

untere Intervallgrenze

mean(Probe) - qt(0.975, 23) * (sd(Probe) / sqrt(length(Probe)))
## [1] 61.12097

obere Intervallgrenze

mean(Probe) + qt(0.975, 23) * (sd(Probe) / sqrt(length(Probe)))
## [1] 72.46236

Aufgabe 15.3

(Konfidenzintervalle für Anteilswerte)

Berechnen Sie auf der Basis der Daten des Politbarometers vom 8. Dezember \(2017\) (Tabelle ) ein Konfidenzintervall zum Konfidenzniveau \(0,95\) für den Anteil \(p\) der Frauen in Deutschland mit SPD-Präferenz. Verwenden Sie dabei die Näherungsformel (15.20).

Mit den Daten aus Tabelle 9.8 erhält man für den Anteil \(p\) der Frauen in Deutschland mit SPD-Präferenz zunächst die Punktschätzung \(\widehat{p} = \frac{134}{627} \approx 0,2137\) und damit gemäß (15.20) als approximatives \(0,95\)-Konfidenzniveau \[\begin{align*} KI \approx \left[0,2137 - z_{0,975} \cdot \sqrt{\frac{0,2137 \cdot 0,7863}{627}}; 0,2137 + z_{0,975} \cdot \sqrt{\frac{0,2137 \cdot 0,7863}{627}}\right]. \end{align*}\] Mit \(z_{0,975} = 1,96\) folgt schließlich \[\begin{align*} KI \approx \left[0,2137 - 0,0321; 0,2137 + 0,0321\right] \approx \left[0,182; 0,246\right]. \end{align*}\] Am genannten Stichtag hätte man für den fiktiven Fall einer unmittelbar bevorstehenden Bundestagswahl demnach den Anteil \(p\) der Frauen, die sich für die SPD entscheiden, anhand dieses von etwa \(18,2\) % bis \(24,6\) % reichenden Intervalls geschätzt. Hätte man am gleichen Tag eine andere Stichprobe von \(520\) Frauen befragt, hätte sich eine andere Realisation für \(\widehat{p}\) ergeben und damit auch andere Grenzen für die Intervallschätzung.

Frauen <- 520
FrauenSPD <- 117
p <- FrauenSPD / Frauen

untere Intervallgrenze

p - qnorm(0.975) * sqrt(p * (1 - p) / Frauen)
## [1] 0.1891088

obere Intervallgrenze

p + qnorm(0.975) * sqrt(p * (1 - p) / Frauen)
## [1] 0.2608912

Aufgabe 16.1

(einseitiger Gauß-Test)

Bei einer Studie zum Thema “Schwangerschaft” mit \(49\) beteiligten Müttern wurde das Alter \(X\) der Frauen bei der Geburt des ersten Kindes festgestellt. Die Forschungshypothese beinhaltete, dass das Durchschnittsalter von Frauen bei der Erstgeburt oberhalb von \(25\) Jahren liegt. Bei den \(49\) befragten Frauen ergab sich der Mittelwert \(\overline{x} = 26\) (Altersangaben in vollen Jahren).

Teilaufgabe a)

Testen Sie zum Signifikanzniveau \(\alpha = 0,05\) die Hypothese \(H_0: \mu \leq 25\) gegen die Alternativhypothese \(H_1: \mu > 25\). Gehen Sie davon aus, dass \(X\) einer Normalverteilung mit Varianz \(\sigma^2 = 9\) folgt.

Die Testvariable ist durch (16.2) gegeben, wobei dort \(\mu_0 = 25\), \(\sigma = 3\), \(n = 49\) sowie \(\overline{x} = 26\) einzusetzen ist. Man erhält \[\begin{align*} z= \frac{\overline{x} -\mu_0}{\sigma} \cdot \sqrt{n} = \frac{26 - 25}{3} \cdot 7 \approx 2,333. \end{align*}\] Die Ablehnung der Nullhypothese erfolgt, wenn \(z > z_{0,95}\) gilt. Nach Tabelle 19.3 ist \(z_{0,95} = 1,6449\) und \(H_0\) folglich zu verwerfen. Dies impliziert, dass die Alternativhypothese \(H_1\) als “`statistisch gesichert”’ gilt, d. h. als gesichert mit einer Irrtumswahrscheinlichkeit, deren Obergrenze bei dem hier durchgeführten einseitigen Test den Wert \(\alpha = 0,05\) hat.

frauen <- 49
erwartungswert <- 26
varianz <- 9
h <- 25

z <- (erwartungswert - h) * sqrt(frauen) / sqrt(varianz)
z
## [1] 2.333333
qnorm(0.95) < z
## [1] TRUE

Aufgabe 16.2

(einseitiger Gauß-Test)

Teilaufgab a)

Berechnen Sie für den linksseitigen Test (16.3) mit \(\mu_0 = 2\) kg und \(\alpha = 0,05\) aus Beispiel 16.3 die Wahrscheinlichkeit einer Verwerfung der Nullhypothese für den Fall, dass \(\mu\) den Wert \(\mu = 2,002\) kg hat.

Im linksseitigen Gauß-Test aus Beispiel 16.3 war \(\alpha = 0,05\), \(n = 10\) und \(\sigma = 0,01\). Setzt man neben den genannten Werten für \(\alpha\), \(n\) und \(\sigma\) noch \(\mu = 2,002\) und \(\mu_0 = 2,000\) in die Gütefunktion \[\begin{align*} G(\mu) = \Phi\left(- z_{1 - \alpha}-\frac{\mu-\mu_0}{\sigma}\cdot \sqrt{n}\right) \end{align*}\] des Tests ein, so folgt für die Wahrscheinlichkeit \(G(2,002)\) der Verwerfung der Nullhypothese für \(\mu = 2,002\) \[\begin{align*} G(2,002) &= \Phi \left(- z_{0,95}-\frac{0,002}{0,01}\cdot \sqrt{10}\right) \approx \Phi \left(-2,277 \right). \end{align*}\] Wegen \(\Phi(-2,277) = 1 -\Phi(2,277)\) folgt dann \(G(2,002)\approx 0,0113\). Eine Ablehnung der Nullhypothese wäre im Falle \(\mu = 2,002\) wegen \(H_0:\mu \geq 2\) eine Fehlentscheidung (Fehler 1. Art). Die Wahrscheinlichkeit hierfür beträgt also ca. \(1,1\) %.

g.2002 <- pnorm(-qnorm(0.95) - (2.002 - 2) * sqrt(10) / 0.01)
g.2002
## [1] 0.01138389

Teilaufgabe b)

Wie groß ist diese Wahrscheinlichkeit für \(\mu = 1,997\)?

Für \(\mu = 1,997\) wäre eine Ablehnung der Nullhypothese hingegen eine korrekte Entscheidung. Sie tritt ein mit einer Wahrscheinlichkeit von \[\begin{align*} G(1,997) &= \Phi \left(- z_{0,95}-\frac{-0,003}{0,01}\cdot \sqrt{10}\right) \approx \Phi \left(- 0,696 \right). \end{align*}\] Mit \(\Phi(-0,696) = 1 -\Phi(0,696)\) resultiert \(G(1,997)\approx 0,242\). Die Wahrscheinlichkeit für den Eintritt eines Fehlers 2. Art im Falle \(\mu = 1,997\) und Wahl von \(n = 10\) ist dann durch \(1 - G(1,997) \approx 0,758\) gegeben. Dieser Wert ist in der folgenden Abbildung anhand eines vertikalen Pfeils veranschaulicht, der auf dem Niveau \(1,0\) endet.

g.1997 <- pnorm(-qnorm(0.95) - (1.997 - 2) * sqrt(10) / 0.01)
g.1997
## [1] 0.2431611

Wahrscheinlichkeit des Fehlers 2. Art

1 - g.1997
## [1] 0.7568389

Teilaufgabe c)

Skizzieren Sie den Verlauf der Gütefunktion \(G(\mu)\) des Tests.

Der komplette Gütefunktionsverlauf für den rechtsseitigen Gauß-Test war im oberen Teil von Abbildung 16.6 für \(n =5\) und \(n = 10\) und \(\alpha = 0,05\) wiedergegeben. Für den linksseitigen Fall und mit den genannten Werten für \(n\) und \(\alpha\) ergibt sie sich hieraus durch Spiegelung der Gütefunktion des rechtsseitigen Tests an der vertikalen Geraden \(\mu = \mu_0\). Die resultierende Grafik ist nachstehend wiedergegeben. Der hier relevante Fall \(n = 10\) ist durch die gestrichelte Kurve repräsentiert.

g_funktion <- function(x) {
  ergebnis <- pnorm(-qnorm(0.95) - (x - 2) * sqrt(10) / 0.01)
  return(ergebnis)
}
g_funktion_2 <- function(x) {
  ergebnis <- pnorm(-qnorm(0.95) - (x - 2) * sqrt(5) / 0.01)
  return(ergebnis)
}

library(ggplot2)

ggplot(data.frame(x = c(1.97, 2.01)), aes(x = x)) +
  stat_function(fun = g_funktion, aes(linetype = " n = 10")) +
  stat_function(fun = g_funktion_2, aes(linetype = " n = 5")) +
  scale_linetype_manual(values = c("dashed", "solid"), guide = guide_legend()) +
  theme(legend.position = c(0.2, 0.6), legend.title = element_blank()) +
  geom_segment(aes(x = 2, y = 0, xend = 2, yend = 0.05),
    arrow = arrow(ends = "both", length = unit(2, "mm")), color = "orange"
  ) +
  geom_segment(aes(x = 1.997, y = g_funktion(1.997), xend = 1.997, yend = 1),
    arrow = arrow(ends = "both", length = unit(2, "mm")), color = "green"
  ) +
  geom_segment(aes(x = 1.97, y = 1, xend = 2.01, yend = 1), linetype = "dotted") +
  annotate("text", x = 2.004, y = 0.75, label = "Fehler 2. Art \nfür n = 10") +
  annotate("segment", x = 1.997, y = 0.625, xend = 2.0005, yend = 0.75) +
  annotate("text", x = 2.005, y = 0.125, label = "Fehler 1. Art") +
  annotate("segment", x = 2, y = 0.05, xend = 2.0015, yend = 0.125) +
  annotate("segment", x = 1.97, y = 0.05, xend = 2.00, yend = 0.05, linetype = "dotted") +
  labs(y = "G(x)", x = paste0("(x-", "\u03BC", ")/", "\u03C3")) +
  theme(
    axis.title.y = element_text(angle = 0), axis.title.x = element_text(hjust = 1), axis.line = element_line(colour = "black"),
    panel.background = element_rect(fill = "white", colour = "black")
  ) +
  scale_x_continuous(expand = c(0, 0), breaks = c(1.97, 1.98, 1.99, 2, 2.01), labels = c(-3, -2, -1, 0, 1)) +
  scale_y_continuous(expand = c(0, 0), breaks = c(0, 0.2, 0.4, 0.6, 0.8, 1, 0.05), labels = c(0, 0.2, 0.4, 0.6, 0.8, 1, "\u03B1"))

Setzt man in obiger Abbildung bei der unteren Abszissenachse speziell \(\mu_0 = 2\) und \(\sigma = 0,01\) ein, so kann man die zuvor errechneten Wahrscheinlichkeiten \(G(2,002)\approx 0,0113\) und \(G(1,997)\approx 0,242\) auch als Werte der gestrichelten Kurve an den Stellen \(\mu = 2,002\) resp \(\mu = 1,997\) zumindest grob ablesen.

Aufgabe 16.3

(zweiseitiger Gauß-Test)

Betrachten Sie wie in Beispiel 16.3 die industrielle Abfüllung von Zucker, der in 2-kg-Tüten in den Verkauf kommt (Sollwert \(\mu_0 = 2\) kg). Das tatsächliche Füllgewicht \(X\) sei normalverteilt mit Standardabweichung \(\sigma = 0,01\) kg. Verbraucher sind an einer Kontrolle von Sollwertunterschreitungen, Hersteller an einer Überwachung von Sollwertüberschreitungen interessiert.

Teilaufgabe a)

Anhand einer Stichprobe von \(10\) Tüten wurde für das Füllgewicht der Mittelwert \(\overline{x} = 2,007\) kg ermittelt. Über einen zweiseitigen Test () mit \(\mu_0 = 2\) kg soll geprüft werden, ob der Stichprobenbefund für oder gegen die Beibehaltung von \(H_0\) spricht. Führen Sie den Test mit \(\alpha = 0,05\) durch und interpretieren Sie das Ergebnis.

Die zu testenden Hypothesen sind durch (16.1) mit \(\mu_0 = 2\) gegeben. Die Ablehnung der Nullhypothese \(H_0: \mu = \mu_0\) erfolgt nach () genau dann, wenn der Betrag \[\begin{align*} |z| = \left|\frac{\overline{x}-2}{0,01} \cdot \sqrt{10}\hspace{1mm}\right| \end{align*}\] der Prüfstatistik aus (16.2) den aus Tabelle 19.3 ablesbaren Wert \(z_{0,975} = 1,96\) überschreitet. Mit \(\overline{x} = 2,007\) ergibt sich \[\begin{align*} |z| = \left|\frac{2,007-2}{0,01} \cdot \sqrt{10}\hspace{1mm}\right|= 0,7 \cdot \sqrt{10} \approx 2,2136, \end{align*}\]

d.h., \(H_0\) ist hier zu verwerfen. Die Alternativhypothese \(H_1\) gilt dann als statistisch “`bewiesen”’ in dem Sinne, dass eine Irrtumswahrscheinlichkeit von \(\alpha = 0,05\) vorbehalten bleibt.

z <- abs((2.007 - 2) / 0.01 * sqrt(10))
z < qnorm(0.975)
## [1] FALSE

Teilaufgabe b)

Führen Sie den Test auch mit \(\alpha = 0,01\) durch.

Bei Verwendung von \(\alpha = 0,01\) ist \(|z|\) mit dem \((1-\frac{\alpha}{2})\)-Quantil der Standardnormalverteilung zu vergleichen, nach Tabelle 19.3 also mit \(z_{0,995} = 2,5758\). Der Wert dieses Quantils wird von \(|z| = 2,2136\) nun nicht mehr überschritten, d. h. man wird hier an der Nullhypothese \(H_0\) festhalten, also davon ausgehen, dass keine systematische Unter- oder Überschreitung des Soll-Füllgewichts vorliegt.

z < qnorm(0.995)
## [1] TRUE

Aufgabe 17.1

Kleinst-Quadrat-Schätzung Im Herzlabor eines Krankenhauses wird bei jedem Patienten eine Anamnese durchgeführt, bei der u. a. das Körpergewicht, die Körpergröße und der systolische Blutdruck festgestellt werden. Die Variablen “Körpergewicht” und “Körpergröße” können anhand des Body-Mass-Indexes zusammengeführt werden, dessen Wert eine erste Orientierung über das Vorliegen von Über- oder Untergewichtigkeit ermöglicht. Für \(6\) Männer wurden für den Body-Mass-Index \(X\) und den systolischen Blutdruck \(Y\) folgende Werte \((x_i;y_i)\) gemessen:

x <- c(26, 23, 27, 28, 24, 25)
y <- c(170, 150, 160, 175, 155, 150)

Gehen Sie davon aus, dass die Werte \(x_i\) und \(y_i\) über eine lineare Regression () verknüpft sind und schätzen Sie anhand des tabellierten Datensatzes des Umfangs \(n = 6\) die Regressionskoeffizienten \(\beta\) und \(\alpha\) unter Verwendung der KQ-Methode. Weisen Sie Ihre Schätzergebnisse \(\widehat{\beta}\) und \(\widehat{\alpha}\) auf zwei Stellen nach dem Dezimalkomma genau aus.

Man kann analog zu Tabelle 17.2 eine Arbeitstabelle anlegen, wenn man die KQ-Schätzungen manuell und nicht – wie in Abbildung 17.3 illustriert – mit Software berechnen will. Mit \(\overline{x} = 25,5\) und \(\overline{y} = 160\) erhält man:

Tabelle <-
  data.frame((x - mean(x)),
             (x - mean(x))^2,
             (y - mean(y)),
             (x - mean(x)) * (y - mean(y))

  )
names(Tabelle) <-
  c("x.i-m(x.i)", "(x.i-m(x.i))^2", "(y.i-m(y.i))", "(x.i-..)*(y.i-..)")

Tabelle
##   x.i-m(x.i) (x.i-m(x.i))^2 (y.i-m(y.i)) (x.i-..)*(y.i-..)
## 1        0.5           0.25           10               5.0
## 2       -2.5           6.25          -10              25.0
## 3        1.5           2.25            0               0.0
## 4        2.5           6.25           15              37.5
## 5       -1.5           2.25           -5               7.5
## 6       -0.5           0.25          -10               5.0

Relevante Spaltensummen

sum(Tabelle$`(x.i-m(x.i))^2`)
## [1] 17.5
sum(Tabelle$`(x.i-..)*(y.i-..)`)
## [1] 80

Für die KQ-Schätzung \(\widehat{\beta}\) von \(\beta\) (Steigung der Regressionsgeraden) folgt dann wegen \(s_{xy} = \frac{80}{6}\) und \(s_{x}^2 = \frac{35}{12}\) gemäß (17.6) zunächst \[\begin{align*} \widehat{\beta} = \frac{s_{xy}}{s_{x}^2} = \frac{40}{3} \cdot \frac{12}{35} = \frac{32}{7} \approx 4,57. \end{align*}\] Hieraus erhält man mit \(\overline{x} = 25,5\) und \(\overline{y} = 160\) nach (17.7) für \(\widehat{\alpha}\) (Schnittpunkt der Regressionsgeraden mit der \(y\)-Achse) \[\begin{align*} \widehat{\alpha} = 160 - \widehat{\beta} \cdot 25,5 = 160 - \frac{32}{7} \cdot 25,5 \approx 43,43. \end{align*}\]

In R lässt sich der die lineare Regressionsgeraden direkt mit dem Befehl lm() berechnen.

lm(y ~ x)
## 
## Call:
## lm(formula = y ~ x)
## 
## Coefficients:
## (Intercept)            x  
##      43.429        4.571

Aufgabe 17.2

(Kleinst-Quadrat-Schätzung und Bestimmtheitsmaß)

In einer Region wurde anhand einer Studie untersucht, inwieweit das Geburtsgewicht \(Y\) Neugeborener (in Kilogramm) von verschiedenen sozioökonomischen Variablen abhängt, u. a. vom monatlichen Nettoeinkommen \(X\) der Eltern (in Tausend Euro). In der nachstehenden Tabelle sind für acht an der Studie beteiligte Kinder die Beobachtungsdaten \((x_i; y_i)\) wiedergegeben (\(i = 1, 2, ... ,8)\):

x <- c(1.9, 2.7, 3.1, 4.0, 3.9, 3.4, 2.9, 2.1)
y <- c(3.0, 2.5, 4.5, 3.5, 4.0, 3.0, 4.0, 3.5)

Teilaufgabe a)

Berechnen Sie unter Annahme des einfachen linearen Regressionsmodells () die KQ-Schätzungen für die Regressionskoeffizienten \(\beta\) und \(\alpha\).

Mit \(\overline{x} = 3,0\) und \(\overline{y} = 3,5\) resultiert folgende Arbeitstabelle für die manuelle Berechnung der KQ-Schätzungen:

Tabelle <-
  data.frame((x - mean(x)),
             (x - mean(x))^2,
             (y - mean(y)),
             (x - mean(x)) * (y - mean(y))

  )
names(Tabelle) <-
  c("x.i-m(x.i)", "(x.i-m(x.i))^2", "(y.i-m(y.i))", "(x.i-..)*(y.i-..)")

Tabelle
##   x.i-m(x.i) (x.i-m(x.i))^2 (y.i-m(y.i)) (x.i-..)*(y.i-..)
## 1       -1.1           1.21         -0.5              0.55
## 2       -0.3           0.09         -1.0              0.30
## 3        0.1           0.01          1.0              0.10
## 4        1.0           1.00          0.0              0.00
## 5        0.9           0.81          0.5              0.45
## 6        0.4           0.16         -0.5             -0.20
## 7       -0.1           0.01          0.5             -0.05
## 8       -0.9           0.81          0.0              0.00

Relevante Spaltensummen

sum(Tabelle$`(x.i-m(x.i))^2`)
## [1] 4.1
sum(Tabelle$`(x.i-..)*(y.i-..)`)
## [1] 1.15

Für die KQ-Schätzung von \(\beta\) folgt dann nach (17.6) \[\begin{align*} \widehat{\beta} = \frac{s_{xy}}{s_{x}^2} = \frac{0,14375}{0,5125} \approx 0,28 \end{align*}\] und für die KQ-Schätzung von \(\alpha\) mit (17.7) \[\begin{align*} \widehat{\alpha} = 3,5 - \widehat{\beta} \cdot 3 \approx 3,5 - 0,84 = 2,66. \end{align*}\]

Oder in R mit dem Befehl lm()

model <- lm(y ~ x)
model
## 
## Call:
## lm(formula = y ~ x)
## 
## Coefficients:
## (Intercept)            x  
##      2.6585       0.2805

Teilaufgabe b)

Quantifizieren Sie anhand des Bestimmtheitsmaßes \(R^2\) aus (17.17) die Anpassungsgüte der Regressionsgeraden. Interpretieren Sie das Ergebnis.

Um das Bestimmtheitsmaß zu ermitteln, könnte man die Arbeitstabelle noch um eine Spalte \((y_i - y)^2\) erweitern. Die Spaltensumme wäre \(3\), d. h. es ist \(s_{y}^2 = 0,375\). Nach (17.18) folgt \[\begin{align*} R^2 = \frac{(s_{xy})^2}{s_{x}^2 \cdot s_{y}^2} = \frac{0,14375^2}{0,5125 \cdot 0,375} \approx 0,108. \end{align*}\] Der Wert bedeutet, dass der einfache lineare Regressionsansatz nur etwa \(10,8\) % der Gesamtvariation der Daten erklärt (schwacher Erklärungsbeitrag). Es ist daher anzunehmen, dass noch andere Einflussgrößen bei der Modellspezifikation zu berücksichtigen sind.

summary(model)
## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.91585 -0.36341  0.02805  0.32134  0.97195 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept)   2.6585     1.0175   2.613    0.040 *
## x             0.2805     0.3299   0.850    0.428  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.668 on 6 degrees of freedom
## Multiple R-squared:  0.1075, Adjusted R-squared:  -0.04123 
## F-statistic: 0.7228 on 1 and 6 DF,  p-value: 0.4278

Aufgabe 17.3

(Kleinst-Quadrat-Schätzung)

In Beispiel 17.1, das sich auf das einfache Regressionsmodell bezog (\(k =1\)), wurden die KQ-Schätzformeln () und () auf einen sehr kleinen Datensatz angewendet. Leiten Sie die dabei errechneten Schätzwerte \(\widehat{\beta} = 0,125\) und \(\widehat{\alpha} = 0,25\) erneut her, nun aber unter Verwendung der KQ-Schätzformel () für das multiple Regressionsmodell. Notieren Sie die Formel () zunächst für den Spezialfall \(k =1\).

Die Matrizen \(\mathbf{X}\) und \(\mathbf{X'X}\) sowie der Vektor \(\mathbf{y}\) haben hier die Gestalt \[\begin{align*} \mathbf{X} = \begin{pmatrix} 1 & 10 \\ 1 & 30 \\ 1 & 50 \end{pmatrix} \qquad \mathbf{X'X} = \begin{pmatrix} 3 & 90 \\ 90 & 3500 \\ \end{pmatrix} \qquad \mathbf{y} = \begin{pmatrix} 2 \\ 3 \\ 7 \end{pmatrix} \end{align*}\] – vgl. auch (17.29) mit \(n = 3\) und den Werten aus Tabelle 17.2. Mit \(\alpha : = \beta_0\) und \(\beta : = \beta_1\) folgt für die KQ-Schätzung des Vektors \(\mathbf{\beta}\) der Regressionskoeffizienten \[\begin{align*} \widehat{\pmb{\beta}} = \begin{pmatrix} \widehat{\alpha}\\ \widehat{\beta}\\ \end{pmatrix} = \begin{pmatrix} 3 & 90 \\ 90 & 3500 \\ \end{pmatrix}^{-1} \cdot \begin{pmatrix} 12 \\ 460 \end{pmatrix}. \end{align*}\] Die Inversion der obigen (\(2 \times 2\))-Matrix kann man unter Heranziehung einer Software durchführen, etwa der freien Statistiksoftware R. Für die Regressionskoeffizienten \(\alpha\) und \(\beta\) resultieren erneut die in Beispiel 17.1 schon ohne Verwendung von Matrizen errechneten Schätzwerte \(\widehat{\alpha} = 0,25\) und \(\widehat{\beta} = 0,125\): \[\begin{align*} \widehat{\pmb{\beta}} = \begin{pmatrix} \widehat{\alpha}\\ \widehat{\beta}\\ \end{pmatrix} = \begin{pmatrix} \frac{35}{24} & -\frac{3}{80} \\ \\ -\frac{3}{80}& \frac{1}{800} \\ \end{pmatrix} \cdot \begin{pmatrix} 12 \\ 460 \end{pmatrix} = \begin{pmatrix} \frac{35}{2}-\frac{69}{4} \\ \\ -\frac{9}{20}+\frac{23}{40} \\ \end{pmatrix} = \begin{pmatrix} 0,25 \\ 0,125 \end{pmatrix}. \end{align*}\]

library(MASS)

X <- matrix(c(1, 1, 1, 10, 30, 50), nrow = 3)
XX <- t(X) %*% X
y <- c(2, 3, 7)

ginv(XX) %*% t(X) %*% y
##       [,1]
## [1,] 0.250
## [2,] 0.125

Impressum

STAT-UP STATISTICAL CONSULTING & DATA SCIENCE GMBH

Chief Executive Officer: Katharina Schüller

Augustenstraße 5

D-80333 München

info@stat-up.com

Tel: +49-89-34077-451

Registration Court: München

Company Registration Number: HRB 231051

USt.-ID: DE310493998

IMPORTANT INFORMATION

The purpose of the present Internet pages is exclusively to provide information about the services we offer. The use of these pages alone does not create any consulting relationship and no form of consulting service is offered. If you wish to establish a consulting relationship, your offer to conclude a consulting relationship and our acceptance thereof is necessary. Please do not hesitate to contact us.

The legal liability of the policyholder STAT-UP Statistical Consulting & Data Science GmbH as management consultant is insured with HDI-Gerling Firmen und Privat Versicherung AG, Riethorst 2, 30659 Hannover with an insured sum of EUR 1,000,000.00 per insured event. Furthermore, the company has pecuniary loss liability insurance with the same carrier with an insured sum of EUR 500,000.00 per insured event. Both insurances are valid throughout the EU and the countries of the Agreement on the European Economic Area.

Our prices are subject to individual agreement.

In the privacy policy there is information on the processing of personal data through the website.

LIABILITY FOR CONTENTS

As a service provider, we are responsible for our own content on these pages in accordance with § 7 Section 1 of the German Telemedia Act (TMG). According to §§ 8 to 10 TMG, however, we are not obliged as service providers to monitor transmitted or stored third-party information or to investigate circumstances that indicate illegal activity.

Obligations to remove or block the use of information in accordance with general laws remain unaffected by this. However, liability in this respect is only possible from the time of knowledge of a concrete violation of the law. As soon as we become aware of such violations of the law, we will remove these contents immediately.

LIABILITY FOR LINKS

Our website contains links to external websites of third parties over whose contents we have no influence. Therefore, we cannot assume any liability for these external contents. The respective provider or operator of the pages is always responsible for the contents of the linked pages. The linked pages were checked for possible legal infringements at the time of linking. Illegal contents were not recognizable at the time of linking.

However, permanent monitoring of the content of the linked pages is unreasonable without concrete evidence of a violation of the law. If we become aware of any infringements, we will remove such links immediately.

COPYRIGHT

The contents and works created by the site operators on these pages are subject to German copyright law. Duplication, editing, distribution and any kind of use outside the limits of copyright law require the written consent of the respective author or creator. Downloads and copies of this site are only permitted for private, non-commercial use.

As far as the contents on this site were not created by the operator, the copyrights of third parties are respected. In particular, the contents of third parties are marked as such. Should you nevertheless become aware of a copyright infringement, please inform us accordingly. As soon as we become aware of any such infringements, we will remove such content immediately.