library(tidyverse)
library(patchwork)
blau <- "#2C7BB6"
rot <- "#D7191C"
grau <- "grey50"
# Datensätze für Aufgaben 5–8 (CSV-Dateien im Unterordner data/)
app_absturzrate <- read_csv("data/app_absturzrate.csv")
produktionsfehler <- read_csv("data/produktionsfehler.csv")
kundenzufriedenheit <- read_csv("data/kundenzufriedenheit.csv")
serverausfall <- read_csv("data/serverausfall.csv")Aufgabe 1: Akkus
Eine Firma stellt Akkus her. Die Anzahl Lade-/Entladezyklen, bis ein solcher Akku nur noch 60% seiner ursprünglichen Ladekapazität erreicht, ist in einer Stichprobe von 10 Akkus annähernd normalverteilt mit Mittelwert \(\bar{x} = 475\) und Varianz \(\text{Var}(x) = 1000\).
Bestimmen Sie das 90%-Konfidenzintervall für die mittlere Anzahl Lade-/Entladezyklen, bis ein Akku aus der Gesamtproduktion nur noch 60% seiner ursprünglichen Ladekapazität erreicht.
Ein potentieller Abnehmer verlangt, dass die Akkus im Mittel mindestens 500 Lade-/Entladezyklen überstehen, bis sie nur noch 60% der ursprünglichen Kapazität erreichen. Erfüllen die Akkus der Firma diese Bedingung auf Grund des in a) bestimmten 90%-Konfidenzintervalls?
Die Firma argumentiert, dass die Verwendung eines 90%-Konfidenzintervalls unfair sei und dass bei einem 95%-Konfidenzintervall die Chance zur Erfüllung der Bedingung grundsätzlich grösser sei. Hat die Firma recht?
1a – 90%-Konfidenzintervall
Welche Verteilung verwenden Sie und warum?
Ihre Antwort hier …
Herleitung (alle Zwischenschritte):
Ihre Antwort hier …
90%-KI: […, …]
n <- 10
xbar <- 475
s2 <- 1000
s <- sqrt(s2)
# Hier ihren Code1b – Erfüllt die Firma die Bedingung?
Ihre Antwort hier …
1c – Wäre ein 95%-KI günstiger für die Firma?
Hat die Firma recht? Begründen Sie mit Berechnung und konzeptuell:
Ihre Antwort hier …
# Hier ihren Code (95%-KI zum Vergleich berechnen)Aufgabe 2: Materiallager
Im automatisierten Materiallager einer grossen Firma beträgt momentan die mittlere Auslieferungszeit für einen umfangreichen Auftrag \(t = 32\) Minuten. Nun soll das Materiallager reorganisiert werden, so dass die Auslieferungszeiten kürzer werden. Dazu stehen nach einigen Vorabklärungen schliesslich zwei verschiedene Varianten zur Verfügung. Diese beiden Varianten werden mit Hilfe von mehreren, aufwendigen Simulationen getestet, in welchen die Auslieferungszeiten für verschiedene, umfangreiche Aufträge erfasst werden.
In Variante 1 ergibt sich bei 17 Simulationen für die Auslieferungszeit ein arithmetisches Mittel von \(\bar{t} = 29\) Minuten bei einer Standardabweichung von \(s_1 = 8\) Minuten. In Variante 2 ergibt sich bei 15 Simulationen für die Auslieferungszeit ein arithmetisches Mittel von \(\bar{t} = 30\) Minuten bei einer Standardabweichung von \(s_2 = 5\) Minuten.
Es wird angenommen, dass in beiden Varianten die Auslieferungszeiten normalverteilt sind. Klären Sie mit Hilfe von geeigneten Konfidenzintervallen auf dem 95%-Vertrauensniveau ab, ob (mindestens) eine der beiden Varianten die Auslieferungszeit voraussichtlich senkt.
2 – 95%-KIs für beide Varianten
Variante 1 – Herleitung:
Ihre Antwort hier …
95%-KI Variante 1: […, …]
Variante 2 – Herleitung:
Ihre Antwort hier …
95%-KI Variante 2: […, …]
Interpretation und Empfehlung:
Ihre Antwort hier …
xbar1 <- 29; s1 <- 8; n1 <- 17
xbar2 <- 30; s2 <- 5; n2 <- 15
alpha <- 0.05
# Hier ihren Code# Hier ihren Code (Visualisierung der KIs mit ggplot2)Aufgabe 3: Steuergeräte
Eine Firma stellt in Massenproduktion Steuergeräte für die Regeltechnik her. Unmittelbar nachdem eine neue Produktionsanlage in Betrieb genommen wurde, schätzt ein Kontrolleur mit Hilfe einer Stichprobe die Qualität der neuen Anlage ein. Dazu entnimmt er 900 Steuergeräte aus der laufenden Produktion und findet 90 Geräte, welche die Spezifikation nicht erfüllen.
Bestimmen Sie das 95%-Konfidenzintervall für den Anteil an Steuergeräten in der Gesamtproduktion der neuen Anlage, welche die Spezifikation nicht erfüllen.
Auf der alten Produktionsanlage erfüllen im Mittel 6% der Steuergeräte die Spezifikationen nicht. Kann man auf Grund des in a) berechneten Konfidenzintervalls sagen, dass die neue Anlage momentan noch eine schlechtere Qualität liefert als die alte Anlage?
3a – 95%-KI für den Fehleranteil
Herleitung:
Ihre Antwort hier …
95%-KI: […, …]
n <- 900
x <- 90
p_hat <- x / n
# Hier ihren Code3b – Vergleich mit alter Anlage
Ihre Antwort hier …
Aufgabe 4: Mehlpackungen
In einer Anlage sollen Pakete zu 1000 g Mehl abgefüllt werden. Eine Stichprobe von \(n = 20\) Paketen ergab den Mittelwert \(\bar{x} = 1002\,\text{g}\).
Erfahrungsgemäss ist die abgepackte Menge normalverteilt mit bekannter Standardabweichung \(\sigma = 5\,\text{g}\). Erstellen Sie ein 95%-Konfidenzintervall für den wahren mittleren Packungsinhalt.
Erfahrungsgemäss ist die abgepackte Menge normalverteilt, die Standardabweichung der Population ist unbekannt; in der Stichprobe beträgt sie \(s = 5\,\text{g}\). Erstellen Sie auch hier ein 95%-Konfidenzintervall.
Entscheiden Sie in beiden Fällen, ob die Anlage im Mittel zu viel Mehl abpackt oder ob der beobachtete Mehrinhalt zufällig sein könnte.
4a – 95%-KI mit bekanntem \(\sigma\) (z-Intervall)
Herleitung:
Ihre Antwort hier …
95%-KI: […, …] g
4b – 95%-KI mit unbekanntem \(\sigma\) (t-Intervall)
Herleitung:
Ihre Antwort hier …
95%-KI: […, …] g
n <- 20
xbar <- 1002
sigma <- 5 # bekannt (Teil a)
s <- 5 # Stichproben-SD (Teil b)
alpha <- 0.05
# Hier ihren Code
# Beide KIs berechnen und in einer knitr::kable()-Tabelle ausgebenPackt die Anlage im Mittel zu viel Mehl ab?
Ihre Antwort hier …
Worin unterscheiden sich z-KI und t-KI, und warum?
Ihre Antwort hier …
Aufgabe 5: App-Absturzrate
Ein Software-Team möchte die Stabilität seiner mobilen Applikation beurteilen. Dazu wurden in einem Testzeitraum 800 Nutzungssessions protokolliert. Bei 42 Sessions kam es zu einem unerwarteten Absturz der App. Die Daten liegen als CSV-Datei vor (data/app_absturzrate.csv), wobei die Spalte absturz den Wert \(1\) für einen Absturz und \(0\) für eine fehlerfreie Session enthält.
Berechnen Sie \(\hat{p}\) und prüfen Sie, ob die Normalapproximation gültig ist.
Berechnen Sie das Wald-Intervall und das Wilson-Intervall (je 95%) und vergleichen Sie die Ergebnisse.
Das Team hat als Qualitätsziel eine Absturzrate von maximal 4% definiert. Was sagen die KIs über die Erfüllung dieses Ziels aus?
5a – Schätzer und Faustregel
\(\hat{p}\): …
Faustregel \(n \cdot \hat{p} \geq 5\): …
Normalapproximation gültig?
Ihre Antwort hier …
n <- nrow(app_absturzrate)
x <- sum(app_absturzrate$absturz)
p_hat <- mean(app_absturzrate$absturz)
# Hier ihren Code (Faustregel prüfen und kommentiert ausgeben)5b – Wald- und Wilson-Intervall
Wald-KI: […, …]
Wilson-KI: […, …]
Unterschiede und Erklärung:
Ihre Antwort hier …
# Hier ihren Code
# Wald: manuell mit qnorm(0.975)
# Wilson: mit prop.test(..., correct = FALSE)5c – Beurteilung Qualitätsziel 4%
Ihre Antwort hier …
# Hier ihren Code (ggplot2: beide KIs + rote Linie bei 4%)Aufgabe 6: Produktionsfehler
In einer Kleinserienfertigung werden 30 Bauteile stichprobenartig geprüft. Dabei werden 3 Ausschussteile gefunden. Die Daten liegen als CSV-Datei vor (data/produktionsfehler.csv), wobei die Spalte ausschuss den Wert \(1\) für ein fehlerhaftes Bauteil enthält.
Berechnen Sie \(\hat{p}\) und prüfen Sie die Faustregel für die Normalapproximation. Was stellen Sie fest?
Berechnen Sie das 95%-Konfidenzintervall mit dem Wald-Intervall, dem Wilson-Intervall und dem exakten Clopper-Pearson-Intervall (
binom.test()). Vergleichen Sie die drei Varianten.Die Produktion gilt als akzeptabel, wenn die Fehlerquote unter 15% liegt. Welche Schlussfolgerung ziehen Sie? Welcher Methode vertrauen Sie am meisten – und warum?
6a – Schätzer und Faustregel
\(\hat{p}\): …
Faustregel \(n \cdot \hat{p} \geq 5\): …
Folgerung für die Methodenwahl:
Ihre Antwort hier …
n <- nrow(produktionsfehler)
x <- sum(produktionsfehler$ausschuss)
p_hat <- mean(produktionsfehler$ausschuss)
# Hier ihren Code6b – Drei Konfidenzintervalle im Vergleich
Wald-KI: […, …] — Besonderheit: …
Wilson-KI: […, …]
Clopper-Pearson-KI: […, …]
Warum weichen die Intervalle voneinander ab?
Ihre Antwort hier …
# Hier ihren Code
# Wald: manuell
# Wilson: prop.test(..., correct = FALSE)
# Clopper-Pearson: binom.test()
# Ergebnis in knitr::kable() ausgeben6c – Schlussfolgerung und Methodenwahl
Liegt die Fehlerquote unter 15%?
Ihre Antwort hier …
Welche Methode empfehlen Sie – und warum?
Ihre Antwort hier …
Aufgabe 7: Kundenzufriedenheit
Ein Onlinehändler hat seine Lieferlogistik verbessert. Vor der Verbesserung wurden 300 Kunden befragt; 62 davon waren mit der Lieferung unzufrieden. Nach der Verbesserung wurden 280 Kunden befragt; 54 davon waren unzufrieden. Die Daten liegen als CSV-Datei vor (data/kundenzufriedenheit.csv) mit den Spalten periode (vor_Verbesserung / nach_Verbesserung) und unzufrieden (\(0\)/\(1\)).
Berechnen Sie für beide Perioden je ein 95%-Konfidenzintervall für den Anteil unzufriedener Kunden.
Visualisieren Sie die beiden KIs in einem gemeinsamen Plot.
Überlappen die beiden Intervalle? Was bedeutet das für die Beurteilung der Wirksamkeit der Massnahme? Formulieren Sie eine statistisch korrekte Schlussfolgerung.
7a – 95%-KIs für beide Perioden
Periode «vor Verbesserung» – Herleitung:
Ihre Antwort hier …
KI: […, …]
Periode «nach Verbesserung» – Herleitung:
Ihre Antwort hier …
KI: […, …]
vor <- kundenzufriedenheit |> filter(periode == "vor_Verbesserung") |> pull(unzufrieden)
nach <- kundenzufriedenheit |> filter(periode == "nach_Verbesserung") |> pull(unzufrieden)
# Hier ihren Code
# KIs mit prop.test(..., correct = FALSE) für beide Perioden
# Ergebnis in knitr::kable() ausgeben7b – Visualisierung
# Hier ihren Code (ggplot2)7c – Interpretation
Überlappen die KIs?
Ihre Antwort hier …
Was bedeutet das statistisch?
Ihre Antwort hier …
Was wäre für eine gesicherte Aussage nötig?
Ihre Antwort hier …
Aufgabe 8: Serverausfälle und SLA
Ein Rechenzentrum überwacht die Verfügbarkeit eines Servers über 500 Stunden. In 21 Stunden war der Server nicht erreichbar. Die Daten liegen als CSV-Datei vor (data/serverausfall.csv), wobei die Spalte ausfall den Wert \(1\) für eine Ausfallstunde enthält.
Berechnen Sie das 95%-Konfidenzintervall für die Ausfallrate.
Berechnen Sie zusätzlich das 90%- und das 99%-Konfidenzintervall. Stellen Sie alle drei in einer Tabelle und einem Plot gegenüber.
Im Service-Level-Agreement (SLA) ist eine maximale Ausfallrate von 4% vereinbart. Beurteilen Sie anhand der drei KIs, ob der Server die SLA erfüllt – und wie sich das Ergebnis mit dem Konfidenzniveau verändert.
8a – 95%-KI für die Ausfallrate
\(\hat{p}\): …
Herleitung 95%-KI:
Ihre Antwort hier …
95%-KI: […, …]
n <- nrow(serverausfall)
x <- sum(serverausfall$ausfall)
p_hat <- mean(serverausfall$ausfall)
# Hier ihren Code (95%-KI manuell oder mit prop.test)8b – KIs für drei Niveaus
| Niveau | \(z\) | Untergrenze | Obergrenze |
|---|---|---|---|
| 90% | |||
| 95% | |||
| 99% |
Was beobachten Sie beim Vergleich der drei KIs?
Ihre Antwort hier …
niveaus <- c(0.90, 0.95, 0.99)
# Hier ihren Code
# KIs für alle drei Niveaus mit prop.test() berechnen
# Ergebnis in knitr::kable() ausgeben# Hier ihren Code (ggplot2: drei KIs + rote Linie bei SLA-Grenze 4%)8c – SLA-Beurteilung
Liegt \(p_0 = 0.04\) in den KIs?
Ihre Antwort hier …
Wie verändert sich die Beurteilung mit dem Konfidenzniveau?
Ihre Antwort hier …
Gesamtbeurteilung:
Ihre Antwort hier …