학생 10명의 시험 점수가 다음과 같다: 55, 60, 65, 70, 72, 75, 80, 85, 90, 95 (a) 5-number summary를 구하시오. (b) IQR을 이용하여 이상치(outlier)가 있는지 판단하시오. (c) 이 분포의 shape을 설명하시오.

문제 02

z-점수 · 표준화

어느 시험의 평균은 72점, 표준편차는 8점이다. 민준이가 88점을 받았을 때: (a) 민준이의 z-점수를 구하시오. (b) z-점수의 의미를 해석하시오. (c) 같은 시험에서 z = –1.5인 학생의 원점수를 구하시오.

UNIT 02

정규분포와 표준화

Normal Distribution

📌 핵심 개념 및 암기 공식

▸정규분포: 종 모양(Bell-shaped), 평균=중앙값=최빈값, N(μ, σ²)

▸Empirical Rule (68-95-99.7): μ±σ → 68%, μ±2σ → 95%, μ±3σ → 99.7%

▸표준정규분포: N(0,1), z = (x–μ)/σ

▸z-table: 왼쪽 누적 면적 P(Z < z) 읽기

▸percentile: 해당 값보다 낮은 비율 (z-table에서 직접 읽기)

▸역산: x = μ + z·σ (percentile → 원점수)

예제

X ~ N(100, 15²)일 때, P(X < 115)를 구하시오.

정답

z = (115–100)/15 = 1.0 → P(Z < 1.0) ≈ 0.8413 (약 84.1%)

실전 문제

문제 03

정규분포 · Empirical Rule

SAT 수학 점수가 N(520, 100²)을 따른다고 가정한다. (a) Empirical Rule을 이용하여 점수가 420점에서 620점 사이에 속하는 학생의 비율을 구하시오. (b) 상위 16%에 해당하려면 최소 몇 점을 받아야 하는가? (c) 임의로 선택한 학생의 점수가 700점 이상일 확률을 구하시오. (z-table: P(Z<1.8)=0.9641)

문제 04

Percentile · 역산

여성 키가 N(163, 6²)을 따른다. z-table에서 P(Z<1.28)=0.9, P(Z<–0.52)=0.3이다. (a) 키가 90th percentile에 해당하는 값을 구하시오. (b) 키가 155cm 이상 169cm 미만인 비율을 구하시오. (z-table 활용)

UNIT 03

데이터 수집 방법

Data Collection

📌 핵심 개념 및 암기 공식

▸관찰 연구 vs 실험: 관찰은 인과관계 불가, 실험만 인과관계 확립 가능

▸편향(Bias): Voluntary response bias, Undercoverage bias, Nonresponse bias

▸표본 추출법: SRS(단순임의), Stratified(층화), Cluster(군집), Systematic(계통)

▸실험 설계 4원칙: Control(통제), Randomize(무작위), Replicate(반복), Block(블로킹)

▸이중맹검법(Double-blind): 피험자와 연구자 모두 처리 모름 → 플라세보 효과 제거

▸교란변수(Confounding variable): 설명변수와 반응변수 모두에 영향

예제

온라인 설문에 자발적으로 응답한 결과를 모집단에 일반화하면 어떤 편향이 발생하는가?

정답

Voluntary response bias — 강한 의견을 가진 사람이 과대 대표됨

실전 문제

문제 05

실험 설계 · 편향

어느 연구자가 새 수면제의 효과를 검증하려 한다. 50명의 지원자를 모집하여 25명에게 수면제를, 나머지 25명에게 설탕 알약을 주었으나, 연구자는 누가 어떤 약을 먹는지 알고 있다. (a) 이 실험에서 처리(treatment)와 반응변수(response variable)를 각각 쓰시오. (b) 이 실험 설계의 문제점을 두 가지 서술하시오. (c) 개선된 실험 설계를 제안하시오.

문제 06

표본 추출 · 편향

전국 고등학생의 수면 시간을 조사하려 한다. 연구자가 한 학교의 1학년 전체(300명)를 조사하였다. (a) 이 표본 추출 방법의 명칭을 쓰고 문제점을 설명하시오. (b) 층화 임의 추출(Stratified Random Sampling)을 적용할 경우, 어떤 기준으로 층을 나누는 것이 적절한지 이유와 함께 서술하시오.

UNIT 04

확률의 기초

Probability

📌 핵심 개념 및 암기 공식

▸P(A) = (사건 A의 경우의 수) / (전체 경우의 수), 0 ≤ P(A) ≤ 1

▸여사건: P(Aᶜ) = 1 – P(A)

▸덧셈 법칙: P(A∪B) = P(A) + P(B) – P(A∩B)

▸상호배반(Mutually Exclusive): P(A∩B) = 0 → P(A∪B) = P(A)+P(B)

▸조건부 확률: P(A|B) = P(A∩B) / P(B)

▸독립: P(A|B) = P(A) ↔ P(A∩B) = P(A)·P(B)

예제

주사위를 던져 짝수(A)와 3 이상(B)이 나올 확률의 합집합 P(A∪B)를 구하시오.

정답

P(A)=3/6, P(B)=4/6, P(A∩B)=P({4,6})=2/6 → P(A∪B) = 3/6+4/6–2/6 = 5/6

실전 문제

문제 07

조건부 확률 · 독립

한 학교에서 학생 200명을 조사하였다. 수학을 좋아하는 학생은 80명, 과학을 좋아하는 학생은 70명, 둘 다 좋아하는 학생은 30명이다. (a) 수학을 좋아할 때 과학도 좋아할 조건부 확률 P(과학|수학)을 구하시오. (b) 수학을 좋아하는 사건과 과학을 좋아하는 사건이 독립인지 판단하시오. (c) 수학도 과학도 좋아하지 않는 학생의 비율을 구하시오.

문제 08

확률 법칙 · 여사건

제품 불량률이 3%인 공장에서 제품 3개를 무작위로 선택한다. 각 제품의 불량 여부는 독립이라 가정한다. (a) 3개 모두 정상일 확률을 구하시오. (b) 적어도 하나가 불량일 확률을 구하시오. (c) 정확히 1개만 불량일 확률을 구하시오.

UNIT 05

이산확률분포

Discrete Probability Distributions

📌 핵심 개념 및 암기 공식

▸확률분포: Σ P(x) = 1, 0 ≤ P(x) ≤ 1

▸기댓값: E(X) = μ = Σ[x·P(x)]

▸분산: Var(X) = σ² = Σ[(x–μ)²·P(x)]

▸이항분포 B(n,p): P(X=k) = C(n,k)·pᵏ·(1–p)ⁿ⁻ᵏ

▸이항분포: μ = np, σ = √(np(1–p))

▸이항분포 조건 BINS: Binary(2결과), Independent, Number 고정, Same p

예제

동전을 5번 던질 때 앞면이 3번 나올 확률을 구하시오.

정답

P(X=3) = C(5,3)·(0.5)³·(0.5)² = 10·(1/32) = 10/32 ≈ 0.3125

실전 문제

문제 09

이항분포

자유투 성공률이 70%인 농구 선수가 10번의 자유투를 시도한다. (a) 성공 횟수 X의 분포를 표기하시오. (b) E(X)와 SD(X)를 구하시오. (c) 정확히 7번 성공할 확률을 소수 네 자리까지 구하시오. (C(10,7)=120) (d) 8번 이상 성공할 확률을 구하는 식을 세우시오. (계산 불필요)

문제 10

기댓값 · 이산분포

복권 1장(1,000원)을 구입하면 다음의 상금을 받는다: 100만원: 확률 0.0001 1만원: 확률 0.005 1,000원: 확률 0.01 꽝: 나머지 (a) 기댓값 E(상금)을 구하시오. (b) 1장 구입 시 기대 이익(상금–구입가)을 구하시오. (c) 이 복권을 사는 것이 경제적으로 합리적인지 판단하시오.

UNIT 06

표본분포와 중심극한정리

Sampling Distributions & CLT

📌 핵심 개념 및 암기 공식

▸표본평균의 분포: μ_x̄ = μ, 표준오차 σ_x̄ = σ/√n

▸CLT: n ≥ 30이면 X̄는 대략 N(μ, σ²/n)을 따름

▸표본비율: μ_p̂ = p, σ_p̂ = √(p(1–p)/n)

▸p̂ 정규 근사 조건: np ≥ 10 AND n(1–p) ≥ 10

▸표본 크기 ↑ → 표준오차 ↓ → 추정 정확도 ↑

예제

μ=50, σ=10인 모집단에서 n=25 추출 시 X̄의 표준오차를 구하시오.

정답

σ_x̄ = σ/√n = 10/√25 = 10/5 = 2

실전 문제

문제 11

CLT · 표본평균

평균 통화 시간이 μ=8분, σ=3분인 모집단에서 n=36명을 임의 추출한다. (a) 표본평균 X̄의 분포를 명시하시오. (b) P(X̄ > 9)를 구하시오. (z-table: P(Z<2)=0.9772) (c) 표본 크기를 144로 늘리면 표준오차는 어떻게 변하는가?

문제 12

표본비율 분포

전국 유권자의 52%가 A 후보를 지지한다. 400명을 무작위로 조사할 때: (a) 표본비율 p̂의 분포를 정규 근사로 나타낼 수 있는 조건을 확인하시오. (b) p̂의 평균과 표준편차를 구하시오. (c) 조사 결과 지지율이 48% 이하일 확률을 구하시오. (z-table: P(Z<–1.6)=0.0548)

UNIT 07

신뢰구간 추정

Confidence Intervals

📌 핵심 개념 및 암기 공식

▸신뢰구간: 추정치 ± 오차한계(ME)

▸모평균 CI (σ 알 때): x̄ ± z*·(σ/√n)

▸모평균 CI (σ 모를 때): x̄ ± t*·(s/√n), df = n–1

▸모비율 CI: p̂ ± z*·√(p̂(1–p̂)/n)

▸z* 값: 90% → 1.645, 95% → 1.96, 99% → 2.576

▸올바른 해석: "반복 시행 시 X%의 구간이 모수를 포함" (모수의 확률이 아님!)

예제

n=64, x̄=75, s=8일 때 95% 신뢰구간을 구하시오.

정답

75 ± 1.96·(8/√64) = 75 ± 1.96·1 = (73.04, 76.96)

실전 문제

문제 13

모평균 신뢰구간 · 해석

무작위로 선택한 50명 학생의 일일 공부 시간: x̄=4.2시간, s=1.1시간 (a) 모평균에 대한 95% 신뢰구간을 구하시오. (t*≈2.01, df=49) (b) 이 신뢰구간을 올바르게 해석하시오. (c) 오차한계를 현재의 절반으로 줄이려면 표본 크기를 얼마로 해야 하는가?

문제 14

모비율 신뢰구간

1,000명을 조사한 결과 600명이 특정 서비스에 만족한다고 응답하였다. (a) 모비율에 대한 99% 신뢰구간을 구하시오. (z*=2.576) (b) 표본 크기 1,000이 충분한지 조건을 확인하시오. (c) "모비율이 구간 안에 있을 확률은 99%이다"라는 해석이 옳은지 판단하고 이유를 서술하시오.

UNIT 08

가설검정 I — 평균

Significance Tests: Mean

📌 핵심 개념 및 암기 공식

▸귀무가설 H₀: 효과 없음 (등호 포함), 대립가설 Hₐ: 연구자의 주장

▸t-검정통계량: t = (x̄ – μ₀) / (s/√n), df = n–1

▸p-value: H₀이 참일 때, 현재 결과만큼 극단적일 확률

▸결론: p < α → H₀ 기각 (통계적으로 유의), p ≥ α → H₀ 기각 실패

▸Type I 오류(α): H₀ 참인데 기각, Type II 오류(β): H₀ 거짓인데 기각 실패

▸검정력(Power) = 1–β: H₀이 거짓일 때 기각할 확률

예제

H₀: μ=100, n=25, x̄=108, s=10일 때 t-통계량을 구하시오.

정답

t = (108–100)/(10/√25) = 8/2 = 4.0

실전 문제

문제 15

t-검정 · 가설 설정

제조사는 배터리 평균 수명이 500시간 이상이라 주장한다. 30개의 배터리를 검사한 결과 x̄=488시간, s=24시간이었다. (a) 귀무가설과 대립가설을 설정하시오. (b) t-검정통계량을 구하시오. (c) p-value가 0.008일 때 α=0.05 수준에서 결론을 내리시오. (d) 이 결론에서 발생할 수 있는 오류의 유형과 의미를 서술하시오.

문제 16

Type I·II 오류 · 검정력

약물이 혈압을 낮추는지 검정한다. H₀: 약물 효과 없음 (α=0.05) (a) Type I 오류가 발생하는 상황과 그 결과를 실생활 맥락에서 서술하시오. (b) Type II 오류가 발생하는 상황과 그 결과를 서술하시오. (c) 검정력(Power)을 높이는 방법을 두 가지 서술하시오.

UNIT 09

카이제곱 검정 · 회귀분석

Chi-Square & Linear Regression

📌 핵심 개념 및 암기 공식

▸χ² 통계량: χ² = Σ[(O–E)²/E], 기대빈도: E = (행합×열합)/전체

▸χ² 적합도: df = 범주 수–1, 독립성 검정: df = (r–1)(c–1)

▸χ² 조건: 모든 셀의 기대빈도 E ≥ 5

▸선형 회귀: ŷ = b₀ + b₁x, b₁ = r·(sy/sx), b₀ = ȳ – b₁x̄

▸결정계수 r²: 반응변수 변동 중 설명변수로 설명되는 비율

▸상관계수 r: –1 ≤ r ≤ 1, 단위 없음, 인과관계 의미 없음

예제

회귀식 ŷ = 2 + 0.8x에서 x=10일 때 잔차가 3이면 실제 y값은?

정답

ŷ = 2+0.8·10 = 10, y = ŷ+e = 10+3 = 13

실전 문제

문제 17

선형 회귀 · r²

공부 시간(x, 시간)과 시험 점수(y, 점) 데이터에서 회귀식은 ŷ = 50 + 8x이고, r² = 0.81이다. (a) 회귀 계수(기울기)의 의미를 맥락에 맞게 해석하시오. (b) r²=0.81의 의미를 해석하시오. (c) 공부 시간이 5시간인 학생의 예측 점수를 구하시오. (d) r의 값과 부호를 결정하시오.

문제 18

χ² 독립성 검정

성별과 선호 음악 장르(팝/록/힙합)의 관계를 조사하여 2×3 분할표를 얻었다. 전체 n=300이고 χ²=9.21이었다. (a) 귀무가설과 대립가설을 설정하시오. (b) 자유도를 구하시오. (c) χ²=9.21, df=2일 때 p-value < 0.05이면 α=0.05에서 결론을 내리시오. (d) 기대빈도 조건을 서술하시오.

UNIT 10

두 모집단 추론 · 통합 응용

Two-Sample Inference & Review

📌 핵심 개념 및 암기 공식

▸두 평균 차이 CI: (x̄₁–x̄₂) ± t*·√(s₁²/n₁+s₂²/n₂)

▸두 비율 차이 CI: (p̂₁–p̂₂) ± z*·√(p̂₁(1–p̂₁)/n₁+p̂₂(1–p̂₂)/n₂)

▸대응표본(Paired t): 차이 d=x₁–x₂를 하나의 표본으로 검정, t = d̄/(sd/√n)

▸통합 전략: 조건 확인 → 검정 선택 → 통계량 계산 → 결론 → 맥락 해석

▸관찰 연구는 연관성만 주장 가능, 인과관계 주장은 무작위 실험만 가능

예제

A반 n=20, x̄=82, s=5 / B반 n=20, x̄=78, s=6. 두 반 평균 차이의 95% CI 오차한계 공식은?

정답

ME = t*·√(5²/20+6²/20) = t*·√(25/20+36/20) = t*·√3.05 ≈ t*·1.75

실전 문제

문제 19

두 평균 차이 · 대응표본

새 교수법(A)과 전통 교수법(B)의 효과를 비교하기 위해 같은 학생 25명에게 교수법 A 전후로 시험을 보았다. 차이(A–B)의 평균은 d̄=4.5점, sd=3.0점이었다. (a) 이 연구에서 대응표본 t-검정을 사용해야 하는 이유를 설명하시오. (b) H₀: μd=0 vs Hₐ: μd>0으로 t-검정통계량을 구하시오. (c) df와 검정 절차를 완성하시오.

문제 20

두 비율 차이 · 신뢰구간

전국 조사에서 남성 500명 중 300명, 여성 500명 중 250명이 SNS를 매일 사용한다. (a) 두 모비율 차이(남–여)에 대한 95% 신뢰구간을 구하시오. (z*=1.96) (b) 신뢰구간을 해석하고, 성별 간 SNS 사용률에 차이가 있다고 할 수 있는지 판단하시오. (c) 이 연구에서 인과관계를 주장할 수 있는지 설명하시오.

정답 및 해설

Answer Key & Explanations — Units 01 ~ 10

Q 01

5수치 요약
Box Plot

(a) Min=55, Q1=65, Median=73.5, Q3=85, Max=95 (b) IQR=85–65=20. 이상치 기준: < 65–30=35, > 85+30=115 → 이상치 없음 (c) 점수가 55~95에 고르게 분포. 중앙값(73.5)이 평균(74.7)보다 약간 작아 대칭에 가깝거나 약한 오른쪽 치우침

Q 02

z-점수
표준화

(a) z = (88–72)/8 = 2.0 (b) 민준이의 점수는 평균보다 표준편차 2배만큼 높음 (상위 약 2.3%) (c) x = 72 + (–1.5)×8 = 72–12 = 60점

Q 03

정규분포
Empirical

(a) μ±σ = 420~620 → Empirical Rule에 의해 약 68% (b) 상위 16% = 하위 84% → μ+σ = 520+100 = 620점 (c) z=(700–520)/100=1.8 → P(X>700)=1–0.9641=0.0359 ≈ 3.59%

Q 04

Percentile
역산

(a) 90th percentile: x=163+1.28×6=163+7.68=170.68 cm (b) z₁=(155–163)/6≈–1.33, z₂=(169–163)/6=1.0 P(155<X<169) = P(Z<1.0)–P(Z<–1.33) = 0.8413–0.0918 = 0.7495 ≈ 74.95%

Q 05

실험 설계
편향

(a) 처리: 수면제 vs 플라세보(설탕 알약), 반응변수: 수면 시간 또는 수면의 질 (b) ① 단맹검(single-blind)으로 연구자 편향 가능 ② 지원자 모집으로 자기선택 편향 가능 (c) 이중맹검법(Double-blind) 도입 + 무작위 배정 실시

Q 06

표본 추출
편향

(a) Cluster Sampling(군집 추출). 한 학교 1학년만 조사 → undercoverage bias 발생 가능 (학년·지역별 특성 반영 안 됨) (b) 학년별로 층화: 수면 시간이 학년(학업 부담·나이)에 따라 다를 수 있어 층화 시 대표성 향상

Q 07

조건부 확률
독립

(a) P(과학|수학) = P(수학∩과학)/P(수학) = (30/200)/(80/200) = 30/80 = 0.375 (b) P(과학)=70/200=0.35. 0.375≠0.35 → 독립이 아님 (연관성 있음) (c) P(수학∪과학) = (80+70–30)/200 = 120/200 → 나머지 = 80/200 = 40%

Q 08

확률 법칙
여사건

(a) P(모두 정상) = (0.97)³ = 0.912673 ≈ 0.9127 (b) P(적어도 1개 불량) = 1–0.9127 = 0.0873 (c) P(정확히 1개) = C(3,1)·(0.03)¹·(0.97)² = 3×0.03×0.9409 ≈ 0.0847

Q 09

이항분포

(a) X ~ B(10, 0.7) (b) E(X)=np=7, SD(X)=√(10×0.7×0.3)=√2.1≈1.449 (c) P(X=7)=C(10,7)×(0.7)⁷×(0.3)³=120×0.0824×0.027≈0.2668 (d) P(X≥8)=P(X=8)+P(X=9)+P(X=10)

Q 10

기댓값
이산분포

(a) E(상금)=1,000,000×0.0001+10,000×0.005+1,000×0.01+0×나머지 = 100+50+10 = 160원 (b) 기대 이익 = 160–1,000 = –840원 (c) 합리적이지 않음 — 복권 1장당 평균 840원 손실

Q 11

CLT
표본평균

(a) X̄ ~ N(μ=8, σ_x̄=3/√36=0.5), 즉 X̄ ~ N(8, 0.25) (b) z=(9–8)/0.5=2.0 → P(X̄>9)=1–0.9772=0.0228 (c) n=144 → σ_x̄=3/√144=3/12=0.25 (n이 4배 증가하면 SE는 절반)

Q 12

표본비율
분포

(a) np=400×0.52=208≥10, n(1–p)=400×0.48=192≥10 → 정규 근사 가능 (b) μ_p̂=0.52, σ_p̂=√(0.52×0.48/400)=√0.000624≈0.025 (c) z=(0.48–0.52)/0.025=–1.6 → P(p̂≤0.48)=0.0548

Q 13

신뢰구간
해석

(a) 4.2±2.01×(1.1/√50)=4.2±2.01×0.1556=4.2±0.313=(3.887, 4.513)시간 (b) 이 방법으로 반복 추출 시 95%의 구간이 모평균을 포함한다 (c) ME ∝ 1/√n → ME를 절반으로 줄이려면 n을 4배: 50×4=200명

Q 14

모비율
신뢰구간

(a) p̂=0.6, 0.6±2.576×√(0.6×0.4/1000)=0.6±2.576×0.01549≈0.6±0.0399=(0.560, 0.640) (b) np̂=600≥10, n(1–p̂)=400≥10 → 조건 충족 (c) 틀림. 모수는 고정값이므로 "확률"이 아닌, 반복 추출 시 99%의 구간이 모수를 포함한다는 의미

Q 15

t-검정
가설 설정

(a) H₀: μ=500, Hₐ: μ<500 (단측 검정) (b) t=(488–500)/(24/√30)=–12/4.382≈–2.74 (c) p=0.008<0.05 → H₀ 기각. 배터리 평균 수명이 500시간 미만이라는 통계적 증거 있음 (d) Type I 오류: 실제 수명이 500h 이상인데 기각 → 제조사 부당 피해

Q 16

오류 유형
검정력

(a) Type I 오류: 약물이 실제 효과 없는데 효과 있다고 결론 → 효과 없는 약이 시판됨 (환자 피해) (b) Type II 오류: 약물이 실제 효과 있는데 없다고 결론 → 효과 있는 약이 사장됨 (치료 기회 상실) (c) ① 표본 크기 n 증가 ② 유의수준 α를 높임 (단, Type I 오류 증가 감수)

Q 17

선형 회귀
r²

(a) 공부 시간이 1시간 늘면 예측 시험 점수는 평균 8점 증가 (b) 공부 시간이 시험 점수 변동의 81%를 설명함 (c) ŷ=50+8×5=90점 (d) r²=0.81이고 기울기 양수 → r=+0.9

Q 18

χ² 독립성
검정

(a) H₀: 성별과 음악 장르 선호는 독립, Hₐ: 독립이 아님 (연관성 있음) (b) df=(2–1)(3–1)=2 (c) p<0.05 → H₀ 기각. 성별과 음악 장르 선호 사이에 통계적으로 유의한 연관성 있음 (d) 모든 셀의 기대빈도 E≥5이어야 함

Q 19

대응표본
t-검정

(a) 같은 학생을 두 번 측정 → 두 점수는 독립이 아닌 쌍을 이루므로 대응표본 사용 (b) t=d̄/(sd/√n)=4.5/(3.0/√25)=4.5/0.6=7.5 (c) df=n–1=24. p<0.0001 → H₀ 기각. 교수법 A가 통계적으로 유의하게 효과적

Q 20

두 비율
신뢰구간

(a) p̂남=0.6, p̂여=0.5, 차이=0.1 SE=√(0.6×0.4/500+0.5×0.5/500)=√(0.00048+0.0005)=√0.00098≈0.0313 CI: 0.1±1.96×0.0313=0.1±0.0614=(0.039, 0.161) (b) 구간이 0을 포함하지 않아 성별 간 차이 통계적으로 유의. 남성이 여성보다 약 4~16% 높음 (c) 인과관계 불가 — 관찰 연구이므로 성별이 SNS 사용을 "유발"한다고 볼 수 없음

핵심 문제집Complete Workbook

핵심 문제집
Complete Workbook