| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
- 항해99
- 파이썬
- Azure
- 코딩테스트준비
- Git
- CSS
- 엘리스sw트랙
- 개발자취업
- 프로그래머스
- mongoDB
- HTML
- 데이터분석
- 방송대컴퓨터과학과
- 유노코딩
- 중간이들
- TiL
- 클라우드컴퓨팅
- 오픈소스기반데이터분석
- 꿀단집
- 코드잇
- 99클럽
- 방송대
- 코딩테스트
- nestjs
- 데이터베이스시스템
- Python
- 파이썬프로그래밍기초
- JavaScript
- node.js
- aws
- Today
- Total
배꼽파, 오늘도 배꼽 대신 데이터를 판다
추론 통계 기본 개념 정리 - 표준편차, 신뢰구간, p-value까지 본문

표본으로 전체를 판단하는 방법
요즘은 특정 직군만 데이터를 보는 시대가 아니다.
마케터는 전환율과 클릭률을 본다.
교육 담당자는 만족도, 수료율, 과제 제출률을 본다.
기획자는 사용자 행동 데이터를 본다.
운영 담당자는 문의량, 처리 시간, 재구매율을 본다.
사업 담당자는 매출, 객단가, 고객 유지율을 본다.
결국 많은 직군이 숫자를 보고 판단해야 한다.
그런데 숫자를 보는 것과 숫자를 판단하는 것은 다르다.
[예시 상황]
① 이번 달 평균 만족도 = 4.2점
② 전환율 = 2.0% → 2.3%
③ 교육 전 평균 점수 = 70점
④ 교육 후 평균 점수 = 75점
⑤ 고객 100명 중 긍정 응답 = 60명
이 숫자들을 보고 바로 “좋아졌다”, “효과가 있다”, “고객 반응이 좋다”고 말해도 될까?
꼭 그렇지는 않다.
이 변화가 실제로 의미 있는 변화인지, 아니면 우연히 나온 결과인지 판단해야 한다.
이때 필요한 것이 추론 통계다.
1. 기술 통계와 추론 통계
통계는 크게 두 가지로 나눌 수 있다.
[통계의 큰 구분]
데이터 수집
↓
데이터 요약
↓
기술 통계
일부 데이터 수집
↓
전체에 대한 추정
↓
추론 통계
기술 통계
기술 통계는 데이터를 요약하고 정리하는 방법이다.
[기술 통계 예시]
ㆍ이번 달 평균 구매 금액
ㆍ수강생 평균 만족도
ㆍ연령대별 비율
ㆍ문의 유형별 건수
ㆍ전환율
ㆍ수료율
예를 들어 “이번 교육 만족도 평균은 4.3점이다”라는 말은 기술 통계다.
이미 수집된 데이터를 요약한 것이기 때문이다.
추론 통계
추론 통계는 표본 데이터를 이용해 모집단을 추정하거나 판단하는 방법이다.
[추론 통계가 필요한 질문]
① 이번 설문 응답자 100명의 의견을 전체 고객 의견으로 봐도 되는가?
② 교육 후 평균 점수가 올랐는데,
실제로 교육 효과가 있었다고 말할 수 있는가?
③ A안의 전환율이 B안보다 높은데,
우연이 아니라 진짜 차이라고 볼 수 있는가?
④ 표본 만족도 평균이 4.2점인데,
실제 전체 만족도는 어느 정도라고 추정할 수 있는가?
정리하면 다음과 같다.
기술 통계 = 현재 데이터를 요약함
추론 통계 = 일부 데이터로 전체를 추정함
추론 통계의 핵심은 “일부만 보고 전체를 말해도 되는가?”에 있다.
2. 모집단과 표본
추론 통계를 이해하려면 먼저 모집단과 표본을 알아야 한다.
[모집단과 표본 관계]
모집단
= 알고 싶은 전체 대상
= 전체 고객 / 전체 수강생 / 전체 사용자
↓ 일부를 뽑음
표본
= 모집단에서 뽑은 일부 데이터
= 고객 500명 설문 / 수강생 30명 응답 / 사용자 10,000명 테스트
모집단
모집단은 우리가 알고 싶은 전체 대상이다.
[모집단 예시]
ㆍ쇼핑몰 전체 고객
ㆍ전체 웹사이트 방문자
ㆍ특정 교육 과정 전체 수강생
ㆍ앞으로 이 서비스를 사용할 전체 사용자
모집단은 다시 유한 모집단과 무한 모집단으로 나눌 수 있다.
[모집단의 종류]
① 유한 모집단
→ 구성원 수가 정해져 있음
→ 예: 특정 교육 과정 수강생 300명
② 무한 모집단
→ 정확한 수를 정하기 어려움
→ 예: 앞으로 유입될 모든 고객
표본
표본은 모집단에서 일부를 뽑은 데이터다.
[표본 예시]
ㆍ고객 500명 설문 결과
ㆍ수강생 30명의 만족도 응답
ㆍ사용자 10,000명의 A/B 테스트 결과
ㆍ이번 달 구매 고객 중 일부의 구매금액 데이터
현실에서는 모집단 전체를 조사하기 어렵다.
전체 고객에게 모두 설문을 보내도 응답하지 않는 사람이 많다.
모든 사용자의 행동을 완벽히 추적하기 어려운 경우도 있다.
시간과 비용의 문제도 있다.
그래서 표본을 사용한다.
좋은 표본의 조건
좋은 표본에는 두 가지 조건이 필요하다.
[좋은 표본의 조건]
① 대표성
→ 특정 집단에 치우치지 않아야 함
② 적절한 표본 수
→ 너무 적으면 우연의 영향이 커짐
예를 들어 쇼핑몰 전체 고객 의견을 알고 싶은데, 20대 고객만 조사했다면 표본이 치우친 것이다.
이 결과를 전체 고객 의견이라고 말하기 어렵다.
또 수강생 300명 중 3명만 조사했다면 표본 수가 너무 적다.
우연의 영향이 클 수 있다.
즉, 표본은 많기만 해도 안 되고, 대표성 없이 뽑아도 안 된다.
3. 평균과 표준편차
표본 데이터를 수집했다면 가장 먼저 보는 값은 보통 평균이다.
평균
평균은 데이터의 중심을 보여주는 값이다.
[평균 공식]
평균 = 전체 값의 합 ÷ 데이터 개수
x̄ = Σxᵢ ÷ n
예를 들어 5명의 시험 점수가 다음과 같다고 해보자.
[예시 데이터]
점수 = 70, 80, 90, 60, 100
데이터 개수 = 5
평균은 다음과 같이 계산한다.
[계산 과정]
① 전체 합
= 70 + 80 + 90 + 60 + 100
= 400
② 평균
= 400 ÷ 5
= 80
[결과]
평균 점수 = 80점
평균은 데이터를 빠르게 요약할 수 있다는 장점이 있다.
하지만 평균만 보면 중요한 정보를 놓칠 수 있다.
평균만 보면 위험한 이유
두 교육 과정의 만족도가 있다고 해보자.
[만족도 데이터]
A 과정 = 4.4, 4.5, 4.6, 4.5, 4.5
B 과정 = 2.0, 5.0, 5.0, 5.0, 5.0
두 과정 모두 평균은 높게 나올 수 있다.
하지만 실제 느낌은 다르다.
[해석]
A 과정
→ 대부분의 수강생이 비슷하게 만족함
B 과정
→ 일부는 매우 불만족했고,
나머지는 매우 만족함
이 차이를 평균만으로는 알 수 없다.
이때 필요한 개념이 분산과 표준편차다.

4. 분산과 표준편차
분산
분산은 데이터가 평균을 기준으로 얼마나 흩어져 있는지를 나타낸다.
[분산 공식]
표본분산 = 각 값과 평균의 차이를 제곱한 값의 합 ÷ (표본 수 - 1)
s² = Σ(xᵢ - x̄)² ÷ (n - 1)
분산이 크다는 것은 데이터가 평균 주변에 모여 있지 않고 넓게 퍼져 있다는 뜻이다.
다만 분산은 제곱값이라 실제 단위와 다르다.
그래서 실무에서는 표준편차를 더 자주 본다.
표준편차
표준편차는 분산에 제곱근을 씌운 값이다.
[표준편차 공식]
표준편차 = √분산
s = √s²
표준편차는 원래 데이터와 같은 단위로 해석할 수 있다.
[해석 예시]
표준편차 = 0.1
→ 응답이 평균 근처에 몰려 있음
표준편차 = 1.5
→ 사람마다 응답 차이가 큼
정리하면 다음과 같다.
[평균과 표준편차의 역할]
평균 = 데이터의 중심
표준편차 = 데이터가 평균 주변에서 얼마나 퍼져 있는지
평균이 같더라도 표준편차가 다르면 전혀 다른 데이터일 수 있다.
5. 모수와 통계량
추론 통계에서는 모수와 통계량을 구분해야 한다.
[모수와 통계량 관계]
모집단
↓
알고 싶은 진짜 값
↓
모수
표본
↓
표본에서 계산한 값
↓
통계량
모수
모수는 모집단의 실제 특성이다.
[모수 예시]
ㆍ전체 고객의 평균 구매금액
ㆍ전체 수강생의 평균 만족도
ㆍ전체 사용자의 실제 전환율
ㆍ전체 고객 중 재구매 고객 비율
모수는 우리가 알고 싶은 진짜 값이다.
하지만 대부분의 경우 정확히 알 수 없다.
통계량
통계량은 표본에서 계산한 값이다.
[통계량 예시]
ㆍ설문 응답자 100명의 평균 만족도
ㆍA/B 테스트 참여자 10,000명의 전환율
ㆍ표본 고객 500명의 평균 구매금액
추론 통계는 결국 통계량을 이용해 모수를 추정하는 과정이다.
[정리]
모수 = 모집단의 실제 값
통계량 = 표본에서 계산한 값
추론 통계 = 통계량을 이용해 모수를 추정하는 과정
6. 확률과 확률분포
추론 통계는 확률을 기반으로 한다.
확률은 불확실성을 숫자로 표현하는 방법이다.
예를 들어 동전을 던졌을 때 앞면이 나올 확률은 0.5다.
하지만 실제로 10번 던졌을 때 반드시 앞면 5번, 뒷면 5번이 나오는 것은 아니다.
확률은 가능성을 말해주는 것이지, 매번 정확히 같은 결과를 보장하지는 않는다.
확률분포
확률분포는 어떤 값이 어느 정도의 확률로 나올 수 있는지를 나타낸 것이다.
[대표적인 확률분포]
① 정규분포
② 이항분포
③ 푸아송분포
④ 지수분포
⑤ 카이제곱분포
입문 단계에서는 우선 정규분포를 중심으로 이해하면 된다.

이산확률변수와 연속확률변수
확률변수는 크게 이산확률변수와 연속확률변수로 나눌 수 있다.
[이산확률변수]
ㆍ구매 여부: 구매함 / 구매 안 함
ㆍ합격 여부: 합격 / 불합격
ㆍ하루 문의 건수: 0건, 1건, 2건
[연속확률변수]
ㆍ키
ㆍ몸무게
ㆍ체류 시간
ㆍ구매 금액
ㆍ만족도 평균
연속확률변수에서는 특정 값 하나의 확률을 구하지 않는다.
대신 범위로 확률을 구한다.
[연속확률변수의 확률 계산]
P(X = 70) = 0
P(65 < X < 75) = 계산 가능
예를 들어 “정확히 70.000000점일 확률”은 사실상 0에 가깝다.
대신 “65점보다 크고 75점보다 작을 확률”처럼 범위로 해석한다.
7. 정규분포와 중심극한정리
정규분포
정규분포는 평균을 중심으로 좌우 대칭인 종 모양 분포다.
평균 근처에 데이터가 많이 몰려 있고, 평균에서 멀어질수록 데이터가 적어진다.
[정규분포 구조]
평균
↓
┌─────────────┐
┌─┘ └─┐
┌─┘ └─┐
───┴───────────────────────┴───
낮은 값 높은 값
정규분포가 중요한 이유는 많은 통계적 추론이 정규분포를 기반으로 하기 때문이다.
중심극한정리
중심극한정리는 추론 통계에서 매우 중요한 개념이다.
[중심극한정리]
모집단의 원래 분포와 관계없이,
표본 크기가 충분히 크면,
표본평균의 분포는 정규분포에 가까워진다.
여기서 중요한 점은 원본 데이터가 정규분포가 된다는 뜻이 아니라는 것이다.
정확히는 표본평균의 분포가 정규분포에 가까워진다는 뜻이다.
[주의]
원본 데이터의 분포가 정규분포가 된다는 뜻이 아님
→ 표본평균의 분포가 정규분포에 가까워진다는 뜻



예를 들어 고객 구매금액은 한쪽으로 치우친 분포일 수 있다.
소수 고객이 매우 큰 금액을 구매하면 평균이 영향을 받는다.
하지만 이런 고객 데이터를 여러 번 표본으로 뽑아 각각 평균을 구하면, 그 표본평균들의 분포는 점점 정규분포에 가까워질 수 있다.
이 덕분에 우리는 표본평균을 이용해 모집단 평균을 추정할 수 있다.
8. 표준오차
표준오차는 표본평균이 얼마나 흔들릴 수 있는지를 나타내는 값이다.
표준편차가 개별 데이터의 퍼짐을 나타낸다면,
표준오차는 표본평균의 퍼짐을 나타낸다.
[표준편차와 표준오차 차이]
표준편차
= 개별 데이터가 얼마나 퍼져 있는지
표준오차
= 표본평균이 얼마나 흔들릴 수 있는지
공식은 다음과 같다.
[표준오차 공식]
표준오차 = 표본 표준편차 ÷ √표본 수
SE = s ÷ √n
[기호 의미]
s = 표본 표준편차
n = 표본 수
표본 수가 커질수록 표준오차는 작아진다.
즉, 표본 수가 많아지면 표본평균이 모평균에 더 가까워질 가능성이 커진다.

표준오차 계산 예시
수강생 25명의 만족도 조사 결과가 다음과 같다고 해보자.
[예시 데이터]
① 표본평균 = 4.2점
② 표본 표준편차 = 0.5점
③ 표본 수 = 25명
표준오차는 다음과 같이 계산한다.
[계산 과정]
① 표준오차 공식
SE = s ÷ √n
② 값 대입
SE = 0.5 ÷ √25
③ 제곱근 계산
SE = 0.5 ÷ 5
④ 결과
SE = 0.1
[결과 해석]
표준오차 = 0.1점
표본평균 4.2점은 전체 평균을 추정한 값이다.
다만 이 값에는 약 0.1점 정도의 흔들림이 있다고 볼 수 있다.
9. 신뢰구간
신뢰구간은 모평균이 있을 것으로 예상되는 범위를 나타낸다.
평균 하나만 제시하면 불확실성이 보이지 않는다.
예를 들어 만족도 평균이 4.2점이라고 말하면 깔끔해 보이지만, 실제 전체 만족도가 정확히 4.2점이라는 뜻은 아니다.
표본으로 계산한 값이기 때문에 오차가 있다.
그래서 신뢰구간을 함께 제시한다.
[95% 신뢰구간 공식]
95% 신뢰구간 = 표본평균 ± 1.96 × 표준오차
95% CI = x̄ ± 1.96 × SE
[신뢰구간 구조]
오차 범위
↓
하한값 ───── 평균 ───── 상한값
4.004 ───── 4.2 ───── 4.396

신뢰구간 계산 예시
앞의 만족도 예시를 그대로 사용해보자.
[예시 데이터]
① 표본평균 = 4.2
② 표준오차 = 0.1
③ 신뢰수준 = 95%
④ z값 = 1.96
95% 신뢰구간은 다음과 같다.
[계산 과정]
① 공식
95% 신뢰구간 = 표본평균 ± 1.96 × 표준오차
② 값 대입
95% 신뢰구간 = 4.2 ± 1.96 × 0.1
③ 오차 범위 계산
1.96 × 0.1 = 0.196
④ 구간 계산
하한값 = 4.2 - 0.196 = 4.004
상한값 = 4.2 + 0.196 = 4.396
[결과]
95% 신뢰구간 = 4.004 ~ 4.396
즉, 전체 수강생의 실제 평균 만족도는 대략 4.00점에서 4.40점 사이에 있을 것으로 추정할 수 있다.
신뢰구간 해석 시 주의할 점
“실제 평균이 95% 확률로 이 구간 안에 있다”라고 표현하는 경우가 많지만, 엄밀히 말하면 정확한 표현은 아니다.
더 정확한 해석은 다음과 같다.
[신뢰구간의 정확한 의미]
같은 방식으로 표본을 반복해서 뽑고 신뢰구간을 만들면,
그 신뢰구간들 중 약 95%가 실제 모평균을 포함한다.
입문 단계에서는 “신뢰구간은 평균 추정값의 불확실성을 보여주는 범위”라고 이해하면 된다.
10. 가설검정
추정이 “값이 어디쯤 있는가”를 묻는 것이라면,
검정은 “차이가 있다고 말할 수 있는가”를 묻는 것이다.
예를 들어 교육 전후 점수가 다음과 같다고 해보자.
[예시 상황]
교육 전 평균 점수 = 70점
교육 후 평균 점수 = 75점
겉으로 보면 5점 올랐다.
하지만 이 5점 차이가 실제 교육 효과 때문인지, 아니면 우연히 발생한 차이인지는 따져봐야 한다.
이때 가설검정을 사용한다.
귀무가설과 대립가설
가설검정은 항상 두 가지 가설로 시작한다.
[가설의 종류]
① 귀무가설 H₀
= 차이가 없다 / 효과가 없다
② 대립가설 H₁
= 차이가 있다 / 효과가 있다
교육 전후 점수 예시에서는 다음과 같이 설정할 수 있다.
[교육 효과 검정 가설]
H₀: 교육 전후 평균 점수 차이가 없다.
H₁: 교육 전후 평균 점수 차이가 있다.
여기서 중요한 점은 대립가설을 직접 증명하는 것이 아니라는 점이다.
가설검정은 기본적으로 “귀무가설을 기각할 수 있는가?”를 판단하는 방식이다.
[가설검정 흐름]
가설 설정
↓
귀무가설이 맞다고 가정
↓
현재 결과가 얼마나 드문지 계산
↓
p-value 확인
↓
귀무가설 기각 여부 판단
11. p-value와 유의수준
유의수준
유의수준은 귀무가설을 기각할 기준이다.
보통 0.05를 많이 사용한다.
[유의수준]
α = 0.05
의미는 다음과 같다.
[유의수준의 의미]
실제로는 차이가 없는데,
차이가 있다고 잘못 판단할 가능성을
최대 5%까지 감수하겠다는 기준
0.05는 절대적인 진리가 아니다.
실무나 연구 분야에 따라 0.01, 0.10을 쓰기도 한다.
p-value
p-value는 귀무가설이 참일 때, 현재와 같거나 더 극단적인 결과가 나올 확률이다.
[p-value 의미]
p-value
= 귀무가설이 참이라고 가정했을 때,
현재 관측된 결과 이상으로 극단적인 결과가 나올 확률
[p-value 판단 기준]
① p-value < 0.05
→ 귀무가설 기각
② p-value ≥ 0.05
→ 귀무가설 기각하지 못함

주의할 점은 “기각하지 못함”이 “귀무가설이 맞다”는 뜻은 아니라는 것이다.
단지 현재 데이터만으로는 차이가 있다고 말할 근거가 부족하다는 뜻이다.
12. 가설검정 계산 예시
어떤 교육을 들은 뒤 수강생의 테스트 점수가 올랐는지 보고 싶다고 하자.
[예시 데이터]
① 기존 평균 점수 = 70점
② 교육 후 표본평균 = 75점
③ 표본 표준편차 = 10점
④ 표본 수 = 25명
질문은 이것이다.
[검정 질문]
교육 후 평균 75점은
기존 평균 70점보다 실제로 높아졌다고 볼 수 있는가?
가설은 다음과 같다.
[가설 설정]
H₀: 교육 후 평균 점수는 70점과 차이가 없다.
H₁: 교육 후 평균 점수는 70점과 차이가 있다.
먼저 표준오차를 계산한다.
[표준오차 계산]
① 공식
SE = s ÷ √n
② 값 대입
SE = 10 ÷ √25
③ 제곱근 계산
SE = 10 ÷ 5
④ 결과
SE = 2
그다음 검정통계량을 계산한다.
[검정통계량 공식]
t = (표본평균 - 비교 기준값) ÷ 표준오차
[검정통계량 계산]
① 값 대입
t = (75 - 70) ÷ 2
② 차이 계산
t = 5 ÷ 2
③ 결과
t = 2.5
t값이 클수록 “차이가 없다”고 보기 어려워진다.
실제로 이 경우 p-value가 0.05보다 작게 나올 가능성이 높다.
그러면 유의수준 0.05 기준에서 귀무가설을 기각할 수 있다.
[결과 해석]
교육 후 평균 점수는 기존 평균 70점보다 높게 나타났다.
표본 수 25명, 표준편차 10점 기준으로 검정한 결과,
이 차이는 우연으로 보기 어려운 수준이다.
따라서 교육 후 점수가 상승했다고 해석할 수 있다.
단, 여기서도 바로 “교육이 무조건 좋다”고 결론 내리면 안 된다.
점수 상승폭이 실질적으로 충분한지, 교육 대상이 대표적인지, 테스트 난이도가 같았는지 등을 함께 봐야 한다.
13. 추정과 검정의 차이
추정과 검정은 비슷해 보이지만 질문이 다르다.
[추정과 검정 비교]
추정
= 전체 평균은 어느 정도일까?
= 신뢰구간 사용
검정
= 차이가 있다고 말할 수 있을까?
= 가설검정 사용
예를 들어 “전체 수강생 만족도는 대략 몇 점일까?”를 알고 싶다면 신뢰구간을 사용한다.
반면 “교육 전후 점수가 실제로 달라졌는가?”를 알고 싶다면 가설검정을 사용한다.
정리하면 다음과 같다.
[핵심 차이]
추정 = 모수가 어디쯤 있는지 범위를 구함
검정 = 차이 또는 효과가 있다고 말할 수 있는지 판단함
둘은 서로 연결되어 있다.
신뢰구간을 보면 차이가 있는지 어느 정도 감을 잡을 수 있고, 가설검정은 그 차이를 기준에 따라 판단해준다.
14. 통계적으로 유의미함과 실제 의미는 다르다
통계에서 가장 자주 하는 실수 중 하나가 있다.
바로 “통계적으로 유의하다”를 “실제로 중요하다”와 같은 뜻으로 받아들이는 것이다.
둘은 다르다.
예시: 전환율 변화
어떤 쇼핑몰에서 결제 버튼 색상을 바꿨다고 해보자.
[전환율 변화]
기존 전환율 = 10.00%
변경 후 전환율 = 10.05%
차이 = +0.05%p
표본 수가 매우 크면 이 0.05%p 차이도 통계적으로 유의하게 나올 수 있다.
하지만 실제로는 어떨까?
[실무 판단 포인트]
① 매출 증가가 거의 없을 수 있음
② 개발 리소스 대비 효과가 작을 수 있음
③ 사용자 경험에 큰 변화가 없을 수 있음
즉, 통계적으로는 유의하지만 실무적으로는 중요하지 않을 수 있다.
반대로 표본 수가 너무 작으면 실제로 의미 있는 차이가 있어도 통계적으로 유의하지 않게 나올 수 있다.
예를 들어 교육 후 만족도가 꽤 높아졌지만 응답자가 8명뿐이라면, 검정 결과가 유의하지 않을 수 있다.
이때 “효과가 없다”고 단정하면 안 된다.
표본이 너무 적어서 판단 근거가 부족한 것일 수 있다.
15. 표본 수, 분산, 효과 크기가 결과에 미치는 영향
통계 결과는 크게 세 가지 영향을 받는다.
표본 수
표본 수가 많을수록 작은 차이도 잘 잡힌다.
[표본 수의 영향]
표본 수 증가
→ 표준오차 감소
→ 작은 차이도 유의하게 나올 수 있음
하지만 표본 수가 너무 크면 아주 작은 차이도 통계적으로 유의하게 나올 수 있다.
그래서 유의성만 보면 안 된다.
분산
분산이 크면 결과가 흔들린다.
[분산의 영향]
분산 증가
→ 데이터 변동성 증가
→ 차이를 발견하기 어려워짐
분산이 크면 평균 차이가 있어도 확실하게 말하기 어렵다.
효과 크기
효과 크기는 실제 차이의 크기를 의미한다.
[효과 크기 예시]
① 작은 변화
10.0% → 10.1%
차이 = +0.1%p
② 큰 변화
10.0% → 13.0%
차이 = +3.0%p
둘 다 통계적으로 유의할 수 있지만 실무적 의미는 완전히 다르다.
[효과 크기]
효과 크기 = 실제 변화의 크기
p-value는 우연 가능성을 판단하는 지표이지, 효과의 크기를 말해주는 지표가 아니다.
따라서 결과를 볼 때는 최소한 다음을 함께 봐야 한다.
[결과 해석 체크리스트]
① 평균 또는 비율의 차이
② 표본 수
③ 표준편차 또는 분산
④ p-value
⑤ 효과 크기
⑥ 실무적으로 의미 있는 변화인지
16. 입문자가 자주 헷갈리는 포인트
1. 평균만 보고 판단함
평균은 중요하지만 평균만 보면 위험하다.
표준편차와 분포를 함께 봐야 한다.
2. 표본을 전체처럼 해석함
표본은 모집단의 일부다.
표본이 대표성을 가지는지 확인해야 한다.
3. 신뢰구간을 확률처럼 해석함
신뢰구간은 “모평균이 95% 확률로 이 안에 있다”는 뜻이 아니다.
[신뢰구간 해석]
틀린 해석:
→ 모평균이 95% 확률로 이 구간 안에 있다.
더 정확한 해석:
→ 같은 방식으로 신뢰구간을 반복해서 만들면,
그중 약 95%가 모평균을 포함한다.
4. p-value를 효과 크기로 착각함
p-value가 작다고 효과가 큰 것은 아니다.
표본 수가 크면 작은 차이도 p-value가 작게 나올 수 있다.
5. 통계적으로 유의하면 무조건 실행해야 한다고 생각함
통계적 유의미함은 판단 근거 중 하나일 뿐이다.
실제 의사결정에서는 비용, 리소스, 리스크, 기대효과를 함께 봐야 한다.
17. 정리
추론 통계는 표본을 가지고 모집단을 이해하기 위한 방법이다.
핵심 흐름은 다음과 같다.
[추론 통계 흐름]
① 모집단 전체를 알기 어렵다.
② 그래서 표본을 뽑는다.
③ 표본에서 평균, 표준편차 같은 통계량을 계산한다.
④ 표준오차로 표본평균의 흔들림을 본다.
⑤ 신뢰구간으로 모평균의 범위를 추정한다.
⑥ 가설검정으로 차이 또는 효과가 있는지 판단한다.
⑦ p-value와 유의수준을 기준으로 통계적 유의성을 확인한다.
⑧ 마지막으로 실제 의미가 있는지 판단한다.
추론 통계는 공식을 외우기 위한 것이 아니다.
숫자를 보고 더 안전하게 판단하기 위한 도구다.
요즘은 거의 모든 직군에서 숫자를 본다.
하지만 숫자를 본다고 해서 자동으로 좋은 판단을 할 수 있는 것은 아니다.
평균이 올랐는지, 차이가 있는지, 우연인지, 전체에 적용해도 되는지, 실제로 의미 있는 변화인지까지 따져봐야 한다.
결국 추론 통계의 목적은 하나다.
일부 데이터로 전체를 더 조심스럽게 판단하는 것
계산은 도구가 해준다.
하지만 그 숫자를 어떻게 해석하고, 어떤 결정을 내릴지는 사람의 몫이다.
'실전 기술 활용 > 데이터 분석' 카테고리의 다른 글
| 교육 효과 분석 2편: 분석 결과를 Streamlit 대시보드로 만들기 (0) | 2026.06.03 |
|---|---|
| 교육 효과 분석 1편: 대응표본 t-test로 검증한 교육 전후 변화 (0) | 2026.06.03 |
| 기술통계 정리 - 수식과 그래프로 이해하기 (0) | 2026.06.03 |