안녕하세요 오늘은 ADsP 공부 10일차입니다.
오늘도 회귀와 함께 정리본 작성해보겠습니다.
20일간 열심히 스터디를 진행해서 자격증 합격까지 마무리해봅시다 !
9일차 정리본은 아래 게시물 참고해주세요 ~
2025.02.05 - [ADsP 자격증] - [9일차] ADsP 자격증 : 통계의 이해
[9일차] ADsP 자격증 : 통계의 이해
안녕하세요 오늘은 ADsP 공부 9일차입니다.오늘도 회귀와 함께 정리본 작성해보겠습니다.20일간 열심히 스터디를 진행해서 자격증 합격까지 마무리해봅시다 ! 8일차 정리본은 아래 게시물 참고
lnylnylnylny.tistory.com
저의 ADsP 공부는 미어캣책과 함께 공부를 진행하려고 합니다. 아래 게시글을 참고해주세요 !
2025.01.20 - [ADsP 자격증] - ADsP 데이터분석 준전문가 비전공자도 독학으로 부시기 !
ADsP 데이터분석 준전문가 비전공자도 독학으로 부시기 !
안녕하세요 이번 ADsP 44회를 도전하고 있는 대학생입니다. 이 시험을 준비하기 앞서 저는 미어캣 책으로 유명한 위키북스 책으로 고르게 되었습니다.작년에도 시험에 도전하려고 했는데 시간적
lnylnylnylny.tistory.com
그럼 바로 10일차 <기초 통계> 정리를 해보겠습니다.
3과목 같은 경우 전체적인 내용 구성을 R코드로 입력하며 학습하기 위한 부분이니 참고만 해주세요
실제 시험의 경우 통계 분석, 데이터 마이닝을 위한 코드 문제가 출제될 가능성은 현저히 낮기 때문에 시험공부를 할 경우 코드는 이해를 위한 참고용으로 활용하고, R 코드를 너무 집중적으로 공부하지 않도록 주의해주세요 !
1.일 표본 t-검정
: 하나의 모집단의 평균 값을 특정값과 비교하는 경우 사용하는 통계법
- 모수에 대한 검정을 할 때 모수값이 '~보다 크다' or '~보다 작다'와 같이 한쪽으로의 방향성을 갖는 경우 수행법
2. 일 표본 양측 t-검정
: 단측 검정처럼 방향성을 갖지 않고 모수값이 '~이다' or '~아니다'와 같이 방향성이 없는 경우 수행법
3. 이(독립) 표본 t-검정
: 서로 독립적인 두 개의 집단에 대하여 모수 값이 같은 값을 갖는지 통계적으로 검증
- 두 모집단의 분산이 같음인 등분산성을 만족해야함 -> 등분산 검정을 먼저 수행 후 t-검정 수행
4. 이 표본 단측 t-검정
: 두 집단에 대하여 모수를 비교할 때 '~이~보다 크다/작다'와 같이 두 집단 사이에 대소가 있는 경우 수행법
5. 이 표본 양측 t-검정
: 두 집단에 대하여 모수 비교할 때 '두 집단이 같다/ 다르다' 와 같이 두 집단 사이에 대소가 없는 경우 수행법
6. 대응 표본 t-검정
: 동일한 대상에 대해 두 가지 관측치가 있는 경우 이를 비교하여 차이가 있는지 검정할 때 사용
-> 실험 전후 효과 비교를 위해 사용
ex) 두 집단에 신약 투약 이후 전후 수치 비교
7. 분산분석 (ANOVA)
: 세 개 이상의 모집단이 있을 경우에 여러 집단 사이의 평균을 비교하는 검정 방법
: 귀무가설 "H0: 모든 집단 간 평균은 같다"
8. 분산분석 가정사항
- 정규성 : 각 집단의 표본들은 정규분포를 따름
- 등분산성 : 각 집단은 동일한 분산을 가짐
- 독립성 : 각 집단은 서로에게 영향을 주지 않음
9. 분산분석의 특징
- 귀무가설을 기각할 경우 어느 집단의 평균이 같은지 다른지 알 수 없는 단점
- 어느 집단 간에 차이를 보기 위해 사후검정 방법인 Scheffe, Tukey 등 사용
- 독립변수는 범주형 데이터. 종속변수는 연속형 데이터
- (집단 간 분산) / (집단 내 분산) 으로 게산되는 F-value 사용
- 평균을 비교하는 분산분석에서 분산을 사용하는 이유는 집단 간 평균의 분산이 클수록 각 집단의 평균은 서로 멀리 떨어져있어 비교가 쉬움
10. 일원분산분석
: 셋 이상의 집단 간 평균을 비교하는 상황에서 하나의 집단에 속하는 독립변수와 종속변수가 모두 한 개일 때 사용
11. 분산분석표
제곱합 | 자유도 | 제곱 평균 | F비 | |
처리 | SSR | a = 집단수 -1 | MSR = SSR/a | F = MSR/MSE |
잔차 | SSE | b = 전체데이터 - 집단수 | MSE = SSE/b | |
계 | SST = SSR+SSE | a+b = 전체데이터 -1 |
SSE : 잔차들이 자신의 표본 평균으로부터 벗어난 편차의 제곱
SSR : 표본 평균과 종속 변수 값 중 독립변수에 의해 설명된 부분과 차이를 제곱하여 합한 값
SST : 종속변수의 관측값과 표본의 평균차이 (편차)를 제곱하여 합한 값 = SSR + SSE
12. 이원분산분석
: 일원분산분석 수행 시 독립변수 수가 두 개 이상일 때 사용
- 독립변수 간 교호작용 O -> 반복이 있는 실험
- 독립변수 간 교호작용 X -> 반복이 없는 실험
+ 집단 간의 평균 차이를 검증할 때 종속변수가 2개이상이면 다변량분산분석(Manova) 수행
+ 교호작용: 독립변수끼리 서로 영향을 미침
13. 교차분석
: 범주형 자료(명목, 서열) 간의 관계를 알아보고자 사용되는 분석방법
: 카이제곱(x²) 검정통계량 이용
: 적합도 검정, 독립성 검정, 동질성 검정에 사용
14. 적합도 검정
: 실험 결과 얻어진 관측값이 예상값과 일치하는 지 여부를 검정하는 방법
- 실험데이터 -> 관측도수
- 예측값 -> 기대 도수
-> 관측도수 = 기대도수 : 차이가 없음
15. 적합도 검정 가설
- H0: 실제분포와 예측분포 간의 차이가 없다 = 두 분포가 일치
- H1: 실제분포와 예측분포 간의 차이가 있다 = 두 분포가 일치X
16. 적합도 검정 유의수준
- 보통 : α = 0.05
- 기각값은 카이제곱합 분포표에서 유의수준 α = 0.05 일 때, 자유도 df = 범주수 -1에 해당하는 값
17. 독립성 검정
: 모집단이 두 개의 변수에 의해 범주화 됐을 때 그 두 변수들 사이의 관계가 독립적인지 아닌지 검정
- 변수들 사이의 관계 독립적 -> 유의한 관계X
- 변수들 사이의 관계 독립적X -> 유의한 관계
-> 카이제곱 검정에 의한 독립성 검정은 두 변수 간 관계를 강도 말하지 않음 + 관계 있는지만
-> 유의한 관계가 있다는 것 = 상관관계가 강하다는 의미는 아님
18. 동질성 검정
: 관측값들이 정해진 범주 내에서 서로 비슷하게 나타나고 있는지 검정
- 두 집단의 분포가 동일한 모집단에 추출된 건지 검정
- 계산할 때는 교차표 활용 + 계산 및 검증은 독립성 검정과 동일
19. 상관분석
: 두 변수 간의 선형적 관계가 존재하는 지 알아보는 분석방법 -> 상관계수 활용
- 상관계수 : + 1 -> 양의 상관관계
- 상관계수 : - 1 -> 음의 상관관계
- 상관계수 : 0 -> 상관관계 X
20. 상관분석 귀무가설
: H0 : 두 변수는 아무 상관관계가 없다
-> p-value가 유의수준보다 작으면, 귀무가설 기각 (= 상관관계 있음)
21. 상관분석 종류
- 피어슨 상관계수 (선형적 상관관계) : 모수적 방법으로 두 변수가 모두 정규분포를 따른다는 가정 필요
- 스피어만 상관계수 (비선형적 상관관계) : 두 변수가 서열척도 일 때 사용하는 상관관계, 비모수적 방법 -> 관측값 순위로 계산
'ADsP 자격증' 카테고리의 다른 글
[12일차] ADsP 자격증 : 다변량분석 (0) | 2025.02.11 |
---|---|
[11일차] ADsP 자격증 : 회귀분석 (0) | 2025.02.10 |
[9일차] ADsP 자격증 : 통계의 이해 (0) | 2025.02.05 |
[8일차] ADsP 자격증 : 데이터 마트 (0) | 2025.02.05 |
[6일차] ADsP 자격증 : 분석 거버넌스 (0) | 2025.01.31 |