본문 바로가기
ADsP 자격증

[9일차] ADsP 자격증 : 통계의 이해

by 잉나영 2025. 2. 5.
반응형

안녕하세요 오늘은 ADsP 공부 9일차입니다.

오늘도 회귀와 함께 정리본 작성해보겠습니다.

20일간 열심히 스터디를 진행해서 자격증 합격까지 마무리해봅시다 !

 

8일차 정리본은 아래 게시물 참고해주세요 ~

2025.02.05 - [ADsP 자격증] - [8일차] ADsP 자격증 : 데이터 마트

 

[8일차] ADsP 자격증 : 데이터 마트

안녕하세요 오늘은 ADsP 공부 8일차입니다.오늘도 회귀와 함께 정리본 작성해보겠습니다.20일간 열심히 스터디를 진행해서 자격증 합격까지 마무리해봅시다 ! 7일차 정리본은 아래 게시물 참고

lnylnylnylny.tistory.com

 

저의 ADsP 공부는 미어캣책과 함께 공부를 진행하려고 합니다. 아래 게시글을 참고해주세요 !

2025.01.20 - [ADsP 자격증] - ADsP 데이터분석 준전문가 비전공자도 독학으로 부시기 !

 

ADsP 데이터분석 준전문가 비전공자도 독학으로 부시기 !

안녕하세요 이번 ADsP 44회를 도전하고 있는 대학생입니다. 이 시험을 준비하기 앞서 저는 미어캣 책으로 유명한 위키북스 책으로 고르게 되었습니다.작년에도 시험에 도전하려고 했는데 시간적

lnylnylnylny.tistory.com

 

 

그럼 바로 9일차 <통계의 이해> 정리를 해보겠습니다.

 

3과목 같은 경우 전체적인 내용 구성을 R코드로 입력하며 학습하기 위한 부분이니 참고만 해주세요

실제 시험의 경우 통계 분석, 데이터 마이닝을 위한 코드 문제가 출제될 가능성은 현저히 낮기 때문에 시험공부를 할 경우 코드는 이해를 위한 참고용으로 활용하고, R 코드를 너무 집중적으로 공부하지 않도록 주의해주세요 !


1. 통계

: 분석하고자 하는 집단에 대해서 조사하거나 실험을 통해서 얻은 자료 / 요약된 형태

- 통계 분석 : 특정 집단을 대상으로 자료를 수집하여 대상 집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용하여 의사결정(통계적 추론)을 하는 과정

 

2. 표본 조사

: 대표성을 띠고 있는 모집단

 

3. 신뢰수준과 오차범위

ex) 성인 남녀 1000명을 대상으로 한 여론조사에서 A후보 지지율 60% B후보자 30% 신뢰수준 95%, 오차범위 +-3%포인트

- 신뢰수준 : 100번 조사했을 때 오차범위 내에서 동일한 결과가 95번 나옴

- 오차범위 : A후보 57~63%포인트, B후보 27~33%포인트

+ %와 %포인트는 다른 의미로 %포인트는 퍼센트 간의 차이를 뜻함

 

4. 표본 추출 방법

1) 단순 랜덤 추출법 : N개의 모집단에서 n개의 데이터 무작위 추출

ex) 사다리타기, 제비뽑기

 

2) 계통 추출법 : 모집단의 우너소에 차례대로 번호를 부여한 뒤 일정간격을 두고 데이터 추출

ex) 123456 -> 1 3 5

 

3) 집락(군집, 클러스터)추출법 : 데이터를 여러 집락으로 구분한 뒤 단순 랜덤 추출법에 의하여 선택된 집락을 사용.

각 집락은 동질적이며, 집락 내 데이터는 이질적

ex)

1학년 1-1 1-2
2학년 2-1 2-2
  집락1 집락2

 

4) 충화 추출법 : 집락과 유사하지만 반대의 성격을 지님.

각 집락은 서로 이질적이며, 군집 내 데이터는 동질적

-> 집락별로 추출되는 데이터의 비율을 어떻게 정할 것인지에 따라 비례층화 / 불비례층화 추출로 나뉨

ex) 

1학년 1-1 1-2 집락1
2학년 2-1 2-2 집락2

- 비례충화 추출법 : 전체 데이터의 분포를 반영하여 각 군집별 데이터 추출

ex) 1학년 200명, 2학년 300명, 3학년 500명 -> 2:3:5

- 불비례충화 추출법 : 각 군집에서 원하는 개수의 데이터 추출

 

5. 복원 추출과 비복원 추출

- 복원 추출: 표본으로 뽑힌 데이터가 다시 모집단으로 들어가 한 번 더 추출될 수 있는 것

- 비복원 추출 : 한 번 뽑힌 데이터는 모집단에 제외되어 다시 추출 불가

 

6. 측정과 척도

- 측정 : 표본조사를 실시하는 경우 추출된 원소들이나 실험단위로부터 목적에 적합하게 관측해 자료를 얻는 것

- 척도 : 관측 대상의 속성을 측정하여 극 밧이 숫자로 나타나도록 일정한 규칙을 정하여 바꾸는 도구

 

7. 척도의 종류

1) 질적척도

- 명목 척도 : 측정 대상이 어느 집단에 속하는지 나타내는 자료 ex) 성별, 지역

- 순서 척도 : 측정 대상이 명목척도이면서 서열 관계를 갖는 자료 ex) 선호도, 신용도

2) 양적 척도

- 구간 척도 : 측정 대상이 가지고 있는 속성의 양 측정 + 두 구간 사이 의미있는 자료 ex) 온도, 지수

- 비율 척도 : 측정 대상이 구간척도며, 절대적 기준 0 이 존재하여 사칙연산 가능 자료 ex) 신장, 무게

 

8. 척도의 포함 정보

명목 척도 범주      
순서 척도 범주 순서    
구간 척도 범주 순서 상대적 크기  
비율 척도 범주 순서 상대적 크기 절대적 크기

 

9. 기술통계와 추리통계

- 기술통계 : 표본 자체의 속성이나 특성을 파악하는데 중점을 두는 데이터 분석 통계

자료를 요약화 + 조작화 + 단순화 목적

ex) 데이터의 최솟값, 최댓값, 중위수 등 -> 모집단 특성 유추 가능

 

- 추리통계 (추론통계) : 표본에서 얻은 통계치를 바탕으로 오차를 고려하여 모수를 확률적으로 추정하는 통계

모집단의 특성을 추정하는데 초점 + 가설검증 / 확률적 가능성 파악

 

10. 통계 기초개념

- 편차 : 평균과의 차이

- 분산 : 평균으로부터 얼마만큼 떨어져있는지에 대한 분포 -> 편차제곱 합의 평균

  ↑ : 평균으로부터 떨어짐이 크다.

  0 : 평균과 가깝다

- 표준편차 : √분산

 

11. 확률 기초

- 확률 : 발생 가능한 모든 사건들의 집합 표본공간에서 표본공간의 부분집합인 특정사건 A의 발생비율 (0~1)

   모든 사건의 확률의 합 = 1

   P(A) = 특정 사건 A 개수 / 전체사건 개수(표본공간)

- 조건부확률 : 특정사건 A가 발생했다는 것이 사실이라는 전제하에 또 다른 사건 B가 발생활 확률 

  P(B|A) = P(B∩A) / P(A)

 

12. 독립사건과 배반사건

- 독립사건 : 서로에게 영향을 주지 않는 두 사건 

  P(B|A) = P(B) , P(A∩B) = P(A)P(B)

- 배반사건 : 공통된 부분이 없는 경우.  동시에 발생X

  A∩B =

 

13. 확률변수와 확률분포, 확률함수

- 확률변수 : 무작위 실험시, 특정확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수

- 확률분포 : 확률변수의 모든 값과 그에 대응하는 확률에 어떻게 분포하고 있는지

- 확률함수 : 확률변수에 의해 정의된 실수를 확률에 대응

   1) 이산확률분포 : 확률함수를 확률질량함수

   2) 연속확률분포 : 확률함수를 확률밀도함수

 

14. 이산확률분포

1) 베르누이 분포 : 확률변수 X가 취할 수 있는 값이 두개인 경우

   ex) 동전 앞/뒤 , 시험합격/불합격

2) 이항분포 : n번의 베르누이 시행에서 K번 성공할 확률분포 

   ex) 하나의 동전을 3번던져 앞면 2번 나올 확률 

3) 기하분포 : 성공확률이 P인 베르누이 시행에서 처음으로 성공이 나올 때까지 k번 실패할 확률분포

   ex) 동전을 3번 던져서 앞면이 나올 확률

4) 다항분포 : n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있느 확률분포

    ex) 주사위를 n번 던졌을 때 1의 눈이 p1의 확률로 x번, 2의 눈이 p2확률로 나오는 확률

5) 포아송분포 : 단위시간/단위공간 내에서 발생할 수 있는 사건의 발생횟수에 대한 확률분포

   ex) 8시간동안 3번의 장난전화가 왔을 때 1시간동안 장난전화 2번 올 확률

6) 이산확률변수 : 확률변수가 취할 수 있는 실수 값의 수를 셀 수 있는 변수 

                           서로 배반인 사건들의 합집합의 확률은 각 사건의 확률의 합 (1)

 

15. 연속확률분포

1) 균일분포 : 연속형 확률변수인 x가 취할 수 있는 모든 값에 대하여 같은 확률을 갖고 있는 분포

   ex) 얼마 들어있는지 모르는 200ml 우유팩 속 우유양

 

2) 정규분포 : 평균이 μ, 표준편차가 σ인 분포 (종모양)

    ex) 한 학년 수학점수 분포

3) t 분포 : 자유도가 n인 t분포, 평균은 0이며 종모양

               자유도 ↑ → 표균정규분포에 가까워짐

    자유도 : 표본자료가 모집단에 대한 정보를 주듯 독립적인 자료개수

4) 카이제곱분포 : 표준정규분포를 따르는 확률분포 z1, z2, z3... zn의 제곱합x는 자유도n인 카이제곱분포{x~ (n)}를 따름

                           모평균과 모분산을 모르는 두개이상의 집단 간 동질성 검정/ 모분산 검정을 위해 활용됨

    동질성검정 : 두 집단의 내부 구성비를 비교하는 것

5) F분포 : 서로 독립인 두 카이제곱분포를 따르는 확률변수 V1 ~ (k1), V2 ~  x²(k2)를 각각의 자유도로 나누었을 때

                비율 x는 자유도가 k1, k2

               등분산 검정 / 분산분석에서 활용

6) 연속확률변수 : 확률변수가 취할 수 있는 실수 값이 어떤 특징 구간 전체에 해당하여 그 수를 셀 수 없는 변수

    ex) 신생아의 몸무게, 태풍으로 내린 강우량

 

16. 기댓값

: 특정사건이 시행됐을 때 확률변수 x가 취할 수 있는 값의 평균값

  이산확률변수 E(x) = Σ xf(x)

  연속확률변수  E(x) = ∫xf(x)dx

 

17. 분산

: 데이터가 중심에서 얼마나 떨어져 있는지 알아보기 위한 측도  → 차이값의 제곱 평균

 - 이산확률변수 Var(x) = E( )- E(x) ²

 - 연속확률변수 Var(x) = ∫ f(x)dx - (∫xf(x)dx) ²

 

18. 표준편차

: 분산의 양의 제곱근 목적은 단위통일 √var(x)

 

19. 첨도와 왜도

- 첨도 : 확률분포에서 뾰족한 정도

- 왜도 : 확률분포에서 비대칭을 나타내는 측도

 

20. 공분산

: Cov(x,y) = E[(x-μa)(Y-μy)]

: 두 확률변수 X,Y의 상관 정도 나타내는 값

 

21. 상관계수

: -1 ~ 1사이의 값을 가지며 공분산 x의 표준편차와 Y의 표준편차 모두로 나눈 값

 

22. 추정

1) 모수의 추정

: 궁극적으로 알고 싶은 것은 모집단의 확률분포 및 특성을 알려주는 모평균과 모분산과 같은 것이 모수

→ 모집단 전체 조사는 어려운 일이나 대부분 표본조사로 모수를 추정함

2) 점추정

: 모평균을 추정할 때 추정값과 실제 모수값의 차이의 기댓값이라고 예측

   + 불편추정량 : 모수추정할 때 추정값과 실제 모수값의 차이의 기댓값이 0이라 편향되지 X

3) 구간추정

: 모수가 특정 구간안에 존재할 것

: 모수가 특정 구간 안에 포함될 확률인 신뢰도 필요 (95% or 99%)

 

23. 가설검정

: 모집단의 특성에 대한 주장/가설을 세우고 표본에서 얻은 정보를 이용해 가설이 옳은지 판단

- 귀무가설 : H0, 실험/연구를 통해 기각하고자 하는 가설

- 대립가설 : H1, 귀무가설이 틀렸다고 판단될 경우 채택되는 가설

 

24. 제 1종오류와 제 2종오류

- 제 1종오류 : 귀무가설(H0)이 사실인데 귀무가설이 틀렸다고 결정하는 오류

- 제 2종오류 : 귀무가설(H0)이 사실이 아닌에도 불구하고 옳다고 결정하는 오류

  H0 채택 H0 기각(H1)
H0 사실 올바른 결정 제 1종 오류
H0 거짓 제 2종오류 올바른 결정

- 검정통계량 : 귀무가설의 옳고 그름을 판단할 수 있는 값

- 기각역 : 귀무가설을 기각하게 될 검정통계량 영역 (검정통계량이 기각역 내면 귀무가설 기각)

- 임곗값 : 기각역의 경계값

- 유의수준 : 귀무가설이 참인태도 이를 잘못 기각하는 오류를 변할 확률의 최대 허용 한계 (1%, 5%)

- 유의확률(P-value) : 귀무가설을 지지하는 정도를 나타낸 확률값.

                                P-value가 유의수준 a보다 작으면 / 귀무가설이 참이라 가정했을시 대립가설 채택

                                P-value가 유의수준 a보다 크면 귀무가설 채택

 

25. 유의수준과 유의확률

- 유의수준 : 귀무가설이 사실일 때, 이를 기각하는 확률

                   제 1종 오류가 발생할 수 있는 최대의 확률

                   가설검정을 수행하는 자가 환경에 맞게 값을 설정할 수 있지만, 통상적으로 0.05 많이 사용

- 유의확률 : 귀무가설을 지지하는 정도로 검정통계량으로부터 얻는 값

                  귀무가설을 기각할 때 그 결정이 잘못되었을 확률

 

유의 확률(P-value)  < 유의수준(0.05)                                       유의확률 > 유의수준(0.05)

→ 귀무가설 기각 0                                                                    → 귀무가설 기각 X

 

26. 가설검정 절차

가설설정(귀무가설, 대립가설)  → 검정의 유의수준 결정(0.01, 0.05, 0.1)  → 검정방법 결정 → 검정통계량 계산 (P-value 산출) → 기각역에 속하는가? (P-value가 유의수준보다 작은가) → (Y)귀무가설 수용 / (N)귀무가설 기각 or 대립가설 채택

 

27. 비모수 검정 

: 정규성 검정에서 정규분포를 따르지 않는다 증명  소규모 실험에서 주로 이용

 

28. 모수검정과 비모수검정차이

모수검정 비모수검정
등간척도, 비율척도
평균
피어슨 상관계수
sample t-test, one way anova
명목척도, 서열척도
중앙값
스피어만 순위상관계수
부호검정, Wilcoxon  부호순위 검정, Mann-Whitney 검정

 

29. 비모수검정 종류

- 연속성 검정

- 부호 순위 검정

- 순위 합 검정 

- 크리스컬-윌 검정

- 스피어만 서열상관분석

- 부호검정 

- 프리드만 검정

 

  

반응형