본문 바로가기
ADsP 자격증

[15일차] ADsP 자격증 : 분류 분석 (로지스틱 회귀분석, 의사결정나무, 앙상블 분석)

by 잉나영 2025. 2. 21.
728x90

안녕하세요 오늘은 ADsP 공부 15일차입니다.

오늘도 회귀와 함께 정리본 작성해보겠습니다.

20일간 열심히 스터디를 진행해서 자격증 합격까지 마무리해봅시다 !

 

14일차 정리본은 아래 게시물 참고해주세요 ~

2025.02.10 - [ADsP 자격증] - [14일차] ADsP 자격증 : 데이터 마이닝

 

[14일차] ADsP 자격증 : 데이터 마이닝

안녕하세요 오늘은 ADsP 공부 14일차입니다.오늘도 회귀와 함께 정리본 작성해보겠습니다.20일간 열심히 스터디를 진행해서 자격증 합격까지 마무리해봅시다 ! 13일차 정리본은 아래 게시물 참고

lnylnylnylny.tistory.com

 

 

저의 ADsP 공부는 미어캣책과 함께 공부를 진행하려고 합니다. 아래 게시글을 참고해주세요 !

2025.01.20 - [ADsP 자격증] - ADsP 데이터분석 준전문가 비전공자도 독학으로 부시기 !

 

ADsP 데이터분석 준전문가 비전공자도 독학으로 부시기 !

안녕하세요 이번 ADsP 44회를 도전하고 있는 대학생입니다. 이 시험을 준비하기 앞서 저는 미어캣 책으로 유명한 위키북스 책으로 고르게 되었습니다.작년에도 시험에 도전하려고 했는데 시간적

lnylnylnylny.tistory.com

 

 

그럼 바로 15일차 <분류 분석> 정리를 해보겠습니다.

 

3과목 같은 경우 전체적인 내용 구성을 R코드로 입력하며 학습하기 위한 부분이니 참고만 해주세요

실제 시험의 경우 통계 분석, 데이터 마이닝을 위한 코드 문제가 출제될 가능성은 현저히 낮기 때문에 시험공부를 할 경우 코드는 이해를 위한 참고용으로 활용하고, R 코드를 너무 집중적으로 공부하지 않도록 주의해주세요 !

 


 

1. 로지스틱 회귀분석

: 회귀분석을 분류에 이용한 방법으로 독립변수의 선형결합을 이용해 사건의 발생가능성 예측 

  종속변수가 범주형 변수일 때 이용

→ 종속변수가 바로 범주형 변수를 변환하지 않고 각 범주에 포함될 확률값을 반환하여 분류

 

2. 로지스틱 회귀분석의 변수

- 일반적인 로지스틱 회귀변수의 종속변수 2개로 이진분류

- 세개이상 : 다중 로지스틱 회귀분석

: 독립변수 연속형 종속변수 범주형

                              → 확률값으로 0과 1 사이값

∴ 독립변수가 범주형이면? 

   -> 더미변수로 변환

 

3. 로지스틱 회귀분석의 알고리즘

1) 오즈(Odds)

: 성공할 확률이 실패할 확률의 몇 배인지 나타내는 값   범주에 분류될 확률 추정

더보기

P: 성공확률 1-P : 실패확률   오즈값 P/1-P     

 

한계)

- 음수를 가질 수x

- 확률값과 오즈의 그래프는 비대칭성

2) 로짓변환

: 오즈 한계 극복을 위해 로그값을 취함

더보기

log(Odds) = log P/1-P           - ∞ < log(Odds) < ∞  대칭형태 0.5기준

3) 시그모이드 함수

: 로짓함수와 역함수 관계

 

4. 의사결정 나무

: 자료를 학습하여 특정 분리 규칙을 찾아 몇 개의 소집단으로 분류하는 분석법

상위노드 → 하위노드 : 동질성 / 집단 간 : 이질성

- 종속변수 연속형 → 회귀트리

- 종속변수 이산형 → 분류트리

 

5. 의사결정 나무의 활용

- 세분화 : 비슷한 특성을 가진 그룹별로 분할

- 분류 : 종속변수의 범주를 몇 개의 등급으로 분류

- 예측 : 데이터들로부터 규칙을 찾아내어 이를 예측에 활용

- 차원축소 및 변수 선택 : 여러 개의 독립변수 중 종속변수에 큰 영향을 끼치는 변수 선택

- 교호작용 : 여러 개의 독립변수들을 결합하여 종속변수에 작용하는 규칙 파악

                   범주형 변수를 병합 / 연속형변수를 몇 개의 등급으로 이산화

 

6. 의사결정 나무 특징

장점 단점
모델 직관적 + 해석용이 독립변수들 사이의 중요도 판단 쉽지x
데이터 정규화 + 단위변환 필요x  분류 경계선 근처 자료에 대해 오차증가
전처리 작업 어렵지x 과적합 발생 가능성 증가
이산형 변수, 연속형 변수 모두 적용o  
데이터의 선형성 정규성 가정 불필요  
이상값에 민감x  

 

7. 의사결정나무 분석과정

성장 → 가지치기 → 타당성 평가 → 해석 및 예측 

1) 성장

: 분석목적과 자료구조에 따라 적절한 분리 기준과 정지기준 설정해 성장과정

: 각 마디에서 최적의 분리규칙 찾고, 적절한 규칙 만족시 나무 성장 중단

- 분리기준 : 불순도(자료들의 범주가 한 그룹 안에 얼마나 섞여 있는지 나타내는 측도 개수↓ →  불순도↓)

- 정지규칙 : 너무 많은 분리규칙은 해석에 어려움을 주어 설정조건 하에 분리 정지함 (끝마디)

→ 뿌리마디로부터 일정 깊이 도달한 경우 

    불순도의 감소량이 아주 작아 분리에 의미 없는 경우

    마디에 속하는 자료가 일정 수 이하인 경우

    모든 자료들이 하나의 그룹에 속하는 경우

 

2) 가지치기

: 너무 복잡한 경우 과적합이 발생하므로 일부 가지 적당히 제거하여 적당한 크기의 모형 제작

3) 타당성 평가

: 검증용 데이터를 이용해 모델 예측도 평가 / 이익 도표등의 평가자표로 평가

4) 해석 및 예측

 

8. 의사결정나무 분리기준

- 종속변수 이산형 : 분류트리 사용 

                               ex) 카이제곱 검정, 지니지수, 엔트로피 지수

- 종속변수 연속형 : 희귀트리 사용

                               ex) 분산분석 F통계량, 분산의 감소량

1) 이산형

- 카이제곱 통계량 → CHAID 알고리즘 x² = Σ

- 지니지수 → CART 알고리즘 G= Σ

- 엔트로피 지수 → C4.5 알고리즘 E = - Σ

 

2) 연속형

- ANOVA F-통계량 → CHAID 알고리즘 : P-value가 작아지는 방향

- 분산감소량 → CART 알고리즘 : 분산의 감소량 커지는 방향

 

9. 지니지수 계산

P : 앞면확률 3/4  / 뒷면확률 1/4

- 엔트로피 지수(E) = -{3/4 log2(3/4) + 1/4log2(1/4)} = 0.811

- 지니지수(G) = 1-(3/4) ² - (1/4) ² = 0.375

- 앞면 기대도수 = 2 ,  뒷면 기대도수 = 2

- 카이제곱통계량 (x²) = (1-2)²/2 + (3-2)²/2 = 1

 

10. 앙상블 분석

: 모형의 예측을 높이고자 여러 번의 데이터 분할을 통하여 구축된 다수의 모형을 결합한 새로운 모형 제작

: 대표적 방법 - 배깅, 부스팅, 랜덤포레스트

: 독립적으로 산출된 결과를 종합하여 예측 정확도 ↑

- 결과 수치형D : 평균

- 결과 범주형D : 다수결 방식

 

11. 앙상블 분석 종류

1) 배깅 

: 여러 개의 붓스트랩을 집계하는 알고리즘

- 붓스트랩 : 원본 데이터와 같은 크기의 표본을 랜덤복원추출한 샘플데이터 → 훈련용D

- 분류기 : 각각의 모델 부를 때 흔히 의사결정 나무 사용

- 보팅 : 여러 개의 분류기에 의한 결과를 놓고 다수결에 의하여 최종 결과값 선정하는 작업

∴ 모집단의 특성이 잘 반영되는 분산이 작고, 좋은 예측력 보여줌

더보기

                         붓스트랩1 → 모델1 → A

훈련D     →                                                      → A

       복원추출    붓스트랩2 → 모델2 → A 

                                              분류기     보팅(다수결)

2) 부스팅 

: 이전 모델을 구축한 뒤 다음 모델을 구축할 때 이전 분류기에 의해 잘못 분류된 데이터에 더 큰 가중치를 주어 붓스태랩 구성 

→ 약한모델 → 강한 모델 만드는 과정

∴ 재구성과정에서 잘못된 데이터에 더 큰 가중치를 주어 표본 추출하므로 훈련오차 빠르게 줄일 수 O

더보기

               붓스트랩1 → 모델 1

훈련D ↗                ↙ +가중치              → 최종모델

              붓스트랩2 → 모델2

3) 랜덤 포레스트 

: 많은 무작위성으로 생성된 서로 다른 여러 개의 트리로 구성되며 여러 개의 약한 트리들의 선형결합으로 최종결과 얻는 모델

 분류 다수결 최종결과 / 회귀 평균/ 중앙값

: 각 마디에서 최적의 분할이 아닌 표본추출 과정이 한 번 더 반복되어 추출된 표본 대상으로 실시됨

: 큰 분산 갖는 의사결정나무 단점 보완하여 분산 감소 + 모든 분류기 비상관성↑  일반화성능↑

  + 이상값에 민감x

더보기

        복원추출         변수의 비복원추출         분류기       보팅

            → 붓스트랩1    →   표본1                모델1     → A

훈련D                                                                                      → A 

           → 붓스트랩2       표본2           →      모델2       A 

 

      + Out of Bag (OOB) : 하나의 트리를 구성하기 위한 붓스트랩을 생성할 때 선택되지 않은 D

         Out of Bag Score : OOB 데이터로 몇 개가 올바르게 분류되었는지 파악하고, 작업종료이후 올바르게 분류한 비율 값

 

4) 스태킹 

: 여러 분류기 간의 결과를 다시 훈련용D로 사용하여 최종모델 구축

: 여러 개의 분류기(기초모델)는 서로 다른 알고리즘으로 작성

: 여러 기초모델로부터 예측된 결과(재생성된 훈련용D)로부터 구축된 최종모델은 메타모델

 

장) 서로 다른 모델 약점 보완으로 예측력↑

단) 복잡도↑ + 시간↑ + 해석 어려움

더보기

 

         복원추출                    기초모델

            → 붓스트랩1        모델1     → A    훈련용D           메타모델

훈련D                                                                 → A      A → 최종모형 → A

           → 붓스트랩2    →      모델2      A 

 

 

728x90