안녕하세요 오늘은 ADsP 공부 11일차입니다.
오늘도 회귀와 함께 정리본 작성해보겠습니다.
20일간 열심히 스터디를 진행해서 자격증 합격까지 마무리해봅시다 !
10일차 정리본은 아래 게시물 참고해주세요 ~
2025.02.07 - [ADsP 자격증] - [10일차] ADsP 자격증 : 기초 통계
[10일차] ADsP 자격증 : 기초 통계
안녕하세요 오늘은 ADsP 공부 10일차입니다.오늘도 회귀와 함께 정리본 작성해보겠습니다.20일간 열심히 스터디를 진행해서 자격증 합격까지 마무리해봅시다 ! 9일차 정리본은 아래 게시물 참고
lnylnylnylny.tistory.com
저의 ADsP 공부는 미어캣책과 함께 공부를 진행하려고 합니다. 아래 게시글을 참고해주세요 !
2025.01.20 - [ADsP 자격증] - ADsP 데이터분석 준전문가 비전공자도 독학으로 부시기 !
ADsP 데이터분석 준전문가 비전공자도 독학으로 부시기 !
안녕하세요 이번 ADsP 44회를 도전하고 있는 대학생입니다. 이 시험을 준비하기 앞서 저는 미어캣 책으로 유명한 위키북스 책으로 고르게 되었습니다.작년에도 시험에 도전하려고 했는데 시간적
lnylnylnylny.tistory.com
그럼 바로 11일차 <회귀 분석> 정리를 해보겠습니다.
3과목 같은 경우 전체적인 내용 구성을 R코드로 입력하며 학습하기 위한 부분이니 참고만 해주세요
실제 시험의 경우 통계 분석, 데이터 마이닝을 위한 코드 문제가 출제될 가능성은 현저히 낮기 때문에 시험공부를 할 경우 코드는 이해를 위한 참고용으로 활용하고, R 코드를 너무 집중적으로 공부하지 않도록 주의해주세요 !
1. 회귀분석
: 하나 이상의 독립변수들이 종속변수에 얼마나 영향을 미치는 지 추정
- 독립변수 = 원인변수, 설명변수
- 종속변수 = 결과변수, 반응변수
-> 기본적으로 변수가 연속형일 때 사용
-> 추세선을 가진다 = 경향성을 가진다 = 변수들과 인과관계가 존재한다
- 독립변수 1개이상 -> 단순선형회귀분석
- 독립변수 2개이상 -> 다중선형회귀분석
2. 회귀분석 종류
- 단순회귀 : 1개의 독립변수와 종속변수가 직선(선형)관계
- 다중회귀 : k개의 독립변수와 종속변수가 선형관계
- 다항회귀 : 1개의 독립변수와 종속 변수가 2차함수 이상의 관계
- 다중다항회귀 : k개의 독립변수와 종속변수가 2차함수 이상의 관계
- 비선형회귀 : 회귀식이 미지의 모수들과 선형관계가 아닌 경우 ex) 지수함수, 로그함수, 삼각함수
3. 회귀분석의 가정
- 선형성
: 독립변수와 종속변수가 선형적.
: 예외적으로 2차함수 회귀선을 갖는 다항회귀분석 경우에는 선형성X
: 산점도를 통해 분석 전 변수 사이에 관계를 짐작할 수 있어 회귀분석 전 상관분석은 필수적
- 독립성
: 단순회귀분석에서는 잔차와 독립변수 값이 서로 독립적
: 독립변수가 여러 개인 다중회귀분석은 독립변수들 간 상관성 없이 독립
: 독립변수 간 상관성 존재 시 '다중공선성'이라 하며 제거하고 회귀분석 진행
- 등분산성
: 분산이 같다는 의미로 잔차가 고르게 분포한다는 의미
: 잔차의 중심에서 분산이 같아야 한다는 의미. 만족 못하면 덩어리 (뭉친) 형태를 띰
- 정규성
: 잔차항이 정규분포 형태를 띠는 것
: Q-Q plot에서 잔차가 오른쪽으로 상승형태면 정규성 만족한다고 판단
: 검증법으로는 히스토그램, QQplot 을 호라용하여 시각적 확인 가능. 샤피로검정, 앤더슨-달링 검정
4. 오차와 잔차
- 오차 : 모집단의 데이터를 활용하여 회귀식을 구한 경우 예측값과 실제값의 차이
- 잔차 : 모집단을 특정할 수 없는 경우 모집단의 일부인 표본집단으로 회귀식 추정시 예측값과 실제값의 차이
- 잔차도 : 예측값과 실제값의 차이를 나타낸 산점도 -> 차이가 없으면 0
1) 등분산성 만족
2) 2차항 독립변수 필요
3) 등분산성 만족 X
4) 또 다른 독립변수 필요
5. 회귀계수의 추정
- 단순선형회귀분석 : 독립변수와 종속변수가 1개일 때 두 변수의 관계가 선형일 때 최소제곱법을 활용하여 실제 데이터와 오차가 가장 작아지는 직선의 방정식을 찾음
- 최소제곱법 : 오차를 제곱해 더한 값 최소화. 파라미터를 추정하고 추정된 파라미터를 통해 추세선을 그려 예측함
6. 회귀분석 모형의 적합성
1) 회귀분석의 분산분석표
- 단순 선형회귀분석 -> 독립변수 1개
- 다중회귀분석 -> 독립변수 2개 이상
2) 단순 선형회귀분석 분산분석표
제곱합 | 자유도 | 제곱평균 | F | |
회귀 | SSR | 1 | MSR = SSR | MSR / MSE |
잔차 | SSE | n-2 | MSE = SSE/(n-2) | |
총 | SST = SSR+SSE | n-1 |
3) 다중 선형회귀분석 분산분석표
제곱합 | 자유도 | 제곱평균 | F | |
회귀 | SSR | k | MSR = SSR/k | MSR / MSE |
잔차 | SSE | n-k-1 | MSE = SSE/(n-k-1) | |
총 | SST = SSR+SSE | n-1 |
4) 회귀모형의 통계적 유의성 검증
- 귀무가설 H0: 모든 회귀계수는 0이다. -> F-검증으로 확인
- F검정 : 분산의 차이 확인 분산차이↑ -> 회귀계수 ↑
- F-통계량 : F값이 크다는 말은 회귀계수 ↑ + 가파름 -> 변수 간의 유의미한 인과관계 존재
-> F ↑ -> P값↓ (0에 얼마나 가까운지 확률적으로 측정한 값)
5) 회귀계수의 통계적 유의성 검증
- t 검정을 통해 확인
- t-통계량 : 회귀계수를 표준오차로 나눈 값.
- t-통계량 ↑ -> 회귀계수 ↑ -> 유의미한 인과관계 -> P값은 ↓
6) 모형의 설명력
: 설명력이 좋다 = 데이터들의 분포가 회귀선의 밀접하게 분포하고 있음
: 회귀분석 결과를 분산분석 + 도출된 결정계수 R²으로 모형의 설명력 판단
7. 수정된 결정계수
: 결정계수는 SSR/SST로 계산되므로 독립변수의 수가 많아질수록 증가하는 성질
: 종속변수에 영향을 주지 않은 독립변수가 모형에 포함되어도 결정계수가 커지는 것
8. QQ-plot
: 모집단 또는 표본집단의 정규분포를 따르는지 시각적으로 확인하기 위한 산점도
: 점들이 45도에 가까운 직선의 모양을 띨수록 정규분포를 따름
9. 다중선형 회귀분석
: 독립변수가 2개 이상이고 종속변수가 하나일 때 사용가능한 회귀분석으로 독립변수와 종속변수의 관계가 선형으로 표현
(독립변수가 여러개이므로 회귀계수도 여러개 )
10. 다중 공산성
: 회귀분석에서 독립변수 간에 강한 상관관계가 나타나는 문제
: 존재하면 회귀분석의 기본 가정인 독립성 (독립변수 간에는 상관관계가 없이 독립이다)에 위배
-> 해결하지 않고 분석을 하면 분석 결과의 회귀계수를 신뢰할 수 없고 잘못된 결과가 나옴
11. 다중 공선성의 진단
- 결정 계수 R²이 커서 회귀식 설명력은 높지만 각 독립변수 P-value값이 커서 개별인지가 유의
- 독립변수 간의 상관계수를 구함
- 분산팽창요인 (VIF)을 구해 이 값이 10을 넘는다면 보통 다중공선성 있음
12. 다중공선성 문제해결법
1) 문제 발생 변수 제거
2) 주성분분석(PCA)을 통해 변수 차원 축소
3) R에서 '스크리 산점도'를 사용해 주성분 개수 선택
4) 선형 판별분석 (LDA)로 차원축소
5) t-분포 확률적 임베팅으로 차원 축소
6) 특잇값분해 (SVD)로 차원축소
13. 최적 회귀방정식
- 목표 : 종속변수에 유의미한 영향을 미칠것으로 생각되는 독립변수를 선택 과정 -> 모델성능↑
변수 특성을 고려하여 선택해 데이터 모델링 진행
- 변수 선택법
1) 부분집합법 : 모든 가능한 모델을 고려하여 가장 좋은 모델 선정법
변수가 많아져 검증해야하는 회귀분석도 많아지는 단점
'임베디드 기법'
2) 단계적 변수 선택법 : 일정한 단계를 거치면서 변수를 추가/제거하며 최적의 회귀 방정식 도출
전진선택법, 후진제거법, 단계적 선택법 등
14. 변수선택법의 작동원리에 따른 분류
- 임베디드 : 부분집합의 생성 및 선택과정이 모형학습 과정에 포함 ex)C4.5, LASSO
- 래퍼 : 특정 모형의 성능향상에 가장 이상적인 변수의 조합 찾는 방법 ex) 전진선택법, 후진 제거법
- 필터 : 모형학습과 독립적으로 변수집합 F에서 적합도 평가 지표를 이용하여 기준 조건을 충족한느 변수 선택함으로 부분집합을 구성 ex) 상관계수, 정보이론의 엔트로피
15. 변수 선택에 사용되는 성능 지표
1) 벌점화 (페널티) 방식의 AIC와 BIC
: 회귀모형은 변수의 수 ↑ -> 편향↓ + 분산 ↑
: 변수의 수가 많아 복잡해진 모형에 벌점 제공 -> 최적의 회귀방정식 도출 (회귀모형 설명력 ↑ )
2) AIC
: 모델의 성능지표로 MSE에 변수 수만큼 페널티 제공
: 회귀분석에서 Model Selection 할 때 많이 쓰이는 지표
3) BIC
: AIC 단점인 표본이 커질 때 부정확하다는 단점 보오나한 지표
: 변수의 개수가 많을수록 더 큰 페널티 주므로 변수 개수가 적은 모형이면 BIC사용
4) 멜로우
: Cp값은 최소자승법으로 사용하여 추정된 회귀모형 적합성 평가 시 사용
: 나쁜 모델은 CP > p 값 / 좋은 모델 Cp값 < p값
16. 단계적 변수 선택법
1) 전진 선택법
: 모든 독립변수 중 기준 통계치에 가장 많은 영향을 줄 것으로 판단되는 변수부터 하나씩 추가하며 모형에 추가
: 안전성 부족 단점
: 상관계수의 절댓값이 가장 큰 변수에 대해 부분 F검정으로 유의성 검정
: 유의하지 않은 경우 변수 추가 하지X
2) 후진 제거법
: 독립변수를 모두 포함하여 가장 적은 영향을 주는 변수부터 하나씩 제거
: 상관계수의 절댓값이 가장 작은 변수에 대해 부분 F검정 실시
: 전체변수 이용 장점 but, 변수↑ 어려움
3) 단계별 방법
: 전진선택법에 의해 변수를 추가 → 추가될 때 예상되는 벌점 값과 이미 추가된 변수가 제거될 때 예상되는 벌점 값이 가장 작도록 만듦
17. 과적합과 과소적합
- 과적합 : 모델이 학습데이터 과하게 학습
- 과소적합 : 모델이 너무 단순해서 학습데이터조차 제대로 예측불가
18. 정규화 선형회귀
: 과적합하면 계수의 크기도 과도하게 증가함 → 방지하기 위해 계수의 크기를 제한하는 방법
19. 정규화 선형희귀 종류
라쏘 : L1규제, 가중치들의 절댓값의 합을 최소화하는 것
굇지 : L2규제, 가중치들의 제곱합을 최소화하는 것
일부 가중치를 0에 가깝게 유도하여 성능개선
엘라스틱넷 : 가중치의 절댓값의 합과 제곱합을 동시에 제약조건으로 가지는 모형
20. 일반화 선형회귀
: 종속변수가 범주형자료이거나 정규성을 만족하지 못한 경우, f(x)로 정의하여 독립변수를 선형결합하여 희귀분석 수행
21. 일반화 선형희귀 구성요소
- 확률요소 : 종속변수의 확률분포를 규정하는 성분
- 선형예측자 : 종속변수의 기댓값을 정의하는 독립변수들 간의 선형 결합
- 연결함수 : 확률요소와 선형예측자를 연결하는 함수
22. 일반화 선형희귀의 종류
1) 로지스틱 희귀
: 종속변수가 범주형(0/1)인 경우에 많이 사용
독립변수 x를 종속변수 y로 분류하는 '분류 분석' 방법이다
2) 포아송 회귀
: 종속변수가 특정시간동안 발생한 사건의 건수에 대한 도수인 자료거나 종속변수가 정규분포를 따르지 않아 등분산성을 만족하지 못하는 경우 사용
최대 가능도 추정(MLE)를 통해 모수 추정
23. 오차항의 상관관계
: 오차항이 상관관계 갖는 경우 시계열 데이터의 경우
- 시계열 데이터 : 연속적인 일련의 관측자들이 서로 상관되어 있음 + 자기상관성 가짐
24. 더빗 왓슨 검정
: 회귀분석에서 오차항은 서로 연관성x = 공분산 = 0
: 자기상관성이 있는지 판단 (오차항이 독립성을 만족하는가 = 오차항 연관성x)
- 0은 양의 상관관계
- 2는 오차항 상관관계 x
- 4는 음의 상관관계
25. 희귀분석 평가 지표
오차상쇄처리 | 이상치 | |
MAE | 절댓값 | 우리 |
MSE | 제곱 | 불리 |
RMSE | 제곱 | 불리 |
MAPE | 절댓값 | 유리 |
'ADsP 자격증' 카테고리의 다른 글
[13일차] ADsP 자격증 : 시계열분석 (2) | 2025.02.12 |
---|---|
[12일차] ADsP 자격증 : 다변량분석 (0) | 2025.02.11 |
[10일차] ADsP 자격증 : 기초 통계 (1) | 2025.02.07 |
[9일차] ADsP 자격증 : 통계의 이해 (0) | 2025.02.05 |
[8일차] ADsP 자격증 : 데이터 마트 (0) | 2025.02.05 |