안녕하세요 오늘은 ADsP 공부 12일차입니다.
오늘도 회귀와 함께 정리본 작성해보겠습니다.
20일간 열심히 스터디를 진행해서 자격증 합격까지 마무리해봅시다 !
11일차 정리본은 아래 게시물 참고해주세요 ~
2025.02.10 - [ADsP 자격증] - [11일차] ADsP 자격증 : 회귀분석
[11일차] ADsP 자격증 : 회귀분석
안녕하세요 오늘은 ADsP 공부 11일차입니다.오늘도 회귀와 함께 정리본 작성해보겠습니다.20일간 열심히 스터디를 진행해서 자격증 합격까지 마무리해봅시다 ! 10일차 정리본은 아래 게시물 참고
lnylnylnylny.tistory.com
저의 ADsP 공부는 미어캣책과 함께 공부를 진행하려고 합니다. 아래 게시글을 참고해주세요 !
2025.01.20 - [ADsP 자격증] - ADsP 데이터분석 준전문가 비전공자도 독학으로 부시기 !
ADsP 데이터분석 준전문가 비전공자도 독학으로 부시기 !
안녕하세요 이번 ADsP 44회를 도전하고 있는 대학생입니다. 이 시험을 준비하기 앞서 저는 미어캣 책으로 유명한 위키북스 책으로 고르게 되었습니다.작년에도 시험에 도전하려고 했는데 시간적
lnylnylnylny.tistory.com
그럼 바로 12일차 <다변량분석> 정리를 해보겠습니다.
3과목 같은 경우 전체적인 내용 구성을 R코드로 입력하며 학습하기 위한 부분이니 참고만 해주세요
실제 시험의 경우 통계 분석, 데이터 마이닝을 위한 코드 문제가 출제될 가능성은 현저히 낮기 때문에 시험공부를 할 경우 코드는 이해를 위한 참고용으로 활용하고, R 코드를 너무 집중적으로 공부하지 않도록 주의해주세요 !
1. 다차원 척도법
: 객체 간의 근접성을 시간화하는 통계기법
군집분석과 유사
: 객체들 사이의 유사성/비유사성 측정 → 원래 차원보다 낮은 차원의 공간에 군집분석처럼 점으로 표현
: 데이터를 축서하는 목적
: 객체들 간의 거리는 유클리디안 거리행렬 사용
2. 다차원 척도법의 측도
stress = √∑(실제거리 - 추정거리)² / ∑실제거리 ² (0~1 사이값)
0 : 완벽
0.05이내 : 좋음
0.15이상 : 나쁨
3. 다차원 척도법 종류
개량적 MDS | 비계량적 MDS |
구간척도, 비율척도 | 서열척도 |
유클리 디안거리 행렬 | 서열척도를 거리속성으로 변환하여 사용 |
R에서 'cmdscale' 함수 사용 | R에서 'isoMDS' 사용 |
4. 주성분 분석 (PCA)
: 여러개의 변수 중 서로 상관성이 높은 변수들의 선형 결합으로 새로운 변수(주성분)를 만들어 기존 변수를 요약/축소
5. 주성분 분석 목적
- 변수를 축소하여 모형의 설명력 ↑
- 다중공산성 문제해결
- 군집분석 시 모형 성능 ↑
- IoT 센서 데이터를 주성분분석 후 스마트팩토리 활용
- 주성분분석 시 선형변환 필요
6. 주성분분석 방법
: 데이터를 바라보는 관점은 다양하지만 손실이 가장 작은 축을 찾는 것
- 고윳값 : 고유벡터의 크기
고윳값 ↑ = 높은 설명력
고윳값평균보다 작은 값을 갖는 주성분 제거(평균고윳값)
7. 차원의 저주
: 고차원 데이터 + 불충분한 데이터 수 = 설명력 ↓ + 부정적 결과
1. 시계열 분석
: 일정 시간 간격으로 기록된 자료들에 대하여 특성을 파악하고 미래를 예측하는 분석법
ex) 주가, 환율, 월별 재고량
2. 시계열 자료의 자기상관성
: 서로 이웃하는 자료들끼리 일종의 상관관계를 가짐 (자기상관성)
= 하나의 잔차항의 크기가 이웃하는 다른 잔차항의 크기와 서로 일정한 관련있음
→ 인접한 자료들과 상관 연관성을 가짐
- 공분산 : 두 개의 확률변수에 대한 선형관계 → 확률변수의 흩어짐정도
∴ 확률변수의 흩어짐 정도인 공분산이 어느정도인지 + 어느정도의 상관성을 가지는가
3. 시계열 분석의 자료
- 정상성 시계열 자료 : 평균 일정 + 분산이 시점에 의존 x
- 비정상성 시계열 자료 (대부분) : 정상성으로 변환해야 함
4. 시계열 자료의 정상성 조건
- 일정한 평균 : 차분(현 시점의 자료값에서 전 시점의 자료값을 뺌)을 통해 정상화
- 일정한 분산 : 변환(자료값의 지수/로그 변환)을 통해 정상화
- 시차에만 의존하는 공분산 : 공분산은 시차에만 의존하고 특정 시점에는 의존x
but, 시차에 따라 공분산 값은 다를 수 있음
5. 자기상관계수
- 자기상관계수 : 시간의 흐름에 따른 자기상관 관계 → 어떤 특정한 시점이 아닌 시간의 흐름에 따른 변수간 상관관계 변화 시차 ↑ → 자기상관계수 ↓
- 부분자기 상관계수 : 두 시계열 확률변수 간에 다른 시점의 확률변수 영향력은 통제하고, 상관관계만 보여줌
6. 시계열 분석 기법
- 이동평균볍 : 시계열 데이터에서 일정기간별로 자료를 묶어 평균 구하는 법
시간이 지님에 따라 평균 계산에 포함되는 자료가 바뀜
장기적 추세 파악엔 효율적
- 지수평활법 : 최근 자료에는 큰 가중치, 오래된 자료는 작은 비중 부여하여 평균 계산
자료 수가 많고 안정적 패턴을 가지면 예측 품질↑ + 중장기 예측에 주로 이용
7. 시계열 모형
1) 자가회귀(AR) 모형 : 특정시점 t로부터 k번째 이전 시점들은 각각 다른 가중치 값 ∅k를 가짐
AR(n) = Zt = ∅1zt-1 + ∅2Zt-2...+ ∅nZt-n + at
+ 백색잡음 : 현재시점, 이전시점이 상관관계 존재x
공분산, 자기공분산 = 0
Zt : t시점에서의 자료값
∅k : k번째 이전 시점의 자료가 현재시점에 어느정도 영향을 미치는지 알려주는 계수
at : 백색잡음으로 평균0, 분산 a²인 정규분포를 따르는 오차함
2) 이동평균(MA) 모형
: 이전시점의 백색잡음들의 선형결합표현o → 정상성 만족모형
MA(n) = Zt = l + at + θ1at-1 + θnat-n
u : 시계열 자료 평균값
Zt : t시점의 자료값
θk : k번째 이전시점의 백색잡운이 어느정도 영향 미치는지 알려주는 계수
at : t시점에서의 백색잡음 값
3) 자기회귀누적이동평균(ARIMA) 모형
: 비정상 시계열 자료(차분 + 변환 → 정상화)를 다루어 현실에 존재하는 시계열 자료 설명 가능
ARIMA (p, d, q)
p : AR모형의 차수 p = 0 → IMA (d,q)
d: 시계열 자료를 정상화하기 위한 필요차분 횟수 d = 0 → ARMA (p,q)
q : MA모형의 차수 q = 0 → ARI (p,d)
4) 분해 시계열 : 분석목적에 따라 특정 요인만 분리해 분석하거나 제기하여 분석 (회귀분석과 함께 사용)
→ 추세요인, 계절요인, 순환요인, 불규칙요인
Zt = f(Tt, St, Ct, It)
Zt : t시점에서의 시계열 자료값
Tt : 시계열 자료의 증가/감소 추세
St : 시간, 계절과 같은 원인으로 주기를 갖고 변동되는 자료
Ct : 알 수 없는 원인으로 인한 주기 변동 자료
It : 설명할 수 없는 오차
1. 데이터 마이닝
: 방대한 양의 데이터 속에서 숨겨진 규칙, 패턴을 찾아내어 예측하거나 의사결정에 활용
→ 규칙과 패턴을 찾아 인사이트 발견
2. 데이터 마이닝 순서
- 목적 정의 단계 : 분석의 목적 + 필요 데이터 정의
- 데이터 준비 단계 : 필요 데이터 수집 + 정제 → 데이터 품질 보장
- 데이터 가공 단계 : 목표 변수 정의 + 분석 기법 적용 가능한 형태로 데이터 가공
- 데이터 마이닝 적용 단계 : 분석기법을 적용해 목적정보 추출 + 전문가 필요
- 검증 단계 : 추출 정보 검증
3. 데이터 마이닝 방법에 따른 분류
- 지도학습 : 정답 있는 데이터로 모델학습 (입력D + 출력D 모두 필요) → 독립변수o 종속변수 o
- 비지도학습 : 정답 알려주지 않고 학습 (입력D로 패턴 스스로 학습) → 독립변수o 종속변수x
1) 지도학습
- 회귀(연속형) : 선형회귀, 의사결정트리(회귀형), SVR, 신경망, 릿즈, 라쏘
- 분류(범주형) : 로지스틱회귀분석, 신경망, 의사결정트리(분류형), k-NN, 양상블, SVM, 나이브베이즈 분류
2) 비지도학습
- 군집 : K-means, SOM, DBSCAN, 병합군집, 계층군집
- 연관 : Apriori
- 차원축소 : PCA, LDA, SVD, MDS
4. 데이터 마이닝 목적에 따른 분류
- 분류분석 : 지도학습
데이터가 어느 그룹에 속하는지 판별
- 군집분석 : 비지도학습
여러 이질적인 데이터들 사이의 유사성을 측정하여 유사성 높은 객체끼리 그룹화
- 연관분석 : 비지도학습
장바구니 분석으로 데이터의 연관성을 파악
5. 데이터 분할
- 훈련용 D train : 모델 학습용
모델학습 및 파라미터 선정
- 검증용 D validation : 결과에 따라 모델 조정
모델선정 및 하이퍼파라미터 튜닝
- 테스트용D test : 최종 성능 평가
최종모델
6. 파라미터와 하이퍼파라미터
- 파라미터(매개변수) : 모델구축 과정에서 사람의 개입없이 발견되는 최적 값
ex) 회귀계수, 가중치
- 하이퍼파라미터(초미개변수) : 모델구축 외적요소로 분석 수행자가 찾아주어야 하는 최적 값
ex) 은닉층, k-NN k값
7. 데이터 분할을 통한 검증
1) 홀드아웃 : 전체 데이터를 랜덤 추출하여 학습D + 테스트D 분리 (80 : 20)
검증D x
2) k-Fold 교차 검증 (↔ LOOCV 테스트D x → 검증용D) : 전체 데이터를 K개의 집단으로 구분한 뒤 k-1개의 훈련D, 나머지 1개 테스트D로 사용
단) k번 모델 구축으로 시간↑, 데이터↓ 과적합 방지불가
장) 정확도↑, 과적합/과소적합 모두 방지
3) 붓스트랩 : 표본을 다시 추출하는 방법
원본D 크기만큼 복원추출 수행, 추정의 신뢰성 평가시 사용
장) 오버샘플링/ 언더샘플링 시 사용가능, 과적합 발생↓
데이터가 랜덤 선택이라 선정 안 될 수도 있음
4) 계층별 K-겹 교차검증 : 불균형D 분류 문제에서 사용
k-폴드와 동일
5) 오버샘플링 & 언더샘플링
: 특정범주가 많은 데이터를 다른 범주와 균형을 맞추도록 데이터셋 축소
: 특정범주가 적은 데이터를 데이터 셋의 크기를 확장시킴
1. 로지스틱 회귀분석
: 회귀분석을 분류에 이용한 방법으로 독립변수의 선형 결합을 이용해 사건의 발생가능성 예측
종속변수가 범주형 변수일 때 이용
'ADsP 자격증' 카테고리의 다른 글
[14일차] ADsP 자격증 : 데이터 마이닝 (1) | 2025.02.13 |
---|---|
[13일차] ADsP 자격증 : 시계열분석 (2) | 2025.02.12 |
[11일차] ADsP 자격증 : 회귀분석 (0) | 2025.02.10 |
[10일차] ADsP 자격증 : 기초 통계 (1) | 2025.02.07 |
[9일차] ADsP 자격증 : 통계의 이해 (0) | 2025.02.05 |