안녕하세요 오늘은 ADsP 공부 14일차입니다.
오늘도 회귀와 함께 정리본 작성해보겠습니다.
20일간 열심히 스터디를 진행해서 자격증 합격까지 마무리해봅시다 !
13일차 정리본은 아래 게시물 참고해주세요 ~
2025.02.10 - [ADsP 자격증] - [13일차] ADsP 자격증 : 시계열분석
저의 ADsP 공부는 미어캣책과 함께 공부를 진행하려고 합니다. 아래 게시글을 참고해주세요 !
2025.01.20 - [ADsP 자격증] - ADsP 데이터분석 준전문가 비전공자도 독학으로 부시기 !
ADsP 데이터분석 준전문가 비전공자도 독학으로 부시기 !
안녕하세요 이번 ADsP 44회를 도전하고 있는 대학생입니다. 이 시험을 준비하기 앞서 저는 미어캣 책으로 유명한 위키북스 책으로 고르게 되었습니다.작년에도 시험에 도전하려고 했는데 시간적
lnylnylnylny.tistory.com
그럼 바로 14일차 <데이터 마이닝> 정리를 해보겠습니다.
3과목 같은 경우 전체적인 내용 구성을 R코드로 입력하며 학습하기 위한 부분이니 참고만 해주세요
실제 시험의 경우 통계 분석, 데이터 마이닝을 위한 코드 문제가 출제될 가능성은 현저히 낮기 때문에 시험공부를 할 경우 코드는 이해를 위한 참고용으로 활용하고, R 코드를 너무 집중적으로 공부하지 않도록 주의해주세요 !
1. 데이터 마이닝
: 방대한 양의 데이터 속에서 숨겨진 규칙, 패턴을 찾아내어 예측하거나 의사결정에 활용
→ 규칙과 패턴을 찾아 인사이트 발견
2. 데이터 마이닝 순서
- 목적 정의 단계 : 분석의 목적 + 필요 데이터 정의
- 데이터 준비 단계 : 필요 데이터 수집 + 정제 → 데이터 품질 보장
- 데이터 가공 단계 : 목표 변수 정의 + 분석 기법 적용 가능한 형태로 데이터 가공
- 데이터 마이닝 적용 단계 : 분석기법을 적용해 목적정보 추출 + 전문가 필요
- 검증 단계 : 추출 정보 검증
3. 데이터 마이닝 방법에 따른 분류
- 지도학습 : 정답 있는 데이터로 모델학습 (입력D + 출력D 모두 필요) → 독립변수o 종속변수 o
- 비지도학습 : 정답 알려주지 않고 학습 (입력D로 패턴 스스로 학습) → 독립변수o 종속변수x
1) 지도학습
- 회귀(연속형) : 선형회귀, 의사결정트리(회귀형), SVR, 신경망, 릿즈, 라쏘
- 분류(범주형) : 로지스틱회귀분석, 신경망, 의사결정트리(분류형), k-NN, 양상블, SVM, 나이브베이즈 분류
2) 비지도학습
- 군집 : K-means, SOM, DBSCAN, 병합군집, 계층군집
- 연관 : Apriori
- 차원축소 : PCA, LDA, SVD, MDS
4. 데이터 마이닝 목적에 따른 분류
- 분류분석 : 지도학습
데이터가 어느 그룹에 속하는지 판별
- 군집분석 : 비지도학습
여러 이질적인 데이터들 사이의 유사성을 측정하여 유사성 높은 객체끼리 그룹화
- 연관분석 : 비지도학습
장바구니 분석으로 데이터의 연관성을 파악
5. 데이터 분할
- 훈련용 데이터 train : 모델 학습용
모델학습 및 파라미터 선정
- 검증용 데이터 validation : 결과에 따라 모델 조정
모델선정 및 하이퍼파라미터 튜닝
- 테스트용 데이터 test : 최종 성능 평가
최종모델
6. 파라미터와 하이퍼파라미터
- 파라미터(매개변수) : 모델구축 과정에서 사람의 개입없이 발견되는 최적 값
ex) 회귀계수, 가중치
- 하이퍼파라미터(초미개변수) : 모델구축 외적요소로 분석 수행자가 찾아주어야 하는 최적 값
ex) 은닉층, k-NN k값
7. 데이터 분할을 통한 검증
1) 홀드아웃
: 전체 데이터를 랜덤 추출하여 학습D + 테스트D 분리 (80 : 20)
검증D x
2) k-Fold 교차 검증 (↔ LOOCV 테스트D x → 검증용D)
: 전체 데이터를 K개의 집단으로 구분한 뒤 k-1개의 훈련D, 나머지 1개 테스트D로 사용
장) 정확도↑, 과적합/과소적합 모두 방지
단) k번 모델 구축으로 시간↑, 데이터↓ 과적합 방지불가
3) 붓스트랩
: 표본을 다시 추출하는 방법
원본D 크기만큼 복원추출 수행, 추정의 신뢰성 평가시 사용
장) 오버샘플링/ 언더샘플링 시 사용가능, 과적합 발생↓
+ 데이터가 랜덤 선택이라 선정 안 될 수도 있음
4) 계층별 K-겹 교차검증
: 불균형D 분류 문제에서 사용
방식은 k-폴드와 동일
5) 오버샘플링 & 언더샘플링
: 특정범주가 많은 데이터를 다른 범주와 균형을 맞추도록 데이터셋 축소
: 특정범주가 적은 데이터를 데이터 셋의 크기를 확장시킴
'ADsP 자격증' 카테고리의 다른 글
[16일차] ADsP 자격증 : 분류분석 (인공신경망, 나이브 베이즈, k-NN알고리즘, SVM, 분류모형 성과평가) (0) | 2025.02.21 |
---|---|
[15일차] ADsP 자격증 : 분류 분석 (로지스틱 회귀분석, 의사결정나무, 앙상블 분석) (0) | 2025.02.21 |
[13일차] ADsP 자격증 : 시계열분석 (2) | 2025.02.12 |
[12일차] ADsP 자격증 : 다변량분석 (0) | 2025.02.11 |
[11일차] ADsP 자격증 : 회귀분석 (0) | 2025.02.10 |