안녕하세요 오늘은 ADsP 공부 8일차입니다.
오늘도 회귀와 함께 정리본 작성해보겠습니다.
20일간 열심히 스터디를 진행해서 자격증 합격까지 마무리해봅시다 !
7일차 정리본은 아래 게시물 참고해주세요 ~
저의 ADsP 공부는 미어캣책과 함께 공부를 진행하려고 합니다. 아래 게시글을 참고해주세요 !
2025.01.20 - [ADsP 자격증] - ADsP 데이터분석 준전문가 비전공자도 독학으로 부시기 !
ADsP 데이터분석 준전문가 비전공자도 독학으로 부시기 !
안녕하세요 이번 ADsP 44회를 도전하고 있는 대학생입니다. 이 시험을 준비하기 앞서 저는 미어캣 책으로 유명한 위키북스 책으로 고르게 되었습니다.작년에도 시험에 도전하려고 했는데 시간적
lnylnylnylny.tistory.com
그럼 바로 8일차 <데이터 마트> 정리를 해보겠습니다.
3과목 같은 경우 전체적인 내용 구성을 R코드로 입력하며 학습하기 위한 부분이니 참고만 해주세요
실제 시험의 경우 통계 분석, 데이터 마이닝을 위한 코드 문제가 출제될 가능성은 현저히 낮기 때문에 시험공부를 할 경우 코드는 이해를 위한 참고용으로 활용하고, R 코드를 너무 집중적으로 공부하지 않도록 주의해주세요 !
1. 데이터 마트
: 데이터 웨어하우스로부터 특정 사용자가 관심을 갖는 데이터들을 주제별, 부서별로 추출하여 모은 비교적 작은 규모의 데이터 웨어하우스
- 데이터 마트 개발 : 분석 목적별, 주제별, 부서별로 데이터를 수집하고 변형하여 한 곳에 모으는 작업
2. 데이터웨어하우스와 데이터 마트
RDBMS | 클라우드 | NoSQL | 데이터베이스 |
데이터 웨어하우스 | 데이터 웨어하우스 | ||
목적1 | 목적2 | 목적3 | 데이터 마트 |
사용자 1 (부서1) |
사용자 2 (부서 2) |
사용자3 |
3. 데이터 전처리 : 데이터 정제 + 분석 변수 처리 과정
ex) 변수 선택, 차원 축소, 파생변수 생성, 변수변환
- 요약 변수 : 원래의 데이터로부터 기본적인 통계자료 추출한 변수 -> 기초적 통계자료
- 파생 변수 : 특정한 목적을 갖고 조건을 만족하는 변수들을 새롭게 생성 -> 목적에 따른 특정한 의미부여
4. 데이터 마트 개발과 R
- resharpe 패키지 :
1) melt 함수 : 데이터를 특정 변수 기준으로 녹여서 나머지 변수에 대한 세분화 데이터 만듦
2) cast 함수 : melt로 인해 녹은 데이터를 요약하기 위하여 새롭게 가공
- sqldf 패키지 : SQL 문장을 활용하여 데이터 프레임 다루게 해주는 패키지
- plyr 패키지 : apply 함수를 기반으로 데이터를 분리하고 결합하는 필수적인 데이터 처리 기능 제공
- data.table 패키지 : 특정 칼럼 별로 주솟값을 갖는 인덱스를 생성하여 연산 및 검색을 빠르게 수행할 수 있는 데이터 구조
5. 탐색적 데이터 분석 (EDA)
: 데이터를 이해하고 의미 있는 관계를 찾아내기 위해 데이터의 통계값과 분포 등을 시각화하고 분석하는 것
6. 결측값 : 존재하지 않는 데이터를 의미
-> Na, null, -1, 공백 등 다양하게 표현
-> Amelia, DMwR2 패키지 : 결측값 처리
7. 결측값 대치 방법
1) 단순 대치법 : 결측값 데이터 삭제하는 방법
-> 결측값이 많은 경우, 대량의 데이터 손실 발생
-> complete.cases 함수 (존재 O False / 존재 X True)
2) 평균 대치법 : 얻은 데이터를 대표할 수 있는 평균 혹은 중앙값으로 결측값 대치
- 비조건부 평균 대치법 : 데이터 평균값으로 대치
- 조건부 평균 대치법 : 값들을 분석하여 회귀분석을 활용하는 대치
-> DMwR2 패키지의 central Imputation 함수
3) 단순 확률 대치법 : K-Nearest Neighbor (k개의 데이터 중 가장 많은 데이터로 대치)
- k 값 ↓ : 이상치에 민감
- k 값 ↑ : 근처 데이터의 특성 반영 어려움
4) 다중 대치법 : 여러 번의 대치를 통해 n개의 임의의 완전 자료 만드는 것
-> 결측값 대치, 분석, 결합 단계로 구성
8. 이상값
: 다른 데이터와 비교하였을 때 극단적으로 크거나 작은 값 의미
9. 이상값 판단
- ESD : 평균으로부터 '표준편차 3' 만큼 떨어진 값들을 이상값으로 판단
- 사분위수 : 25% 해당 값 Q1 + 75% 해당 값 Q3에서 각각 1.5분위수를 벗어나면 이상치라고 판단
'ADsP 자격증' 카테고리의 다른 글
[10일차] ADsP 자격증 : 기초 통계 (1) | 2025.02.07 |
---|---|
[9일차] ADsP 자격증 : 통계의 이해 (0) | 2025.02.05 |
[6일차] ADsP 자격증 : 분석 거버넌스 (0) | 2025.01.31 |
[5일차] ADsP 자격증 : 분석 마스터플랜 (1) | 2025.01.31 |
[4일차] ADsP 자격증 : 분석과제 발굴, 분석 프로젝트 관리방안 (1) | 2025.01.30 |