본문 바로가기
ADsP 자격증

[18일차] ADsP 자격증 : 연관분석

by 잉나영 2025. 2. 21.
728x90

안녕하세요 오늘은 ADsP 공부 18일차입니다.

오늘은 마지막 정리본이자 요약본 입니다 ! 마지막까지 따라와주셔서 감사합니

오늘도 회귀와 함께 정리본 작성해보겠습니다.

 

17일차 정리본은 아래 게시물 참고해주세요 ~

2025.02.21 - [ADsP 자격증] - [17일차] ADsP 자격증 : 군집 분석 (군집분석, 계층적 군집분석, 혼합 분포 군집, 자기조직화지도)

 

 

저의 ADsP 공부는 미어캣책과 함께 공부를 진행하려고 합니다. 아래 게시글을 참고해주세요 !

2025.01.20 - [ADsP 자격증] - ADsP 데이터분석 준전문가 비전공자도 독학으로 부시기 !

 

ADsP 데이터분석 준전문가 비전공자도 독학으로 부시기 !

안녕하세요 이번 ADsP 44회를 도전하고 있는 대학생입니다. 이 시험을 준비하기 앞서 저는 미어캣 책으로 유명한 위키북스 책으로 고르게 되었습니다.작년에도 시험에 도전하려고 했는데 시간적

lnylnylnylny.tistory.com

 

그럼 바로 18일차 <연관 분석> 정리를 해보겠습니다.

 

3과목 같은 경우 전체적인 내용 구성을 R코드로 입력하며 학습하기 위한 부분이니 참고만 해주세요

실제 시험의 경우 통계 분석, 데이터 마이닝을 위한 코드 문제가 출제될 가능성은 현저히 낮기 때문에 시험공부를 할 경우 코드는 이해를 위한 참고용으로 활용하고, R 코드를 너무 집중적으로 공부하지 않도록 주의해주세요 !

 


 

1. 연관분석

: 장바구니 분석

  구매패턴을 분석하여 의미있는 규칙 찾아내는 분석 (If ~ Then~)

: 비지도학습

  계산용이 but, 품목 수↑ 하면 계산이 기하급수적 증가 → 유사품목을 하나의 범주로 일반화작업 진행

 

2. 연관분석 측도

1) 지지도 : 전체 거래 중에서 A와 B 두 품목이 동시에 포함될 거래 비율

                  지지도↑ = 잘 판매됨

더보기

P(A∩B) = (A와B 동시에 거래된 수) / (전체 거래 수)

2) 신뢰도 : 어떤 하나의 품목이 구매되었을 때 다른 품목 하나가 구매될 확률 → 조건부확률

더보기

 A → B 신뢰도 ≠ B → A 신뢰도

신뢰도(A → B) = P(BㅣA) = P(A∩B) / P(A)

신뢰도(B  A) = P(AㅣB) = P(A∩B) / P(B)

3) 향상도 : 품목 A가 주어지지 않을 때 품목B가 구매될 확률 대비 품목 A가 구매될 때 품목B가 구매될 확률

더보기

 A  B 향상도 = B  A 향상도

향상도(A  B) = 향상도(B  A) = P(A∩B) / P(A)P(B)

- 향상도(A  B) < 1 : 품목 A 구매될 때 품목B 구매확률 감소 (음의 상관관계)

- 향상도(A  B) = 1 : 품목 B가 구매될 확률 변함X (관계없음)

- 향상도(A  B) > 1 : 품목 A 구매될 때 품목 B 구매확률 증가 (양의 상관관계)

 

3. 연관분석 알고리즘

: apriori 알고리즘 : 지지도를 사용해 빈발 아이템 집합을 판별하고 이를 통해 계산복잡도 감소시킴

 

4. apriori 알고리즘 절차

: 최소지지도를 도입하였으나 여전히 많은 계산량 필요 

1) 최소지지도 설정

2) 최소지지도보다 큰 지지도를 갖는 단일 품목 선별

3) 위 과정에서 찾은 단일 품목으로 2가지 품목으로 생성되는 연관규칙(A  B)중 최소지지도 이상의 연관규칙 찾음

4) 위 과정을 반복적 수행하며 3가지 이상의 품목에 대한 연관규칙 생성하면서 의미 있는 결과 찾음

 

5. FP - Growth 알고리즘

: 데이터셋이 큰 경우 해결

: 지지도가 낮은 품목 ~ 지지도 높은 품목 순으로 빈도수가 높은 아이템 집합 생성하는 상향식 알고리즘

: 속도↑ + 연산비용↓

 

6. 연관분석의 특징

장점 단점
결과가 단순 + 분명 (If ~ THEN ~) 품목 세분화 어려움
분석을 위한 계산 간단 품목 수의 증가는 기하급수적인 계산량 증가 초래
목적변수가 없으므로 데이터 탐색을 위해 사용가능 거래가 발생하지 않은 품목에 대해서는 분석 불가

 

7. 순차패턴

: 연관분석에 시간 개념이 추가되어 규칙 찾는 분석기법

: 누가 언제 있었는지 고객과 시간 정보 함께 필요

728x90