본문 바로가기
ADsP 자격증

[17일차] ADsP 자격증 : 군집 분석 (군집분석, 계층적 군집분석, 혼합 분포 군집, 자기조직화지도)

by 잉나영 2025. 2. 21.
728x90

안녕하세요 오늘은 ADsP 공부 17일차입니다.

오늘도 회귀와 함께 정리본 작성해보겠습니다.

20일간 열심히 스터디를 진행해서 자격증 합격까지 마무리해봅시다 !

 

16일차 정리본은 아래 게시물 참고해주세요 ~

2025.02.21 - [ADsP 자격증] - [16일차] ADsP 자격증 : 분류분석 (인공신경망, 나이브 베이즈, k-NN알고리즘, SVM, 분류모형 성과평가)

 

[16일차] ADsP 자격증 : 분류분석 (인공신경망, 나이브 베이즈, k-NN알고리즘, SVM, 분류모형 성과평가

안녕하세요 오늘은 ADsP 공부 16일차입니다.오늘도 회귀와 함께 정리본 작성해보겠습니다.20일간 열심히 스터디를 진행해서 자격증 합격까지 마무리해봅시다 ! 15일차 정리본은 아래 게시물 참고

lnylnylnylny.tistory.com

 

 

저의 ADsP 공부는 미어캣책과 함께 공부를 진행하려고 합니다. 아래 게시글을 참고해주세요 !

2025.01.20 - [ADsP 자격증] - ADsP 데이터분석 준전문가 비전공자도 독학으로 부시기 !

 

ADsP 데이터분석 준전문가 비전공자도 독학으로 부시기 !

안녕하세요 이번 ADsP 44회를 도전하고 있는 대학생입니다. 이 시험을 준비하기 앞서 저는 미어캣 책으로 유명한 위키북스 책으로 고르게 되었습니다.작년에도 시험에 도전하려고 했는데 시간적

lnylnylnylny.tistory.com

 

그럼 바로 17일차 <군집 분석> 정리를 해보겠습니다.

 

3과목 같은 경우 전체적인 내용 구성을 R코드로 입력하며 학습하기 위한 부분이니 참고만 해주세요

실제 시험의 경우 통계 분석, 데이터 마이닝을 위한 코드 문제가 출제될 가능성은 현저히 낮기 때문에 시험공부를 할 경우 코드는 이해를 위한 참고용으로 활용하고, R 코드를 너무 집중적으로 공부하지 않도록 주의해주세요 !

 


 

1. 군집분석

: 비지도학습.

: 여러변수로 표현된 자료들 사이의 유사성을 측정하고 유사한 자료들끼리 몇 개의 군집으로 묶고 다변량분석(상관분석, 회귀분석, 주성분분석)을 활용하여 각 군집에 대한 특징 파악

: 방법으로는 유클리디안 거리, 맨하튼 거리로 거리측정 + 코사인거리, 상관계수로 유사성 측도

: 거리 가까울수록 유사성 ↑

: 평가지표로는 실루엣 계수 사용 -> 응집도 + 분리도 계산하며 그 값이 1에 가까울수록 완벽

 

2. 거리측도

1) 변수가 연속형

- 유클리디안 거리 : 두 점 사이의 거리 계산할 때 주로 사용

                               두 점 사이의 가장 짧은 거리를 계산 

                               변수들의 산포정도 감안x (수학적 거리) → d (x,y) = √∑ㅣxi - yiㅣ²

- 맨하튼 거리 : 두 점 사이를 가로지르지 않고 따라간 거리

                        도시에서 최단거리 움직이듯 변수의 차이의 단순함으로 계산한 거리 (사가거리) → d(x,y) = ∑ㅣxi - yiㅣ

- 체비셰프거리 : 변수 간 거리 차이 중 최댓값 

                           d(x,y) = max ㅣxi - yiㅣ

- 표준화 거리 : 유클리디안 거리에서 변수 간 단위의 차이로 어떤 변수가 거리측정 기여못하는 문제를 표준편차로 나누어                           해결 

- 마할리노비스 거리 : 표준화 거리가 고려못한 상관성까지 고려

                                     [(X−Y)TS1(X−Y)]1/2

- 민코포스키 거리 : m=1이면 맨하튼 거리, m=2이면 유클리디안 거리

 

2) 변수가 범주형

: 얼마나 공통된 요소를 갖는지 판단

- 단순 일치 계수 : 두 객체 i와 j 값의 상이성을 불일치 비율로 계산

                             P는 변수의 총 개수, m은 객체 i와 j가 같은 상태 변수 수

더보기

     d(i,j) = m/p

- 자카드 지수 : 유사도 측정

                        같으면 1 다르면 0

더보기

J (X,Y) = n(A∩B) / n(A∪B)

- 자카드 거리 : 자카드 지수를 거리화

더보기

djacord (X,Y) = 1- n(A∩B) / n(A∪B)

- 코사인 유사도 : 문서(텍스트)의 유사도 측정

                            크기가 아닌 방향성 측정 지표 

                            일치하면 1, 아니면 -1

 

- 코사인거리 : 코사인 유사도 거리화

더보기

1- 코사인 유사도

- 순위상관계수 : 순차척도인 두 데이터의 거리측정

                           스피어만 상관계수 사용

 

3. 표준화와 정규화

: 단위차이 예방

- 표준화 : 관측치가 평균으로부터 얼마나 떨어져 있는가

                평균0, 표준편차 1

- 정규화 : 모든 데이터 범위를 0과1 사이로 변환

 

4. 계층적 군집분석

: 개별 관측치 값의 거리를 계산해서 가장 가까운 관측치를 결합해나가면서 계층적 트리구조 형성 → 군집화 수행

- 병합적 방법 : 각 데이터를 하나의 군집으로 간주하고 가까운 D부터 순차적 병합

- 분할적 방법 : 전체 D를 하나의 군집으로 간주하고 각각의 관측치가 하나의 군집이 될 때까지 군집을 순차적 분할

 

5. 군집 간의 거리

1) 단일 연결법 : 최단연결법

                          생성된 군집과 기존 데이터들 거리가 가장 가까운 데이터

2) 완전 연결법 : 최장연결법

                          생성된 군집과 기존 데이터들 거리가 가장 먼 데이터

3) 평균 연결법 : 생성된 군집과 기존의 데이터들의 거리를 군집 내 평균D 

                          이상치 민감↓

4) 중심 연결법 : 각 군집의 중심점 사이의 거리로 정의

                          계산량↓

5) 와드 연결법 : 생성된 군집과 기존의 데이터들의 거리를 군집 내 오차가 최소가 되는 D로 계산

                          군집 내 분산을 최소로 하여 좀 더 조밀한 군집생성가능

 

6. 비계층적 군집분석

: 원하는 군집의 수(k)의 초기값을 설정하고 분석 수행

  ex) K-means

: 계층적으로 군집을 형성하지 않고 구하고자 하는 군집의 수를 사전에 정의해 정해진 군집 수만큼 형성

- K-means 군집 : 군집의 수(k개)를 사전에 정한 뒤 집단 내 동질성 + 집단 간 이질성이 모두 높게 전체 데이터를 k개의 군집으로 분                           할하는 알고리즘

                          k개의 군집을 각각 설명할 변수의 값을 임의로 설정

                          데이터 중 k개 선택(seed)

 

7. K-means 군집방법

1) 군집의 수 k의 초기값을 설정하고 각각의 k를 설명할 변수의 값을 임의로 설정하거나 데이터 중 k(seed)개 선택

2) 각 데이터를 가장 가까운 seed로 할당

3) 각 군집의 데이터들 사이의 평균값 / 중앙값을 계산하여 새로운 seed 설정

4) 새로운 seed를 중심으로 군집 재할당

5) 각 군집의 중심이 변하지 않을 때(모든 D가 이상적으로 군집화)까지 3,4번 과정 반복

 

8. K-means 군집 특징

장점 단점
- 분석 기법 적용이 비교적 단순 + 빠름 - 초기값 k개 설정 어려움
- 다양한 데이터에서 사용 가능  - 결과의 해석에 어려움
  - 데이터의 변수가 연속형 변수
  - 안정된 군집은 보장하나 최적의 보장은 X
  - 이상값에 민감 → 평균값 대신 중앙값 사용

 

 

9. 집단 내 제곱합 그래프

: k값을 1부터 늘려가며 각 군집의 중심으로부터 떨어진 거리를 제곱하여 합한 값

→ 군집 수↑ 집단 내 제곱합↑ but, 특정 k값 이후 감소량이 급격히 감소!

 

10. K-medoids

: 이상값에 민감한 K-means 보완 

  둘의 차이점은

1) SEED 값은 반드시 데이터 중 선택

2) SEED의 이동은 중심 / 평균이 아닌 해당 클러스터에 속한 데이터 중에서 다른D와의 거리 척도가 최소가 되는 데이터로 선택

→ 이상값 민감X, but, 시간이 오래걸림

 

11. DBSCAN

: 밀도 기반 군집분석으로 개체들이 밀집한 정도에 기초에 군집 형성

- 데이터의 분포가 기하학적이고 노이즈가 포함된 데이터셋에 대해서도 효과적 군집 형성

  초기 군집 수 설정 필요X

 

12. 혼합 분포 군집 개요

: 모형 기반의 군집 방법으로 관측된 데이터들은 여러 개의 확률분포(정규분포)로부터 추출되었다는 가정하에 같은 확률분포에서 추출된 데이터들끼리 군집화하는 분석 기법

: 데이터들이 몇 개의 확률분포로 구성되어 있는지, 각각의 확률분포의 모수(평균, 분산)와 그 확률분포가 전체 D에서 차지하는 비중(가중치)을 찾는 것이 핵심

: 모수와 가중치 추정하는 방법은 EM(기댓값 최대화) 알고리즘 사용

 

13. EM 알고리즘

: 확률 모델의 최대 가능도를 갖는 모수와 함께 그 확률모델의 가중치 추정

- 가능도 : 관측된 데이터가 특정 분포를 따를 가능성

- 로그 - 가능도 함수 : 로그는 증가함수로, 로그- 가능도 함수가 최대면 가능도도 최대

 

14. EM알고리즘 과정

1) E-step 파라미터(모수)설정 : 두 개의 정규분포로 혼합될 경우 초기 파라미터(각 정규분포의 평균과 표준편차, 가중치)

                                                 값을 임의로 설정

2) E-step Z의 기댓값 계산 : 설정된 파라미터 값을 가진 분포로부터 실제 D가 얼마나 나올지 알아보기 위해

                                            로그 가능도 함수의 기댓값 계산

3) M-step 새로운 파라미터 추정 : 기댓값을 사용하여 왼쪽 분포의 평균값인 ui값은 지금보다 더 큰 값을 가지고,

                                                     오른쪽 분포 u2는 지금보다 더 작은 값을 가져야 하는 새로운 파라미터 추정

4) M-step 알고리즘 반복 및 종료 : 이전 가능도에 비해 가능도 증가량이 특정 기준값보다 낮으면 가능도가 최대가 되어

                                                      종료 그렇지 않으면 2번, 3번 과정반복

 

15. 자기조작화지도 (SOM)

: 인공신경망 기반 차원 축소 + 군집화를 동시에 수행할 수 있는 알고리즘

: 다차원D를 축소해 저차원 지도 생성 → 데이터 가시화

: 입력공간의 속성을 보존한다는 특징으로 실제 유사한 데이터는 2차원 격차에서도 가깝게 표현됨

 

16. 자기조직화 지도 구성

- j개의 데이터를 입력받는 입력층

- n개의 노드(뉴런)로 표현하는 경쟁층

: 임의의 프로토타입 백터와의 거리를 유클리디안 거리에 의해 계산

: 입력층의 표본벡터에 가장 가까운 프로토타입 백터를 BMU

: 최종적으로 경쟁층에 있는 노드들 중 가장 가까운 하나의 노드에 도달하는데 그 노드를 승자노드

 

17. 자기조직화 지도 과정

1) 초기학습률(a0)과 임의의 값의 가중치 행렬, 경쟁층 노드 개수 지정

2) 입력 벡터(첫번째D)를 제시하고 가중치 행렬에 의해 가장 가까운 노드에 나타남

3) 입력 벡터에 대한 승자노드가 입력벡터를 더 잘 나타내도록 학습률을 사용하여 해당 가중치를 재조정

4) 2단계로 돌아가 반복하여 모든 입력벡터를 승자노드에 나타냄

   모든 입력벡터가 승자노드에 표시되는 과정을 '1회의 반복' 이라함

5) 일정반복 수에 도달할 때까지 2번으로 돌아가 위 작업 반복

 

18. 자기조직화지도 특성

장점 단점
역전파 알고리즘을 사용하지 않는 순전파 방식으로 속도 빠름 초기학습률 및 초기가중치에 많은 영향 받음
저차원의 지도로 형상되어 시각적 이해 쉬움 경쟁층의 이상적인 노드의 개수 결정 어려움
패턴 발견 및 이미지 분석에서 성능 우수  
입력데이터에 대한 속성 그대로 보존  

 

19. 군집분석 모형의 평가

1) 외부평가

- 자카드 계수 평가 : 두 데이터 간의 유사도 계산 

더보기

J(A,B) = ㅣA∩Bㅣ/ ㅣA∪Bㅣ

- 분류 모형 평가 방법을 응용 : 혼동행렬, ROC curve

 

2) 내부평가

- 단순계산법 : 전체 데이터 n개

더보기

군집개수 = k = √n/2

- 군집 간의 거리를 계산해서 평가 : 유클리디안 거리, 맨하튼 거리, 민코프스키 거리, 표준화거리, 마할라노비 거리

- 실루엣 계수 : 하나의 데이터와 나머지 모든 데이터와의 거리를 활용하여 평가 (1에 가까워야 함)

- 엘보 메소드 : K-means 분석 시각화

 

20. 협업 필터링

: 수많은 사람들로부터 유사한 사람들을 선호했거나 경험한 것을 예측하는 추천방법

 

728x90