본문 바로가기
정리/실무가 훤히 보이는 머신러닝&딥러닝

4장_비지도학습을 이용한 군집화

by 스꼬맹이브로 2023. 2. 27.
728x90
반응형
SMALL

비지도학습(unsupervised learning)

  • 문제는 있지만 정답 또는 라벨(label)이 없는 데이터로 컴퓨터가 스스로 문제를 보면서 특징을 잡아내는 방법
  • 대표적으로 군집화(clustering)를 통해 데이터에 내재된 정보를 찾음

[K-평균 알고리즘]

  • 군집화 알고리즘 중 가장 대표적이고 오래된 알고리즘
  • K는 군집의 개수를 의미하며 사용자가 입력하는 유일한 입력값

▶ K-평균 알고리즘을 구성하는 방법

  1. 몇 개의 군집으로 분류할 것인지 지정(K의 숫자는 군집의 수)
  2. 임의의 각 군집의 중심점 선택
  3. 각 벡터를 가장 가까운 군집 중심점에 연결
  4. 각 벡터와 군집 중심점 간의 거리 평균 계산
  5. 3단계의 계산 값을 고려하여 군집 중심점 업데이트
  6. 3~5단계를 특징 조건이 만족할 때까지 반복(단, 중심점 변경이 없다면 종료)

K-평균 알고리즘 장점 : 결과를 해석하기 쉽고 구현하기 간단함

K-평균 알고리즘 단점 : 군집 개수를 사용자가 지정해야하고 초기 중심점에 따라 군집이 달라짐.

 

 

<요약>

K-평균 알고리즘은 거리 기반으로 군집의 중심점을 이동하면서 군집화를 수행

매우 이해하기 쉽고 연산 속도도 빨라 많이 사용되지만 특이점 데이터에 너무 민감하거나 복잡한 데이터에 적용하기에는 한계가 있음

 

 

728x90
반응형
LIST