반응형

데이터마이닝 알고리즘에 대한 포스팅




데이터마이닝 분석 방법

  1. 분류 분석
    • 목표 필드의 값을 찾는 모델을 생성하여 과거의 데이터를 입력하여 분류 모델을 생성하고 새로운 데이터에 대한 분류 값을 예측하는 것
  2. 군집 분석
    • 데이터를 여러가지 속성(변수)들을 고려하여 성질이 비슷한 몇 개의 집합으로 구분하는 분석 기법
      분류분석과는 달리 목표 변수를 설정하지 않는다. 따라서 분류는 교사학습이라고하고 군집은 비교사 학습이라 한다.
  3. 연관 규칙
    • 장바구니 분석 방법
      A물건을 구입하는 회원은 B물건도 같이 구입하는 패턴을 분석했다면 A물건 구입시 B물건을 추천해주는 기법
  4. 연속 패턴 
    • 연관 규사 규칙과 비슷한 분석 방법
      노트북을 구입한 사람은 한달 후에 노트북 받침대를 구입한다는 패턴을 찾으면 이 규칙을 바탕으로 노트북 구입자에게 노트북 받침대를 추천하는 기법

데이터마이닝 동영상 강좌 

  1. Google TechTalk에서 제공하는 데이터마이닝 강좌 (Stat202)  [강좌보기]
  2. 방송통신대학의 데이터마이닝 강좌 [강좌보기]


각 알고리즘들의 종류와 특징
  1. 연관 규칙 알고리즘 (association rule)
  2. 클러스터링 알고리즘 (clustering)
  3. 신경망 알고리즘 (neural network)
  4. 결정트리 알고리즘 (decision tree)
  5. 유전자 알고리즘 (genetic)
  6. 베이지안 네트워크 알고리즘 (bayesian network)
  7. 메모리 기반 추론 알고리즘  (memory-based reasoning)
  8. 시계열 알고리즘

1. 알고리즘 선택하기
    • 데이터 집합의 다른 특성을 기반으로 하나 이상의 불연속 변수를 예측하는분류 알고리즘

    • 데이터 집합의 다른 특성을 기반으로 수익 또는 손실과 같은 하나 이상의 연속 변수를 예측하는 회귀 알고리즘

    • 데이터를 속성이 유사한 항목의 그룹 또는 클러스터로 나누는 세그먼트화 알고리즘

    • 데이터 집합에 있는 여러 특성 사이의 상관 관계를 찾는연결 알고리즘
      이러한 종류의 알고리즘은 시장 바구니 분석에 사용할 수 있는 연결 규칙을 만드는 데 가장 일반적으로 적용됩니다.

    • 시퀀스 분석 알고리즘은 웹 사이트에서 일련의 클릭 또는 컴퓨터 유지 관리 앞의 일련의 로그 이벤트와 같이 데이터에서 빈번한 시퀀스 또는 에피소드를 요약합니다.

참고 링크


+ Recent posts