본문 바로가기

CS/DataMining

(2)
Fisher's Linear Discriminant Analysis Fisher's linear discriminant 는 데이터를 여러 변수들의 선형결합으로 표현하였을 때, 서로 다른 그룹을 잘 구분할 수 있게 해 주는 coefficient 를 찾는 방법이다. d차원 상의 데이터 집합을 선형 결합으로 표현하였을 때, 속한 클래스의 구분이 가장 용이한 1차원 공간으로 프로젝션하는 방법으로 데이터를 분석하는 기법이다. 1차원으로 프로젝션해야 하는 특성상 복잡하게 분산 된 데이터에 대한 구분이 용이하지 않은 단점이 있다.
결정 트리 ( Decision Tree ) 결정트리는 분류와 회귀 모두 가능한 지도 학습 모델 중 하나이다. 결정 트리는 마치 스무고개를 하듯이 예/아니요 질문을 이어가면서 학습합니다. 이렇게 특정 기준에 따라 데이터를 구분하는 모델을 결정 트리 모델이라 한다. 한번의 분기 때마다 변수 영역을 두 개로 구분한다. 질문이 너무 많아 지면, 오버피팅이 될 수 있습니다. 가지치기 ( Pruning ) 오버피팅을 막기 위한 전략으로 가지치기라는 기법이 있다. 즉, 최대 깊이나 터미널 노드의 최대 개수, 한 노드가 분할하기 위한 최소 데이터 수를 제한하는 것이다. 엔트로피( Entropy ), 불순도 ( Impurity ) 불순도란, 해당 범주 안에 서로 다른 데이터가 얼마나 섞여 있는지를 뜻한다. 결정 트리는 불순도를 최소화하는 방향으로 학습을 진행한다..