더미 기능 (및 기타 이산 / 범주 기능)을 통한 이상 탐지


18

tl; dr

  • discrete이상 감지를 수행 할 때 데이터 를 처리하는 권장 방법은 무엇입니까 ?
  • categorical이상 감지를 수행 할 때 데이터 를 처리하는 권장 방법은 무엇입니까 ?
  • 이 답변 은 개별 데이터를 사용하여 결과를 필터링하는 것이 좋습니다.
  • 아마도 범주 값을 perctage 관찰 가능성으로 대체 하시겠습니까?

소개

이것은 처음으로 여기에 게시되므로 형식이나 올바른 정의를 사용하여 기술적으로 정확하지 않은 것으로 보이는 경우 대신 사용해야하는 것을 알고 싶습니다.

앞으로.

저는 최근 Andrew Ng 의 기계 학습 수업에 참여했습니다.

이상 탐지를 위해 우리는 보통 / 가우스 분포 매개 변수가 주어진 기능 / 변수에 대해 어떤 결정하기 위해 배운 한 특정 주어진 훈련 예제의 / 관찰 값의 선택 세트의 확률을 데이터 세트 내에서 다음 결정 가우스 분포를 구한 다음 피처의 확률을 곱합니다.xi

방법

문제의 활동을 설명 할 것으로 생각되는 기능 / 변수를 선택하십시오 : { x 1 , x 2 , , x i }xi

{x1,x2,,xi}

각 피처에 대해 가우시안 파라미터를 피팅합니다 : σ2=1

μj=1mi=1mxj(i)
σ2=1mi=1m(xj(i)μj)2

각 학습 예 에 대해 다음을 계산합니다. p ( x ) = n j = 1 p ( x j ; μ j , σ 2 j )x

p(x)=j=1n p(xj;μj,σj2)

그런 다음 다음과 같이 예외 ( ) 로 플래그를 지정합니다. y = { 1y=1

y={1p(x)<ϵ0p(x)ϵ

이를 통해 예제에 추가 검사가 필요한지 확인할 수있는 방법이 제공됩니다.

내 질문

이는 연속 변수 / 기능에는 문제가 없지만 이산 데이터는 다루지 않습니다.

[IsMale]값이 일 수있는 성별 변수와 같은 더미 변수는 어떻습니까? 더미 기능을 고려하기 위해 이항 분포를 대신 p ( x ) 를 계산 할까요?0,1p(x)

red1,blue2red1log()

질문 : (업데이트 : 2015-11-24)

  • p(x)
  • p(x)
  • 여기에서 내가 연구하고 배우는 것에 대해 내가 요구하는 것을 고려하는 또 다른 방법이 있습니까?
  • discrete이상 감지를 수행 할 때 데이터 를 처리하는 권장 방법은 무엇입니까 ?
  • categorical이상 감지를 수행 할 때 데이터 를 처리하는 권장 방법은 무엇입니까 ?

편집 : 2017-05-03

  • 이 답변 은 개별 데이터를 사용하여 결과를 필터링하는 것이 좋습니다.
  • 아마도 범주 값을 perctage 관찰 가능성으로 대체 하시겠습니까?

<면책 조항> 저는 통계 배경이 위험 할 정도로 충분한 사람입니다. </ disclaimer> 따라서 위험 해집니다 .... 내 직감은 Gaussian이 비 연속적인 데이터를 처리하는 방법이 아니라는 것에 동의합니다. 연속 데이터의 경우 숫자 행의 한 값은 정수 행의 숫자 또는 이진 변수와 다른 모든 값과 다른 종류의 관계를 갖습니다. 이항 분포는 이진 변수를 나타냅니다. 다항 분포는 다항식 변수를 나타냅니다. 이 모든 지수 가족이 아닌가요?
EngrStudent-복직 모니카


토론에 추가 할 수있는 또 다른 주제 : 주제 : 범주 특이 치?
Adrian Torrie

pp(x;μ,σ2)=1σ2πe(xμ)22σ2

@uvts_cvs yes 가우시안 확률 확률 함수가 사용됩니다.
Adrian Torrie

답변:


4

일반적으로 불연속 * 및 범주 형 기능 모두에 대해이 방법은 특이 치 분석에 적합하지 않습니다. 범주 형 예측 변수와 관련된 규모는 없으므로 다음 작업을 수행합니다.

  • 글로벌 데이터에서 관찰되는 카테고리의 빈도
  • 데이터의 하위 공간 내에서 관찰되는 범주의 빈도

Gaussian 방법에 따라 이러한 품질을 개별적으로 분석 할 수는 없습니다. 대신, 범주 형 특징을 맥락화하고 데이터의 상관 특성을 고려하는 방법이 필요합니다.

다음은 Aggarwal의 특이 값 분석 을 기반으로 범주 형 및 혼합 속성 데이터에 대한 기술입니다 .

  • SS=Qkλk2QkTQkE=QkλkE
  • 순전히 범주 형 피처가있는 경우 혼합 모델 을 원시 범주 형 데이터에 맞 춥니 다 . 변칙 점은 생성 확률이 가장 낮습니다.
  • 범주 형 예측 변수 및 선택적으로 잠재 변수 분석에 one-hot 인코딩 사용 ** 명백하지 않은 연속 매핑이있는 순서 변수에 **
    • one-hot 기능이 아닌 기능을 표준화하고 (one-hot 기능은 이미 암시 적으로 표준화되었습니다) 주요 성분 분석을 수행 합니다. 주요 주성분 (또는 고유 값으로 고유 벡터에 가중치를 부여하는 소프트 PCA 접근법)을 사용하여 차원 축소를 수행하고 일반적인 연속 이상치 분석 방법 (예 : 혼합 모델 또는 가우시안 방법)을 실행하십시오.
    • 각도 기반 분석을 수행하십시오. 각 관측치에 대해 모든 점 쌍 간의 코사인 유사성을 계산합니다. 이러한 유사성의 편차가 가장 작은 관측치 ( "각도 기반 특이 치"라고도 함)가 특이 치일 가능성이 높습니다. 이상이 무엇인지 확인하기 위해 ABOF의 경험적 분포에 대한 최종 분석이 필요할 수 있습니다.
    • 특이 치 레이블을 지정한 경우 : 예측 된 모형을 공학적 데이터 (로지스틱 회귀, SVM 등)에 맞 춥니 다.

* 이산 기능은 대략 가우시안 방식으로 처리 될 수 있습니다. 올바른 조건에서 피쳐는 정규 분포 (예 : npq> 3 인 이항 랜덤 변수)로 근사 할 수 있습니다. 그렇지 않은 경우 위에서 설명한 서수로 처리하십시오.

** 이는 "관측 값을 관측 가능성 백분율로 대체"라는 아이디어와 유사합니다.


K=1

@Akababa 예를 들어 EM 알고리즘을 사용하여 다항식 매개 변수에 대한 MLE을 계산할 수 있습니다. 다항식 RV의 독립성을 가정하면이 방법은 임의의 범주 형 예측 변수 집합으로 일반화됩니다. 여기
khol

0

Andrew Ng 클래스 수학은 "비 분리형"데이터를 처리하는 것처럼 "이산 형"데이터를 처리합니다. 우리가해야 할 일은 정규 분포 모수를 경험적으로 추정하는 것 뿐이며, 이산 데이터에 대해 완벽하게 수행 할 수 있습니다.

당신이 그것에 대해 생각하면, 기계 학습은 항상 어쨌든 이산 데이터를 처리합니다 : 데이터 포인트의 수는 무한하지 않으며 컴퓨터가 처리하는 비트 수는 무한하지 않습니다.

개별 데이터 포인트를 서로 비교할 수있는 경우 길이를 처리 할 때 머신 러닝 방법에는 근본적인 차이가 없습니다. 1.15 ft 1.34 ft 3.4 ft

또는 나무에 몇 개의 가지가 있는지 : 1 2 3 5

부동 소수점 또는 정수의 합계와 평균을 동일하게 지정할 수 있습니다.

이제 범주 형 데이터로 범주 형 데이터 포인트는 {자동차 대 오토바이 대 보트)와 비교할 수 없습니다. 우리는 이것을 어떻게 처리합니까?

이해하기 위해서는 카테고리의 수는 2 개 이상이어야합니다. 그렇지 않으면 지속적인 특징의 요점은 무엇입니까? 카테고리가 2 개인 경우 카테고리 기능을 이진 지형지 물 {0, 1}로 나타낼 수 있습니다. 수학에는 0과 1을 사용할 수 있으므로 위를 참조하십시오.

범주 수 (K)가 [3 .. inf] 인 경우 단일 기능을 K 이진 상호 배타적 기능에 매핑합니다. 예를 들어 "모터 사이클"범주는 이진 기능 {IsCar : 0, IsMotorcycle : 1, IsBoat : 0}의 조합이되고, 보트 지점은 {IsCar : 0, IsMotorcycle : 0, IsBoat : 1} 등이됩니다.

이러한 새로운 기능을 통해 경험적 분포 모수를 추정 할 수 있습니다. 우리는 단순히 더 많은 차원을 가질 것입니다.


1
이것은 더미 인코딩을 설명하지만 질문에 대한 답변은 아닙니다
Pieter
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.