Naive Bayes는 연속 변수와 어떻게 작동합니까?

14

내 (매우 기본적인) 이해를 위해 Naive Bayes는 훈련 데이터에서 각 기능의 클래스 빈도를 기반으로 확률을 추정합니다. 그러나 연속 변수의 빈도를 어떻게 계산합니까? 그리고 예측을 수행 할 때 훈련 세트에서 동일한 관측치 값을 가질 수없는 새로운 관측치를 어떻게 분류합니까? 거리 측정을 사용하거나 1NN을 찾습니까?

— xyy
소스

다음은 이산 베이시스

— Esmailian

10

순진한 베이 즈 분류 (NBC)를 수행하는 방법에는 여러 가지가 있습니다. NBC의 일반적인 기술은 25 번째 백분위 수 미만의 값에 1, 25 ~ 50 번째 2, 50 ~ 75 번째 a 3, 75 번째 백분위 수 a 4보다 큰 값 (사 분위수)을 사 분위수로 다시 코딩하는 것입니다. 따라서 단일 객체는 빈 Q1, Q2, Q3 또는 Q4에 하나의 카운트를 입금합니다. 계산은이 범주 빈에 대해서만 수행됩니다. 빈 개수 (확률)는 변수 값이 지정된 빈 내에있는 샘플 수를 기준으로합니다. 예를 들어, 일련의 객체가 피처 X1에 대해 매우 높은 값을 가지면 X1의 Q4에 대해 빈에 많은 빈 개수가 생깁니다. 반면에 다른 객체 집합에 기능 X1에 대한 값이 낮 으면 해당 개체는 기능 X1의 Q1에 대해 많은 수의 저장소에 저장됩니다.

그것은 실제로 영리한 계산이 아니며, 연속적인 값을 이산으로 분리하고 그 이후에 악용하는 방법입니다. Gini 지수와 정보 게인은 이산화 후 쉽게 계산하여 가장 유용한 정보, 즉 max (Gini)를 판별 할 수 있습니다.

그러나 NBC를 수행하는 방법에는 여러 가지가 있으며, 서로 다른 방법이 많이 있습니다. 그래서 당신은 대화 나 논문에서 어떤 것을 구현했는지 말하면됩니다.

— wrktsj
소스

2

Naive Bayes의 핵심은 영웅적인 조건부 가정입니다.

P (x ∣ X, C) = P (x ∣ C)

$P(x \mid X, C) = P(x \mid C)$

절대로 가 이산되어서 는 안됩니다 . 예를 들어 Gaussian Naive Bayes 는 각 범주 에 다른 평균과 분산이 있다고 가정합니다 . 밀도 . $x$ $C$ $p(x \mid C = i) = \phi(\mu_i, \sigma^2_i)$

모수를 추정하는 방법에는 여러 가지가 있지만 일반적으로 다음과 같은 방법이 있습니다.

레이블이 지정된 데이터에 최대한의 가능성을 사용하십시오. (정규 분포의 경우 평균 및 분산의 최대 우도 추정값은 기본적으로 표본 평균 및 표본 분산입니다.)
레이블이없는 데이터가있는 EM 알고리즘과 같은 것.

— 매튜 건
소스