범주 형 솔루션
값을 범주 형으로 취급하면 상대 크기에 대한 중요한 정보가 손실됩니다 . 이를 극복하기위한 표준 방법은 정렬 된 로지스틱 회귀 입니다. 실제로,이 방법은 "인식"하고 회귀 자와의 관찰 된 관계 (예 : 크기)를 사용하여 순서를 존중하는 각 범주에 (임의의) 값을 맞 춥니 다.A < B < ⋯ < J< …
예를 들어, 다음과 같이 생성 된 30 (크기, 존재 범주) 쌍을 고려하십시오.
size = (1/2, 3/2, 5/2, ..., 59/2)
e ~ normal(0, 1/6)
abundance = 1 + int(10^(4*size + e))
풍부도는 간격 [0,10], [11,25], ..., [10001,25000]으로 분류됩니다.
정렬 된 로지스틱 회귀 분석은 각 범주에 대한 확률 분포를 생성합니다. 분포는 크기에 따라 다릅니다. 이러한 자세한 정보를 통해 예상 값과 간격을 생성 할 수 있습니다. 다음은이 데이터에서 추정 한 10 개의 PDF 플롯입니다 (데이터 부족으로 인해 카테고리 10에 대한 추정은 불가능했습니다).
지속적인 솔루션
각 범주를 나타 내기 위해 숫자 값을 선택하고 범주 내의 실제 존재비에 대한 불확실성을 오류 항의 일부로 보는 것이 어떻습니까?
우리는 이것을 풍부화 값 를 다른 값으로 변환 하는 이상적인 재 발현 대한 이산 근사로 분석 할 수있다.이 값 은 관측 오차가 좋은 근사, 대칭 분포 및 대략적으로 동일한 예상 크기와 같은 다른 값 로 변환 된다. (분산 안정화 변환).에프ㅏ에프( a )ㅏ
분석을 단순화하기 위해 이러한 변형을 달성하기 위해 범주 (이론 또는 경험을 바탕으로)를 선택했다고 가정합니다. 가 카테고리 를 인덱스 로 다시 표현 한다고 가정 할 수 있습니다 . 제안이 몇 가지 "특성"값 선택 금액 각 카테고리 내의 하고 사용 풍부함이 사이가 관찰 될 때마다 풍부한 수치 등을 및 . 이것은 올바르게 다시 표현 된 값 의 프록시입니다 .에프αiiβiif(βi)αiαi+1f(a)
그러면 오류 과 함께 풍부함이 관찰되어 가상 데이텀이 실제로 대신 가정 . 이것을 로 코딩 할 때 발생하는 오류는 정의상 차이 이며, 두 항의 차이로 표현할 수 있습니다εa+εaf(βi)f(βi)−f(a)
error=f(a+ε)−f(a)−(f(a+ε)−f(βi)).
첫 번째 용어 인 는 의해 제어되며 ( 에 대해서는 아무 것도 할 수 없음 ) aboundance를 분류 하지 않으면 나타납니다 . 두 번째 용어는 무작위입니다. 따라 다르며, 분명히 과 관련이 있습니다. 그러나 우리는 그것에 대해 말할 수 있습니다 : 과 사이에 있어야합니다 . 또한, 가 좋은 일을하고 있다면 , 두 번째 항은 대략 균일하게 분포 될 수 있습니다 . 두 가지 고려 사항은 선택하는 것이 좋습니다 되도록f(a+ε)−f(a)fεεεi−f(βi)<0i+1−f(βi)≥0fβif(βi) 와 사이의 중간에 있습니다 . 즉, 입니다.ii+1βi≈f−1(i+1/2)
이 질문의 이러한 범주는 대략적인 기하학적 진행을 나타내며 는 로그의 약간 왜곡 된 버전 임을 나타냅니다 . 따라서 우리는 존재비 데이터를 나타 내기 위해 구간 종점 의 기하 평균 을 사용하는 것을 고려해야 합니다 .f
이 절차를 사용하는 보통 최소 제곱 회귀 (OLS)는 8.19의 기울기 (0.97의 기울기)와 0.69의 절편 (기울기) 대신 7.70의 기울기 (표준 오차는 1.00)와 절편을 0.70 (표준 오차는 0.58)로 나타냅니다. 0.56) 크기에 대한 로그 풍부도를 회귀 할 때 이론적 인 기울기가 가까워 야하기 때문에 둘 다 평균에 대한 회귀를 나타냅니다 . 범주 형 방법은 예상 한대로 이산화 오차가 추가되어 평균에 대한 회귀가 조금 더 커집니다 (더 작은 기울기).4log(10)≈9.21
이 그림은 분류 된 풍부도 (추천 된 범주 종점의 기하 평균을 사용함)를 기반으로하는 적합도와 풍부도 자체를 기반으로하는 적합도와 함께 분류되지 않은 풍요를 보여줍니다 . 맞춤은 놀랍도록 가깝습니다. 카테고리를 적절하게 선택한 숫자 값으로 바꾸는이 방법은 예제에서 잘 작동합니다 .
일반적으로 는 경계가 없기 때문에 두 극한 범주에 대해 적절한 "중간 점" 를 선택하는 데 약간의주의가 필요합니다 . (이 예제에서는 첫 번째 범주의 왼쪽 끝점을 대신 로 설정하고 마지막 범주의 오른쪽 끝점을 .) 한 가지 해결책은 극단적 범주 중 하나에없는 데이터를 사용하여 먼저 문제를 해결하는 것입니다. 그런 다음 적합치를 사용하여 해당 극단적 범주에 대한 적절한 값을 추정 한 다음 돌아가서 모든 데이터를 적합시킵니다. p- 값은 약간 양호하지만 전반적으로 적합도는 더 정확하고 편향이 적어야합니다.βif1025000