범위 데이터를 연속적인 것으로 취급 할 때 모범 사례


9

풍요가 크기와 관련이 있는지보고 있습니다. 크기는 물론 연속적이지만 풍부도는 다음과 같은 규모로 기록됩니다.

A = 0-10
B = 11-25
C = 26-50
D = 51-100
E = 101-250
F = 251-500
G = 501-1000
H = 1001-2500
I = 2501-5000
J = 5001-10,000
etc... 

A ~ Q ... 17 단계. 가능한 한 가지 접근 방식은 각 문자에 최소, 최대 또는 중앙값을 지정하는 것입니다 (즉 A = 5, B = 18, C = 38, D = 75.5 ...).

잠재적 인 함정은 무엇입니까? 따라서이 데이터를 범주 형으로 취급하는 것이 더 좋을까요?

나는 이 질문 을 읽었으며 몇 가지 생각을 제공하지만이 데이터 세트의 핵심 중 하나는 범주가 고르지 않다는 것입니다. 따라서 범주로 취급하면 A와 B의 차이는 다음의 차이와 같다고 가정합니다 B와 C ... (로그를 사용하여 수정할 수 있습니다-Anonymouse 덕분에)

궁극적으로, 나는 다른 환경 적 요소들을 고려한 후 크기가 풍요의 예측 자로 사용될 수 있는지를보고 싶다. 크기 X와 요인 A, B 및 C를 고려할 때 우리는 존재비 Y가 최소와 최대 사이에있을 것으로 예측합니다 (이것은 하나 이상의 스케일 포인트에 걸쳐있을 수 있다고 가정합니다 : 최소 D 이상 및 미만) 최대 F ...하지만 더 정확할수록 좋습니다).

답변:


13

범주 형 솔루션

값을 범주 형으로 취급하면 상대 크기에 대한 중요한 정보가 손실됩니다 . 이를 극복하기위한 표준 방법은 정렬 된 로지스틱 회귀 입니다. 실제로,이 방법은 "인식"하고 회귀 자와의 관찰 된 관계 (예 : 크기)를 사용하여 순서를 존중하는 각 범주에 (임의의) 값을 맞 춥니 다.A<B<<J<

예를 들어, 다음과 같이 생성 된 30 (크기, 존재 범주) 쌍을 고려하십시오.

size = (1/2, 3/2, 5/2, ..., 59/2)
e ~ normal(0, 1/6)
abundance = 1 + int(10^(4*size + e))

풍부도는 간격 [0,10], [11,25], ..., [10001,25000]으로 분류됩니다.

풍요 로움 범주 대 크기의 산점도

정렬 된 로지스틱 회귀 분석은 각 범주에 대한 확률 분포를 생성합니다. 분포는 크기에 따라 다릅니다. 이러한 자세한 정보를 통해 예상 값과 간격을 생성 할 수 있습니다. 다음은이 데이터에서 추정 한 10 개의 PDF 플롯입니다 (데이터 부족으로 인해 카테고리 10에 대한 추정은 불가능했습니다).

카테고리 별 확률 밀도

지속적인 솔루션

각 범주를 나타 내기 위해 숫자 값을 선택하고 범주 내의 실제 존재비에 대한 불확실성을 오류 항의 일부로 보는 것이 어떻습니까?

우리는 이것을 풍부화 값 를 다른 값으로 변환 하는 이상적인 재 발현 대한 이산 근사로 분석 할 수있다.이 값 은 관측 오차가 좋은 근사, 대칭 분포 및 대략적으로 동일한 예상 크기와 같은 다른 값 로 변환 된다. (분산 안정화 변환).faf(a)a

분석을 단순화하기 위해 이러한 변형을 달성하기 위해 범주 (이론 또는 경험을 바탕으로)를 선택했다고 가정합니다. 가 카테고리 를 인덱스 로 다시 표현 한다고 가정 할 수 있습니다 . 제안이 몇 가지 "특성"값 선택 금액 각 카테고리 내의 하고 사용 풍부함이 사이가 관찰 될 때마다 풍부한 수치 등을 및 . 이것은 올바르게 다시 표현 된 값 의 프록시입니다 .fαiiβiif(βi)αiαi+1f(a)

그러면 오류 과 함께 풍부함이 관찰되어 가상 데이텀이 실제로 대신 가정 . 이것을 로 코딩 할 때 발생하는 오류는 정의상 차이 이며, 두 항의 차이로 표현할 수 있습니다εa+εaf(βi)f(βi)f(a)

error=f(a+ε)f(a)(f(a+ε)f(βi)).

첫 번째 용어 인 는 의해 제어되며 ( 에 대해서는 아무 것도 할 수 없음 ) aboundance를 분류 하지 않으면 나타납니다 . 두 번째 용어는 무작위입니다. 따라 다르며, 분명히 과 관련이 있습니다. 그러나 우리는 그것에 대해 말할 수 있습니다 : 과 사이에 있어야합니다 . 또한, 가 좋은 일을하고 있다면 , 두 번째 항은 대략 균일하게 분포 될 수 있습니다 . 두 가지 고려 사항은 선택하는 것이 좋습니다 되도록f(a+ε)f(a)fεεεif(βi)<0i+1f(βi)0fβif(βi) 와 사이의 중간에 있습니다 . 즉, 입니다.ii+1βif1(i+1/2)

이 질문의 이러한 범주는 대략적인 기하학적 진행을 나타내며 는 로그의 약간 왜곡 된 버전 임을 나타냅니다 . 따라서 우리는 존재비 데이터를 나타 내기 위해 구간 종점 기하 평균사용하는 것을 고려해야 합니다 .f

이 절차를 사용하는 보통 최소 제곱 회귀 (OLS)는 8.19의 기울기 (0.97의 기울기)와 0.69의 절편 (기울기) 대신 7.70의 기울기 (표준 오차는 1.00)와 절편을 0.70 (표준 오차는 0.58)로 나타냅니다. 0.56) 크기에 대한 로그 풍부도를 회귀 할 때 이론적 인 기울기가 가까워 야하기 때문에 둘 다 평균에 대한 회귀를 나타냅니다 . 범주 형 방법은 예상 한대로 이산화 오차가 추가되어 평균에 대한 회귀가 조금 더 커집니다 (더 작은 기울기).4log(10)9.21

회귀 결과

이 그림은 분류 된 풍부도 (추천 된 범주 종점의 기하 평균을 사용함)를 기반으로하는 적합도와 풍부도 자체를 기반으로하는 적합도와 함께 분류되지 않은 풍요를 보여줍니다 . 맞춤은 놀랍도록 가깝습니다. 카테고리를 적절하게 선택한 숫자 값으로 바꾸는이 방법은 예제에서 잘 작동합니다 .

일반적으로 는 경계가 없기 때문에 두 극한 범주에 대해 적절한 "중간 점" 를 선택하는 데 약간의주의가 필요합니다 . (이 예제에서는 첫 번째 범주의 왼쪽 끝점을 대신 로 설정하고 마지막 범주의 오른쪽 끝점을 .) 한 가지 해결책은 극단적 범주 중 하나에없는 데이터를 사용하여 먼저 문제를 해결하는 것입니다. 그런 다음 적합치를 사용하여 해당 극단적 범주에 대한 적절한 값을 추정 한 다음 돌아가서 모든 데이터를 적합시킵니다. p- 값은 약간 양호하지만 전반적으로 적합도는 더 정확하고 편향이 적어야합니다.βif1025000


탁월한 답변 +1! 특히 두 가지 옵션이 정당성과 함께 설명되는 방식이 마음에 듭니다. 나는 또한 크기가 아닌 풍요의 로그를 취하여 강조해야 할 것을 모았습니다. 첫 번째 질문 인 1 부에서는 "주변 값과 간격을 생성 할 수 있습니다"라고 말합니다. 어떻게합니까?
gung-복원 Monica Monica

좋은 질문입니다, @gung. 효과적 일 수있는 조잡한 방법은 범주를 구간 값 데이터로 취급하는 것이며 정렬 된 로짓 결과는 주어진 '크기'값에 대해 이러한 구간에 대해 (이산) 분포를 제공합니다. 결과는 구간-값 분포로, 구간-값 평균 및 구간-값 신뢰 한계를 갖습니다.
whuber

3
@ whuber, 소프트웨어 옵션을 언급 할 가치가 있습니다. 이 모델이에 맞는 Stata (Stata 그래프에 대해 잘 훈련되어 R 및 SAS 그래프에서 알려 주면)를 사용했다고 추측합니다 ologit. R, 당신은이 작업을 수행 할 수 있습니다 polrMASS패키지로 제공된다.
StasK

1
당신은 맞습니다, @Stask. R 솔루션을 참조 해 주셔서 감사합니다. (그래프는 Stata 11의 모든 기본 그래프입니다. 빨강-녹색 구별이 그렇지 않으면 모든 독자의 약 3 %에게 명백하지 않을 수 있기 때문에 마지막 것의 범례 및 선 스타일 만 사용자 정의되었습니다.)
whuber

2
@StasK rms::lrm서수 ( clm) 패키지도 좋은 옵션입니다.
chl

2

크기 의 로그 사용을 고려하십시오 .


Ha-그 대답은 부분적인 얼굴 손바닥을 이끌어 냈습니다. 그것은 규모 문제를 처리하지만 여전히 손에 쥐고 있습니다 : 분류 여부와 "값"을 표시 할 숫자. 이 질문들이 관련이 없다면, 나는 그것도들을 수 있습니다.
Trees4theForest

1
글쎄, 당신은 다양한 문제를 하나로 모았습니다. 당신이 가진 데이터는 로그 스케일에서 더 의미있는 것 같습니다. 당신이 비닝을 할 것인지 아닌지는 별도의 질문이며, 거기에는 또 다른 얼굴 손바닥 답변 만 있습니다. 데이터와 달성하려는 것에 달려 있습니다. 그렇다면 또 다른 숨겨진 질문이 있습니다. 간격의 차이를 어떻게 계산합니까-평균의 차이를 계산합니까? 또는 최소 거리 (A에서 B는 0, B에서 C는 0, A에서 C는 아님) 기타
종료-익명-무스

좋은 지적, 나는 목표를 해결하기 위해 더 많은 정보로 내 질문을 업데이트했습니다. 간격의 차이에 관해서는 이것이 내 질문이라고 생각합니다. 평균의 차이, 최소 거리, 최대 거리, 최소 거리, 최소 거리, 최대 거리 등을 기반으로 간격을 계산할 때의 장단점은 무엇입니까? 이 결정을 내릴 때 고려해야 할 사항 (또는 고려해야 할 경우)이 좋을 것입니다.
Trees4theForest

추가 옵션이 많이 있습니다. 예를 들어, 모든 스케일 효과를 제거하려면 대신 순위 순위를 예측해보십시오. 그 외에는 오류 측정의 문제입니다. 대수를 사용하면 일반적으로 이러한 방식으로 오류에 가중치를 둡니다. 따라서 실제 값이 10000이고 예측 된 값이 10100 인 경우 이는 예측 된 값이 1이고 실제 값이 101 일 때보 다 훨씬 적습니다. 빈 사이에 비닝과 계산을 추가함으로써 빈의 무게도 작습니다. 0에 오류가 있습니다.
QUIT--Anony-Mousse
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.