검열 된 데이터는 정확히 무엇입니까?


14

검열 데이터에 대한 다른 설명을 읽었습니다.

A) 스레드 에서 설명한 바와 같이, 특정 임계 값 이하의 정량화되지 않은 데이터가 검열됩니다. 정량화되지 않음은 데이터가 특정 임계 값보다 높거나 낮음을 의미하지만 정확한 값을 모릅니다. 그런 다음 회귀 모델 에서 데이터가 하한 또는 상한 임계 값 으로 표시됩니다 . 이 설명과 일치합니다 프레젠테이션 매우 명확합니다 (첫 번째 페이지의 두 번째 슬라이드). 다시 말해, 는 해당 범위 밖의 실제 값을 모르기 때문에 최소값, 최대 값 또는 둘 다로 제한됩니다.Y

B) 친구가 알려지지 않은 Y i 결과에 대해 최소한의 제한 정보가 있다면 부분적으로 알려지지 않은 관측치에 검열 된 데이터 모델을 적용 할 수 있다고 말했다 . 예를 들어, 일부 정 성적 기준 (상품 유형, 국가, 입찰자 부 등)을 기준으로 자동 입찰과 공개 입찰이 혼합 된 최종 가격을 추정하려고합니다. 공개 입찰의 경우 모든 최종 가격 Y i를 알고 있지만 자동 경매의 경우 첫 번째 입찰 (예 : $ 1,000) 만 알지만 최종 가격은 알 수 없습니다. 이 경우 데이터가 위에서 검열되고 검열 회귀 모델이 적용되어야한다고 들었습니다.YYiYi

C) 마지막으로 위키 백과 여기서 모두 빠져 있지만 예측이 가능합니다. 이 예제가 잘린 데이터와 어떻게 다른지 잘 모르겠습니다.Y

그렇다면 검열 된 데이터는 정확히 무엇입니까?


6
보다 관련성이 높은 Wikipedia 기사는 en.wikipedia.org/wiki/Censoring_%28statistics%29에 있습니다. 포괄적 인 것은 아니지만 적어도 Type I 및 Type II 검열을 설명하고 왼쪽 및 오른쪽 검열과 함께 간격 검열을 승인합니다.
whuber

답변:


8

결과 와 공변량 x 에 대한 다음 데이터를 고려하십시오 .yx

user y       x   
1    10      2 
2   (-∞,5]   3 
3   [4,+∞)   5   
4   [8,9]    7
5     .      .

사용자 1의 경우 완전한 데이터가 있습니다. 다른 모든 사람들에게는 불완전한 데이터가 있습니다. 사용자 2, 3 및 4는 모두 검열됩니다. 공변량의 알려진 값에 해당하는 결과가 관찰되지 않거나 정확하게 관찰되지 않습니다 (왼쪽, 오른쪽 및 간격 검열). 때때로 이것은 설문 조사 디자인에서 개인 정보 보호 고려 사항의 인공물입니다. 다른 경우에는 다른 이유로 발생합니다. 예를 들어, 최소 임금 이하의 임금이나 경기장 수용 능력 이상의 콘서트 티켓에 대한 실제 수요는 관찰되지 않습니다.

사용자 5가 잘립니다. 결과와 공변량이 모두 없습니다. 일반적으로 우리는 무언가를 한 사람들에 대한 데이터 만 수집하기 때문에 발생합니다. 예를 들어, 우리는 무언가를 구입 한 사람들 ( ) 만 조사 하므로 y = 0 을 가진 사람은 x 와 함께 제외시킵니다 . 샘플을 생성하는 데 사용 된 규칙을 알기 때문에 이러한 유형의 사용자에 대한 행이 없을 수도 있습니다. 또 다른 예는 부수적 인 절단입니다. 우리는 근로자가 일할 때 임금 제안이 임금이라고 가정하기 때문에 근로 인력에 대한 임금 제안 만 관찰합니다. 잘림은 y에 의존하지 않기 때문에 부수적입니다.y>0y=0xy그러나 다른 변수에 있습니다.

간단히 말해서 절단은 검열보다 더 많은 정보 손실을 의미합니다 (A 및 B 지점). 이러한 유형의 "누락"은 체계적입니다.

이 유형의 데이터를 사용하려면 일반적으로 오류에 대한 강력한 분포 가정을 만들고이를 고려할 가능성을 수정해야합니다. 보다 유연한 반 파라미터 방식도 가능합니다. 이것은 당신의 B 지점에 내재되어 있습니다.


2
이 답변의 두 가지 측면이 나를 혼란스럽게합니다. 첫째, 순수하게 누락 된 값이 반드시 잘림을 반영하지는 않습니다. 둘째, 검열 방식 ( "무작위"대 "정보")은 종종 검열 사실만큼 중요하며, 이는 단지 간격 값 데이터를 기록하는 것보다 검열에 더 많은 것이 있음을 나타냅니다.
whuber

이것은 좋은 예입니다. 그것은 각각의 다른 "검열 한계"가 적용될 수 있다는 것을 의미합니까 ? 이 경우 모델을 어떻게 공식화합니까? 이것은 B)에서 내 친구 진술을 확인합니다. y
Robert Kubrick

1
하여 homoskedastic 가정 수있는 좋은 방법입니다 기꺼이 당신이 경우, 일반적으로 분산 오류는 가능성이처럼 쓸 수있는 당신은 관찰 특정 검열 임계 값과 MLE를 사용할 수 있습니다.
Dimitriy V. Masterov

3
@Peter (오른쪽) 검열 아닌가요? 이러한 모든 사람들이 샘플에서 제외되고 전혀 계산되지 않으면 잘림이 발생합니다. en.wikipedia.org/wiki/Truncation_(statistics)를 참조하십시오 .
whuber

1
@Peter 혼란스러운 점은 "그 사람의 BMI가 30 세 이상이라는 것을 알고있다"는 것입니다. 표본에없는 사람 ( "계산되지 않은")을 어떻게 참조 할 수 있습니까? "BMI> 30"형식의 관측치가 검열 되는 반면, 모집단에 존재할 수 있더라도 분석에서 이러한 모든 관측치가 완전히 제외되는 것은 절단입니다. 후자의 경우 "30 이상의 BMI를 가진 사람들은 샘플에서 제외되었습니다"라고 말할 수 있습니다.
whuber

9

기술적으로 말해서, 나는 "일부 관측치가 표본의 극단 값을 취하거나 구성하지만 실제 값이 관측 된 표본 범위를 벗어나면 데이터 표본이 검열된다"고 제안합니다. 그러나 이것은 믿을 수 없을 정도로 간단합니다.

먼저 데이터 세트가 검열되었다는 결론을 내릴 수있는 방법에 대해 먼저 논의 해 봅시다. 그러면 자연스럽게 질문에 제시된 사례에 대해 논의하게됩니다.

불연속 랜덤 변수 로부터 다음과 같은 데이터 세트가 주어 졌다고 가정하자. 우리가 아는 유일한 것은 음이 아닌 것입니다.X

{0,1,1,2,2,2,2,2,2,2}

데이터 세트가 검열되었다고 말할 수 있습니까? 글쎄, 우리는 그럴지도 모른다고 생각할 수 있지만 반드시 그런 것은 아닙니다.

1) { 0 , 1 , 2 } 의 범위 와 확률 분포 { 0.1 , 0.1 , 0.8 }를 가질 수 있습니다 . 이것이 사실이라면, 여기에는 검열이없는 것으로 보이며, 제한된지지와 고도로 비대칭 분포가있는 임의의 변수에서 "예상 된"샘플 만 있습니다. X{0,1,2}{0.1,0.1,0.8}

2) 그러나 { 0 , 1 , 범위 인 경우가 있습니다 . . . , 9 } 균일 한 확률 분포 { 0.1 , 0.1 , . . .0 .1 } 이 경우 데이터 샘플이 검열 될 가능성이 높습니다. X{0,1,...,9}{0.1,0.1,...0.1}

우리는 어떻게 알 수 있습니까? 우리는 사전 지식이나 정보를 보유하고있는 경우를 제외하고 는 그 중 하나 또는 다른 경우에 찬성하여 주장 할 수 없습니다. 질문에 제시된 세 가지 사례가 검열의 효과에 대한 사전 지식을 나타내는가? 보자 :

사례 A) 는 일부 관측치에 대해 "매우 큰", "매우 작은"등의 정 성적 정보 만 가지고있어 관측치에 극단적 인 가치를 부여하는 상황을 설명합니다. 실제 실현 된 가치를 알지 못한다고해서 극단적 인 가치를 부여하는 것은 정당하지 않다는 점에 유의하십시오. 그래서 우리는이 있어야합니다 일부 이러한 관찰을 위해, 그 값이 초과 또는 모든 관찰 된 것들 아래에있는 효과에 정보를. 이 경우 랜덤 변수의 실제 범위는 알 수 없지만 정 성적 정보를 통해 검열 된 표본 을 만들있습니다 (실제로 실현 된 값을 가지고 있지 않은 관측치 만 삭제하지 않는 이유에 대한 또 다른 논의입니다). ).

케이스 B)가 있다 하지 우리의 사전 정보가 확률 변수의 최대 값이 초과 할 수 있음을 알려줍니다 내가 제대로 이해 아니라 오염 된 샘플의 경우이 경우, 검열의 경우 물리적 법칙이나에 (때문에 말을 사회법-이것은 1 , 2 , 3 값만 사용하는 등급 시스템의 등급 데이터라고 가정합니다 . 그러나 우리는 값 4 와 값 5 도 관찰했습니다 . 어떻게 이럴 수있어? 데이터 기록이 잘못되었습니다. 그러나 그러한 경우에 우리는 45 가 모두 3 이어야한다는 것을 확신하지 못한다31,2,345453(실제로 컴퓨터의 측면 키보드를 보면 1 이고 52입니다 !) 임의의 변수가 처음에 기록 된 범위의 범위에 속하지 않기 때문에 표본을 어떤 식 으로든 "수정"함으로써 표본을 검열하지 않습니다 (따라서 값 45에 할당 된 실제 확률은 없습니다) ). 415245

사례 C) 는 종속 변수와 예측 변수가있는 관절 표본을 말합니다. 여기, 우리가 종속 변수의 값이 하나 때문에 연구 대상 현상의 구조에 두 극단에 집중하는 샘플이 있습니다 : "근로 시간"보통의 예에서, 실업자는 일을하지 않습니다하지만 그들은 것 일 (? :이 경우 정말이 답변의 시작 부분의 설명 "정의"에 해당하지 조심스럽게 생각한다). 따라서 기록 된 시간이 "0"인 회귀에 포함 시키면 편향이 발생합니다. 다른 극단에, 시간의 최대 숫자에 도달 할 수 있도록 주장 할 수있다 일 말 16/ day, 그리고 주어진 급여에 대해 너무 많은 일을 기꺼이 할 직원이있을 수 있습니다. 그러나 법적 틀은이를 허용하지 않기 때문에 우리는 그러한 "근무 시간"을 준수하지 않습니다. 여기서 우리는 " 의도 한 노동 공급 기능" 을 추정하려고 노력하고 있으며, 이 변수와 관련하여 샘플이 검열 된 것으로 특징 지워진다.
우리가 무엇을 우리가 원하는 것은 "노동 공급 함수를 추정하는 선언하지만 주어진 실업의 현상과 법적 프레임 워크"는, 우리가 원하는 것이 무엇인가를이 두 가지 측면의 효과를 반영하기 때문에, 샘플, 검열되지 않을 것이다 할 수 있습니다.

따라서 데이터 샘플을 검열
한 것으로 특성화하는 것은
a) 다른 상황에서 나올 수 있으며 b) 절단
의 경우와 혼동 될 수 있다는 사실 만주의 해야합니다 .


6
이것은 생태 학적 관점 인 것 같습니다. 생의학 연구에서는 반응으로 지속 시간 (말 그대로 생존)을 가지며 관찰 기간이 끝날 때까지 사건을 경험하지 않아서 환자를 검열하는 것이 일반적입니다. 또한 관찰 기간 동안 탈락했거나 잃어버린 환자를 추적해야합니다. (아마도 이동하고 연락이 끊겼을 것입니다.) 생존 시간이> 마지막 접촉이지만 관찰 기간이 끝나는 것보다 짧을 수 있음을 알 수 있습니다.
gung-Monica Monica 복원

사례 B는 잘못되었거나 오염 된 데이터를위한 것이 아닙니다. 일부 정 성적 기준 (상품 유형, 국가, 입찰자 부 등)을 기준으로 자동 경매와 공개 경매 의 최종 가격을 추정하려고한다고 가정하십시오 . 자동 입찰의 경우 첫 번째 입찰 (예 : $ 1,000) 만 알지만 최종 가격은 알 수 없습니다. 일부 형태의 검열 모델링을 사용하여 자동 경매 데이터를 사용할 수 있다고 들었습니다.
Robert Kubrick

1
@ gung 이것은 누가 답을 썼는지를 감안할 때 확실히 계량 적 접근법입니다!
Alecos Papadopoulos

1
@RobertKunrick 설명하는 내용이 사례 B와 일치하지 않습니다. 사례 B를 설명하는 방식 으로 값 범위를 관찰 한 다음 관측 된 값 중 일부가 실제로 불가능하다는 말을 듣습니다. 이것이 경매 예제와 어떻게 일치합니까?
Alecos Papadopoulos

@AlecosPapadopoulos라는 비판으로 받아들이지 마십시오. 나는 잘못된 것이 없다고 생각합니다. 용어가 다른 분야에서 다르게 사용된다는 것을 지적하고 싶습니다.이 규칙은 stat / biostat가 아닙니다.
gung-모니 티 복원

2

나를 위해, 검열은 관측치 에 대한 부분 정보를 관찰한다는 것을 의미합니다 . 어떤 I이 의미하는 것은, 즉, 관찰보다는 Z를 = Z I 우리가 관찰을 Z I 의 실현 I 샘플 공간의 어떤 임의의 조이다. 우리는 우리가 먼저 파티션 선택하는 것이 상상 내가 샘플 공간의 Z는 , 다음 Z는 i가 생성됩니다, 우리는보고 내가나는 그러한를ZiZi=ziZiaiaiAiAiZZiAiAi (동일하게, 우리는 모든 A A i에 대해 I ( Z iA ) 를보고 함). 예를 들어, Z i 의 유익하지 않은 검열은 A i Z i와 무관함을 의미합니다.ZiAiI(ZiA)AAiZiAiZi

이것은 약간 휴리스틱하고 느슨합니다. 또한 Z i 검열 을 고려하기 위해 의 분포가 변질되지 않아야 할 것입니다 . 우리는 또한주의 수도, 정의 된 바와 같이,이의 일반화 누락 된 데이터 에 대한 Z = ( X 나는 , Y ) 하나는 말할지도 모른다 Y 나는 경우없는 A는 내가 = { X } × Y 여기서 Y를[ZiZiai]ZiZi=(Xi,Yi)Yiai={x}×YY시료의 공간 말할 Z 나는 경우 누락을 = Z를 . " Z i is censored" 라고 말하면 , 그들이 나의 정의를 따르고 있다면, 일반적으로 " Z i 는 검열되었지만 누락되지는 않는다"는 것입니다.YZiai=ZZiZi


1

검열 데이터 와 잘린 데이터 및 누락 된 데이터 를 구분하는 것이 중요합니다 .

검열 은 생존 분석 및 사건 발생 시간 문제에 특히 적용되는데, 여기서 사건 이 발생한 사건은 해당 개인의 관찰을 중단 한 시점이 지난 시점에서 발생한 것으로 가정됩니다 . 예를 들어 MSM (Man-Wife-With-Men) 및 연구 코디네이터와의 접촉을 중단하고 이동하는 전향 적 연구에서 HIV 감염 위험이 있습니다.

잘림 은 실제 값이 해당 지점보다 크거나 작은 것으로 알려진 특정 지점으로 평가되는 연속 변수에 적용됩니다. 예를 들어, HIV를 앓는 대상체의 모니터링 및 완전 취입 AIDS의 발달, 300 미만으로 떨어지는 CD4 세포 수는 검출 하한 300으로 평가된다.

마지막으로 누락 된 데이터 는 어떤 의미로도 관찰되지 않는 실제 값을 갖는 데이터입니다. 검열 된 데이터에 이벤트 시간 데이터가 누락되거나 잘리지 않습니다.


1
"절단"의 또 다른 용도가 있습니다. 컷오프 위 / 아래의 관측 값을 얻을 수없는 데이터 생성 프로세스를 설명하는 것입니다. 전형적인 예는 특정 조류 종의 둥지에서 발견 된 계란 수를 세는 것입니다. 여기서 종은 알에서만 식별 할 수 있습니다. 빈 둥지는 어떤 종에서도 나올 수 있습니다. 0을 알 수 없습니다. 그렇지 않다면. 계란은 포아송 분포를 따르며, 비어 있지 않은 둥지의 계란 수는 잘린 포아송을 따릅니다. 따라서 잘림은 잘 정의 된 특정 메커니즘에 따라 누락 된 데이터를 생성합니다.
Scortchi-Monica Monica 복원

1
... 세포 수 데이터는 실제로이 용어에 대한 많은 사람들의 이해에 따라 검열되며, 이는 이벤트 시간 측정에 국한되지 않습니다. 세포 수의 300 이하를 제외하고 각 주제에 대한 모든 것을 알고 있기 때문입니다. 여기서 "절단"(또는 "Winsorization")은 300 이하의 값을 300 이하로 처리하는 분석 방법을 설명합니다.
Scortchi-Reinstate Monica

검열의 생존 분석 개념에 대한 명확한 참조 : itl.nist.gov/div898/handbook/apr/section1/apr131.htm .
Eric O Lebigot

-1
  1. 검열 : 이것은 관심 이벤트가 발생하기 전에 관찰 기간이 중단되었음을 나타내는 데 사용되는 용어입니다. 따라서``검열 된 데이터 ''는 특정 이벤트 기간이 발생했거나 발생하지 않았 음을 나타냅니다.

3
사이트에 오신 것을 환영합니다. 이 내용이 일부 출처에서 복사 된 경우 해당 출처를 인용하십시오.
gung-복원 Monica Monica

3
검열은 시간 의존적 관측 이상으로 적용됩니다. 예를 들어, 검출 한계 미만인 화학 물질 농도 측정도 검열됩니다.
whuber

@ whuber : 그 관찰에 대해 친근한 수정을하겠습니다. 검출 한계 아래로 떨어지는 화학 물질 농도는 실제로 검열되지만, 음이 될 수 없기 때문에 분석에서 이들을 0에서 잘린 것으로 간주해야합니다. 잘림 검열 구별에 대한 내 자신의 이해는 잘림이 기본 분포에 가능한 매개 변수 범위에 적용된다는 것입니다.
DWin

@DWin 신중하게 설명해 주셔서 감사합니다. 나는 첫 번째 요점에만 동의 할 수 있습니다. 내가 분석 한 대부분의 데이터 세트에서 농도를 로그로 다시 표현해야했으며 그 차이가 사라졌습니다. 배경이 차감 된 다른 데이터 세트 (예 : 방사선 측정)에서는 명확한 왼쪽 끝 점이 없습니다. 두 번째 요점은 저에게 특이한 점입니다. 배포 패밀리의 하위 집합을 만드는 데 사용되는 "절단"을 본 적이 없습니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.