기술적으로 말해서, 나는 "일부 관측치가 표본의 극단 값을 취하거나 구성하지만 실제 값이 관측 된 표본 범위를 벗어나면 데이터 표본이 검열된다"고 제안합니다. 그러나 이것은 믿을 수 없을 정도로 간단합니다.
먼저 데이터 세트가 검열되었다는 결론을 내릴 수있는 방법에 대해 먼저 논의 해 봅시다. 그러면 자연스럽게 질문에 제시된 사례에 대해 논의하게됩니다.
불연속 랜덤 변수 로부터 다음과 같은 데이터 세트가 주어 졌다고 가정하자. 우리가 아는 유일한 것은 음이 아닌 것입니다.X
{0,1,1,2,2,2,2,2,2,2}
데이터 세트가 검열되었다고 말할 수 있습니까? 글쎄, 우리는 그럴지도 모른다고 생각할 수 있지만 반드시 그런 것은 아닙니다.
1) 는 { 0 , 1 , 2 } 의 범위 와 확률 분포 { 0.1 , 0.1 , 0.8 }를 가질 수 있습니다 . 이것이 사실이라면, 여기에는 검열이없는 것으로 보이며, 제한된지지와 고도로 비대칭 분포가있는 임의의 변수에서 "예상 된"샘플 만 있습니다. X{0,1,2}{0.1,0.1,0.8}
2) 그러나 가 { 0 , 1 , 범위 인 경우가 있습니다 . . . , 9 } 균일 한 확률 분포 { 0.1 , 0.1 , . . .0 .1 } 이 경우 데이터 샘플이 검열 될 가능성이 높습니다. X{0,1,...,9}{0.1,0.1,...0.1}
우리는 어떻게 알 수 있습니까? 우리는 사전 지식이나 정보를 보유하고있는 경우를 제외하고 는 그 중 하나 또는 다른 경우에 찬성하여 주장 할 수 없습니다. 질문에 제시된 세 가지 사례가 검열의 효과에 대한 사전 지식을 나타내는가? 보자 :
사례 A) 는 일부 관측치에 대해 "매우 큰", "매우 작은"등의 정 성적 정보 만 가지고있어 관측치에 극단적 인 가치를 부여하는 상황을 설명합니다. 실제 실현 된 가치를 알지 못한다고해서 극단적 인 가치를 부여하는 것은 정당하지 않다는 점에 유의하십시오. 그래서 우리는이 있어야합니다 일부 이러한 관찰을 위해, 그 값이 초과 또는 모든 관찰 된 것들 아래에있는 효과에 정보를. 이 경우 랜덤 변수의 실제 범위는 알 수 없지만 정 성적 정보를 통해 검열 된 표본 을 만들 수 있습니다 (실제로 실현 된 값을 가지고 있지 않은 관측치 만 삭제하지 않는 이유에 대한 또 다른 논의입니다). ).
케이스 B)가 있다 하지 우리의 사전 정보가 확률 변수의 최대 값이 초과 할 수 있음을 알려줍니다 내가 제대로 이해 아니라 오염 된 샘플의 경우이 경우, 검열의 경우 물리적 법칙이나에 (때문에 말을 사회법-이것은 1 , 2 , 3 값만 사용하는 등급 시스템의 등급 데이터라고 가정합니다 . 그러나 우리는 값 4 와 값 5 도 관찰했습니다 . 어떻게 이럴 수있어? 데이터 기록이 잘못되었습니다. 그러나 그러한 경우에 우리는 4 와 5 가 모두 3 이어야한다는 것을 확신하지 못한다31,2,345453(실제로 컴퓨터의 측면 키보드를 보면 는 1 이고 5 는 2입니다 !) 임의의 변수가 처음에 기록 된 범위의 범위에 속하지 않기 때문에 표본을 어떤 식 으로든 "수정"함으로써 표본을 검열하지 않습니다 (따라서 값 4 와 5에 할당 된 실제 확률은 없습니다) ). 415245
사례 C) 는 종속 변수와 예측 변수가있는 관절 표본을 말합니다. 여기, 우리가 종속 변수의 값이 하나 때문에 연구 대상 현상의 구조에 두 극단에 집중하는 샘플이 있습니다 : "근로 시간"보통의 예에서, 실업자는 일을하지 않습니다하지만 그들은 것 일 (? :이 경우 정말이 답변의 시작 부분의 설명 "정의"에 해당하지 조심스럽게 생각한다). 따라서 기록 된 시간이 "0"인 회귀에 포함 시키면 편향이 발생합니다. 다른 극단에, 시간의 최대 숫자에 도달 할 수 있도록 주장 할 수있다 일 말 16/ day, 그리고 주어진 급여에 대해 너무 많은 일을 기꺼이 할 직원이있을 수 있습니다. 그러나 법적 틀은이를 허용하지 않기 때문에 우리는 그러한 "근무 시간"을 준수하지 않습니다. 여기서 우리는 " 의도 한 노동 공급 기능" 을 추정하려고 노력하고 있으며, 이 변수와 관련하여 샘플이 검열 된 것으로 특징 지워진다.
우리가 무엇을 우리가 원하는 것은 "노동 공급 함수를 추정하는 선언하지만 주어진 실업의 현상과 법적 프레임 워크"는, 우리가 원하는 것이 무엇인가를이 두 가지 측면의 효과를 반영하기 때문에, 샘플, 검열되지 않을 것이다 할 수 있습니다.
따라서 데이터 샘플을 검열
한 것으로 특성화하는 것은
a) 다른 상황에서 나올 수 있으며 b) 절단
의 경우와 혼동 될 수 있다는 사실 만주의 해야합니다 .