검열과 절단의 차이점은 무엇입니까?

평생 데이터에 대한 통계 모델 및 방법 책에 다음 과 같이 쓰여 있습니다.

검열 : 임의의 원인으로 인해 관측이 완료되지 않은 경우.
잘림 : 관측의 불완전한 특성이 연구 설계 고유의 체계적인 선택 과정으로 인한 경우.

잘림 정의에서 "연구 설계 고유의 체계적인 선택 프로세스"란 무엇입니까?

검열과 절단의 차이점은 무엇입니까?

self-study censoring truncation

— 알파벳
소스

여기 에 대한 답변을 살펴보십시오 .

— Dimitriy V. Masterov 2014

검열 : "우리는 어딘가에서 그 지역에서 관측을 받았지만 그것이 무엇인지 모릅니다." 잘림 : "관찰? 어떤 관찰?"

— Glen_b-복지 모니카

정의는 어디에서 인용 되었습니까?

— Glen_b-복지 모니카

@Glen_b 질문을 편집했습니다.

— ABC

답변:

정의는 다양하며 두 용어가 서로 바꿔서 사용되기도합니다. 다음 데이터 세트를 사용하여 가장 일반적인 용도를 설명하려고합니다.

1 1.25 2 4 5

$1\qquad 1.25\qquad 2\qquad 4 \qquad 5$

검열 : 일부 관측치가 검열 될 것입니다. 즉, 관측치가 한계보다 낮거나 그 이상임을 알 수 있습니다. 예를 들어 물 샘플에서 화학 물질의 농도를 측정하는 경우 발생할 수 있습니다. 농도가 너무 낮 으면 실험실 장비가 화학 물질의 존재를 감지 할 수 없습니다. 그래도 여전히 존재할 수 있으므로 농도가 실험실의 검출 한계 미만임을 알 수 있습니다.

탐지 한계가 1.5 인 경우이 한계 아래로 떨어지는 관측치가 검열되면 예제 데이터 세트는 가됩니다. 즉, 우리는 그들이 1.5보다 작은 것만 있지만, 처음 두 관찰의 실제 값을 알 수 없습니다.

< 1.5 < 1.5 2 4 5,

$<1.5\qquad <1.5\qquad 2\qquad 4 \qquad 5,$

잘림 : 데이터를 생성하는 프로세스는 잘림 제한을 초과하는 (또는 아래의) 결과 만 관찰 할 수 있습니다. 예를 들어, 탐지 된 신호가 특정 한계를 초과하는 경우에만 활성화되는 탐지기를 사용하여 측정을 수행하는 경우 발생할 수 있습니다. 들어오는 신호가 약할 수 있지만이 검출기를 사용하여 알 수는 없습니다.

잘림 한계가 1.5이면 예제 데이터 세트는 우리는 사실에 기록되지 않은 두 개의 신호가 있었다는 것을 알고하지 않을 것입니다.

2 4 5

$2\qquad 4 \qquad 5$

— MånsT
소스

따라서 이러한 용어 사용에있어 우리가 단어의 기술적이지 않은 사용이라는 용어로 생각하면 "검열"은 오도의 소지가 있습니까? 즉,이 통계적 의미에서, 그것은 비 기술적 의미가 아닌 "모호한"또는 "일부 범위에 속하는 것으로 알려진"과 같은 것을 의미합니다. 내용의.

— Mars

절단의 구체적인 예를 들어, 자동차 보험 회사는 사람들이보고하지 않기 때문에 손해가 공제액보다 적은 사고에 대해 듣지 않습니다. 이것은 잘립니다. 우리는 이러한 사건에 대한 데이터를 전혀 보지 못합니다. 올바른 검열의 예를 들어, 아픈 환자가 의사의 진료를 중단하기로 결정하거나 다른 도시로 이사하기로 결정한 경우, 그들이 떠난 날 살아 남았다는 것은 알려진 것이지만, 그들이 언제 죽었는지 알 수 없습니다 .

— David White

@Mars : "검열"이 모든 흔적을 제거하고 "절단"이 세부 사항을 제거하는 최신의 비 기술적 사용에서 거꾸로 들린다는 데 동의합니다. 그러나 통계에서 "검열"은 검열자가 사진이나 비디오의 불쾌한 부분 위에 놓인 블랙 박스 또는 흐림, 욕설을 덮는 신호음을 제거하지만 제거 할 수는없는 구식의 비 기술적 의미로 사용됩니다. 검열 된 (보다 현대적인 용어 "편집 된") 부분이 검게 표시되는 무전기 또는 병사들이 집으로 보내거나 분류 된 문서를 배포하는 경우.

— Wayne

두 종류의 이벤트 이벤트 사이의 시간 경과를 측정한다고 상상해보십시오. 그러나 1 년 동안 만 이벤트를 녹음 할 수 있습니다. 시간이 검열되거나 잘 릴까요?

— 스칸

다른 분야 (프로그래밍)의 관점에서와 같이, 검열과 절단은 별개의 작업입니다.

민감한 데이터 세트로 작업 할 경우, 예를 들어 사회 보장 번호와 전화 번호, 나는 수도 검열 을하거나이 검열 액세스하기 전에이 부여 :

123-12-1234 => 999-99-9999
567-56-5678 => 999-99-9999
(906) 123-4567 => (000) 000-0000

따라서 응용 프로그램의 나머지 부분은 데이터 구조가 비슷하지만 실제 정보 내용이나 개인 정보의 보급없이 정상적으로 작동합니다.

대조적으로 잘림은 일반적으로 특정 지점 이후에 남은 값을 차단합니다. 응용 프로그램에서 작업하려면 수십만 개의 레코드가 필요하지 않습니다. 아마도 데이터 액세스가 훨씬 빨라지고 데이터 세트가 더 작아지는 ~ 50 개만 필요합니다.

길이나 정밀도가 제한된 열 또는 데이터 유형에 값을 삽입 할 때 유사한 잘림 변형이 있습니다.

abcdefghijklmnopqrstuv => abcdef
10.23412421345 => 10.23
10.92455311 => 10

— 에릭
소스

+1 검열과 잘라내 기는 통계 밖에서 완전히 다른 의미를 가질 수 있다는 것을 아는 것이 중요합니다!

— MånsT