평생 데이터에 대한 통계 모델 및 방법 책에 다음 과 같이 쓰여 있습니다.
검열 : 임의의 원인으로 인해 관측이 완료되지 않은 경우.
잘림 : 관측의 불완전한 특성이 연구 설계 고유의 체계적인 선택 과정으로 인한 경우.
잘림 정의에서 "연구 설계 고유의 체계적인 선택 프로세스"란 무엇입니까?
검열과 절단의 차이점은 무엇입니까?
평생 데이터에 대한 통계 모델 및 방법 책에 다음 과 같이 쓰여 있습니다.
검열 : 임의의 원인으로 인해 관측이 완료되지 않은 경우.
잘림 : 관측의 불완전한 특성이 연구 설계 고유의 체계적인 선택 과정으로 인한 경우.
잘림 정의에서 "연구 설계 고유의 체계적인 선택 프로세스"란 무엇입니까?
검열과 절단의 차이점은 무엇입니까?
답변:
정의는 다양하며 두 용어가 서로 바꿔서 사용되기도합니다. 다음 데이터 세트를 사용하여 가장 일반적인 용도를 설명하려고합니다.
검열 : 일부 관측치가 검열 될 것입니다. 즉, 관측치가 한계보다 낮거나 그 이상임을 알 수 있습니다. 예를 들어 물 샘플에서 화학 물질의 농도를 측정하는 경우 발생할 수 있습니다. 농도가 너무 낮 으면 실험실 장비가 화학 물질의 존재를 감지 할 수 없습니다. 그래도 여전히 존재할 수 있으므로 농도가 실험실의 검출 한계 미만임을 알 수 있습니다.
탐지 한계가 1.5 인 경우이 한계 아래로 떨어지는 관측치가 검열되면 예제 데이터 세트는 < 1.5 가됩니다. 즉, 우리는 그들이 1.5보다 작은 것만 있지만, 처음 두 관찰의 실제 값을 알 수 없습니다.
잘림 : 데이터를 생성하는 프로세스는 잘림 제한을 초과하는 (또는 아래의) 결과 만 관찰 할 수 있습니다. 예를 들어, 탐지 된 신호가 특정 한계를 초과하는 경우에만 활성화되는 탐지기를 사용하여 측정을 수행하는 경우 발생할 수 있습니다. 들어오는 신호가 약할 수 있지만이 검출기를 사용하여 알 수는 없습니다.
잘림 한계가 1.5이면 예제 데이터 세트는 우리는 사실에 기록되지 않은 두 개의 신호가 있었다는 것을 알고하지 않을 것입니다.
다른 분야 (프로그래밍)의 관점에서와 같이, 검열과 절단은 별개의 작업입니다.
민감한 데이터 세트로 작업 할 경우, 예를 들어 사회 보장 번호와 전화 번호, 나는 수도 검열 을하거나이 검열 액세스하기 전에이 부여 :
123-12-1234 => 999-99-9999
567-56-5678 => 999-99-9999
(906) 123-4567 => (000) 000-0000
따라서 응용 프로그램의 나머지 부분은 데이터 구조가 비슷하지만 실제 정보 내용이나 개인 정보의 보급없이 정상적으로 작동합니다.
대조적으로 잘림은 일반적으로 특정 지점 이후에 남은 값을 차단합니다. 응용 프로그램에서 작업하려면 수십만 개의 레코드가 필요하지 않습니다. 아마도 데이터 액세스가 훨씬 빨라지고 데이터 세트가 더 작아지는 ~ 50 개만 필요합니다.
길이나 정밀도가 제한된 열 또는 데이터 유형에 값을 삽입 할 때 유사한 잘림 변형이 있습니다.
abcdefghijklmnopqrstuv => abcdef
10.23412421345 => 10.23
10.92455311 => 10