비정규 데이터와 비정규 데이터로 Z 점수를 사용할 수 있습니까? [닫은]


12

전체 사이클 시간의 일부를 비교하기 위해 일부 프로세스 사이클 시간 데이터 및 표준 z- 스코어를 사용한 스케일링 작업을 수행했습니다.

데이터가 크게 오른쪽으로 치우 치거나 비정규이므로 다른 변환을 사용해야합니까? ( '외국인'은 부정적인 시간을 가질 수 없으며 종종 '평균'보다 훨씬 오래 걸립니다)

z- 점수를 사용하면 여전히 "작동"하는 것 같습니다 ...

###############
# R code    
###############
mydata <- rweibull(1000,1,1.5)
hist(mydata)
hist(scale(mydata))

5
zz

답변:


5

X가 치우친 경우 Z 통계량은 정규 분포를 따르지 않습니다 (또는 표준 편차를 추정해야하는 경우에는 t입니다. 따라서 Z의 백분위 수는 표준 정규성이 아니기 때문에 작동하지 않습니다.


내가 이해하기에 X가 치우친 것은 표본 크기가 충분히 크지 않다는 것을 의미합니다 (중앙 한계 정리). 그러나 Z 통계가 작동하기 위해 모집단 자체가 정상인지 여부는 확실하지 않습니다. 그렇습니까?
Andrzej Gis

1
OP는 평균 분포가 아니라 인구 분포에 대해 이야기하고 있습니다. 따라서 표본 크기와 중앙 한계 정리는 적용되지 않습니다.
Michael R. Chernick

2

R 코드는 작동하지만 z- 점수는 "포도가 만년필을 가볍게 부르고 있습니다."라는 문장만큼 의미가 있습니다. 유효한 문장이지만 의미있는 것을 전달하지 않습니다.

R 코드로 판단하면 데이터가 Weibull 분산되어 있다고 생각됩니다. 이 경우, 나는 Weibull 통계를 사용하고 절대적으로 필요하지 않으면 아무것도 스케일하지 않습니다. z 통계가 모든 인트로 통계 클래스에서 가르쳐 지더라도 항상 대칭 데이터가없는 경우에는 사용하지 않아야한다는 의미는 아닙니다.


1

모집단이 정규 분포가 아닌 경우 이 경우, bar (X) {sample mean}의 분포는 중앙 한계 정리에 따라 정규 분포에 접근합니다. 큰 샘플 크기. 이론적으로 우리는 Student's-t를 사용하지만 n (표본 크기 또는 자유도)의 더 높은 값에 대해서는 t 분포와 Z 분포가 거의 같습니다.


-4

귀하의 데이터는 Z- 테스트에 대해 정상일 필요는 없습니다. 그러나, 차이는 거의 동일해야한다. 두 데이터 집합에 F- 테스트를 수행하는지 확인하고 편차가 거의 동일한 경우 Z 테스트 결과가 유용합니다. 그렇지 않은 경우 데이터를 변환하십시오.


9
문제는 테스트가 아닌 변수의 변환에 관한 것이므로 귀하의 답변이 적용되지 않는다고 생각합니다. 또한 이름 연도 대신 전체 참조를 제공하고 일부 사람들이 SHOUTING에 반대하는 경우 더 유익합니다.
Maarten Buis

나는 @MaartenBuis에 동의하지만 그와 달리 나는 이것을 downvote 할 것입니다.
Erik
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.