값 목록과 비교하여 값이 얼마나 중요합니까? 대부분의 경우 통계 테스트에는 표본 세트를 모집단과 비교하는 것이 포함됩니다. 필자의 경우 샘플은 하나의 값으로 만들어지며 인구와 비교됩니다.
나는 아마도 가장 기본적인 문제에 직면 한 통계적 가설 테스트에있어 중요한 문제입니다. 그것은 단지 하나의 시험이 아니라 수백 가지의 시험입니다. 매개 변수 공간이 있으며 모든 점에 대해 유의성 테스트를 수행해야합니다. 각 매개 변수 조합에 대해 값 및 백그라운드 목록 (인구)이 생성됩니다. 그런 다음 p- 값으로 주문하고 흥미로운 매개 변수 조합을 찾으십시오. 실제로,이 p-val이 높은 (무의미한) 모수 조합을 찾는 것도 중요합니다.
하나의 테스트를하겠습니다. 선택한 세트에서 계산 된 값과 임의의 트레이닝 세트를 선택하여 계산 된 배경 값이 있습니다. 계산 된 값은 0.35이며 백그라운드 세트는 평균 0.25와 매우 좁은 표준 (e-7)으로 정규 분포 (아마도?)입니다. 실제로 분포에 대한 지식이 없습니다. 샘플은 다른 것으로 계산되기 때문에 일부 분포의 임의의 숫자 샘플이 아니므로 배경이 올바른 단어입니다.
귀무 가설은 "샘플 테스트의 평균이 계산 된 값 0.35와 같다"는 것입니다. 언제 Z- 테스트 또는 T- 테스트로 간주해야합니까? 값이 모집단 평균보다 훨씬 높기를 원하므로 단일 꼬리 검정입니다.
샘플로 무엇을 고려 해야할지에 대해 약간 혼란 스럽습니다. 샘플로 하나의 샘플 (관측)과 백그라운드 목록이 있거나 샘플이 백그라운드 목록이며 전체 샘플과 비교하고 있습니다 (샘플링되지 않은) 귀무 가설에 따라 동일한 평균을 가져야하는 모집단. 이것이 결정되면 테스트는 다른 방향으로 진행됩니다.
T- 검정 인 경우 p- 값을 어떻게 계산합니까? R / Python / Excel 함수를 사용하는 대신 직접 계산하고 싶습니다 (이미 방법을 알고 있습니다). 그래서 올바른 수식을 먼저 설정해야합니다.
우선 T- 테스트가 너무 일반적이라고 생각합니다. 제 경우에는 T- 테스트가 샘플 크기에 연결되고 형식은 여기서 이며 s는 이며 표본 표준 대 모집단 표준입니다. 따라서 두 가지 경우가 있습니다. 표본 크기는 모집단의 크기입니다. "추측"은 Z- 검정을 다루고 있음을 의미하거나 모집단 통계 (n 및 std)는 알 수 없지만 분포는 근사한 방법으로 T 테스트를 처리하고 있습니다. 어쨌든 다음 질문은 다음과 같습니다.Z = ˉ X
- p- 값은 어떻게 계산합니까? (즉, R / Python / Excel 함수 또는 p- 값 테이블 조회를 사용하지 않고 실제로 내가하는 일을 알고 있기 때문에 공식을 기반으로 계산합니다)
- 표본 크기에 따라 유의성 임계 값을 어떻게 결정합니까? (수식이 좋을 것입니다)