통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

16
정규성 테스트가 '필수적으로 쓸모없는'가요?
전직 동료가 한 번 나에게 다음과 같이 주장했다. 우리는 일반적으로 널 (null) 하에서 무조건 또는 거의 정상적인 랜덤 변수를 생성하는 공정 결과에 정규성 테스트를 적용 합니다 ( '무증상'부분은 우리가 만들 수없는 수량에 의존합니다). 저렴한 메모리, 빅 데이터 및 빠른 프로세서의 시대에 정규성 테스트는 항상 큰 (심지어 크지는 않지만) 샘플에 대한 …

7
다중 회귀 분석을 수행 할 때는 예측 변수를 언제 중심에두고 언제 표준화해야합니까?
일부 문헌에서는 다른 단위로 여러 설명 변수가있는 회귀를 표준화해야한다고 읽었습니다. (표준화는 평균을 빼고 표준 편차로 나누는 것으로 구성됩니다.) 어떤 경우에 데이터를 표준화해야합니까? 데이터를 중앙에만 배치해야하는 경우가 있습니까 (예 : 표준 편차로 나눔)



11
자유도를 이해하는 방법?
에서 위키 백과 , 통계의 자유도의 세 가지 해석이있다 : 통계에서 자유도는 통계 의 최종 계산 에서 자유롭게 변할 수있는 값의 수입니다 . 통계 매개 변수의 추정치는 다른 양의 정보 또는 데이터를 기반으로 할 수 있습니다. 모수의 추정치에 들어가는 독립적 인 정보 의 수를 자유도 (df)라고합니다. 일반적으로 모수 추정치의 자유도는 …


16
통계 테스트에서 p 값과 t 값의 의미는 무엇입니까?
통계 과정을 밟고 동료 학생들을 돕기 위해 노력한 후, 많은 헤드 데스크 뱅킹에 영감을주는 한 가지 주제가 통계적 가설 검정의 결과를 해석하고 있음을 발견했습니다. 학생들은 주어진 시험에 필요한 계산을 수행하는 방법을 쉽게 배우지 만 결과 해석에 매달리는 것 같습니다. 많은 전산화 도구는 "p 값"또는 "t 값"으로 테스트 결과를보고합니다. 통계에서 첫 …



8
유클리드 거리가 높은 차원에서 좋은 지표가 아닌 이유는 무엇입니까?
나는 '유클리드 거리는 높은 차원에서 좋은 거리가 아닙니다'라고 읽었습니다. 이 진술은 차원의 저주와 관련이 있다고 생각하지만 정확히 무엇입니까? 게다가 '높은 차원'이란 무엇입니까? 100 가지 기능을 갖춘 유클리드 거리를 사용하여 계층 적 클러스터링을 적용했습니다. 이 측정 항목을 사용하는 것이 '안전'한 기능은 몇 개입니까?

2
R의 lm () 출력 해석
R의 도움말 페이지는 그 숫자의 의미를 알고 있다고 가정하지만 그렇지 않습니다. 나는 모든 숫자를 실제로 직관적으로 이해하려고 노력하고 있습니다. 나는 출력을 게시하고 내가 찾은 것에 의견을 줄 것입니다. 내가 생각하는 것을 쓰면 실수가있을 수 있습니다. 주로 계수의 t- 값이 무엇을 의미하고 왜 잔류 표준 오차를 인쇄하는지 알고 싶습니다. Call: lm(formula …

6
Cosma Shalizi의 강의 노트 (특히 두 번째 강의 섹션 2.1.1)를 훑어 보았 으며 완전히 선형 인 모델을 사용하더라도 가 매우 낮아질 수 있음을 상기 시켰습니다 R2R2R^2. Shalizi의 예를 의역 : 당신이 모델이 있다고 가정 Y=aX+ϵY=aX+ϵY = aX + \epsilon , aaa 알려져있다. 그런 다음 이며 설명 된 분산 량은 따라서 …



12
95 % 신뢰 구간 (CI)이 95 %의 평균을 포함 할 가능성을 의미하지 않는 이유는 무엇입니까?
여기에서 다양한 관련 질문을 통해 "95 % 신뢰 구간"이라고하는 "95 %"부분은 샘플링과 CI 계산 절차를 여러 번 정확하게 복제해야한다면 따라서 계산 된 CI의 95 %에 모집단 평균이 포함됩니다. 또한이 정의가하는 합의 인 것 같습니다 그렇지 않다는평균이 CI 내 어딘가에있을 확률이 95 %라는 단일 95 % CI로부터 결론을 내릴 수 있습니다. …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.