통계 및 빅 데이터

8

나는 역학에 빠졌다. 나는 통계학자는 아니지만 종종 어려움을 겪지 만 직접 분석을 시도합니다. 나는 2 년 전에 나의 첫 분석을했다. 설명 테이블에서 회귀 분석에 이르기까지 P 값은 분석의 모든 곳에 포함되었습니다. 조금씩, 내 아파트에서 일하는 통계 학자들은 내가 실제로 가설을 가지고있는 곳을 제외하고 p 값을 모두 (!) 건너 뛰도록 설득했습니다. …

28 probability hypothesis-testing statistical-significance p-value

1

표준 및 구형 k- 평균 알고리즘의 차이점

표준 및 구형 k- 평균 군집 알고리즘의 주요 구현 차이점은 무엇인지 이해하고 싶습니다. 각 단계에서 k- 평균은 요소 벡터와 군집 중심 사이의 거리를 계산하고 중심이 가장 가까운 군집에 문서를 재 할당합니다. 그런 다음 모든 중심이 다시 계산됩니다. 구형 k- 평균에서는 모든 벡터가 정규화되고 거리 측정 값은 코사인 비 유사성입니다. 그게 …

28 clustering data-mining algorithms k-means

3

독립 변수를 중심에두고 왜 주요 효과를 조정할 수 있습니까?

이 CV 스레드에서 영감을 얻은 다중 회귀 및 상호 작용과 관련된 질문이 있습니다. 중심 변수를 사용한 상호 작용 항 계층 회귀 분석? 우리는 어떤 변수를 중심에 두어야합니까? 중재 효과를 확인할 때 독립 변수를 중심에두고 중심 변수를 곱하여 교호 작용 항을 계산합니다. 그런 다음 회귀 분석을 실행하고 주요 효과와 상호 작용 …

28 regression interaction centering

3

변수 선택을 수행 할 때 다중 공선 성을 다루는 방법은 무엇입니까?

9 개의 연속 독립 변수가있는 데이터 세트가 있습니다. 모델을 단일 백분율 (종속) 변수에 맞추기 위해 이러한 변수 중에서 선택하려고합니다 Score. 불행히도, 나는 여러 변수 사이에 심각한 공선 성이 있음을 알고 있습니다. stepAIC()변수 선택을 위해 R 의 함수를 사용해 보았지만 그 방법은 변수가 방정식에 나열된 순서에 민감한 것 같습니다 ... 내 …

28 r multiple-regression feature-selection multicollinearity

6

부분적으로 페어링 된 데이터와 부분적으로 페어링되지 않은 데이터에 대한 t- 검정

조사관은 여러 데이터 세트의 종합 분석을 생성하려고합니다. 일부 데이터 세트에는 치료 A와 B에 대한 쌍으로 된 관측이 있습니다. 다른 데이터 세트에는 짝이없는 A 및 / 또는 B 데이터가 있습니다. 이러한 부분적으로 쌍을 이루는 데이터에 대한 t- 검정의 적응 또는 우도 비 검정에 대한 참조를 찾고 있습니다. 나는 동일한 분산으로 정규성을 …

28 hypothesis-testing t-test paired-data change-scores

2

RSS가 카이 제곱 배 np로 분배되는 이유는 무엇입니까?

OLS 모델에서 RSS (잔여 제곱합)가 ( 는 모델의 매개 변수 수, 관측치 수 )로 분포 된 이유를 이해하고 싶습니다 .χ2⋅(n−p)χ2⋅(n−p)\chi^2\cdot (n-p)pppnnn 그런 기본적인 질문을 한 것에 대해 사과하지만 온라인 (또는 내 응용 프로그램 중심의 교과서)에서 답을 찾을 수없는 것 같습니다.

28 regression distributions least-squares

3

신뢰 구간과 가설 검정의 차이점은 무엇입니까?

가설 테스트 를 사용해서는 안된다고 제안하는 일부 주석가들과 함께 가설 테스트 와 관련된 논쟁에 대해 읽었습니다 . 일부 의견자는 신뢰 구간 을 대신 사용해야한다고 제안합니다 . 신뢰 구간과 가설 검정의 차이점은 무엇입니까? 참조 및 예를 가진 설명이 이해 될 것이다.

28 hypothesis-testing confidence-interval

4

3 개의 랜덤 변수의 상관 관계에 대한 경계

세 가지 랜덤 변수가 있습니다 . 세 변수 사이의 세 가지 상관 관계는 동일합니다. 그건,x,y,zx,y,zx,y,z ρ=cor(x,y)=cor(x,z)=cor(y,z)ρ=cor(x,y)=cor(x,z)=cor(y,z)\rho=\textrm{cor}(x,y)=\textrm{cor}(x,z)=\textrm{cor}(y,z) 줄 수있는 가장 빡빡한 것은 무엇입니까 ?ρρ\rho

28 correlation correlation-matrix

4

후방 분포를 다루기 어려운 요인은 무엇입니까?

베이지안 통계에서, 사후 분포가 다루기 어려워서 대략적인 추론이 적용되어야한다고 종종 언급됩니다. 이 난치 유발 요인은 무엇입니까?

28 bayesian approximation inference

4

R에서 차원 축소를 수행하는 방법

a (i, j)가 개별 페이지 j를 몇 번 본지를 알려주는 행렬이 있습니다. 27K 개인과 95K 페이지가 있습니다. 나는 종종 함께 볼 수있는 페이지 세트에 해당하는 페이지 공간에 소수의 "치수"또는 "종횡비"를 갖고 싶습니다. 저의 궁극적 인 목표는 개인이 1, 2, 등의 페이지를 얼마나 자주 본지 계산하는 것입니다. 주요 구성 요소 분석 …

28 r clustering dimensionality-reduction

5

가우스 프로세스의 평균 함수가 왜 흥미롭지 않습니까?

나는 GP에 대해 읽기 시작했고 일반 가우스 분포와 유사하며 평균 함수와 공분산 함수 또는 커널로 특징 지어집니다. 나는 연설을했고 화자는 평균 함수가 일반적으로 매우 흥미롭지 않으며 모든 추론 노력이 올바른 공분산 함수를 추정하는 데 소비된다고 말했다. 누군가 왜 그런지 설명해 줄 수 있습니까?

28 gaussian-process

8

좋고 완전한 확률 및 통계 책을 찾고

나는 수학 교수로부터 통계 코스를 방문 할 기회가 없었습니다. 완전하고 자급 자족 한 확률 이론 및 통계 책을 찾고 있습니다. 완전한 결과는 단지 상태 결과뿐만 아니라 모든 증거를 포함한다는 것을 의미합니다. 자급 자족한다는 것은 책을 이해하기 위해 다른 책을 읽을 필요가 없다는 것을 의미합니다. 물론 그것은 대학 수준 (수학 학생) …

28 probability self-study mathematical-statistics references

1

모멘트 생성 기능 및 분산의 존재

유한 평균 및 무한 분산을 갖는 분포에 모멘트 생성 기능이있을 수 있습니까? 유한 평균 및 유한 분산이지만 무한한 더 높은 모멘트를 갖는 분포는 어떻습니까?

28 variance moments mgf

4

표본 크기, 표본 평균 및 모집단 평균만으로 스튜던트 t- 검정을 수행하는 방법은 알려져 있습니까?

스튜던트 에는 표본 표준 편차 가 필요합니다 . 그러나 표본 크기와 표본 평균 만 알려진 경우 어떻게 계산 합니까?tttssssss 예를 들어, 표본 크기가 이고 표본 평균이 이면 각각 값을 가진 개의 동일한 표본 목록을 만들려고합니다 . 샘플 표준 편차는 입니다. 테스트 에서 0으로 나누기 문제가 발생합니다 .494949112112112494949112112112000ttt 추가 자료 : …

28 t-test standard-deviation small-sample

2

올가미 이전의 표준화가 정말로 필요한가?

Lasso회귀 와 같은 전에 변수를 표준화 해야하는 세 가지 주요 이유를 읽었습니다 . 1) 계수의 해석 성. 2) 수축 후 계수 추정치의 상대적 크기에 따라 계수 중요도를 평가하는 기능. 3) 가로 채지 않아도됩니다. 그러나 가장 중요한 점이 궁금합니다. 표준화가 모형의 표본 일반화를 향상시킬 것이라고 생각할만한 이유가 있습니까? 또한 모델에 인터셉트가 …

28 normalization lasso standardization regularization shrinkage