통계 및 빅 데이터

3

급여와 같은 내 데이터가 R의 지속적인 지수 분포에서 나온 것인지 어떻게 확인할 수 있습니까? 내 샘플의 히스토그램은 다음과 같습니다. . 어떤 도움이라도 대단히 감사하겠습니다!

22 r distributions goodness-of-fit exponential

3

에서 이 댓글 닉 콕스는 썼다 : 클래스로 비닝은 고대 방법입니다. 히스토그램은 유용 할 수 있지만 최신 통계 소프트웨어를 사용하면 원시 데이터에 분포를 맞추는 것이 쉽고 좋습니다. 비닝은 어느 분포가 그럴듯한지를 결정하는 데 중요한 세부 사항 만 버립니다. 이 의견의 맥락에서 QQ- 플롯을 적합도를 평가하기위한 대체 수단으로 사용하는 것이 좋습니다. …

22 references histogram binning qq-plot

3

다중 회귀 분석에서“다른 모든 것”은 무엇을 의미합니까?

여러 회귀 분석을 수행 하고 변수 의 변화에 대한 변수 의 평균 변화를보고 다른 모든 변수를 일정하게 유지하면 다른 변수를 일정하게 유지하는 값은 무엇입니까? 그들의 뜻은? 제로? 어떤 가치?yyyxxx 나는 그것이 어떤 가치가 있다고 생각하는 경향이있다. 설명을 찾고 있습니다. 누군가 증거가 있다면, 그것도 좋을 것입니다.

22 multiple-regression interpretation least-squares regression-coefficients controlling-for-a-variable

4

에는 Stouffer의 Z 점수 방법 : 우리는 합계 경우 어떻게 대신 ?

동일한 귀무 가설로 독립적 인 통계 테스트를 수행 하고 결과를 하나의 p 값 으로 결합하고 싶습니다 . Fisher의 방법과 Stouffer의 방법 이라는 두 가지 "허용되는"방법이있는 것 같습니다 .PNNNppp 내 질문은 Stouffer의 방법에 관한 것입니다. 각각의 개별 테스트마다 z-score ziziz_i . 귀무 가설 하에서 이들 각각은 표준 정규 분포로 분포되므로, 합 …

22 hypothesis-testing chi-squared p-value multiple-comparisons combining-p-values

2

데이터의 SVD를 통해 PCA가 필요한 이유는 무엇입니까?

이 질문은 주요 구성 요소를 계산하는 효율적인 방법에 관한 것입니다. linear PCA의 많은 텍스트는 대소 문자 데이터 의 단일 값 분해를 사용하여 옹호 합니다 . 우리는 데이터가있는 경우 즉, 하고, 변수 (그 교체 할 열을 주요 구성 요소), 우리가 할 SVD : (제곱. 고유치의 뿌리), 특이 값의 주요 대각선을 점유은 …

22 pca algorithms svd matrix-decomposition

2

R의 부트 스트랩은 실제로 어떻게 작동합니까?

나는 R에서 부트 패키지를 살펴 보았고, 사용법에 대한 많은 입문서를 찾았지만, "장면"에서 무슨 일이 일어나고 있는지 정확히 설명하는 것을 아직 찾지 못했다. 예를 들어,이 예 에서 가이드는 표준 회귀 계수를 부트 스트랩 회귀의 시작점으로 사용하는 방법을 보여 주지만 부트 스트랩 프로 시저가 실제로 부트 스트랩 회귀 계수를 도출하기 위해 수행하는 …

22 r regression bootstrap regression-coefficients

2

“바이아 추론 및 기계 학습”다음 단계

저는 현재 David Barber의 "Bayesian Reasoning and Machine Learning"을 겪고 있으며 기초 학습을위한 매우 잘 쓰여지고 매력적인 책입니다. 그래서 이미 이것을 한 누군가에게 질문하십시오. 이발사에서 대부분의 개념을 숙달 한 후에해야 할 다음 책은 무엇입니까?

22 machine-learning bayesian references graphical-model

3

기대 최대화 알고리즘이 사용되는 이유는 무엇입니까?

내가 아는 것으로부터 EM 알고리즘을 사용하여 가능성의 매개 변수와 관련하여 부분 도함수를 0으로 설정할 때 최대 가능성을 찾기 위해 분석적으로 해결할 수없는 일련의 방정식이 제공됩니다. 그러나 언급 된 일련의 방정식의 제약과 관련하여 최대한의 가능성을 찾기 위해 수치 기술을 사용하는 대신 EM 알고리즘이 필요합니다.

22 expectation-maximization

5

비모수 적 테스트는 정확히 무엇을 수행하며 결과로 무엇을합니까?

나는 이것이 다른 곳에서 요청되었을 수도 있지만 실제로 필요한 기본 설명 유형은 아닙니다. 비모수는 비교할 수단 대신 중간 값에 의존한다는 것을 알고 있습니다. 또한 표준 편차 대신 "자유도"(?)에 의존한다고 생각합니다. 그래도 내가 틀렸다면 정정하십시오. 나는 아주 좋은 연구를 해왔으며, 개념을 이해하려고 노력하고, 그 개념이 무엇인지, 테스트 결과가 실제로 무엇을 의미하는지, …

22 hypothesis-testing nonparametric wilcoxon-mann-whitney

3

통계학자가 기계 학습을 배우는 것이 중요합니까?

머신 러닝은 통계 학자에게 익숙한 중요한 주제입니까? 머신 러닝은 통계 인 것 같습니다. 통계 프로그램 (학부 및 대학원)이 기계 학습을 요구하지 않는 이유는 무엇입니까?

22 machine-learning careers

5

R의 randomForest는 32 개 이상의 레벨을 처리 할 수 없습니다. 해결 방법은 무엇입니까?

R의 randomForest 패키지는 32 개 이상의 레벨을 가진 요인을 처리 할 수 없습니다. 32 개 이상의 레벨이 제공되면 오류 메시지가 나타납니다. 범주가 32 개 이상인 범주 형 예측 변수를 처리 할 수 없습니다. 그러나 내가 가지고있는 데이터에는 몇 가지 요소가 있습니다. 그들 중 일부는 1000 + 레벨을 가지고 있고 일부는 …

22 r random-forest many-categories

1

특정 다중 공선 성 척도를 선호하는 이유가 있습니까?

많은 입력 변수로 작업 할 때 종종 다중 공선 성이 중요 합니다. 다중 공선 성을 감지, 생각 및 / 또는 전달하는 데 사용되는 다중 공선 성 측정에는 여러 가지가 있습니다. 몇 가지 일반적인 권장 사항은 다음과 같습니다. 특정 변수에 대한 다중아르 자형2j아르 자형j2R^2_j 특정 변수에 대한 공차1 - R2j1−아르 자형j21-R^2_j …

22 multicollinearity

2

형태의 모델에 대한 회귀 ?

웹 토론 포럼의 통계 인 데이터 세트가 있습니다. 주제가 가질 것으로 예상되는 답글 수의 분포를보고 있습니다. 특히, 주제 응답 수 목록이있는 데이터 세트를 작성한 다음 해당 응답 수를 가진 주제 수를 작성했습니다. "num_replies","count" 0,627568 1,156371 2,151670 3,79094 4,59473 5,39895 6,30947 7,23329 8,18726 로그 로그 플롯에 데이터 세트를 플롯하면 기본적으로 직선이 …

22 r regression nonlinear-regression

2

가중 분산의 바이어스 보정

가중 분산 용 는 평균 동일한 데이터로부터 추정 될 때, 상기 바이어스 샘플 분산을 수정이 존재한다 : Var ( X) : = 1엔∑나는( x나는− μ )2바르(엑스): =1엔∑나는(엑스나는−μ)2\text{Var}(X):=\frac{1}{n}\sum_i(x_i - \mu)^2Var ( X) : = 1n - 1∑나는( x나는− E[ X] )2바르(엑스): =1엔−1∑나는(엑스나는−이자형[엑스])2\text{Var}(X):=\frac{1}{n-1}\sum_i(x_i - E[X])^2 가중 평균과 분산을 조사하고 가중 분산에 대한 …

22 variance unbiased-estimator weighted-mean weighted-data bias-correction

2

제한된 Boltzmann 기계 대 다층 신경망

내가 직면하고있는 분류 문제에 대해 신경망을 실험하고 싶었습니다. 나는 RBM에 대해 이야기하는 논문을 접했다. 그러나 내가 이해할 수있는 것은 다층 신경망을 갖는 것과 다르지 않습니다. 이것이 정확합니까? 또한 R로 작업하고 RBM에 대한 통조림 패키지가 보이지 않습니다. 나는 기본적으로 RBM이 쌓여있는 딥 러닝 네트워크에 관해 이야기하는 문헌을 보았지만 R에서 그것들을 구현하려는 …

22 r machine-learning classification neural-networks