통계 및 빅 데이터

2

선형 회귀 분석에서 예측 된 값에 대한 신뢰 구간이 예측 변수의 평균 주변에서 좁고 예측 변수의 최소 및 최대 값 주변에서 뚱뚱한 경향이 있음을 알았습니다. 이것은 다음 4 가지 선형 회귀의 도표에서 볼 수 있습니다. 처음에 이것은 예측 변수의 대부분의 값이 예측 변수의 평균에 집중되어 있기 때문이라고 생각했습니다. 그러나 왼쪽 …

69 regression confidence-interval linear-model standard-error prediction-interval

5

켄달 타우 또는 스피어 맨의 rho?

어떤 경우에는 다른 것을 선호해야합니까? 나는 교육적인 이유로 Kendall에게 유리하다고 주장하는 사람 이 다른 이유가 있다는 것을 발견했습니다 .

69 correlation nonparametric spearman-rho kendall-tau

19

귀중한 통계 분석 오픈 소스 프로젝트는 무엇입니까?

현재 이용 가능한 귀중한 통계 분석 오픈 소스 프로젝트는 무엇입니까? 편집 : Sharpie가 지적한 것처럼 귀중한 것은 일을 더 빠르고 저렴하게 수행하는 데 도움이 될 수 있습니다.

69 software open-source

8

“무작위 변수”란 무엇입니까?

"무작위 변수"라고 할 때 무엇을 의미합니까?

69 mathematical-statistics random-variable intuition definition

6

신경망에서 좋은 초기 가중치는 무엇입니까?

방금 범위에서 신경망의 초기 가중치를 선택하는 것이 좋습니다 . 여기서 는 주어진 뉴런에 대한 입력 수. 세트가 정규화되었다고 가정합니다-평균 0, 분산 1 (이 문제가 중요하지 않은 경우).d( − 1디√, 1디√)(−1d,1d)(\frac{-1}{\sqrt d} , \frac{1}{\sqrt d})디dd 이것이 왜 좋은 생각입니까?

68 neural-networks normalization

4

xgboost 나무의 하이퍼 파라미터를 조정하는 방법?

클래스 불균형 데이터가 있으며 xgboost를 사용하여 증폭 된 머릿단의 하이퍼 파라미터를 조정하고 싶습니다. 질문 xgboost에 대해 gridsearchcv 또는 randomsearchcv에 해당하는 것이 있습니까? 그렇지 않다면 xgboost의 매개 변수를 조정하는 권장 방법은 무엇입니까?

68 machine-learning cross-validation xgboost boosting

7

회귀 모델에서 모든 교호 작용 항에 개별 항이 필요합니까?

저자가 실제로 5-6 개의 로짓 회귀 모델을 AIC와 비교하는 원고를 검토하고 있습니다. 그러나 일부 모형에는 개별 공변량 항을 포함하지 않고 교호 작용 항이 있습니다. 이렇게하는 것이 이치에 맞습니까? 예를 들어 (로짓 모델에만 해당되지 않음) : M1: Y = X1 + X2 + X1*X2 M2: Y = X1 + X2 M3: …

68 regression modeling interaction aic

4

표준 편차를 '합계'하는 방법은 무엇입니까?

월 평균 값과 해당 평균에 해당하는 표준 편차가 있습니다. 이제 월간 평균의 합으로 연간 평균을 계산하고 있습니다. 합산 평균의 표준 편차를 어떻게 나타낼 수 있습니까? 예를 들어 풍력 발전 단지의 출력을 고려할 때 : Month MWh StdDev January 927 333 February 1234 250 March 1032 301 April 876 204 May …

68 standard-deviation descriptive-statistics

10

외삽 법에 어떤 문제가 있습니까?

외삽이 왜 나쁜 생각인지에 대한 저학년 청문회로서 통계 과정에 앉아있는 것을 기억합니다. 또한 온라인에 대한 다양한 출처가 있습니다. 여기에 대한 언급도 있습니다 . 외삽이 왜 나쁜 생각인지 이해하는 사람이 있습니까? 그렇다면 예측 기술이 통계적으로 유효하지 않은 이유는 무엇입니까?

68 regression time-series forecasting

2

R의 다변량 다중 회귀

각각의 점수가 7 개의 독립 변수 (IV)에 의해 영향을받을 수있는 2 개의 종속 변수 (DV)가 있습니다. DV는 연속적이며 IV 세트는 연속 및 이진 코드 변수의 혼합으로 구성됩니다. (아래 코드에서 연속 변수는 대문자로 작성되고 이진 변수는 소문자로 작성됩니다.) 이 연구의 목적은 이러한 DV가 IV 변수에 의해 어떻게 영향을 받는지 알아내는 것입니다. …

68 r multivariate-analysis manova multiple-regression multivariate-regression

7

3 차원 단위 구의 표면에 균일하게 분포 된 점을 생성하는 방법은 무엇입니까?

3 차원 단위 구의 표면에 균일하게 분포 된 점을 생성하는 방법이 궁금합니다. 또한 이러한 점을 생성 한 후 표면에서 실제로 균일한지 여부를 시각화하고 확인하는 가장 좋은 방법은 무엇 입니까?x2+y2+z2=1x2+y2+z2=1x^2+y^2+z^2=1

68 random-generation

11

모델이 잘못되었을 때 왜 베이지안이어야합니까?

편집 : 간단한 예제를 추가했습니다 : 의 평균 추론 . 또한 신뢰 구간과 일치하지 않는 신뢰할 수있는 구간이 나쁜 이유를 약간 설명했습니다.XiXiX_i 나는 상당히 독실한 베이지안으로 일종의 믿음의 위기에 처해 있습니다. 내 문제는 다음과 같습니다. IID 데이터 를 분석하고 싶다고 가정하십시오 . 내가 할 일은 :XiXiX_i 먼저, 조건부 모델을 제안하십시오 …

68 bayesian modeling philosophical misspecification

1

40,000 개의 신경 과학 논문이 잘못되었을 수 있습니다

나는 이코노미스트 에서이 논문이 "40,000 개의 출판 된 [fMRI] 연구와 같은 것"에 대한 의심을 불러 일으키는 논문 에 대해 보았다 . 그들은 오류는 "잘못된 통계적 가정"때문이라고 말한다. 나는 논문을 읽고 그것이 여러 비교 수정에 문제가 있다는 것을 알지만 fMRI 전문가가 아니며 따르기가 어렵다는 것을 알았습니다. 저자가 말한 잘못된 가정은 무엇인가 …

67 hypothesis-testing multiple-comparisons spatial neuroimaging neuroscience

3

이것이 p- 값 문제에 대한 해결책입니까?

2016 년 2 월 미국 통계 협회 (American Statistical Association)는 통계적 중요성과 p- 값에 대한 공식적인 진술을 발표했습니다. 이에 대한 우리의 스레드는 이러한 문제를 광범위하게 설명합니다. 그러나 현재까지 보편적으로 인정되는 효과적인 대안을 제시 할 권한은 없습니다. ASS (American Statistical Society)는 이에 대한 p- 값을 발표했습니다 . 다음은 무엇입니까? "p- 값은별로 …

67 hypothesis-testing statistical-significance p-value

6

2016 년에 실제로 필요한 예측 모델링을위한 변수 선택?

이 질문은 몇 년 전 CV에서 1) 훨씬 더 나은 컴퓨팅 기술 (예 : 병렬 컴퓨팅, HPC 등) 및 2) 새로운 기술 (예 : [3])을 고려하여 다시 게시 할 가치가있는 것으로 보입니다. 먼저, 어떤 맥락. 목표가 가설 검정이 아니라 효과 추정이 아니라 보이지 않는 검정 세트에 대한 예측이라고 가정합시다. 따라서 …

67 machine-learning modeling feature-selection model-selection prediction