통계 및 빅 데이터

17

확률 및 통계 요리 책 및 데이터 마이닝을위한 R 참조 카드 와 같은 리소스는 매우 유용합니다. 그것들은 분명히 참고 자료로 잘 사용되지만 주제에 대한 내 생각을 정리하고 땅을 구하는 데 도움이됩니다. Q : 머신 러닝 방법에 이러한 리소스가 있습니까? 각 ML 방법에 대해 다음을 포함하는 참조 카드를 상상하고 있습니다. 일반 …

57 machine-learning references

8

범주 형 데이터를 연속적인 것으로 취급하는 것이 이치에 맞습니까?

불연속적이고 연속적인 데이터에 대한이 질문에 대답 하면서, 나는 범주 형 데이터를 연속적인 것으로 취급하는 것이 거의 이치에 맞지 않는다고 주장했다. 그것의 얼굴에는 자명 한 것처럼 보이지만 직관은 종종 통계에 대한 좋지 않은 가이드이거나 적어도 내 것입니다. 그래서 지금 궁금합니다. 맞습니까? 아니면 범주 형 데이터에서 일부 연속체로의 변환이 실제로 유용한 기존의 …

57 categorical-data data-transformation ordinal-data continuous-data

2

베이 즈 회귀 분석 : 표준 회귀 분석과 비교하여 어떻게 수행됩니까?

베이지안 회귀에 대한 몇 가지 질문이 있습니다. 과 같은 표준 회귀 분석이 제공됩니다 . 이것을 베이지안 회귀로 변경하려면 및 대한 사전 분포가 필요 (또는이 방식으로 작동하지 않습니까)?β 0 β 1y=β0+β1x+εy=β0+β1x+εy = \beta_0 + \beta_1 x + \varepsilonβ0β0\beta_0β1β1\beta_1 표준 회귀 분석에서 및 단일 값을 얻기 위해 잔차를 최소화하려고 시도합니다 . 베이 …

57 regression bayesian

10

유효성 검사 오류가 교육 오류보다 작습니까?

나는 이 문제에 관해 여기 와 여기 에 두 가지 질문을 찾았 지만 아직 명확한 대답이나 설명이 없습니다 .Convolution Neural Network의 유효성 검사 오류가 훈련 오류보다 작은 동일한 문제를 시행합니다. 그게 무슨 뜻이야?

57 machine-learning mathematical-statistics neural-networks cross-validation

3

로그 스케일은 언제 적절합니까?

차트 / 그래프를 그릴 때 시계열 차트의 y 축과 같은 특정 상황에서 로그 스케일을 사용하는 것이 적절하다는 것을 읽었습니다. 그러나 왜 그런지 또는 적절한시기에 대한 명확한 설명을 찾지 못했습니다. 나는 통계학자가 아니기 때문에 그 요점을 완전히 잃어 버릴 수 있다는 점을 명심하십시오.

57 data-visualization data-transformation

3

왜 표본 표준 편차가 의 편향 추정기 입니까?

표준 편차 의 편견 추정 에 대한 Wikipedia 기사에 따르면 샘플 SD s = 1n - 1∑나는 = 1엔( x나는− x¯¯¯)2−−−−−−−−−−−−−−−√에스=1엔−1∑나는=1엔(엑스나는−엑스¯)2s = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \overline{x})^2} 은 인구의 SD에 대한 편견 추정기입니다. 이것은 그 상태 .이자형( s2−−√) ≠ E( s2)−−−−−√이자형(에스2)≠이자형(에스2)E(\sqrt{s^2}) \neq \sqrt{E(s^2)} NB. 임의의 변수는 독립적이며 각엑스나는~ N( μ …

57 estimation standard-deviation

7

산업 대 카글 도전. 멋진 모델링보다 더 많은 관측치를 수집하고 더 많은 변수에 액세스하는 것이 더 중요합니까?

나는 제목이 자명 한 희망이다. Kaggle에서 대부분의 승자는 수백 가지 기본 모델과 함께 스태킹을 사용하여 MSE의 몇 가지 추가 비율을 줄이고 정확도를 높입니다 ... 일반적으로 경험상 스태킹과 같은 멋진 모델링은 단순히 더 많은 데이터와 더 많은 기능을 수집하는 것보다 중요합니다 데이터를 위해?

56 large-data stacking collecting-data kaggle

9

“80 명 중 1 명은 자동차 사고로 사망한다”고“80 명 중 1 명은 자동차 사고로 인한 것”이라고 말하면 잘못입니까?

성명서 1 (S1) : "80 명의 사망자 중 1 명은 자동차 사고로 인한 것입니다." 성명서 2 (S2) : "80 명 중 1 명이 교통 사고로 사망합니다." 저는 개인적으로이 두 진술 사이에 큰 차이가 없습니다. 글을 쓸 때 나는 평신도들과 상호 교환 할 수 있다고 생각합니다. 그러나 나는 지금 두 사람에 …

56 interpretation risk

4

PCA와 자동 인코더의 차이점은 무엇입니까?

PCA와 오토 인코더는 모두 디멘션 감소를 수행 할 수 있으므로 차이점은 무엇입니까? 어떤 상황에서 나는 서로를 사용해야합니까?

56 machine-learning pca neural-networks autoencoders

6

L2 정규화는 Gaussian Prior와 같습니다.

나는 이것을 읽고 직관적으로 이것을 볼 수 있지만 어떻게 L2 정규화에서 이것이 가우시안 프리어스라고 말하는가? L1이 이전의 라플라시안과 동일하다는 것도 마찬가지입니다. 더 이상의 참조는 좋을 것입니다.

56 regression references regularization

1

R의 로지스틱 회귀는 완벽한 분리 (Hauck-Donner 현상)를 초래했습니다. 이제 뭐?

50 개의 연속 설명 변수를 사용하여 이진 결과를 예측하려고합니다 (대부분의 변수 범위는 ~ ). 내 데이터 세트에는 거의 24,000 개의 행이 있습니다. 내가 실행하면 R에, 내가 얻을 :−∞−∞-\infty∞∞\inftyglm Warning messages: 1: glm.fit: algorithm did not converge 2: glm.fit: fitted probabilities numerically 0 or 1 occurred 완벽한 분리가 발생할 수 있음을 …

56 r regression logistic separation

8

딥 러닝을위한 R 라이브러리

딥 러닝 신경망에 적합한 R 라이브러리가 있는지 궁금합니다. 나는이 알고 nnet, neuralnet그리고 RSNNS,이 중에 깊은 학습 방법을 구현하기 위해 보이지 않는다. 나는 특히 감독되지 않은 학습과 감독 학습에 관심이 있고 공동 적응을 방지하기 위해 중퇴를 사용 합니다. / 편집 : 몇 년 후, h20 딥 러닝 패키지가 매우 잘 설계되고 …

56 r neural-networks deep-learning rbm deep-belief-networks

6

Fisher와 Neyman-Pearson 간의 "하이브리드"가 통계 테스트에 대한 접근 방식이 실제로 "일관되지 않은 혼란"입니까?

통계 테스트에 대한 가장 광범위한 접근 방식은 두 가지 접근 방식, 즉 Fisher와 Neyman-Pearson의 접근 방식 사이에서 "하이브리드"라는 특정 사고 방식이 있습니다. 이 두 가지 접근법은 "호환되지 않는다"고 주장하기 때문에 결과 "하이브리드"는 "일관되지 않은 혼란"이다. 아래에 참고 문헌과 인용문을 제공 하겠지만 통계적 가설 검정 에 대한 위키피디아 기사에 그 내용에 …

56 hypothesis-testing statistical-significance p-value type-i-and-ii-errors history

4

95 % 신뢰 구간 내의 모든 값이 똑같이 가능합니까?

"나는 질문에 불협화음 정보를 발견 한 수단의 차이 또는 비율의 차이의 95 % 신뢰 구간 (CI)를 구축하는 경우 CI 내의 모든 값이 똑같이 가능성이? 점 추정치가 가장 가능성, 또는 CI의 중간 부분보다 CI의 "꼬리"근처에있는 값이 더 적습니까? 예를 들어, 무작위 임상 시험 보고서에 특정 치료에서 사망률의 상대적 위험이 1.06 (95 …

56 confidence-interval

9

lme4 혼합 모델에서 효과의 p- 값 (의미 확인)을 얻는 방법

혼합 모델에 맞추기 위해 R의 lme4를 사용합니다. lmer(value~status+(1|experiment))) 가치가 지속되는 곳, 상태와 실험이 요인이며 Linear mixed model fit by REML Formula: value ~ status + (1 | experiment) AIC BIC logLik deviance REMLdev 29.1 46.98 -9.548 5.911 19.1 Random effects: Groups Name Variance Std.Dev. experiment (Intercept) 0.065526 0.25598 Residual 0.053029 …

56 r hypothesis-testing mixed-model p-value lme4-nlme