통계 및 빅 데이터

2

과거 주가, 항공권 가격 변동, 회사의 과거 재무 데이터와 같은 과거 데이터가 있다고 가정합니다. 이제 누군가 (또는 일부 공식)가 와서 "배포 로그를 가져 가거나 사용합시다"라고 말하면 여기가 내가 어디로 갈까요 ? 질문 : 왜 먼저 배포 로그를 가져와야합니까? 배포판의 로그는 원래 배포판이 할 수 없었거나 할 수 없었던 것을 '주거나 …

173 distributions data-transformation logarithm

4

QQ 플롯을 해석하는 방법

작은 데이터 세트 (21 개의 관찰)로 작업하고 있으며 R에 다음과 같은 정상적인 QQ 플롯이 있습니다. 음모가 정규성을 지원하지 않는 경우 기본 분포에 대해 무엇을 추론 할 수 있습니까? 오른쪽으로 치우친 분포가 더 적합 할 것 같습니다. 맞습니까? 또한 데이터에서 다른 결론을 도출 할 수 있습니까?

172 r data-visualization inference qq-plot

9

왜 텐서에 갑자기 매료됩니까?

최근에 많은 사람들이 많은 방법 (텐서 분해, 텐서 커널, 주제 모델링을위한 텐서 등)과 같은 텐서를 개발하고 있음을 알았습니다. 왜 세상이 갑자기 텐서에 매료됩니까? 특히 놀라운 최신 논문 / 표준 결과가 있습니까? 이전에 예상했던 것보다 계산 비용이 훨씬 저렴합니까? 나는 냉담하지 않고, 진심으로 관심이 있으며, 이것에 관한 논문에 대한 조언이 있다면, …

171 machine-learning references matrix linear-algebra tensor

3

올가미 대 릿지를 언제 사용해야합니까?

많은 매개 변수를 추정하고 다른 매개 변수에 비해 효과가 거의 없다고 생각하기 때문에 그 중 일부에 불이익을 가하고 싶다고 가정 해보십시오. 어떤 벌칙을 사용할지 어떻게 결정합니까? 능선 회귀는 언제 더 적절합니까? 올가미를 언제 사용해야합니까?

167 regression lasso ridge-regression

30

통계 농담

글쎄, 우리는 좋아하는 통계 따옴표를 얻었다. 통계 농담은 어떻습니까?

165 references humor

8

선형 회귀 분석에서 실제 값 대신 독립 변수의 로그를 사용하는 것이 언제 적절한가요?

문제의 독립 변수에 대해 더 나은 행동 분포를 찾고 있습니까, 아니면 특이 치 또는 다른 것의 영향을 줄이려고합니까?

164 regression distributions data-transformation logarithm regression-strategies

8

로지스틱 회귀 분석에서 완벽한 분리를 처리하는 방법은 무엇입니까?

대상 변수에서 0과 1을 완벽하게 분리하는 변수가있는 경우 R은 다음과 같은 "완벽 또는 준 완벽 분리"경고 메시지를 생성합니다. Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred 우리는 여전히 모델을 얻지 만 계수 추정치는 팽창됩니다. 실제로 이것을 어떻게 처리합니까?

163 r regression logistic separation

21

Julia는 통계 커뮤니티를 고수 할 희망이 있습니까?

최근에 R-Bloggers의 게시물을 읽었으며 John Myles White 의이 블로그 게시물에 Julia 라는 새로운 언어에 대한 링크가 있습니다 . Julia는 JIT (Just-In-Time) 컴파일러를 활용하여 악의적 인 빠른 실행 시간을 제공하고 C / C ++와 동일한 속도의 속도를 제공합니다 (동일한 순서). , 동등하게 빨리하지 않음). 또한 R의 apply 문과 벡터 연산 대신 …

161 r computational-statistics software computing julia

3

R의 lmer 치트 시트

이 포럼에서를 사용하여 다양한 계층 적 모델을 지정하는 올바른 방법에 대한 많은 토론이 lmer있습니다. 한 곳에서 모든 정보를 얻는 것이 좋을 것이라고 생각했습니다. 시작해야 할 몇 가지 질문 : 어떻게 한 그룹이 다른 내에 중첩되는 여러 수준을 지정합니다 : 그 것이다 (1|group1:group2)나 (1+group1|group2)? 차이 무엇 (~1 + ....)과 (1 | …

160 r mixed-model random-effects-model fixed-effects-model lme4-nlme

3

ROC vs 정밀 및 회수 곡선

나는 그들 사이의 공식적인 차이점을 알고 있습니다. 내가 알고 싶은 것은 하나를 사용하는 것이 더 관련성이 높은시기입니다. 그들은 주어진 분류 / 탐지 시스템의 성능에 대한 보완적인 통찰력을 항상 제공합니까? 예를 들어 종이로 두 가지를 모두 제공하는 것이 합리적입니까? 하나 대신에? 분류 시스템에 대한 ROC 및 정밀 리콜의 관련 측면을 캡처하는 …

159 machine-learning roc precision-recall

2

R에서 data.frame의 행 수를 어떻게 얻습니까? [닫은]

데이터 세트를 읽은 후 : dataset <- read.csv("forR.csv") R에 포함 된 사례 수를 알려주려면 어떻게해야합니까? 또한 반환 된 값에 na.omit(dataset)?로 생략 된 제외 사례가 포함 됩니까?

157 r

2

생식 대 차별

생성은 " 기반"을 의미하고 차별적 인 의미는 " 기반"을 의미 하지만 몇 가지 점에서 혼란스러워합니다.P ( y | x )피( x , y)P(x,y)P(x,y)피( y| x)P(y|x)P(y|x) Wikipedia (웹에서 발생하는 다른 많은 히트)는 SVM 및 의사 결정 트리와 같은 항목을 차별적 인 것으로 분류합니다. 그러나 이것들은 확률 론적 해석조차하지 않습니다. 여기서 차별적 …

153 machine-learning generative-models

7

상관 관계 또는 공분산에 대한 PCA?

상관 행렬과 공분산 행렬에서 주성분 분석 (PCA)을 수행하는 것의 주요 차이점은 무엇입니까? 그들은 같은 결과를 제공합니까?

153 correlation pca covariance factor-analysis

6

1을 초과하는 확률 분포 값이 양호 할 수 있습니까?

온 순진 베이 즈 분류에 대한 위키 백과 페이지 ,이 라인이있다 : p(height|male)=1.5789p(height|male)=1.5789p(\mathrm{height}|\mathrm{male}) = 1.5789 (1 이상의 확률 분포는 괜찮습니다. 종 곡선 아래의 면적은 1입니다.) 보다 큰 값은 어떻게 될 수 있습니까? 모든 확률 값이 범위로 표현되었다고 생각했습니다 . 또한 그러한 값을 가질 수 있다고 가정하면 해당 값은 페이지에 표시된 …

149 distributions probability normal-distribution pdf

6

k- 겹 교차 검증 후 예측 모델을 선택하는 방법은 무엇입니까?

K- 폴드 교차 검증을 수행 한 후 예측 모델을 선택하는 방법이 궁금합니다. 이것은 어색하게 표현 될 수 있으므로 K- 폴드 크로스 밸리데이션을 실행할 때마다 K 서브셋의 훈련 데이터를 사용하고 K 개의 다른 모델로 끝납니다. K 모델 중 하나를 선택하는 방법을 알고 싶습니다.이를 누군가에게 제시하고 "이 모델은 우리가 생산할 수있는 최고의 …

148 cross-validation model-selection