통계 및 빅 데이터

1

Mantel의 시험 은 생물학적 연구 , 예를 들어, 유전 적 관련성, 침략 속도 또는 다른 특성과 동물의 공간 분포 (공간에서의 위치) 사이의 상관 관계를 조사하기 위해 생물학적 연구에서 널리 사용됩니다 . 많은 좋은 저널들이 그것을 사용하고 있습니다 ( PNAS, Animal Behaviour, Molecular Ecology ... ). 자연에서 발생할 수있는 몇 가지 …

36 r correlation spatial pattern-recognition

2

다항식 분포에서 Dirichlet 분포가 이전의 이유는 무엇입니까?

LDA 주제 모델 알고리즘에서이 가정을 보았습니다. 그러나 왜 Dirichlet 배포를 선택했는지 모르겠습니다. 다항식을 통한 균일 분포를 쌍으로 사용할 수 있는지 모르겠습니다.

36 bayesian dirichlet-distribution conjugate-prior

3

Tufte 스타일 시각화를 지원하는 실험적 증거?

Q : Nigel Holmes 의 차트 정체 시각화에 비해 Tufte 스타일의 미니멀리즘 데이터 말하기 시각화를 지원하는 실험적 증거가 있습니까? 나는 R 플롯에 차트 쓰레기를 추가하는 방법을 물어 여기 와 대응 나를 스나크의 뒷면의 상당한 양을 던졌다. 따라서, 나는 명백하지 않은 몇 가지 실험적 증거가 있어야만 그들의 반대 도표 정크 위치를 …

36 data-visualization

4

기존의 프로그래밍 언어를 사용하여 알려진 평균 및 분산을 갖는 정규 분포에서 표본을 추출하는 방법은 무엇입니까?

나는 통계 과정을 한 번도 본 적이 없으므로 여기에 올바른 장소에 묻기를 바랍니다. 정규 분포를 나타내는 두 개의 데이터, 즉 평균 및 분산 만 있다고 가정 합니다. 컴퓨터를 사용 하여이 두 분포를 무작위로 샘플링 하여이 두 통계를 존중하고 싶습니다.σ 2μμ\muσ2σ2\sigma^2 샘플을 출력하기 전에 각 샘플에 를 추가하기 만하면 0을 정규화하여 …

36 normal-distribution sampling computing

5

다른 확률에 대한 확률 분포

확률이 0.6 인 각 시행에서 16 회의 시행에서 9 개의 성공 확률을 얻으려면 이항 분포를 사용할 수 있습니다. 16 번의 시도마다 성공 확률이 다른 경우 무엇을 사용할 수 있습니까?

36 distributions probability binomial

4

도구 변수 란 무엇입니까?

응용 경제 및 통계에서 도구 변수가 점점 일반화되고 있습니다. 처음에는 다음 질문에 대한 기술적이지 않은 답변을 얻을 수 있습니다. 도구 변수 란 무엇입니까? 언제 도구 변수를 사용하고 싶습니까? 도구 변수를 어떻게 찾거나 선택합니까?

36 regression econometrics instrumental-variables

6

두 벡터의 문자열 (R)을 유사하게 일치시키는 방법은 무엇입니까?

이것이 어떻게 표시되어야하는지 잘 모르겠으므로 더 나은 용어를 알고 있다면 수정 해주세요. 두 가지 목록이 있습니다. 55 개 항목 중 하나 (예 : 문자열 벡터), 92 개 중 다른 항목. 항목 이름은 비슷하지만 동일하지는 않습니다. 나는 최선의 후보를 찾고자 들 55 목록의 항목 (I는 다음을 통해 이동하고 올바른 피팅을 선택할 …

36 r text-mining

8

베이 즈 정리는 무엇에 관한 것입니까?

베이 즈 정리 와 관련된 주요 아이디어, 즉 개념은 무엇입니까 ? 복잡한 수학 표기법의 파생을 요구하지 않습니다.

36 probability bayesian theory

5

신경망의 비용 함수는 볼록하지 않습니까?

신경망 의 비용 함수 는 J(W,b)J(W,b)J(W,b) 이며 볼록하지 않은 것으로 주장됩니다 . 로지스틱 회귀의 비용 함수와 매우 유사하다는 것을 알기 때문에 왜 그런 식인지 이해가되지 않습니다. 볼록하지 않은 경우 2 차 미분 ∂J∂W<0∂J∂W<0\frac{\partial J}{\partial W} < 0, 맞습니까? 최신 정보 @gung의 의견뿐만 아니라 아래의 답변 덕분에 숨겨진 층이 전혀 없다면 …

36 neural-networks loss-functions

4

SVM은 어떻게 선형 분리가 가능한 무한한 형상 공간을 '찾을'수 있습니까?

가우스 커널이있는 SVM에 치수 특성 공간이 무한하다는 사실의 직관은 무엇입니까?

36 svm feature-selection kernel-trick

5

회귀 문제가“회귀”문제라고 불리는 이유는 무엇입니까?

회귀 문제를 왜 "회귀"문제라고 생각하는지 궁금했습니다. 이름 뒤에 숨겨진 이야기는 무엇입니까? 회귀에 대한 한 가지 정의 : "완벽하지 않거나 덜 발달 된 상태로의 재발"

36 regression terminology history etymology

1

변이 추론 대 MCMC : 언제 다른 것을 선택할 것인가?

나는 Gibbs 샘플링, Metropolis Hastings 등과 같은 다양한 MCMC의 풍미를 포함하여 VI와 MCMC에 대한 일반적인 아이디어를 얻는다고 생각 합니다 . 이 논문은 두 가지 방법에 대한 훌륭한 설명을 제공합니다. 다음과 같은 질문이 있습니다. 베이지안 추론을하려면 왜 다른 방법을 선택해야합니까? 각 방법의 장단점은 무엇입니까? 나는 이것이 매우 광범위한 질문이라는 것을 이해하지만 …

36 machine-learning bayesian mcmc variational-bayes approximate-inference

2

-1과 1 사이의 데이터를 정규화하는 방법은 무엇입니까?

최소-최대 정규화 공식을 보았지만 0과 1 사이의 값을 정규화합니다. -1과 1 사이의 데이터를 어떻게 정규화합니까? 데이터 매트릭스에 음수 값과 양수 값이 모두 있습니다.

36 dataset normalization

2

예측 만 관심이있는 경우 왜 능선 위에 올가미를 사용합니까?

통계 학습 입문의 223 페이지 에서 저자는 능선 회귀와 올가미의 차이점을 요약합니다. 그것들은 "lasso가 치우침, 분산 및 MSE 측면에서 능선 회귀를 능가하는 경향이있는"예를 보여줍니다 (그림 6.9). 올가미가 바람직한 이유를 이해합니다. 많은 계수를 0으로 축소하여 단순하고 해석 가능한 모델로 스파 스 솔루션을 생성합니다. 그러나 예측 만 관심이있을 때 능선을 능가하는 방법을 …

35 machine-learning prediction lasso regularization ridge-regression

3

PCA의 선형성

그러나 PCA는 선형 절차로 간주됩니다. P C A (X) ≠ P C A ( X1) + P C A ( X2) + … + P C A ( X엔) ,피기음에이(엑스)≠피기음에이(엑스1)+피기음에이(엑스2)+…+피기음에이(엑스엔),\mathrm{PCA}(X)\neq \mathrm{PCA}(X_1)+\mathrm{PCA}(X_2)+\ldots+\mathrm{PCA}(X_n), 여기서 입니다. 이는 데이터에 대해 PCA에 의해 획득 된 고유 벡터 행렬이라고한다 데이터의 합에 의해 얻어진 PCA 고유 벡터를 …

35 pca linear