통계 및 빅 데이터

27

그 상황 일부 연구원들은 당신을 잠들게하려고합니다. 공정한 동전의 비밀 던지기에 따라, 그들은 당신을 한 번 (머리) 또는 두 번 (꼬리) 잠깐 깨 웁니다. 깨어 난 후에, 그들은 당신을 깨우는 것을 잊게하는 약으로 다시 잠들게 할 것입니다. 당신이 깨어 때, 어느 정도를해야합니다 당신은 동전 던지기의 결과가 머리라고 생각? (좋아, 아마도 당신은이 …

133 decision-theory paradox

8

뉴턴의 방법이 기계 학습에 널리 사용되지 않는 이유는 무엇입니까?

이것은 잠시 동안 나를 괴롭 혔으며 온라인에서 만족스러운 답변을 찾을 수 없으므로 여기에 간다. 볼록 최적화에 대한 일련의 강의를 검토 한 후, Newton의 방법은 솔루션에 대한 보증을 제공 할 수 있고, 불변이고, 대부분 수렴하기 때문에, 전 세계적으로 최적의 솔루션을 찾기 위해 기울기 하강보다 훨씬 우수한 알고리즘 인 것 같습니다. 훨씬 …

132 machine-learning optimization gradient-descent hessian

4

일반 영어 코헨의 카파

데이터 마이닝 책을 읽고 있으며 분류기의 예측 성능을 평가하는 수단으로 Kappa 통계를 언급했습니다. 그러나 나는 이것을 이해할 수 없다. 또한 Wikipedia도 확인했지만 도움이되지 않았습니다 : https://en.wikipedia.org/wiki/Cohen's_kappa . Cohen의 카파는 분류기의 예측 성능을 평가하는 데 어떻게 도움이됩니까? 그것은 무엇을 말합니까? 100 % kappa는 분류 기가 임의 분류기와 완전히 일치 함을 의미하지만 …

131 classification data-mining cohens-kappa

14

대규모 데이터 세트가 가설 검정에 적합하지 않습니까?

A의 최근 기사 의 Amstat 뉴스 을 선언합니다 - 저자 (마크 반 데르 Laan와 세리 로즈) 우리는 충분히 큰 표본 크기에 대한, 아니 효과의 귀무 가설이 참하는 모든 연구를 포함하여 사람이 알고 "고 말했다 통계적으로 유의 한 효과. " 글쎄, 나는 그것을 알지 못했다. 이것이 사실입니까? 가설 검정이 대규모 데이터 …

129 hypothesis-testing sample-size dataset large-data

6

분산과 표준 편차의 차이는 무엇입니까?

분산과 표준 편차의 차이가 무엇인지 궁금합니다. 두 값을 계산하면 분산에서 표준 편차를 얻는 것이 분명하지만 관찰중인 분포 측면에서 무엇을 의미합니까? 또한 왜 표준 편차가 필요한가요?

127 variance mathematical-statistics standard-deviation

9

Mahalanobis 거리에 대한 하단에서 상단까지의 설명?

나는 패턴 인식과 통계 그리고 Mahalanobis distance 의 개념에 부딪힌 주제에 관해 열 었던 거의 모든 책을 연구하고 있습니다 . 이 책은 일종의 직관적 인 설명을 제공하지만, 실제로 무슨 일이 일어나고 있는지 실제로 이해하기에는 충분하지 않습니다. 누군가가 "말라 노비스 거리는 얼마입니까?" 나는 단지 대답 할 수 있었다 : "이 종류의 …

127 normal-distribution mathematical-statistics distance pattern-recognition intuition

9

임의의 숲에서 지식 얻기

임의의 숲은 블랙 박스로 간주되지만 최근에는 임의의 숲에서 어떤 지식을 얻을 수 있다고 생각하고 있었습니까? 가장 명백한 것은 변수의 중요성이며, 가장 간단한 변형에서는 변수의 발생 횟수를 계산하여 수행 할 수 있습니다. 두 번째로 생각한 것은 상호 작용입니다. 나무의 수가 충분히 크면 변수 쌍의 발생 횟수를 테스트 할 수 있다고 생각합니다 …

127 machine-learning data-mining interaction random-forest cart

3

일관된 견적 도구와 편향되지 않은 견적 도구의 차이점은 무엇입니까?

아무도 이걸 이미 묻지 않은 것 같습니다. 추정자를 논의 할 때 자주 사용되는 두 가지 용어는 "일관성"및 "편견없는"입니다. 내 질문은 간단합니다. 차이점은 무엇입니까? 이러한 용어의 정확한 기술적 정의는 상당히 복잡하며 그 의미에 대한 직관적 인 느낌을 얻기가 어렵습니다 . 좋은 견적 도구와 나쁜 견적 도구를 상상할 수는 있지만 어떤 견적 …

125 unbiased-estimator estimators consistency

3

베이지안 사전 및 사후 분포 이해하기

학생들 그룹에는 왼손잡이 인 18 명 중 2 명이 있습니다. 정보가없는 것으로 가정하고 모집단에서 왼손잡이 학생들의 사후 분포를 찾으십시오. 결과를 요약하십시오. 문헌에 따르면 5-20 %의 사람들이 왼손잡이입니다. 이전에이 정보를 고려하여 새로운 후부를 계산하십시오. 베타 배포판을 사용해야한다는 것을 알고 있습니다. 먼저 및 값을 1로 사용합니까? 후부의 재료에서 찾은 방정식은αα\alphaββ\beta π(r|Y)∝r(Y+−1)×(1−r)(N−Y+−1)π(r|Y)∝r(Y+−1)×(1−r)(N−Y+−1)\pi(r \vert …

124 distributions bayesian prior posterior

6

순서가없는 범주 형 변수와의 상관 관계

많은 관측치와 변수가있는 데이터 프레임이 있습니다. 그들 중 일부는 범주 형 (정렬되지 않음)이고 다른 일부는 숫자입니다. 이 변수들 사이의 연관성을 찾고 있습니다. 수치 변수 (Spearman의 상관 관계)에 대한 상관 관계를 계산할 수 있었지만 : 정렬되지 않은 범주 형 변수 간의 상관 관계를 측정하는 방법을 모르겠습니다. 정렬되지 않은 범주 형 변수와 …

123 r correlation categorical-data continuous-data mixed-type-data

4

컨볼 루션 신경망, 제한된 볼츠만 기계 및 자동 인코더의 차이점은 무엇입니까?

최근에 저는 딥 러닝에 대해 읽었으며 용어 (또는 기술)에 대해 혼란스러워합니다. 차이점은 무엇입니까 컨볼 루션 신경망 (CNN) 제한된 볼츠만 기계 (RBM) 및 자동 인코더?

123 neural-networks deep-learning conv-neural-network autoencoders rbm

3

선형 회귀와 로지스틱 회귀의 차이점은 무엇입니까?

선형 회귀와 로지스틱 회귀의 차이점은 무엇입니까? 언제 사용합니까?

122 regression logistic linear-model

3

확률 공간을 정의하기 위해 왜 시그마 대수가 필요한가?

샘플 공간 형성하는 다른 결과에 대한 무작위 실험 이 있는데, 이벤트 라는 특정 패턴에 관심을시그마 대수 (또는 시그마 필드) 는 확률 측정 지정할 수있는 이벤트로 구성 됩니다. 널 세트 및 전체 샘플 공간을 포함하고 벤 다이어그램과의 결합 및 교차를 설명하는 대수를 포함하여 특정 특성이 충족 됩니다. Ω ,Ω,\Omega,F . P …

122 probability intuition measure-theory sigma-algebra

21

무한한 제한 과정의 각 단계에서 항아리에 10 개의 공을 넣고 무작위로 하나씩 제거하십시오. 공이 몇 개 남았습니까?

질문 (약간 수정)은 다음과 같이 진행되며 Sheldon Ross 의 첫 번째 확률 과정 의 예 6a, 2 장에서 확인할 수 있습니다 . 우리가 무한히 큰 항아리와 공 번호 1, 2, 3 등으로 분류 된 공의 컬렉션을 가지고 있다고 가정하십시오. 다음과 같이 수행 된 실험을 고려하십시오. 1 분에서 오후 12 시까 …

121 probability paradox

5

Pearson과 Spearman 상관 관계 중에서 선택하는 방법은 무엇입니까?

Spearman 's 와 Pearson 's 중에서 언제 선택해야하는지 어떻게 알 수 있습니까? 내 변수에는 만족도가 포함되며 점수는 점수의 합을 사용하여 해석되었습니다. 그러나 이러한 점수는 순위를 매길 수도 있습니다.ρρ\rhorrr

119 correlation pearson-r spearman-rho