통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

27
잠자는 숲속의 미녀 역설
그 상황 일부 연구원들은 당신을 잠들게하려고합니다. 공정한 동전의 비밀 던지기에 따라, 그들은 당신을 한 번 (머리) 또는 두 번 (꼬리) 잠깐 깨 웁니다. 깨어 난 후에, 그들은 당신을 깨우는 것을 잊게하는 약으로 다시 잠들게 할 것입니다. 당신이 깨어 때, 어느 정도를해야합니다 당신은 동전 던지기의 결과가 머리라고 생각? (좋아, 아마도 당신은이 …

8
뉴턴의 방법이 기계 학습에 널리 사용되지 않는 이유는 무엇입니까?
이것은 잠시 동안 나를 괴롭 혔으며 온라인에서 만족스러운 답변을 찾을 수 없으므로 여기에 간다. 볼록 최적화에 대한 일련의 강의를 검토 한 후, Newton의 방법은 솔루션에 대한 보증을 제공 할 수 있고, 불변이고, 대부분 수렴하기 때문에, 전 세계적으로 최적의 솔루션을 찾기 위해 기울기 하강보다 훨씬 우수한 알고리즘 인 것 같습니다. 훨씬 …

4
일반 영어 코헨의 카파
데이터 마이닝 책을 읽고 있으며 분류기의 예측 성능을 평가하는 수단으로 Kappa 통계를 언급했습니다. 그러나 나는 이것을 이해할 수 없다. 또한 Wikipedia도 확인했지만 도움이되지 않았습니다 : https://en.wikipedia.org/wiki/Cohen's_kappa . Cohen의 카파는 분류기의 예측 성능을 평가하는 데 어떻게 도움이됩니까? 그것은 무엇을 말합니까? 100 % kappa는 분류 기가 임의 분류기와 완전히 일치 함을 의미하지만 …

14
대규모 데이터 세트가 가설 ​​검정에 적합하지 않습니까?
A의 최근 기사 의 Amstat 뉴스 을 선언합니다 - 저자 (마크 반 데르 Laan와 세리 로즈) 우리는 충분히 큰 표본 크기에 대한, 아니 효과의 귀무 가설이 참하는 모든 연구를 포함하여 사람이 알고 "고 말했다 통계적으로 유의 한 효과. " 글쎄, 나는 그것을 알지 못했다. 이것이 사실입니까? 가설 검정이 대규모 데이터 …


9
Mahalanobis 거리에 대한 하단에서 상단까지의 설명?
나는 패턴 인식과 통계 그리고 Mahalanobis distance 의 개념에 부딪힌 주제에 관해 열 었던 거의 모든 책을 연구하고 있습니다 . 이 책은 일종의 직관적 인 설명을 제공하지만, 실제로 무슨 일이 일어나고 있는지 실제로 이해하기에는 충분하지 않습니다. 누군가가 "말라 노비스 거리는 얼마입니까?" 나는 단지 대답 할 수 있었다 : "이 종류의 …

9
임의의 숲에서 지식 얻기
임의의 숲은 블랙 박스로 간주되지만 최근에는 임의의 숲에서 어떤 지식을 얻을 수 있다고 생각하고 있었습니까? 가장 명백한 것은 변수의 중요성이며, 가장 간단한 변형에서는 변수의 발생 횟수를 계산하여 수행 할 수 있습니다. 두 번째로 생각한 것은 상호 작용입니다. 나무의 수가 충분히 크면 변수 쌍의 발생 횟수를 테스트 할 수 있다고 생각합니다 …

3
일관된 견적 도구와 편향되지 않은 견적 도구의 차이점은 무엇입니까?
아무도 이걸 이미 묻지 않은 것 같습니다. 추정자를 논의 할 때 자주 사용되는 두 가지 용어는 "일관성"및 "편견없는"입니다. 내 질문은 간단합니다. 차이점은 무엇입니까? 이러한 용어의 정확한 기술적 정의는 상당히 복잡하며 그 의미에 대한 직관적 인 느낌을 얻기가 어렵습니다 . 좋은 견적 도구와 나쁜 견적 도구를 상상할 수는 있지만 어떤 견적 …

3
베이지안 사전 및 사후 분포 이해하기
학생들 그룹에는 왼손잡이 인 18 명 중 2 명이 있습니다. 정보가없는 것으로 가정하고 모집단에서 왼손잡이 학생들의 사후 분포를 찾으십시오. 결과를 요약하십시오. 문헌에 따르면 5-20 %의 사람들이 왼손잡이입니다. 이전에이 정보를 고려하여 새로운 후부를 계산하십시오. 베타 배포판을 사용해야한다는 것을 알고 있습니다. 먼저 및 값을 1로 사용합니까? 후부의 재료에서 찾은 방정식은αα\alphaββ\beta π(r|Y)∝r(Y+−1)×(1−r)(N−Y+−1)π(r|Y)∝r(Y+−1)×(1−r)(N−Y+−1)\pi(r \vert …

6
순서가없는 범주 형 변수와의 상관 관계
많은 관측치와 변수가있는 데이터 프레임이 있습니다. 그들 중 일부는 범주 형 (정렬되지 않음)이고 다른 일부는 숫자입니다. 이 변수들 사이의 연관성을 찾고 있습니다. 수치 변수 (Spearman의 상관 관계)에 대한 상관 관계를 계산할 수 있었지만 : 정렬되지 않은 범주 형 변수 간의 상관 관계를 측정하는 방법을 모르겠습니다. 정렬되지 않은 범주 형 변수와 …



3
확률 공간을 정의하기 위해 왜 시그마 대수가 필요한가?
샘플 공간 형성하는 다른 결과에 대한 무작위 실험 이 있는데, 이벤트 라는 특정 패턴에 관심을시그마 대수 (또는 시그마 필드) 는 확률 측정 지정할 수있는 이벤트로 구성 됩니다. 널 세트 및 전체 샘플 공간을 포함하고 벤 다이어그램과의 결합 및 교차를 설명하는 대수를 포함하여 특정 특성이 충족 됩니다. Ω ,Ω,\Omega,F . P …

21
무한한 제한 과정의 각 단계에서 항아리에 10 개의 공을 넣고 무작위로 하나씩 제거하십시오. 공이 몇 개 남았습니까?
질문 (약간 수정)은 다음과 같이 진행되며 Sheldon Ross 의 첫 번째 확률 과정 의 예 6a, 2 장에서 확인할 수 있습니다 . 우리가 무한히 큰 항아리와 공 번호 1, 2, 3 등으로 분류 된 공의 컬렉션을 가지고 있다고 가정하십시오. 다음과 같이 수행 된 실험을 고려하십시오. 1 분에서 오후 12 시까 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.