통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

28
주요 성분 분석, 고유 벡터 및 고유 값 이해
오늘의 패턴 인식 수업에서 교수님은 PCA, 고유 벡터 및 고유 값에 대해 이야기했습니다. 나는 그것의 수학을 이해했다. 고유 값 등을 찾도록 요청 받으면 기계처럼 올바르게 수행합니다. 그러나 나는 그것을 이해 하지 못했습니다 . 나는 그것의 목적을 얻지 못했습니다. 나는 그것을 느끼지 못했습니다. 나는 다음 인용문을 강력하게 믿는다. 할머니에게 설명 할 …


10
"우도"와 "확률"의 차이점은 무엇입니까?
위키 피 디아 페이지는 가능성과 확률이 별개의 개념 것을 주장한다. 비 기술적 용어에서 "가능성"은 일반적으로 "확률"의 동의어이지만 통계적 사용법에서는 명확한 관점이 있습니다. 매개 변수 값 세트가 주어진 일부 관측 된 결과의 확률은 다음과 같이 간주됩니다. 관측 된 결과가 주어진 경우 매개 변수 값 세트의 가능성. 누군가 이것이 이것이 무엇을 의미하는지에 …

11
베타 배포의 직관은 무엇입니까?
면책 조항 : 저는 통계학자가 아니라 소프트웨어 엔지니어입니다. 통계에 대한 나의 지식의 대부분은 자기 교육에서 나온 것이므로 다른 사람들에게는 사소한 것처럼 보일 수있는 개념을 이해하는 데 여전히 많은 격차가 있습니다. 답변에 덜 구체적인 용어와 자세한 설명이 포함되어 있다면 매우 감사하겠습니다. 할머니와 대화하고 있다고 상상해보십시오. :) 베타 배포 의 본질 을 …

11
테스트 세트와 유효성 검사 세트의 차이점은 무엇입니까?
Matlab에서 신경망 도구 상자를 사용할 때 혼란 스럽습니다. 원시 데이터 세트를 세 부분으로 나누었습니다. 훈련 세트 검증 세트 테스트 세트 많은 훈련 또는 학습 알고리즘에서 데이터는 종종 훈련 세트와 테스트 세트의 두 부분으로 나뉩니다. 내 질문은 : 검증 세트와 테스트 세트의 차이점은 무엇입니까? 유효성 검사가 실제로 신경망에만 적용됩니까? 또는 선택 …

20
두 문화 : 통계 대 기계 학습?
작년에 저는 Brendan O'Connor 의 "통계 vs. 기계 학습, 싸움!" 라는 블로그 게시물을 읽었습니다 . 두 필드의 차이점에 대해 논의했습니다. Andrew Gelman은 다음과 같이 호의적으로 반응했습니다 . 사이먼 블룸버그 : R의 운세 패키지에서 : 도발적으로 말하면, '기계 학습은 통계에서 모델과 가정의 확인을 뺀 통계입니다'. -Brian D. Ripley (머신 러닝과 통계의 …

22
표준 편차에서 절대 값을 취하는 대신 차이를 제곱하는 이유는 무엇입니까?
표준 편차의 정의 에서 평균과의 차이 를 제곱 하여 평균 (E)을 구하고 마지막에 제곱근을 되 찾아야하는 이유는 무엇입니까? 단순히 차이 의 절대 값 을 가져 와서 그 값 의 기대 값 (평균)을 얻을 수없고 데이터의 변화도 보여줄 수 없습니까? 숫자는 제곱 방법과 다르지만 (절대 값 방법은 더 작음) 여전히 데이터의 …

5
K- 평균의 단점을 이해하는 방법
K- 평균은 군집 분석에서 널리 사용되는 방법입니다. 내 이해에 따르면,이 방법은 모든 가정을 필요로하지 않습니다. 즉, 데이터 세트와 미리 지정된 수의 클러스터 k를 주면됩니다. 클러스터 제곱 내에서 제곱 오차 (SSE)의 합계를 최소화하는이 알고리즘을 적용하면됩니다. 오류. k- 평균은 본질적으로 최적화 문제입니다. k- 평균의 단점에 대한 자료를 읽었습니다. 그들 대부분은 다음과 같이 …

25
통계 워크 벤치로서의 파이썬
많은 사람들이 통계 요구에 Excel 또는 다른 스프레드 시트, SPSS, Stata 또는 R과 같은 기본 도구를 사용합니다. 매우 특별한 요구를 위해 특정 패키지로 전환 할 수 있지만 간단한 스프레드 시트 또는 일반 통계 패키지 또는 통계 프로그래밍 환경을 사용하여 많은 작업을 수행 할 수 있습니다. 저는 항상 파이썬을 프로그래밍 언어로 …
355 r  spss  stata  python 

3
SVD와 PCA의 관계. SVD를 사용하여 PCA를 수행하는 방법?
주성분 분석 (PCA)은 공분산 행렬의 고유 분해를 통해 설명됩니다. 그러나 데이터 행렬 의 단일 값 분해 (SVD)를 통해 수행 할 수도 있습니다 . 어떻게 작동합니까? 이 두 가지 방법의 관계는 무엇입니까? SVD와 PCA의 관계는 무엇입니까?엑스X\mathbf X 즉, 데이터 행렬의 SVD를 사용하여 차원 축소를 수행하는 방법은 무엇입니까?

30
가장 좋아하는 "데이터 분석"만화는 무엇입니까?
이것은 내가 가장 좋아하는 것 중 하나입니다. 답변 당 하나의 항목. (이것은 스택 오버플로 질문의 정점에 있습니다. 가장 좋아하는“프로그래머”만화는 무엇입니까? ) PS 사이트의 허락없이 만화를 핫 링크하지 마십시오.
343 humor 


11
평신도에게 왜 부트 스트랩이 작동하는지 설명
최근에 부트 스트랩을 사용하여 프로젝트의 신뢰 구간을 추정했습니다. 통계에 대해 잘 모르는 사람이 최근에 부트 스트랩이 왜 작동하는지, 즉 동일한 샘플을 반복해서 재 샘플링하는 것이 좋은 결과를주는 이유 를 설명해달라고 요청 했습니다. 나는 그것을 사용하는 방법을 이해하는데 많은 시간을 보냈지 만 부트 스트랩이 왜 작동하는지 이해하지 못한다는 것을 깨달았다. 구체적으로 …

18
해설 전에 설명 변수와 반응 변수를 독립적으로 정렬하면 어떻게됩니까?
우리가 설정 한 데이터가 있다고 가정 과 점을. 선형 회귀를 수행하려고하지만 먼저 값과 값을 서로 독립적으로 정렬하여 데이터 세트 형성합니다 . 새로운 데이터 세트에 대한 회귀에 대한 의미있는 해석이 있습니까? 이름이 있습니까?( X나는, Y나는)(Xi,Yi)(X_i,Y_i)X 나 Y I ( X I , Y의 J )엔nn엑스나는XiX_i와이나는YiY_i( X나는, Y제이)(Xi,Yj)(X_i,Y_j) 나는 이것이 어리석은 질문이라고 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.