통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

28
주요 성분 분석, 고유 벡터 및 고유 값 이해
오늘의 패턴 인식 수업에서 교수님은 PCA, 고유 벡터 및 고유 값에 대해 이야기했습니다. 나는 그것의 수학을 이해했다. 고유 값 등을 찾도록 요청 받으면 기계처럼 올바르게 수행합니다. 그러나 나는 그것을 이해 하지 못했습니다 . 나는 그것의 목적을 얻지 못했습니다. 나는 그것을 느끼지 못했습니다. 나는 다음 인용문을 강력하게 믿는다. 할머니에게 설명 할 ...


10
"우도"와 "확률"의 차이점은 무엇입니까?
위키 피 디아 페이지는 가능성과 확률이 별개의 개념 것을 주장한다. 비 기술적 용어에서 "가능성"은 일반적으로 "확률"의 동의어이지만 통계적 사용법에서는 명확한 관점이 있습니다. 매개 변수 값 세트가 주어진 일부 관측 된 결과의 확률은 다음과 같이 간주됩니다. 관측 된 결과가 주어진 경우 매개 변수 값 세트의 가능성. 누군가 이것이 이것이 무엇을 의미하는지에 ...

11
베타 배포의 직관은 무엇입니까?
면책 조항 : 저는 통계학자가 아니라 소프트웨어 엔지니어입니다. 통계에 대한 나의 지식의 대부분은 자기 교육에서 나온 것이므로 다른 사람들에게는 사소한 것처럼 보일 수있는 개념을 이해하는 데 여전히 많은 격차가 있습니다. 답변에 덜 구체적인 용어와 자세한 설명이 포함되어 있다면 매우 감사하겠습니다. 할머니와 대화하고 있다고 상상해보십시오. :) 베타 배포 의 본질 을 ...

11
테스트 세트와 유효성 검사 세트의 차이점은 무엇입니까?
Matlab에서 신경망 도구 상자를 사용할 때 혼란 스럽습니다. 원시 데이터 세트를 세 부분으로 나누었습니다. 훈련 세트 검증 세트 테스트 세트 많은 훈련 또는 학습 알고리즘에서 데이터는 종종 훈련 세트와 테스트 세트의 두 부분으로 나뉩니다. 내 질문은 : 검증 세트와 테스트 세트의 차이점은 무엇입니까? 유효성 검사가 실제로 신경망에만 적용됩니까? 또는 선택 ...

20
두 문화 : 통계 대 기계 학습?
작년에 저는 Brendan O'Connor 의 "통계 vs. 기계 학습, 싸움!" 라는 블로그 게시물을 읽었습니다 . 두 필드의 차이점에 대해 논의했습니다. Andrew Gelman은 다음과 같이 호의적으로 반응했습니다 . 사이먼 블룸버그 : R의 운세 패키지에서 : 도발적으로 말하면, '기계 학습은 통계에서 모델과 가정의 확인을 뺀 통계입니다'. -Brian D. Ripley (머신 러닝과 통계의 ...

22
표준 편차에서 절대 값을 취하는 대신 차이를 제곱하는 이유는 무엇입니까?
표준 편차의 정의 에서 평균과의 차이 를 제곱 하여 평균 (E)을 구하고 마지막에 제곱근을 되 찾아야하는 이유는 무엇입니까? 단순히 차이 의 절대 값 을 가져 와서 그 값 의 기대 값 (평균)을 얻을 수없고 데이터의 변화도 보여줄 수 없습니까? 숫자는 제곱 방법과 다르지만 (절대 값 방법은 더 작음) 여전히 데이터의 ...

5
K- 평균의 단점을 이해하는 방법
K- 평균은 군집 분석에서 널리 사용되는 방법입니다. 내 이해에 따르면,이 방법은 모든 가정을 필요로하지 않습니다. 즉, 데이터 세트와 미리 지정된 수의 클러스터 k를 주면됩니다. 클러스터 제곱 내에서 제곱 오차 (SSE)의 합계를 최소화하는이 알고리즘을 적용하면됩니다. 오류. k- 평균은 본질적으로 최적화 문제입니다. k- 평균의 단점에 대한 자료를 읽었습니다. 그들 대부분은 다음과 같이 ...

25
통계 워크 벤치로서의 파이썬
많은 사람들이 통계 요구에 Excel 또는 다른 스프레드 시트, SPSS, Stata 또는 R과 같은 기본 도구를 사용합니다. 매우 특별한 요구를 위해 특정 패키지로 전환 할 수 있지만 간단한 스프레드 시트 또는 일반 통계 패키지 또는 통계 프로그래밍 환경을 사용하여 많은 작업을 수행 할 수 있습니다. 저는 항상 파이썬을 프로그래밍 언어로 ...
355 r  spss  stata  python 

3
SVD와 PCA의 관계. SVD를 사용하여 PCA를 수행하는 방법?
주성분 분석 (PCA)은 공분산 행렬의 고유 분해를 통해 설명됩니다. 그러나 데이터 행렬 의 단일 값 분해 (SVD)를 통해 수행 할 수도 있습니다 . 어떻게 작동합니까? 이 두 가지 방법의 관계는 무엇입니까? SVD와 PCA의 관계는 무엇입니까?엑스X\mathbf X 즉, 데이터 행렬의 SVD를 사용하여 차원 축소를 수행하는 방법은 무엇입니까?

30
가장 좋아하는 "데이터 분석"만화는 무엇입니까?
이것은 내가 가장 좋아하는 것 중 하나입니다. 답변 당 하나의 항목. (이것은 스택 오버플로 질문의 정점에 있습니다. 가장 좋아하는“프로그래머”만화는 무엇입니까? ) PS 사이트의 허락없이 만화를 핫 링크하지 마십시오.
343 humor 


11
평신도에게 왜 부트 스트랩이 작동하는지 설명
최근에 부트 스트랩을 사용하여 프로젝트의 신뢰 구간을 추정했습니다. 통계에 대해 잘 모르는 사람이 최근에 부트 스트랩이 왜 작동하는지, 즉 동일한 샘플을 반복해서 재 샘플링하는 것이 좋은 결과를주는 이유 를 설명해달라고 요청 했습니다. 나는 그것을 사용하는 방법을 이해하는데 많은 시간을 보냈지 만 부트 스트랩이 왜 작동하는지 이해하지 못한다는 것을 깨달았다. 구체적으로 ...

18
해설 전에 설명 변수와 반응 변수를 독립적으로 정렬하면 어떻게됩니까?
우리가 설정 한 데이터가 있다고 가정 과 점을. 선형 회귀를 수행하려고하지만 먼저 값과 값을 서로 독립적으로 정렬하여 데이터 세트 형성합니다 . 새로운 데이터 세트에 대한 회귀에 대한 의미있는 해석이 있습니까? 이름이 있습니까?( X나는, Y나는)(Xi,Yi)(X_i,Y_i)X 나 Y I ( X I , Y의 J )엔nn엑스나는XiX_i와이나는YiY_i( X나는, Y제이)(Xi,Yj)(X_i,Y_j) 나는 이것이 어리석은 질문이라고 ...


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.