통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

6
텍스트의 통계 분류
저는 통계적 배경이없는 프로그래머이며 현재 사전 정의 된 범주로 분류 할 다양한 문서에 대해 다른 분류 방법을보고 있습니다. kNN, SVM 및 NN에 대해 읽었습니다. 그러나 시작하는 데 문제가 있습니다. 어떤 자료를 추천하십니까? 나는 단일 변수와 다중 변수 미적분학을 잘 알고 있으므로 수학은 충분히 강해야합니다. 또한 Neural Networks에 대한 주교의 책을 …

8
이 사람이 여성 일 확률은 얼마입니까?
커튼 뒤에 사람이 있습니다-사람이 여성인지 남성인지 모르겠습니다. 나는 사람의 머리카락이 길고 머리카락이 긴 모든 사람의 90 %가 여성이라는 것을 알고 있습니다. 나는 그 사람이 희귀 혈액형 AX3을 가지고 있으며이 혈액형을 가진 모든 사람들의 80 %가 여성이라는 것을 알고 있습니다. 그 사람이 여성 일 확률은 얼마입니까? 참고 :이 원래 공식은 두 …

2
AlphaGo와 유사한 체스 용 심층 강화 학습 엔진이없는 이유는 무엇입니까?
컴퓨터는 오랫동안 "브 루트 포스"기술을 사용하여 체스를 플레이하고 특정 깊이로 검색 한 다음 위치를 평가할 수있었습니다. 그러나 AlphaGo 컴퓨터는 ANN을 사용하여 위치를 평가합니다 (내가 아는 한 깊이 검색은 수행하지 않음). AlphaGo가 Go와 같은 방식으로 체스를하는 체스 엔진을 만들 수 있습니까? 아무도 이것을하지 않은 이유는 무엇입니까? 이 프로그램이 오늘날 최고의 체스 …

1
PCA가 k- 평균 군집 분석에 어떻게 도움이됩니까?
배경 : 도시의 주거 지역을 주택 단위 밀도, 인구 밀도, 녹지 면적, 주택 가격, 학교 수 / 보건소 / 보육 센터 등 사회 경제적 특성에 따라 그룹으로 분류하고 싶습니다. 주거 지역을 몇 개의 다른 그룹으로 나눌 수 있는지, 그리고 그들의 독특한 특징은 무엇인지 이해하고 싶습니다. 이 정보는 도시 계획을 용이하게 …

4
실제 값이 0 일 때 상대 오차를 계산하는 방법은 무엇입니까?
실제 값이 0 일 때 상대 오류를 어떻게 계산합니까? 및 가 있다고 가정하십시오 . 상대 오류를 다음과 같이 정의하면 :xtrue=0xtrue=0x_{true} = 0xtestxtestx_{test} relative error=xtrue−xtestxtruerelative error=xtrue−xtestxtrue\text{relative error} = \frac{x_{true}-x_{test}}{x_{true}} 그런 다음 상대 오류는 항상 정의되지 않습니다. 대신에 나는 정의를 사용한다 : relative error=xtrue−xtestxtestrelative error=xtrue−xtestxtest\text{relative error} = \frac{x_{true}-x_{test}}{x_{test}} 그러면 상대 오차는 항상 …

2
SVM 최적 C 및 감마 매개 변수를 결정하기위한 검색 범위는 무엇입니까?
분류에 SVM을 사용하고 있으며 선형 및 RBF 커널에 대한 최적의 매개 변수를 결정하려고합니다. 선형 커널의 경우 교차 유효성 검사 매개 변수 선택을 사용하여 C를 결정하고 RBF 커널의 경우 그리드 검색을 사용하여 C와 감마를 결정합니다. 나는 20 개의 (숫자) 기능과 70 개의 교육 예제가 있으며 7 개의 클래스로 분류되어야합니다. C 및 …

3
상관 관계 또는 공분산에 대한 PCA : 상관 관계에 대한 PCA는 의미가 있습니까? [닫은]
주성분 분석 (PCA)에서 공분산 행렬 또는 상관 행렬을 선택하여 성분을 찾을 수 있습니다 (각 고유 벡터에서). 두 행렬 사이의 고유 벡터가 같지 않기 때문에 서로 다른 결과 (PC 로딩 및 점수)를 제공합니다. 내 이해는 이것이 원시 데이터 벡터 와 표준화 가 직교 변환을 통해 연관 될 수 없기 때문에 발생한다는 …

1
“판정 계수”와“평균 제곱 오차”의 차이점은 무엇입니까?
회귀 문제의 경우 사람들이 "결정 계수"(일명 R 제곱)를 사용하여 정규화에 적합한 페널티 계수를 찾는 등의 모델 선택을 수행하는 것을 보았습니다. 그러나 회귀 정확도의 척도로 "평균 제곱 오류"또는 "근 평균 제곱 오류"를 사용하는 것도 일반적입니다. 이 둘의 주요 차이점은 무엇입니까? 그것들은 "정규화"와 "회귀"태스크를 위해 상호 교환 적으로 사용될 수 있습니까? 그리고 …


1
PCA 목적 함수 : 분산 최대화와 오류 최소화 간의 관계는 무엇입니까?
PCA 알고리즘은 상관 행렬의 관점에서 공식화 될 수 있습니다 (데이터 XXX 가 이미 정규화되었고 첫 번째 PC 로의 투영 만 고려하고 있다고 가정 ). 목적 함수는 다음과 같이 작성할 수 있습니다. maxw(Xw)T(Xw)s.t.wTw=1.maxw(Xw)T(Xw)s.t.wTw=1. \max_w (Xw)^T(Xw)\; \: \text{s.t.} \: \:w^Tw = 1. 이것은 괜찮습니다. 우리는 Lagrangian multipliers를 사용하여 문제를 해결합니다. maxw[(Xw)T(Xw)−λwTw],maxw[(Xw)T(Xw)−λwTw], \max_w …
32 pca  optimization 

4
과도하게 분산 된 포아송 결과를 위해 다단계 모델을 어떻게 적합합니까?
R을 사용하여 Poisson 분포 (과도 분산 포함)와 다중 수준 GLMM을 맞추고 싶습니다. 현재 lme4를 사용 하고 있지만 최근에 quasipoisson가족이 제거 되었음을 알았 습니다. 다른 곳에서는 관측 당 하나의 수준으로 임의의 절편을 추가하여 이항 분포에 대한 추가과 분산을 모델링 할 수 있음을 알았습니다. 포아송 분포에도 적용됩니까? 더 좋은 방법이 있습니까? 추천 …

3
집약적 계층 적 군집화에 대한 어떤 정지 기준이 실제로 사용됩니까?
모든 종류의 기준을 제안하는 광범위한 문헌을 발견했습니다 (예 : Glenn et al. 1985 (pdf) 및 Jung et al. 2002 (pdf)). 그러나 이들 중 대부분은 구현하기 쉽지 않습니다 (적어도 내 관점에서는). 내가 사용하고 scipy.cluster.hierarchy를 클러스터 계층 구조를 얻기 위해, 나는 지금부터 플랫 클러스터를 형성하는 방법을 결정하는 것을 시도하고있다. 내 목표는 관찰에서 …
32 clustering 

3
R은 lm의 결 측값을 어떻게 처리합니까?
행렬 A의 각 열에 대해 벡터 B를 회귀하고 싶습니다. 결측 데이터가 없으면 사소한 일이지만 행렬 A에 결측 값이 포함되어 있으면 A에 대한 내 회귀는 모든 행이 포함되도록 제한됩니다. 값이 존재합니다 (기본 na.omit 동작). 누락 된 데이터가없는 열에 대해 잘못된 결과가 생성됩니다. 행렬 A의 개별 열에 대해 열 행렬 B를 회귀시킬 …

4
원시 데이터 대신 샘플 통계를 입력하여 R에서 2- 표본 t- 검정을 수행하는 방법은 무엇입니까?
아래에 주어진 통계가 있다고 가정 해 봅시다. gender mean sd n f 1.666667 0.5773503 3 m 4.500000 0.5773503 4 실제 데이터가 아닌 이와 같은 통계를 사용하여 2- 표본 t- 검정을 수행하는 방법 (일부 변수의 남녀 평균간에 유의 한 차이가 있는지 확인)은 무엇입니까? 인터넷 어디에서 나이 작업을 수행하는 방법을 찾을 수 …
32 r  t-test 

6
확률 분포가 균일 할 때 엔트로피가 최대화되는 이유는 무엇입니까?
엔트로피는 프로세스 / 변수의 임의성 측정 기준이며 다음과 같이 정의 할 수 있습니다. 랜덤 변수 세트 :X∈X∈X \inAAAH(X)=∑xi∈A−p(xi)log(p(xi))H(X)=∑xi∈A−p(xi)log⁡(p(xi))H(X)= \sum_{x_i \in A} -p(x_i) \log (p(x_i)) . MacKay의 Entropy and Information Theory에 관한 책에서 그는 Ch2에서이 진술을 제공합니다. p가 균일하면 엔트로피가 최대화됩니다. 직관적으로, 세트 모든 데이터 포인트 가 동일한 확률 ( 은 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.