통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A


1
다변량 정상 후부
이것은 매우 간단한 질문이지만 인터넷이나 책 어디에서나 파생물을 찾을 수 없습니다. 한 베이지 안에서 다변량 정규 분포를 업데이트하는 방법을 도출하고 싶습니다. 예를 들어 : P(x|μ,Σ)P(μ)==N(μ,Σ)N(μ0,Σ0).P(x|μ,Σ)=N(μ,Σ)P(μ)=N(μ0,Σ0). \begin{array}{rcl} \mathbb{P}({\bf x}|{\bf μ},{\bf Σ}) & = & N({\bf \mu}, {\bf \Sigma}) \\ \mathbb{P}({\bf \mu}) &= & N({\bf \mu_0}, {\bf \Sigma_0})\,. \end{array} 집합을 관찰 한 …

1
적합 확률 분포에서 MLE 대 최소 제곱
내가 읽은 여러 논문, 서적 및 기사를 기반으로 얻은 인상은 일련의 데이터에 확률 분포를 맞추는 권장 방법은 최대 가능성 추정 (MLE)을 사용하는 것입니다. 그러나 물리학 자로서보다 직관적 인 방법은 모형의 pdf를 최소 제곱을 사용하여 경험적 pdf에 맞추는 것입니다. 그렇다면 왜 확률 분포를 피팅 할 때 MLE이 최소 제곱보다 낫습니까? 누군가이 …


2
멀티 클래스 SVM을 수행하는 가장 좋은 방법
SVM이 이진 분류기라는 것을 알고 있습니다. 다중 클래스 SVM으로 확장하고 싶습니다. 그것을 수행하는 가장 좋고, 가장 쉬운 방법은 어느 것입니까? 코드 : MATLAB u=unique(TrainLabel); N=length(u); if(N>2) itr=1; classes=0; while((classes~=1)&&(itr<=length(u))) c1=(TrainLabel==u(itr)); newClass=double(c1); tst = double((TestLabel == itr)); model = svmtrain(newClass, TrainVec, '-c 1 -g 0.00154'); [predict_label, accuracy, dec_values] = svmpredict(tst, TestVec, …

1
Pearson 's Chi Squared Test의 작동 방식
최근의 다운 투표에 이어 Pearson Chi Squared 테스트에 대한 이해를 확인하려고 노력했습니다. 나는 보통 결과 제곱을 피팅하거나 확인하기 위해 카이 제곱 통계 (또는 감소 된 카이 제곱 통계)를 사용합니다. 이 경우 분산은 일반적으로 테이블 또는 히스토그램에서 예상되는 개수가 아니라 실험적으로 결정된 분산입니다. 어느 쪽이든, 나는 항상 테스트에서 다항식 PDF의 점근 …

2
로지스틱 회귀 분석에서 계수를 해석하는 방법은 무엇입니까?
다음과 같은 확률 함수가 있습니다. Prob=11+e−zProb=11+e−z\text{Prob} = \frac{1}{1 + e^{-z}} 어디 z=B0+B1X1+⋯+BnXn.z=B0+B1X1+⋯+BnXn.z = B_0 + B_1X_1 + \dots + B_nX_n. 내 모델은 다음과 같습니다 Pr(Y=1)=11+exp(−[−3.92+0.014×(gender)])Pr(Y=1)=11+exp⁡(−[−3.92+0.014×(gender)])\Pr(Y=1) = \frac{1}{1 + \exp\left(-[-3.92 + 0.014\times(\text{gender})]\right)} 절편 (3.92)의 의미를 이해하지만 이제 0.014를 해석하는 방법을 확신합니다. 이것들이 여전히 확률, 홀수 비율을 기록하고 있습니까, 아니면 이제 각각의 …

2
선형 회귀 분석에서 바이어스-분산 트레이드 오프의 그래픽 표현이 있습니까?
정전으로 고통 받고 있습니다. 선형 회귀와 관련하여 바이어스-분산 트레이드 오프를 보여주기 위해 다음 그림을 제시했습니다. 두 모델 중 어느 것도 적합하지 않다는 것을 알 수 있습니다. "단순"은 XY 관계의 복잡성을 인식하지 않으며 "복잡한"은 과도하게 적합하며 기본적으로 훈련 데이터를 학습합니다. 그러나 나는이 두 그림의 편견과 편차를 완전히 보지 못했습니다. 누군가 나에게 …

2
능선 회귀 분류 기가 왜 텍스트 분류에 잘 작동합니까?
텍스트 분류를 실험하는 동안 SVM, NB, kNN 등과 같이 텍스트 마이닝 작업에 더 일반적으로 언급되고 적용되는 분류기 중 테스트를 지속적으로 능가하는 능선 분류기 결과를 찾았습니다. 매개 변수에 대한 간단한 조정을 제외 하고이 특정 텍스트 분류 작업에서 각 분류자를 최적화하는 데 도움이됩니다. 이러한 결과는 Dikran Marsupial 에서도 언급 되었습니다 . 통계 …

2
운동량을 가진 무작위 도보
다음 조건에서 0부터 시작하는 정수 랜덤 워크를 고려하십시오. 첫 번째 단계는 동일한 확률로 플러스 또는 마이너스 1입니다. 미래의 모든 단계는 60 %가 이전 단계와 같은 방향 일 가능성이 40 %는 반대 방향 일 가능성이 높습니다 이로 인해 어떤 종류의 분포가 나옵니까? 나는 운동량이 아닌 무작위 걷기가 정규 분포를 산출한다는 것을 …

4
좁은 신뢰 구간 — 높은 정확도?
신뢰 구간에 대한 두 가지 질문이 있습니다. 신뢰 구간이 좁다는 것은 해당 구간 내에서 관측 값을 얻을 가능성이 적다는 것을 의미하므로 정확도가 높습니다. 또한 95 % 신뢰 구간은 99 % 신뢰 구간보다 좁습니다. 99 % 신뢰 구간은 95 %보다 정확합니다. 누군가 정확성과 좁음의 차이를 이해하는 데 도움이되는 간단한 설명을 해줄 …

2
카이-제곱 검정이 예상 카운트를 분산으로 사용하는 이유는 무엇입니까?
에서 χ2χ2\chi^2 테스트 정상 분포 각각의 표준 편차 ((가) 편차를 같이 즉 예상 카운트)로 예상 카운트의 제곱근을 사용하기위한 기준은 무엇인가? 내가 이것에 대해 논의 할 수있는 유일한 것은 http://www.physics.csbsju.edu/stats/chi-square.html 이며 포아송 분포를 언급합니다. 혼란을 간단히 설명하기 위해 두 프로세스가 크게 다른지 테스트하는 경우, 하나는 매우 작은 분산으로 500 As 및 …

2
계수 간 유의 한 차이를 테스트하는 올바른 방법은 무엇입니까?
누군가 나를 혼란스럽게 만들 수 있기를 바랍니다. 다음과 같은 두 가지 회귀 계수 세트가 서로 크게 다른지 테스트하고 싶다고 가정 해보십시오. yi=α+βxi+ϵiyi=α+βxi+ϵiy_i = \alpha + \beta x_i + \epsilon_i , 5 개의 독립 변수가 있습니다. 크기가 대략 2 개의 그룹 n1,n2n1,n2n_1, n_2(이것은 다를 수 있음) 수천 개의 유사한 회귀 분석이 …

2
음 이항 분포 변수의 차이를 설명하는 분포?
Skellam 분포는 푸 아송 분포를 가진 두 변수 사이의 차이를 설명한다. 음의 이항 분포를 따르는 변수 간의 차이를 설명하는 유사한 분포가 있습니까? 내 데이터는 포아송 프로세스에 의해 생성되지만 상당한 양의 노이즈가 포함되어 분포가 과도하게 분산됩니다. 따라서 음 이항 (NB) 분포로 데이터를 모델링하면 효과적입니다. 이 두 NB 데이터 세트의 차이점을 모델링하려면 …

2
점별 상호 정보에 대한 경계가 주어진 경계 상호 정보
두 세트의 XXX 와 YYY 있고 이러한 세트 대한 결합 확률 분포 가 있다고 가정 합니다 p(x,y)p(x,y)p(x,y). 하자 p(x)p(x)p(x) 와 p(y)p(y)p(y) 위에 한계 분포 나타내는 XXX 및 YYY 각각있다. XXX 와 사이의 상호 정보 YYY는 다음 과 같이 정의됩니다 : I(X;Y)=∑x,yp(x,y)⋅log(p(x,y)p(x)p(y))I(X;Y)=∑x,yp(x,y)⋅log⁡(p(x,y)p(x)p(y))I(X; Y) = \sum_{x,y}p(x,y)\cdot\log\left(\frac{p(x,y)}{p(x)p(y)}\right) 즉, 이는 포인트 별 상호 정보 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.