통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

2
다중 레이블 분류기에서 scikit-learn의 교차 검증 기능을 사용하는 방법
5 개의 클래스가 있고 각 인스턴스가 하나 이상의 클래스에 속할 수있는 데이터 세트에서 다른 분류자를 테스트하고 있으므로 특히 scikit-learn의 다중 레이블 분류기를 사용하고 있습니다 sklearn.multiclass.OneVsRestClassifier. 이제를 사용하여 교차 유효성 검사를 수행하고 싶습니다 sklearn.cross_validation.StratifiedKFold. 다음과 같은 오류가 발생합니다. Traceback (most recent call last): File "mlfromcsv.py", line 93, in <module> main() File …

3
귀무 가설을 기각하기에 p- 값이 0.04993입니까?
Wilcoxon 부호있는 순위 통계적 유의성 검정에서 값이 일부 데이터를 . 의 임계 값으로 ,이 결과는 귀무 가설을 기각하기에 충분 합니까 , 또는 p- 값을 소수점 이하 3 자리로 반올림하면 이되기 때문에 검정이 결정적이지 않다고 말하는 것이 더 안전 합니까?0.04993 p &lt; 0.05 0.050피피p0.049930.049930.04993p &lt; 0.05피&lt;0.05p < 0.050.0500.0500.050

1
샌드위치 추정기 직감
Wikipedia 및 R 샌드위치 패키지 비네팅 은 OLS 계수 표준 오류를 지원하는 가정 및 샌드위치 추정기의 수학적 배경에 대한 유용한 정보를 제공합니다. 그래도 잔류 이분산성 문제가 어떻게 해결되는지는 아직 확실하지 않습니다. 아마도 표준 OLS 계수 분산 추정을 완전히 이해하지 못했기 때문일 것입니다. 샌드위치 견적 기의 직관은 무엇입니까?

2
반복 강화 학습이란?
나는 최근에 "반복 강화 학습"이라는 단어를 접했습니다. "Recurrent Neural Network"가 무엇인지, "Reinforcement Learning"이 무엇인지 이해하지만 "Recurrent Reinforcement Learning"이 무엇인지에 대한 많은 정보를 찾을 수 없었습니다. 누군가 "반복 강화 학습"이 무엇인지, 그리고 "반복 강화 학습"과 Q-Learning 알고리즘과 같은 일반적인 "강화 학습"의 차이점이 무엇인지 설명해 줄 수 있습니까?

2
자연 어딘가에 정상적인 곡선의 모양을 볼 수 있습니까?
자연의 일부 현상이 정규 분포를 갖는지 알고 싶지 않지만 Galton 상자에서 볼 수 있듯이 정상적인 곡선의 모양을 볼 수 있는지 여부를 알고 싶습니다. Wikipedia 에서이 그림을 참조하십시오 . 많은 수학적 모양이나 곡선은 자연에서 직접 볼 수 있습니다. 예를 들어, 황금 평균과 대수 나선 은 달팽이에서 찾을 수 있습니다. 첫 번째 …

3
Fisher 지표와 상대 엔트로피 간의 연결
누군가 순수하게 수학적으로 엄격한 방식으로 Fisher 정보 지표와 상대 엔트로피 (또는 KL 분기) 사이의 다음 연결을 증명할 수 있습니까 ? D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(∥da∥3)D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(‖da‖3)D( p(\cdot , a+da) \parallel p(\cdot,a) ) =\frac{1}{2} g_{i,j} \, da^i \, da^j + (O( \|da\|^3) 여기서 a=(a1,…,an),da=(da1,…,dan)a=(a1,…,an),da=(da1,…,dan)a=(a^1,\dots, a^n), da=(da^1,\dots,da^n) , gi,j=∫∂i(logp(x;a))∂j(logp(x;a)) p(x;a) dxgi,j=∫∂i(log⁡p(x;a))∂j(log⁡p(x;a)) p(x;a) dxg_{i,j}=\int \partial_i (\log p(x;a)) \partial_j(\log …

2
EM 알고리즘 수동 구현
나는 수동으로 EM 알고리즘을 구현하고 다음의 결과를 비교하려는 normalmixEM의 mixtools패키지로 제공된다. 물론 둘 다 동일한 결과를 이끌어 내면 기쁠 것입니다. 주요 참고 자료는 Geoffrey McLachlan (2000), 유한 혼합물 모델 입니다. 나는 두 가지 가우시안의 혼합 밀도를 가지고 있으며 일반적으로 로그 가능성은 (McLachlan 48 페이지)에 의해 제공됩니다. logLc(Ψ)=∑i=1g∑j=1nzij{logπi+logfi(yi;θi)}.log⁡Lc(Ψ)=∑i=1g∑j=1nzij{log⁡πi+log⁡fi(yi;θi)}. \log L_c(\Psi) = …

5
기대 극대화의 동기 부여 알고리즘
이 질문은 교차 검증에서 답변 될 수 있기 때문에 Mathematics Stack Exchange에서 마이그레이션 되었습니다. 6 년 전에 이주했습니다 . EM 알고리즘 접근법에서 Jensen의 부등식을 사용하여 logp(x|θ)≥∫logp(z,x|θ)p(z|x,θ(k))dz−∫logp(z|x,θ)p(z|x,θ(k))dzlog⁡p(x|θ)≥∫log⁡p(z,x|θ)p(z|x,θ(k))dz−∫log⁡p(z|x,θ)p(z|x,θ(k))dz\log p(x|\theta) \geq \int \log p(z,x|\theta) p(z|x,\theta^{(k)}) dz - \int \log p(z|x,\theta) p(z|x,\theta^{(k)})dz θ(k+1)θ(k+1)\theta^{(k+1)}θ(k+1)=argmaxθ∫logp(z,x|θ)p(z|x,θ(k))dzθ(k+1)=arg⁡maxθ∫log⁡p(z,x|θ)p(z|x,θ(k))dz\theta^{(k+1)}=\arg \max_{\theta}\int \log p(z,x|\theta) p(z|x,\theta^{(k)}) dz EM에서 읽은 모든 내용은 그냥 쓰러지지 …

3
선형 분리 성 테스트
높은 차원에서 2 클래스 데이터 세트의 선형 분리 성을 테스트하는 방법이 있습니까? 내 특징 벡터의 길이는 40입니다. 나는 항상 로지스틱 회귀 실험을 수행하고 두 클래스가 선형으로 분리 가능한지 여부를 결정하기 위해 적중률과 허위 경보 비율을 결정할 수 있지만 이미 표준 절차가 있는지 아는 것이 좋습니다.

4
연속 데이터를 모델링 할 때 포아송 분포는 어떻게 작동하며 정보 손실이 발생합니까?
한 동료가 불쾌한 이분산성을 가지고 논문에 대한 생물학적 데이터를 분석하고 있습니다 (아래 그림). 그녀는 혼합 모델로 분석하고 있지만 여전히 잔차에 문제가 있습니다. 응답 변수를 로그 변환하면 문제가 해결되고이 질문에 대한 피드백을 바탕으로 적절한 접근 방법 인 것 같습니다. 그러나 원래는 혼합 모델에서 변환 된 변수를 사용하는 데 문제가 있다고 생각했습니다. …

1
순위가 상관되어있는 경우에만 무작위 변수가 상관되어 있습니까?
X,YX,YX,Y 는 유한 한 두 번째 모멘트를 갖는 연속 랜덤 변수라고 가정합니다 . 스피어 만 순위 상관 계수의 인구 버전 확률 적분 값의 변환의 피어슨 적률 계수 ρ로 정의 될 수 과 , CDF를 년대있는 및 , 즉F X (X) F Y (Y) F X , F Y XYρ에스ρ에스ρ_s에프엑스( X)에프엑스(엑스)F_X(X)에프와이( …

4
정상 rv의 첨도 및 왜도를 증가시키는 변형
나는 관측 값 가 정규 분포 되어 있다는 사실에 의존하는 알고리즘을 연구하고 있으며 경험적 으로이 가정에 대한 알고리즘의 견고성을 테스트하고 싶습니다.와이YY 이를 위해 의 정규성을 점진적으로 중단시키는 일련의 변환 을 . 예를 들어, 가 정상 왜도 이고 첨도 이므로 점진적으로 증가하는 변형 순서를 찾는 것이 좋습니다.Y Y = 0 = …

1
임의의 숲 나무에 가지 치기가 필요하지 않은 이유는 무엇입니까?
Breiman은 나무가 가지 치기없이 자라고 있다고 말합니다. 왜? 무작위 숲의 나무가 가지 치지 않는 확실한 이유가 있어야한다고 말하고 싶습니다. 반면에 과도한 피팅을 피하기 위해 단일 의사 결정 트리를 제거하는 것이 매우 중요합니다. 이런 이유로 읽을 수있는 문헌이 있습니까? 물론 나무는 서로 연관되어 있지 않을 수 있지만 여전히 적합치가 높아질 수 …

1
libsvm“최대 반복 횟수에 도달”경고 및 교차 유효성 검사
C-SVC 모드에서 2 차 다항식 커널로 libsvm을 사용하고 있으며 여러 SVM을 훈련시켜야합니다. 각 트레이닝 세트에는 10 개의 기능과 5000 개의 벡터가 있습니다. 훈련하는 동안 훈련하는 대부분의 SVM에 대해이 경고가 표시됩니다. WARNING: reaching max number of iterations optimization finished, #iter = 10000000 누군가이 경고가 의미하는 바를 설명하고 어떻게 피할 수 있습니까? …

3
반응이 네 번째 근본으로 변환 될 때 회귀 계수를 해석하는 방법은 무엇입니까?
1/4이 분산의 결과로 응답 변수에 네 번째 근 ( ) 전력 변환을 사용하고 있습니다. 그러나 이제 회귀 계수를 해석하는 방법을 모르겠습니다. 역변환 할 때 계수를 네 번째 거듭 제곱으로 가져와야한다고 가정합니다 (회귀 출력 참조). 모든 변수는 수백만 달러로 표시되지만 수십억 달러의 변화를 알고 싶습니다. 다른 독립 변수를 일정하게 유지하면서 평균 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.