통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A


3
Kullback-Leibler 분기와 비교하여 Wasserstein 지표의 장점은 무엇입니까?
Wasserstein 메트릭 과 Kullback-Leibler 발산 의 실제 차이점은 무엇입니까 ? Wasserstein 미터법은 Earth mover 's distance 라고도합니다 . Wikipedia에서 : Wasserstein (또는 Vaserstein) 메트릭은 주어진 메트릭 공간 M의 확률 분포 사이에 정의 된 거리 함수입니다. 과 Kullback–Leibler 분기는 하나의 확률 분포가 두 번째 예상 확률 분포와 어떻게 다른지 측정합니다. KL이 …

2
회귀 분석은 어떻게 작동합니까?
Quantile 회귀에 대한 직관적이고 접근 가능한 설명을 얻고 싶습니다. 결과 대한 간단한 데이터 세트 와 예측 변수 X 1 , X 2 가 있다고 가정 해 봅시다 .YYYX1,X2X1,X2X_1, X_2 예를 들어, 나는 .25, .5, .75에서 Quantile 회귀를 실행하고 β0,.25,β1,.25...β2,.75β0,.25,β1,.25...β2,.75\beta_{0,.25},\beta_{1,.25}...\beta_{2,.75} . 입니까 ββ\beta 값은 단순히 주문 발견 yyy 값을 주어진 분위수 …

1
lme에서 여러 개의 (임의의) 랜덤 효과 지정하기 [닫기]
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 7 개월 전 . R 패키지 nlme 및 lme4 에서 여러 랜덤 효과가있는 모델을 지정하려고했습니다. 나는 nlme 만이 분산의 이종 구조를 지정할 수 있음을 발견했습니다 . 따라서 …

3
범주 형 변수를 사용하여 로짓 회귀 분석의 교호 작용 항 해석
응답자가 네 그룹 중 하나에 무작위로 할당 된 설문 조사 실험의 데이터가 있습니다. > summary(df$Group) Control Treatment1 Treatment2 Treatment3 59 63 62 66 세 가지 치료 그룹은 적용되는 자극이 약간 다르지만, 내가 관심을 갖는 주요 차이점은 대조군과 치료 그룹 사이에 있습니다. 그래서 더미 변수를 정의했습니다 Control. > summary(df$Control) TRUE FALSE …

5
인과 분석 소개
인과 분석을 소개하는 좋은 책은 무엇입니까? 인과 분석의 원리를 설명하고 이러한 통계를 적용하기 위해 다양한 통계 방법을 사용할 수있는 방법을 소개하는 소개를 생각하고 있습니다.

3
다중 레이블 데이터의 정확성을 측정하는 방법은 무엇입니까?
KnownLabel 매트릭스 및 PredictedLabel 매트릭스가 제공되는 시나리오를 고려하십시오. KnownLabel 매트릭스에 대한 PredictedLabel 매트릭스의 장점을 측정하고 싶습니다. 그러나 여기서의 과제는 KnownLabel 매트릭스에는 하나의 행이 하나만 있고 다른 몇 행에는 많은 행이 있다는 것입니다 (이 인스턴스는 다중 레이블이 지정됨). KnownLabel 매트릭스의 예는 다음과 같습니다. A =[1 0 0 0 0 1 0 …

5
각 클러스터의 포인트 수가 동일한 클러스터링 절차?
점이 있습니다. . . , x n }X={x1,...,xn}X={x1,...,xn}X=\{x_1,...,x_n\} 에서 하고 포인트를 클러스터링하여 다음과 같이합니다.RpRpR^p 각 군집에는 동일한 수의 요소가 포함 됩니다. (클러스터 수가 나눈다 고 가정합니다 .)XXXnnn 각 군집은 평균 의 군집과 같은 의미에서 "공간적으로 응집력이 있습니다" .kkk 이 중 하나를 만족시키는 많은 클러스터링 절차를 생각하기는 쉽지만 누구나 한 번에 …


2
관측치가 복제 된 경우 표본의 분산이 변하는 이유는 무엇입니까?
분산은 스프레드의 척도라고합니다. 그래서 저는 숫자가 균등하게 3,5분산되어 3,3,5,5있기 때문에 분산이 분산과 같다고 생각했습니다 . 그러나 이것은 사실이 아니며, 분산 3,5은 2이고 분산은 3,3,5,5입니다 1 1/3. 분산이 스프레드의 척도라고 가정하면이 문제가 있습니다. 따라서, 그러한 맥락에서, 스프레드 측정은 무엇을 의미합니까?
25 variance 

2
벡터 회귀 작업은 직관적으로 어떻게 지원됩니까?
SVM의 모든 예는 분류와 관련이 있습니다. 회귀에 SVM (지원 벡터 회귀)을 사용하는 방법을 이해하지 못합니다. 내 이해에서 SVM은 두 클래스 사이의 마진을 최대화하여 최적의 초평면을 찾습니다. 회귀 문제에서 어떻게 작동합니까?
25 regression  svm 

2
10 배 교차 검증 대 휴가 일회성 교차 검증
중첩 된 교차 유효성 검사를 수행하고 있습니다. 일대일 교차 검증이 바이어스 될 수 있음을 읽었습니다 (이유를 기억하지 마십시오). leave-one-out 교차 검증을 위해 더 긴 런타임과 별도로 10 배 교차 검증 또는 leave-one-out 교차 검증을 사용하는 것이 더 낫습니까?

4
오버 샘플링, 언더 샘플링 및 SMOTE는 어떤 문제를 해결합니까?
최근에 잘 수신 된 질문에서 팀은 언제 머신 러닝에서 불균형 데이터가 실제로 문제 가 되는지 묻습니다 . 문제의 전제는 수업 균형 과 불균형 수업의 문제에 대해 많은 머신 러닝 문헌이 있다는 것입니다 . 아이디어는 긍정적 클래스와 부정적인 클래스 사이의 불균형이있는 데이터 세트가 일부 기계 학습 분류 (여기서는 확률 모델 포함) …


1
반 코시 분포의 특성은 무엇입니까?
현재 상태 공간 모델을위한 Markov chain Monte Carlo (MCMC) 알고리즘 을 개발해야하는 문제를 해결하고 있습니다. 문제를 해결할 수 있도록 다음과 같은 확률 : p ( τ ) = 2I ( τ > 0) / (1+ τ 2 )를 받았습니다 . τ 는 x 의 표준 편차입니다 .ττ\tauττ\tauττ\tauτ2τ2\tau^2ττ\tauxxx 그래서 나는 그것이 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.