통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

1
정서 분석에 단락 벡터를 사용한보고 된 최신 성능이 복제 되었습니까?
Le and Mikolov 의 ICML 2014 논문 " 문장 및 문서의 분산 표현 "의 결과에 깊은 인상을 받았습니다 . "문단 벡터"라고 부르는 기술은 word2vec 모델의 확장을 기반으로 임의로 긴 단락 / 문서의 감독되지 않은 표현을 학습합니다. 이 문서는이 기술을 사용하여 감정 분석에 대한 최신 성능을보고합니다. 나는 전통적인 단어 분류 표현의 …

2
이 acf 및 pacf 플롯을 해석하는 방법
다음은 월별 데이터 계열의 acf 및 pacf 플롯입니다. 두 번째 줄거리는 ci.type = 'ma'인 acf입니다. acf 플롯에서 높은 값의 지속성은 장기간 긍정적 인 경향을 나타냅니다. 이것이 계절 변동을 나타내는 지에 대한 질문입니다. 이 주제에서 다른 사이트를 보려고했지만 이러한 도표가 계절성을 나타내는 지 확실하지 않습니다. ACF 및 PACF 플롯 분석 ACF- …

4
교차 검증 외부에서 하이퍼 파라미터 튜닝이 얼마나 나쁩니 까?
크로스 밸리데이션 외부에서 하이퍼 파라미터 튜닝을 수행하면 성능을 측정하는 데 사용하는 데이터 세트가 기능을 튜닝하는 데 사용한 것과 동일하므로 바이어스 유효성이 높은 외부 유효성 추정치가 발생할 수 있습니다. 내가 궁금한 것은 이것이 얼마나 나쁜 문제인지 입니다. 튜닝 할 매개 변수가 매우 많기 때문에 기능 선택이 실제로 얼마나 나쁜지 이해할 수 …

6
"평균"의 일부 일반화에 대한 중앙값은 평균의 유형입니까?
"평균"이라는 개념은 전통적인 산술 평균보다 훨씬 넓습니다. 중앙값을 포함하도록 확장됩니까? 유추하여 원시 데이터 ⟶신분증원시 데이터 ⟶평균원시 평균 ⟶신분증− 1산술 평균원시 데이터 ⟶수령상호 ⟶평균상호 평균 ⟶수령− 1고조파 평균원시 데이터 ⟶로그로그 ⟶평균평균 로그 ⟶로그− 1기하 평균원시 데이터 ⟶광장사각형 ⟶평균평균 평방 ⟶광장− 1제곱 평균 제곱원시 데이터 ⟶계급⟶ 순위평균평균 순위 ⟶계급− 1중앙값raw data⟶idraw data⟶meanraw …
20 mean  average  median 

1
BLUP (Best Linear Unbiased Predictor)의 추정값이 BLUE (Best Linear Unbiased Estimator)와 다른 이유는 무엇입니까?
이들의 차이점은 모델의 그룹화 변수가 고정 효과 또는 랜덤 효과로 추정되는지 여부와 관련이 있다는 것을 이해하지만, 왜 그들이 동일하지 않은지 명확하지 않습니다 (동일하지 않은 경우). 작은 면적 추정을 사용할 때 이것이 어떻게 작동하는지에 특히 관심이 있습니다.하지만 관련이있는 경우 문제는 고정 및 임의 효과의 적용과 관련이 있다고 생각합니다.

2
PCA에 비해 SVD의 장점이 있습니까?
나는 PCA와 SVD를 수학적으로 계산하는 방법을 알고 있으며, 둘 다 선형 최소 제곱 법 회귀에 적용 할 수 있다는 것을 알고 있습니다. SVD의 주요 장점은 수학적으로 비 제곱 행렬에 적용될 수 있다는 것입니다. 둘 다 행렬 의 분해에 중점을 둡니다 . 언급 된 SVD의 이점 외에, PCA를 통해 SVD를 사용하여 …
20 pca  least-squares  svd 

2
요인 점수를 계산하는 방법 및 PCA 또는 요인 분석에서 "점수 계수"매트릭스는 무엇입니까?
내 이해에 따르면, 상관 관계에 기반한 PCA에서는 변수와 요인 사이의 상관 관계에 불과한 요인 (이 경우 주요 구성 요소) 로딩을 얻습니다. 이제 SPSS에서 요인 점수 를 생성해야 할 때 각 요인에 대한 각 응답자의 요인 점수를 직접 얻을 수 있습니다. 또한 SPSS에서 생성 한 " 구성 요소 점수 계수 행렬 …

1
한계 효과의 표준 오차에 델타 방법을 사용하는 방법은 무엇입니까?
교호 작용 항을 포함하는 회귀 모형의 평균 한계 효과의 표준 오차를 근사화하기위한 델타 방법을 더 잘 이해하고 싶습니다. 델타 방법 에서 관련 질문을 살펴 보았지만 원하는 것을 찾지 못했습니다. 동기 부여 예제로 다음 예제 데이터를 고려하십시오. set.seed(1) x1 <- rnorm(100) x2 <- rbinom(100,1,.5) y <- x1 + x2 + x1*x2 …

2
깁스 샘플링 및 일반 MH-MCMC
나는 Gibbs 샘플링과 Metropolis Hastings 알고리즘에 대해 약간의 독서를하고 있으며 몇 가지 질문이 있습니다. 내가 이해하는 것처럼 Gibbs 샘플링의 경우 큰 다변량 문제가있는 경우 조건부 분포에서 샘플링합니다. 즉, 하나의 변수는 샘플링하고 다른 변수는 모두 고정하고 MH에서는 전체 관절 분포에서 샘플링합니다. 문서가 말한 한 가지는 제안 된 샘플이 Gibbs Sampling에서 항상 …

1
R의 선형 회귀 분석에서 평균 제곱 오차 값을 얻는 방법
R 함수 lm으로 얻은 선형 회귀 모델에 평균 제곱 오차 명령으로 얻을 수 있는지 알고 싶습니다. 예제의 FOLLOWING 출력이 있습니다. > lm <- lm(MuscleMAss~Age,data) > sm<-summary(lm) > sm Call: lm(formula = MuscleMAss ~ Age, data = data) Residuals: Min 1Q Median 3Q Max -16.1368 -6.1968 -0.5969 6.7607 23.4731 Coefficients: Estimate …
20 r  regression  error 

3
일부 값에 대한 테스트 모델 계수 (회귀 기울기)
I는 (일반) 선형 모델이 때 R에서, ( lm, glm, gls, glmm, ...), 방법 I가 0 이외의 값과 계수 (회귀 기울기)을 테스트 할 수 있을까? 모델 요약에서 계수의 t- 검정 결과는 자동으로보고되지만 0과 비교하기 위해서만 사용됩니다. 다른 값과 비교하고 싶습니다. 나는 reparametrizing y ~ x과 함께 트릭을 사용할 수 있다는 것을 …
20 r  regression  t-test 

2
선형 변환 후 랜덤 벡터의 공분산
경우 임의의 벡터이고, 고정 된 행렬이고, 누군가가 설명 할 수있는 이유지지\mathbf {Z}에이에이Ac o v [A Z ]=A c o v [ Z ] A⊤.기음영형V[에이지]=에이기음영형V[지]에이⊤.\mathrm{cov}[A \mathbf {Z}]= A \mathrm{cov}[\mathbf {Z}]A^\top.
20 covariance 

4
비지도 클러스터링을위한 의사 결정 트리와 유사한 알고리즘이 있습니까?
A, B, C, D, E의 5 가지 기능으로 구성된 데이터 집합이 있습니다. 모두 숫자 값입니다. 밀도 기반 클러스터링을 수행하는 대신 의사 결정 트리와 같은 방식으로 데이터를 클러스터링하는 것이 좋습니다. 내가 의미하는 접근 방식은 다음과 같습니다. 알고리즘은 특징 C에 기초하여 데이터를 X 초기 클러스터로 분할 할 수있다. 즉, X 클러스터는 작은 …

2
딥 러닝은 어디서 그리고 왜 빛을 발합니까?
요즘 모든 미디어가 딥 러닝에 대해 이야기하고 과대 광고를하면서 몇 가지 기본적인 내용을 읽었습니다. 방금 데이터에서 패턴을 배우는 것이 또 다른 기계 학습 방법이라는 것을 알았습니다. 그러나 내 질문은 :이 방법은 어디에서 왜 빛나는가? 왜 모든 얘기를 지금하는거야? 즉 소란은 무엇입니까?

2
올가미 회귀의 제한되지 않은 제형에 대한 KKT
L1 불이익 회귀 (일명 올가미)는 두 가지 제형으로 제공됩니다. 두 목적 함수를 그런 다음 두 가지 다른 공식은 은 및 KKT (Karush-Kuhn-Tucker) 조건을 사용하면 첫 번째 공식의 정상 상태가 두 번째 공식의 기울기를 가져 와서 0으로 설정하는 것과 어떻게 동등한 지 쉽게 알 수 있습니다. , 첫 번째 공식에 대한 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.