통계 및 빅 데이터

4

임의의 숲은 다양한 작업에서 상당히 잘 수행되는 것으로 잘 알려져 있으며 학습 방법 의 가죽 인 이라고 합니다 . 임의 포리스트 사용을 피해야하는 문제 유형이나 특정 조건이 있습니까?

25 machine-learning classification random-forest

2

예를 들어 Bayes 분류기를 통해 감독 된 통계 분류 작업에 대한 데이터 집합이 있다고 가정합니다. 이 데이터 세트는 20 개의 피쳐로 구성되며 PCA (Principal Component Analysis) 및 / 또는 LDA (Linear Discriminant Analysis)와 같은 차원 축소 기법을 통해 2 가지 피쳐로 요약하려고합니다. 두 기술 모두 데이터를 더 작은 피쳐 하위 …

25 classification pca regularization discriminant-analysis overfitting

7

기계 학습 과학자의 일상적인 직업은 무엇입니까?

저는 독일 대학에서 CS 논문을 공부하고 있습니다. 2 개월 안에 박사 학위를 계속하거나 업계에서 일자리를 구해야한다면 매우 어려운 결정을 내려야합니다. 박사 학위를 취득한 이유 : 나는 호기심이 사람이야 그리고 내가 아직 부족한 느낌이 너무 많은 지식을. 더 많은 것을 배우고 싶습니다. 더 많은 과정을 수강하고 수많은 논문을 읽을 수 있으며 …

25 machine-learning data-mining careers

4

교차 유효성 검사 후 '테스트'데이터 집합을 어떻게 사용합니까?

내가 본 일부 강의 및 자습서 에서는 데이터를 교육, 유효성 검사 및 테스트의 세 부분으로 나누는 것이 좋습니다. 그러나 테스트 데이터 세트를 어떻게 사용해야하는지, 전체 데이터 세트에 대해 교차 검증보다이 방법이 더 나은 방법은 명확하지 않습니다. 데이터의 20 %를 테스트 세트로 저장했다고 가정 해 봅시다. 그런 다음 나머지를 가져 와서 …

25 machine-learning cross-validation validation

3

회귀 분석에서 능선 정규화 해석

최소 제곱 컨텍스트에서 능선 벌금에 관한 몇 가지 질문이 있습니다. βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1)이 식은 X의 공분산 행렬이 대각 행렬로 축소되었음을 나타냅니다. 즉, 변수가 절차 전에 표준화되었다고 가정하면 입력 변수 간의 상관 관계가 낮아집니다. 이 해석이 맞습니까? 2) 수축 적용 인 경우 정규화를 통해 람다를 어떻게 든 …

25 regression pca regularization ridge-regression

2

절편과 기울기에 대한 OLS 추정기 간의 상관

간단한 회귀 모형에서 y=β0+β1x+ε,y=β0+β1x+ε, y = \beta_0 + \beta_1 x + \varepsilon, OLS 추정기 및 은 서로 관련되어 있습니다.ββ^OLS0β^0OLS\hat{\beta}_0^{OLS}β^OLS1β^1OLS\hat{\beta}_1^{OLS} 두 추정기 사이의 상관 관계 공식은 다음과 같습니다. Corr(β^OLS0,β^OLS1)=−∑ni=1xin−−√∑ni=1x2i−−−−−−−√.Corr⁡(β^0OLS,β^1OLS)=−∑i=1nxin∑i=1nxi2. \operatorname{Corr}(\hat{\beta}_0^{OLS},\hat{\beta}_1^{OLS}) = \frac{-\sum_{i=1}^{n}x_i}{\sqrt{n} \sqrt{\sum_{i=1}^{n}x_i^2} }. 질문 : 상관의 존재에 대한 직관적 인 설명은 무엇입니까? 상관 관계의 존재에 중요한 의미가 있습니까? 게시물이 편집 …

25 regression least-squares estimators

3

편향된 최대 우도 추정치의 직관적 추론

바이어스 최대 가능성 (ML) 추정값 에 혼란이 있습니다 . 전체 개념의 수학은 나에게는 분명하지만, 그 배후의 직관적 추론을 알아낼 수는 없습니다. 분포에서 추출한 표본이있는 특정 데이터 세트 (자체가 우리가 추정하고자하는 매개 변수의 함수 임)를 고려할 때 ML 추정기는 데이터 세트를 생성 할 가능성이 가장 높은 매개 변수의 값을 산출합니다. 나는 …

25 maximum-likelihood bias

5

혼합 선형 모델에서 다중 공선 성을 테스트하고 피하는 방법은 무엇입니까?

현재 혼합 효과 선형 모델을 사용하고 있습니다. R에서 "lme4"패키지를 사용하고 있습니다. 내 모델은 다음과 같은 형식을 취합니다. model <- lmer(response ~ predictor1 + predictor2 + (1 | random effect)) 모형을 실행하기 전에 예측 변수 간의 가능한 다중 공선 성을 확인했습니다. 나는 이것을함으로써 이것을했다 : 예측 변수의 데이터 프레임 만들기 dummy_df …

25 r correlation mixed-model lme4-nlme multicollinearity

3

계층 적 군집 분석의 덴드로 그램을 해석하는 방법

아래의 R 예를 고려하십시오. plot( hclust(dist(USArrests), "ave") ) y 축 "높이"는 정확히 무엇을 의미합니까? 노스 캐롤라이나와 캘리포니아 (왼쪽이 아닌)를 봅니다. 캘리포니아는 애리조나보다 노스 캐롤라이나와 "가까이"있습니까? 이 해석을 할 수 있습니까? 하와이 (오른쪽)가 클러스터에 다소 늦게 참여합니다. 다른 주보다 "높은"것으로 볼 수 있습니다. 일반적으로 덴드로 그램에서 레이블이 "높은"또는 "낮은"사실을 어떻게 해석 …

25 interpretation hierarchical-clustering dendrogram

4

R에서 가정 lmer / lme 혼합 모델 확인

반복 된 디자인을 실행하여 세 가지 작업에서 30 명의 남성과 30 명의 여성을 테스트했습니다. 나는 남성과 여성의 행동이 어떻게 다른지 그리고 그것이 어떻게 과제에 달려 있는지 이해하고 싶습니다. 나는 이것을 조사하기 위해 lmer와 lme4 패키지를 모두 사용했지만 두 가지 방법에 대한 가정을 확인하려고 노력하고 있습니다. 내가 실행하는 코드는 lm.full <- …

25 r mixed-model assumptions lme4-nlme

1

"커널 밀도 추정"은 무엇의 컨볼 루션입니까?

커널 밀도 추정에 대해 더 잘 이해하려고합니다. Wikipedia의 정의 사용 : https://en.wikipedia.org/wiki/Kernel_density_estimation#Definition 에프h^( x ) = 1엔∑엔나는 = 1케이h( x − x나는)= 1N 시간∑엔나는 = 1케이( x − x나는h)fh^(x)=1n∑i=1nKh(x−xi)=1nh∑i=1nK(x−xih) \hat{f_h}(x) = \frac{1}{n}\sum_{i=1}^n K_h (x - x_i) \quad = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big) 하자 걸릴 제공하는 직사각형의 함수로 경우에 사이 및 및 …

25 r kernel-smoothing convolution

2

예측에 R prcomp 결과를 사용하는 방법은 무엇입니까?

800 obs가있는 data.frame이 있습니다. 40 개의 변수 중 하나이며 Principle Component Analysis를 사용하여 내 예측 결과를 향상 시키려고합니다 (지금까지는 15 가지 수동 변수에서 Support Vector Machine과 가장 잘 작동 함). prcomp가 예측 향상에 도움이 될 수 있음을 이해하지만 prcomp 함수의 결과를 사용하는 방법을 모르겠습니다. 결과를 얻습니다. > PCAAnalysis <- prcomp(TrainTrainingData, …

25 r pca

2

R의 포아송 분포를 따르는 데이터를 아는 방법?

저 학년생이며 확률 수업을위한 프로젝트가 있습니다. 기본적으로 저는 몇 년 동안 우리나라에 영향을 준 허리케인에 대한 데이터 세트를 가지고 있습니다. 확률 책 (Probability and Statistics with R)에는 데이터가 포아송 분포를 따르는 지 확인하는 방법에 대한 (완료되지 않은) 예가 있습니다. 120 (기준) 122-123 페이지 예) 1- 겹치지 않는 간격의 결과 수는 …

25 r self-study poisson-distribution poisson-process

5

강한 상관 관계가있는 큰 전체 순위 랜덤 상관 행렬을 생성하는 방법은 무엇입니까?

나는 임의의 상관 행렬을 생성하고자하는 의 크기와 같은 일부 적당히 강한 상관 관계가 존재가 있음 : N × NCC\mathbf Cn×nn×nn \times n 크기 의 제곱 실수 대칭 행렬 , 예를 들어 ;n = 100n×nn×nn \times nn=100n=100n=100 양의 한정된, 즉 모든 고유 값이 실제적이고 양인 경우; 풀 랭크; 모든 대각선 요소는 …

25 random-generation covariance-matrix correlation-matrix

3

LSA 및 PCA (문서 클러스터링)

문서 클러스터링에 사용되는 다양한 기술을 조사하고 있으며 PCA (주요 구성 요소 분석) 및 LSA (잠재적 의미 분석)와 관련된 몇 가지 의문을 해결하고 싶습니다. 첫 번째-차이점은 무엇입니까? PCA에서 SVD 분해는 항 공분산 행렬에 적용되는 반면 LSA에서는 항 문서 행렬입니다. 다른 것이 있습니까? 둘째-문서 클러스터링 절차에서 그들의 역할은 무엇입니까? 지금까지 읽은 내용을 …

25 clustering pca data-mining svd lsa