통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

2
회귀 분석의 Wald 테스트 (OLS 및 GLM) : t- vs. z- 분포
회귀 계수에 대한 Wald 검정은 무증상으로 유지되는 다음 특성을 기반으로한다는 것을 이해합니다 (예 : Wasserman (2006) : All of Statistics , 153, 214-215) : 여기서 는 추정 회귀 계수, 은 회귀 계수의 표준 오차를 나타내고 은 관심 값입니다 ( 은 계수가 0과 크게 다릅니다. 크기 그래서 월드 테스트는 다음과 같습니다 …

3
Lars와 Glmnet은 왜 Lasso 문제에 대해 다른 솔루션을 제공합니까?
R 패키지 Lars와 GlmnetLasso 문제를 해결하는 데 사용되는 R 패키지를 더 잘 이해하고 싶습니다 . ( 변수 및 샘플의 경우, 참조 www.stanford.edu/~hastie/Papers/glmnet.pdf를 ) 3 페이지pN해요 난 N( β0β) ∈ Rp + 1[ 12 N∑나는 = 1엔( y나는− β0− x티나는β)2+ λ | | β| |엘1]엠나는엔(β0β)∈아르 자형피+1[12엔∑나는=1엔(와이나는−β0−엑스나는티β)2+λ||β||엘1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + …

8
특징 별 데이터가 아닌 거리 행렬만으로 K- 평균 (또는 가까운 친척) 클러스터링 수행
내가 가진 객체에서 K- 평균 군집화를 수행하고 싶지만 객체가 공간의 포인트, 즉 objects x features데이터 세트 로 설명되지 않습니다 . 그러나 두 객체 사이의 거리를 계산할 수 있습니다 (유사 기능을 기반으로 함). 그래서 나는 거리 행렬을 폐기합니다 objects x objects. 이전에 K- 평균을 구현했지만 포인트 데이터 세트 입력이있었습니다. 거리 매트릭스 …

4
Angry Birds를 플레이하기위한 머신 러닝 시스템을 어떻게 설계 하시겠습니까?
너무 많은 앵그리 버드를 플레이 한 후, 나는 내 전략을 관찰하기 시작했습니다. 각 레벨에서 별 3 개를 얻는 데 매우 구체적인 접근 방식을 개발 한 것으로 나타났습니다. 앵그리 버드를 플레이 할 수있는 머신 러닝 시스템을 개발해야하는 어려움에 대해 궁금해했습니다. 게임과 상호 작용하고 새를 시작하는 것은 사소한 일입니다. 그러나 제가 가진 …

1
상호 작용에 대한 클래스 내 상관 관계 (ICC)?
각 사이트의 각 주제에 대해 약간의 측정이 있다고 가정합니다. 주제 및 사이트라는 두 가지 변수가 클래스 내 상관 (ICC) 값을 계산하는 데 관심이 있습니다. 일반적으로 lmerR package의 함수 를 사용 lme4하고 실행합니다. lmer(measurement ~ 1 + (1 | subject) + (1 | site), mydata) ICC 값은 위 모델의 랜덤 효과에 …

3
AIC 또는 p- 값 : 모델 선택을 위해 어떤 것을 선택해야합니까?
나는이 R 일에 익숙하지 않지만 어떤 모델을 선택 해야할지 확실하지 않습니다. 가장 낮은 AIC를 기반으로 각 변수를 선택 하는 단계적 회귀 분석 을 수행했습니다. 나는 어느 것이 "최고"인지 확신 할 수없는 3 가지 모델을 생각 해냈다. Model 1: Var1 (p=0.03) AIC=14.978 Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = …

2
상자 그림을 생성 할 수 있도록 많은 수의 샘플을 설명하는 일련의 통계를 누적 할 수 있습니까?
통계 전문가가 아니라 실습 소프트웨어 개발자이며 대학 통계 강의가 아주 오래 전에 있었다는 것을 즉시 분명히해야합니다 . 즉, 상자 그림을 생성하는 데 사용할 수있는 일련의 설명 통계를 축적하는 방법이 있는지 알고 싶습니다. 개별 샘플을 저장하지 않아도됩니까? 내가하려고하는 일은 복잡한 다중 대기열 프로세스 내에서 대기열 서비스 시간을 그래픽으로 요약 한 것입니다. …

4
Leave-one-Out 교차 검증에 대한 Shao의 결과는 언제 적용됩니까?
Jun Shao는 그의 논문 인 Cross-Validation에 의한 Linear Model Selection 에서 다변량 선형 회귀 분석에서 변수 선택 문제에 대해 LOOCV (Leave-One-Out Cross Validation) 방법이 '무증상 일관성이 없음'을 보여줍니다. 일반 영어에서는 변수가 너무 많은 모델을 선택하는 경향이 있습니다. 시뮬레이션 연구에서 Shao는 40 개의 관측치조차도 LOOCV가 다른 교차 검증 기술보다 성능이 떨어질 …

1
랜덤 변수에 의해 생성 된 -algebra 는 무엇을 의미 합니까?
종종 (자체) 통계 연구 과정에서 " 임의 변수에 의해 생성 된 -algebra "라는 용어를 만났습니다 . 나는 Wikipedia에 대한 정의를 이해하지 못하지만 가장 중요한 것은 그 뒤에 직관을 얻지 못한다는 것입니다. 왜 / 언제 무작위 변수에 의해 생성 된 대수학이 필요 합니까? 그들의 의미는 무엇입니까? 나는 다음을 알고있다 :σσ\sigmaσ−σ−\sigma- 세트의 …

3
이미지 형식 (png, jpg, gif)이 이미지 인식 신경망의 훈련 방법에 영향을 줍니까?
나는 깊고 회선이 많은 신경망으로 이미지 인식, 이미지 분류 등과 관련하여 많은 발전이 있었다는 것을 알고 있습니다. 그러나 PNG 이미지와 같이 그물을 훈련하면 인코딩 된 이미지 에만 작동 합니까? 다른 이미지 속성 이 이것에 영향을 줍니까? (알파 채널, 인터레이스, 해상도 등?)


5
선형 모형의 가정 및 잔차가 정규 분포가 아닌 경우 수행 할 작업
선형 회귀의 가정이 무엇인지 조금 혼란 스럽습니다. 지금까지 나는 여부를 확인했다. 모든 설명 변수는 응답 변수와 선형으로 상관됩니다. (이 경우였다) 설명 변수 사이에 공선 성이있었습니다. (공동성이 거의 없었습니다). 내 모델의 데이터 포인트의 Cook 거리가 1 미만입니다 (이 경우 모든 거리가 0.4 미만이므로 영향 지점이 없음). 잔차는 정규 분포입니다. (이것이 아닐 …

2
시계열을 클러스터링하는 방법?
클러스터 분석에 대한 질문이 있습니다. 5 년 동안 전력 사용량에 따라 클러스터링해야하는 3000 개의 회사가 있습니다. 각 회사는 5 년 동안 1 시간마다 값을 갖습니다. 일부 회사에서 일정 기간 동안 동일한 사용 전력 패턴을 갖고 있는지 확인하고 싶습니다. 결과는 전력 사용량을 매일 예측하는 데 사용해야합니다. SPSS에서 시계열을 클러스터링하는 방법에 대한 …

5
회귀 분석에서 불균형 데이터 샘플링
분류 컨텍스트 에서 불균형 데이터 처리에 대한 좋은 질문이 있었지만 회귀 분석을 위해 사람들이 무엇을하는지 궁금합니다. 문제 영역이 부호에 매우 민감하지만 목표의 크기에만 다소 민감하다고 가정하십시오. 그러나 크기는 분류가 아닌 회귀 (연속 목표) 여야합니다 (양성 클래스와 음수 클래스). 그리고이 문제 영역에서 모든 훈련 데이터는 긍정적 인 목표보다 10 배 더 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.