«regression» 태그된 질문

하나 이상의 "종속"변수와 "독립"변수 간의 관계를 분석하는 기술.


3
조정 된 R- 제곱이 모형을 더 잘 예측하는 경우 조정 된 R- 제곱이 R- 제곱보다 작은 이유는 무엇입니까?
내가 이해하는 한, 아르 자형2아르 자형2R^2 는 모델이 관측 값을 얼마나 잘 예측하는지 설명합니다. 조정 된 는 더 많은 관측치 (또는 자유도)를 고려한 것입니다. 따라서 조정 된 는 모형을 더 잘 예측합니까? 그렇다면 왜 보다 작 습니까? 종종 더 많을 것 같습니다.R 2아르 자형2아르 자형2R^2아르 자형2아르 자형2R^2아르 자형2아르 자형2R^2


7
임의의 숲이 과적 합
scikits-learn에서 Random Forest Regression을 사용하려고합니다. 문제는 테스트 오류가 매우 높다는 것입니다. train MSE, 4.64, test MSE: 252.25. 내 데이터 모양은 다음과 같습니다. (파란색 : 실제 데이터, 초록색 : 예측 됨) : 훈련에 90 %, 시험에 10 %를 사용하고 있습니다. 이것은 여러 매개 변수 조합을 시도한 후 사용중인 코드입니다. rf = …

1
변수 내 오류 회귀 : 세 사이트의 데이터를 풀링하는 것이 유효합니까?
FDA 검토자가 사이트의 데이터를 풀링 할 때 두 사이트에 일부 샘플이 포함 된 3 개 사이트의 풀링 데이터가 포함되어 있기 때문에 FDA 검토자가 해당 변수의 오류 회귀가 유효하지 않다고 말했기 때문에 최근에 고객이 부트 스트랩 분석을 수행하게되었습니다. 똑같다. 배경 고객은 기존의 승인 된 방법과 "동등한"방법을 보여주고 자하는 새로운 분석 방법을 …

3
가장 강력한 상관 관계가있는 데이터 포인트의 하위 집합을 선택하는 자동 절차?
상관 관계가 가장 큰 (2 차원 만) 더 큰 풀에서 데이터 포인트의 하위 집합을 선택하기위한 표준 절차 (예 : 참조로 인용 할 수 있음)가 있습니까? 예를 들어 100 개의 데이터 포인트가 있다고 가정합니다. X 및 Y 치수를 따라 가능한 가장 강한 상관 관계가있는 40 점의 하위 집합을 원합니다. 이 작업을 …

2
다른 조정
나는 다음과 같이 제안 된 조정 R- 제곱 공식을 염두에 두었다. 에스겔 (1930 년)은 현재 SPSS에서 사용되는 것으로 생각합니다. R2adjusted=1−(N−1)(N−p−1)(1−R2)Radjusted2=1−(N−1)(N−p−1)(1−R2)R^2_{\rm adjusted} = 1 - \frac{(N-1)}{(N-p-1)} (1-R^2) 올킨과 프랫 (1958) R2unbiased=1−(N−3)(1−R2)(N−p−1)−2(N−3)(1−R2)2(N−p−1)(N−p+1)Runbiased2=1−(N−3)(1−R2)(N−p−1)−2(N−3)(1−R2)2(N−p−1)(N−p+1)R^2_{\rm unbiased} = 1 - \frac{(N-3)(1-R^2)}{(N-p-1)} - \frac{2(N-3)(1-R^2)^2}{(N-p-1)(N-p+1)} 어떤 상황에서 (있는 경우) '편향되지 않은' '조정 된'을 선호해야 합니까?R2R2R^2 참고 문헌 에스겔, …

2
대규모 데이터 세트에 대한 유의 수준을 선택하는 방법은 무엇입니까?
N이 약 200,000 인 데이터 세트로 작업하고 있습니다. 회귀에서, 매우 작은 효과 크기와 관련된 매우 작은 유의성 값 << 0.001, 예를 들어 r = 0.028을보고 있습니다. 내가 알고 싶은 것은 표본 크기와 관련하여 적절한 유의성 임계 값을 결정하는 원칙적인 방법이 있습니까? 이러한 큰 샘플로 효과 크기를 해석 할 때 고려해야 …


4
회귀 모수에 대한 신뢰 구간 : 베이지안 대 고전
길이 n의 두 배열 x와 y가 주어지면 모델 y = a + b * x에 적합하고 기울기에 대한 95 % 신뢰 구간을 계산하려고합니다. 이것은 (b-델타, b + 델타)이며 여기서 b는 일반적인 방식으로 발견됩니다. delta = qt(0.975,df=n-2)*se.slope se.slope는 기울기의 표준 오차입니다. R에서 기울기의 표준 오차를 얻는 한 가지 방법은 summary(lm(y~x))$coef[2,2]입니다. 이제 …

5
가격을 모델링하는 방법?
나는 matemathics stackexchange site 에서이 질문 을했고 여기에서 물어볼 것을 권장했다. 취미 프로젝트를 진행 중이며 다음 문제에 대한 도움이 필요합니다. 약간의 맥락 기능과 가격에 대한 설명이있는 항목 모음이 있다고 가정 해 봅시다. 자동차와 가격 목록을 상상해보십시오. 모든 자동차에는 엔진 크기, 색상, 마력, 모델, 연도 등 기능 목록이 있습니다. 각 제조업체마다 …

5
여러 회귀 분석을 사용하여 여러 다른 PC에서 하나의 주성분 (PC)을 예측할 수 있습니까?
얼마 전 R-help 메일 링리스트의 사용자가 회귀에서 PCA 점수를 사용하는 건전성에 대해 물었습니다. 사용자는 일부 PC 점수를 사용하여 다른 PC의 변형을 설명하려고합니다 (자세한 내용은 여기 참조 ). 대답은 아니요, PC가 서로 직교하기 때문에 소리가 들리지 않는다는 것입니다. 누군가 이것이 왜 더 자세하게 설명 할 수 있습니까?
15 regression  pca 


5
선형 회귀 분석에서 가정의 필요성은 무엇입니까?
선형 회귀 분석에서 다음과 같은 가정을합니다. 예측 변수의 각 값 집합에서 반응의 평균 는 예측 변수의 선형 함수입니다.E(Yi)E(Yi)E(Y_i)(x1i,x2i,…)(x1i,x2i,…)(x_{1i}, x_{2i},…) 오류 εiεiε_i 는 독립적입니다. 예측 변수의 각 값 세트 (x_ {1i}, x_ {2i},…) 에서 오류 ε_i 는 정규 분포입니다.εiεiε_i(x1i,x2i,…)(x1i,x2i,…)(x_{1i}, x_{2i},…) 오류, εiεiε_i 예측기 값들의 각 세트에서, (x1i,x2i,…)(x1i,x2i,…)(x_{1i}, x_{2i},…) , 같음 (편차를 …

4
능선 회귀의 동등한 공식 증명
통계 학습에서 가장 인기있는 책을 읽었습니다 1- 통계 학습의 요소. 2- 통계 학습 소개 . 둘 다 능선 회귀에는 동등한 두 가지 공식이 있다고 언급합니다. 이 결과에 대해 이해할만한 수학적 증거가 있습니까? 나는 또한 Cross Validated를 겪었 지만 거기에서 확실한 증거를 찾을 수 없습니다. 또한 LASSO는 동일한 유형의 증명을 누릴 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.