«data-transformation» 태그된 질문

종종 비선형 인 데이터 값의 수학적 재 표현. 데이터는 종종 통계 모델의 가정을 충족 시키거나 분석 결과를보다 해석하기 쉽도록 변환합니다.

2
선형성을 달성하기 위해 최상의 변형을 선택하는 방법은 무엇입니까?
여러 선형 회귀 분석을 한 다음 외삽이 거의없는 새로운 값을 예측하고 싶습니다. 내 반응 변수는 -2에서 +7까지의 범위와 세 개의 예측 변수 (약 +10-+200 범위)입니다. 분포는 거의 정상입니다. 그러나 반응과 예측 변수 사이의 관계는 선형이 아니며 플롯에서 곡선을 볼 수 있습니다. 예를 들면 다음과 같습니다. http://cs10418.userapi.com/u17020874/153949434/x_9898cf38.jpg 선형성을 달성하기 위해 변환을 …

3
선형 모형 이분산성
다음 선형 모델이 있습니다. 잔차 이분산성을 해결하기 위해 과 같은 종속 변수에 로그 변환을 적용하려고 시도했지만 잔차 에 동일한 팬 아웃 효과가 여전히 표시됩니다. DV 값은 상대적으로 작기 때문에이 경우에는 로그를 가져 오기 전에 +1 상수 더하기가 적절하지 않을 수 있습니다.log(Y+1)log⁡(Y+1)\log(Y + 1) > summary(Y) Min. :-0.0005647 1st Qu.: 0.0001066 …

4
선형 회귀 분석에서 대수 변환 계수를 해석하는 방법은 무엇입니까?
내 상황은 다음과 같습니다 간단한 선형 회귀 분석을 위해 잔차를 정규화하기 위해 로그 변환 한 연속 종속 변수 1 개와 연속 예측 변수 1 개가 있습니다. 이러한 변환 된 변수를 원래 컨텍스트와 연관시키는 방법에 대한 도움을 주시면 감사하겠습니다. 선형 회귀 분석을 사용하여 2010 년에 결석 한 날짜 수를 기준으로 2011 …

1
다중 회귀 분석을 수행 할 때 예측 변수를 언제 변환해야합니까?
현재 대학원 수준에서 첫 번째 적용된 선형 회귀 클래스를 사용하고 있으며 다중 선형 회귀 분석에서 예측 변수 변환으로 어려움을 겪고 있습니다. 내가 사용하는 텍스트 인 Kutner et al "Applied Linear Statistical Models"는 내가 가진 질문을 다루지 않는 것 같습니다. (여러 예측 변수를 변환하기위한 Box-Cox 방법이 있음을 제안하는 것 제외). 반응 …

2
CSV 열을 범주 형 데이터로 직접 읽을 수 있습니까?
CSV로 제공되는 의료 설문 조사 (100 + 코딩 된 열 포함)의 데이터를 R로 분석해야합니다. 초기 분석에는 딸랑이 를 사용 하지만 뒤에서 여전히 R입니다. 내가하면 read.csv () 파일, 숫자 코드로 열이 숫자 데이터로 처리됩니다. factor ()를 사용하여 범주 열을 만들 수는 있지만 100 + 열에 대해 수행하는 것은 고통 스럽습니다 . …

5
제곱근, 로그 등과 같은 일반적인 변형 외에 일반적으로 사용되는 다른 정규 변환은 무엇입니까?
시험 점수 분석 (예 : 교육 또는 심리학)에서 일반적인 분석 기법은 종종 데이터가 정규 분포되어 있다고 가정합니다. 그러나, 아마도 더 자주는 아니지만, 점수는 때때로 정상에서 크게 벗어나는 경향이 있습니다. 나는 제곱근, 대수, 양의 스큐를 줄이기위한 상호 변환, 음의 스큐를 줄이기위한 위의 반사 버전, 렙토 커틱 분포의 제곱과 같은 몇 가지 …

1
왜 우리는 사용할 수 없습니다
종속 변수 가진 선형 회귀 모델이 있다고 가정 합니다. 우리는 찾을 . 이제 우리는 또 다른 회귀를 수행하지만 이번에는 에서 찾습니다 . 어떤 모델이 더 적합한 지 알기 위해 를 모두 비교할 수 없다고 들었습니다 . 왜 그런 겁니까? 나에게 주어진 이유는 우리가 다른 양의 변수 (다른 의존성 변수)를 비교하기 …



2
주문 통계 변환
임의의 변수 및 은 독립적이며 - 한다고 가정합니다 . 보여 을 갖는다 \ 텍스트 {Exp} (1) 배포.X1,...,XnX1,...,XnX_1, ... , X_nY1,...,YnY1,...,YnY_1, ..., Y_nU(0,a)U(0,a)U(0,a)Zn=nlogmax(Y(n),X(n))min(Y(n),X(n))Zn=nlog⁡max(Y(n),X(n))min(Y(n),X(n))Z_n= n\log\frac{\max(Y_{(n)},X_{(n)})}{\min(Y_{(n)},X_{(n)})}Exp(1)Exp(1)\text{Exp}(1) \ {X_1, ..., X_n, Y_1, ... Y_n \} = \ {Z_1, ..., Z_n \} 설정하여이 문제를 시작했습니다. {X1,...,Xn,Y1,...Yn}={Z1,...,Zn}{X1,...,Xn,Y1,...Yn}={Z1,...,Zn}\{X_1,...,X_n,Y_1,...Y_n\} = \{Z_1,...,Z_n\}그런 다음 max(Yn,Xn)=Z(2n)max(Yn,Xn)=Z(2n)\max(Y_n,X_n)= Z_{(2n)} 은 (za)2n(za)2n(\frac{z}{a})^{2n} , min(Yn,Xn)=Z(1)min(Yn,Xn)=Z(1)\min(Y_n,X_n)= …

2
회귀 결과에 예기치 않은 상한이 있습니다.
균형 점수를 예측하고 여러 가지 회귀 분석 방법을 시도했습니다. 내가 주목 한 것은 예측 값에 일종의 상한이있는 것 같습니다. 즉, 실제 균형은 이지만 내 예측은 약 입니다. 다음 그림은 실제 대 예측 잔액을 보여줍니다 (선형 회귀로 예측 됨).[ 0.0 , 1.0 )[0.0,1.0)[0.0, 1.0)0.80.80.8 다음은 동일한 데이터에 대한 두 가지 분포도입니다. …

1
전처리 단계로 LDA를 사용할 때 기능 표준화
다중 등급 선형 판별 분석 (또는 다중 판별 분석이라고도 함)을 차원 축소 (또는 PCA를 통한 차원 축소 후 변환)에 사용하는 경우 일반적으로 "Z- 점수 정규화"(또는 표준화) 완전히 다른 스케일로 측정 되더라도 기능이 필요하지 않습니까? LDA에 이미 표준화 된 유클리드 거리를 암시하는 Mahalanobis 거리와 유사한 용어가 포함되어 있기 때문에? 따라서 꼭 …

2
이전의 모든 노력을 무시한이 비선형 다중 회귀 분석에 적합하도록 도와주세요
편집 :이 게시물을 만든 이후로 여기에 추가 게시물이 있습니다 . 아래 텍스트 요약 : 모델 작업 중이며 선형 회귀, Box Cox 변환 및 GAM을 시도했지만 많은 진전이 없었습니다. 을 사용하여 R현재 메이저 리그 (MLB) 수준에서 마이너 리그 야구 선수의 성공을 예측하는 모델을 연구하고 있습니다. 종속적 변수, 공격적 경력이 대체보다 높음 …

1
통계량 분포 찾기
시험 공부. 이 질문에 대답하지 못했습니다. 하자 IID 될 랜덤 변수. 밝히다X1,i,X2,i,X3,i,i=1,…,nX1,i,X2,i,X3,i,i=1,…,nX_{1,i},X_{2,i},X_{3,i}, i=1,\ldots,nN(0,1)N(0,1)\mathcal{N}(0,1) Wi=(X1,i+X2,iX3,i)/1+X23,i−−−−−−−√,i=1,…,nWi=(X1,i+X2,iX3,i)/1+X3,i2,i=1,…,nW_i = (X_{1,i} + X_{2,i}X_{3,i})/\sqrt{1 + X_{3,i}^2}, i = 1, \ldots, n , 및 ,W¯¯¯¯¯n=n−1∑ni=1WiW¯n=n−1∑i=1nWi\overline{W}_n = n^{-1}\sum_{i=1}^nW_i S2n=(n−1)−1∑ni=1(Wi−W¯¯¯¯¯n)2,n≥2.Sn2=(n−1)−1∑i=1n(Wi−W¯n)2,n≥2.S_n^2 = (n-1)^{-1}\sum_{i=1}^n(W_i - \overline{W}_n)^2, n \ge 2. , 의 분포는 무엇입니까 ?W¯¯¯¯¯nW¯n\overline{W}_nS2nSn2S_n^2 이와 같은 문제를 시작할 때 사용하는 가장 …

4
회귀 분석을위한 Box Cox 변환
하나의 예측 변수 (예 : (x, y))로 일부 데이터에 선형 모델을 맞추려고합니다. 데이터는 x의 작은 값에 대해 y 값이 직선에 꼭 맞지만 x 값이 증가함에 따라 y 값이 더욱 변동 적입니다. 다음은 그러한 데이터의 예입니다 (R 코드). y = c(3.2,3.4,3.5,3.8,4.2,5.5,4.5,6.8,7.4,5.9) x = seq(1,10,1) 아래 그림과 같이 단순히 선형 맞춤을 수행하는 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.