«data-transformation» 태그된 질문

종종 비선형 인 데이터 값의 수학적 재 표현. 데이터는 종종 통계 모델의 가정을 충족 시키거나 분석 결과를보다 해석하기 쉽도록 변환합니다.

12
0을 포함하여 음이 아닌 데이터를 어떻게 변환해야합니까?
긍정적 인 데이터가 치우친 경우 종종 로그를 가져옵니다. 그러나 0을 포함하는 비대칭 비대칭 데이터로 무엇을해야합니까? 나는 두 가지 변형이 사용되는 것을 보았다. log(x+1)log⁡(x+1)\log(x+1)0은 0에 매핑되는 깔끔한 기능을 가진 입니다. log(x+c)log⁡(x+c)\log(x+c) 여기서 c는 추정되거나 매우 작은 양의 값으로 설정됩니다. 다른 접근법이 있습니까? 하나의 접근법을 다른 접근법보다 선호해야 할 이유가 있습니까?


2
언제 (그리고 왜) 배포 로그 (숫자)를 가져와야합니까?
과거 주가, 항공권 가격 변동, 회사의 과거 재무 데이터와 같은 과거 데이터가 있다고 가정합니다. 이제 누군가 (또는 일부 공식)가 와서 "배포 로그를 가져 가거나 사용합시다"라고 말하면 여기가 내가 어디로 갈까요 ? 질문 : 왜 먼저 배포 로그를 가져와야합니까? 배포판의 로그는 원래 배포판이 할 수 없었거나 할 수 없었던 것을 '주거나 …


1
카운트 데이터에 왜 제곱근 변환이 권장됩니까?
카운트 데이터가있을 때 제곱근을 취하는 것이 종종 권장됩니다. (CV에 대한 몇 가지 예는 @HarveyMotulsky의 대답은 여기 또는 @whuber의 대답은 여기를 참조하십시오 .) 반면 포아송으로 분포 된 반응 변수가있는 일반화 된 선형 모형을 피팅 할 때 로그는 정식 링크 입니다. 이것은 응답 데이터의 로그 변환을 수행하는 것과 비슷합니다 (더 정확하게 는 …

5
0의 로그를 피하기 위해 x에 얼마나 적은 양을 첨가해야합니까?
내 데이터를 그대로 분석했습니다. 이제 모든 변수의 로그를 얻은 후 분석을 살펴보고 싶습니다. 많은 변수는 많은 0을 포함합니다. 따라서 나는 0의 로그를 피하기 위해 소량을 추가합니다. 지금까지 아무런 근거도없이 10 ^ -10을 추가했습니다. 아주 적은 양을 추가하는 것이 임의로 선택한 양의 효과를 최소화하는 것이 좋습니다. 그러나 일부 변수는 대부분 0을 …

8
범주 형 데이터를 연속적인 것으로 취급하는 것이 이치에 맞습니까?
불연속적이고 연속적인 데이터에 대한이 질문에 대답 하면서, 나는 범주 형 데이터를 연속적인 것으로 취급하는 것이 거의 이치에 맞지 않는다고 주장했다. 그것의 얼굴에는 자명 한 것처럼 보이지만 직관은 종종 통계에 대한 좋지 않은 가이드이거나 적어도 내 것입니다. 그래서 지금 궁금합니다. 맞습니까? 아니면 범주 형 데이터에서 일부 연속체로의 변환이 실제로 유용한 기존의 …

3
로그 스케일은 언제 적절합니까?
차트 / 그래프를 그릴 때 시계열 차트의 y 축과 같은 특정 상황에서 로그 스케일을 사용하는 것이 적절하다는 것을 읽었습니다. 그러나 왜 그런지 또는 적절한시기에 대한 명확한 설명을 찾지 못했습니다. 나는 통계학자가 아니기 때문에 그 요점을 완전히 잃어 버릴 수 있다는 점을 명심하십시오.


1
Scikit-learn의 One-hot vs Dummy 인코딩
범주 형 변수를 인코딩하는 방법에는 두 가지가 있습니다. 하나의 범주 형 변수에는 n 개의 값이 있습니다. 원핫 인코딩은 이를 n 개의 변수 로 변환하고 더미 인코딩은 이를 n-1 변수 로 변환합니다 . k 개의 범주 형 변수 가있는 경우 각각 n 개의 값을 갖습니다. 하나의 핫 인코딩은 kn 변수로 끝나고 …

1
예측이 목표 인 경우 교육 및 테스트 세트에 표준화 / 정규화를 적용하는 방법은 무엇입니까?
모든 데이터 또는 접기 (CV가 적용된 경우)를 동시에 변환합니까? 예 : (allData - mean(allData)) / sd(allData) trainset과 testset을 개별적으로 변환합니까? 예 : (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) 아니면 trainset을 변환하고 testset에서 계산을 사용합니까? 예 : (trainData - mean(trainData)) / sd(trainData) (testData - mean(trainData)) / sd(trainData) …

3
로그 변환 예측 변수 및 / 또는 응답의 해석
종속 변수, 종속 변수 및 독립 변수 또는 독립 변수 만 로그 변환인지 해석에 차이가 있는지 궁금합니다. 의 경우를 고려 log(DV) = Intercept + B1*IV + Error IV를 백분율 증가로 해석 할 수 있지만 log(DV) = Intercept + B1*log(IV) + Error 또는 내가있을 때 DV = Intercept + B1*log(IV) + …
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

4
정규화와 스케일링
데이터 '정규화'와 '스케일링'데이터의 차이점은 무엇입니까? 지금까지 두 용어가 모두 같은 과정을 의미한다고 생각했지만 지금은 내가 모르거나 이해해야 할 것이 더 많다는 것을 알고 있습니다. 또한 정규화와 스케일링간에 차이가있는 경우 언제 정규화를 사용해야하지만 스케일링은 사용하지 않아야합니까? 몇 가지 예를 자세히 설명하십시오.

1
회귀 : 변수 변환
변수를 변환 할 때 동일한 변환을 모두 사용해야합니까? 예를 들어 다음과 같이 다르게 변형 된 변수를 선택하고 선택할 수 있습니까? 을 연령, 고용 기간, 거주 기간 및 소득 이라고합시다 .x1,x2,x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) 아니면 변환과 일치해야하고 모두 동일하게 사용해야합니까? 에서처럼 : Y = B1*log(x1) + B2*log(x2) …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.