«data-transformation» 태그된 질문

종종 비선형 인 데이터 값의 수학적 재 표현. 데이터는 종종 통계 모델의 가정을 충족 시키거나 분석 결과를보다 해석하기 쉽도록 변환합니다.

2
비율 데이터 변환 : arcsin square root가 충분하지 않은 경우
백분율 / 비율 데이터에 대한 아크 신 제곱근 변환에 대한 (강한?) 대안이 있습니까? 현재 작업중 인 데이터 세트 에서이 변환을 적용한 후에도 현저한 이분산성이 남아 있습니다. 즉 잔차 대 적합치의 플롯은 여전히 ​​마름모꼴입니다. 의견에 응답하기 위해 편집 : 데이터는 10 %의 배수로 엔 다우먼트의 0-100 %를 투자 할 수있는 실험 …

4
엣지 케이스의 정밀도 및 리콜에 대한 올바른 값은 무엇입니까?
정밀도는 다음과 같이 정의됩니다. p = true positives / (true positives + false positives) 로, 즉를 정확 true positives하고 false positives, 정밀도가 한 접근 방식 0? 리콜에 대한 동일한 질문 : r = true positives / (true positives + false negatives) 현재이 값을 계산 해야하는 통계 테스트를 구현 중이며 때로는 …
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
균일 분포에서 지수 분포로 또는 그 반대로
이것은 아마도 사소한 질문,하지만 내 검색을 포함, 지금까지 열매를 맺지되었습니다 이 위키 피 디아 기사 및 "배포판의 대요" 문서 . 경우 균일 한 분포를 가지고, 그 의미 하는가 지수 분포에 따른?XXXeXeXe^X 마찬가지로 가 지수 분포를 따르는 경우 가 균일 분포를 따른다 는 것을 의미 합니까?YYYln(Y)ln(Y)ln(Y)

2
로그 변환 후 표준 오류 계산
정규 분포를 따르는 임의의 숫자 세트를 고려하십시오. x <- rnorm(n=1000, mean=10) 우리는 평균에 대한 평균과 표준 오차를 알고 싶습니다. 그래서 우리는 다음을 수행합니다. se <- function(x) { sd(x)/sqrt(length(x)) } mean(x) # something near 10.0 units se(x) # something near 0.03 units 큰! 그러나 원래 분포가 정규 분포를 따른다는 것을 반드시 …

2
로그 변환이 비정규 데이터를 t- 검정하는 데 유효한 기술입니까?
논문을 검토하면서 저자들은 "정규의 전제 조건 가정을 만족시키기 위해 t 개의 검정을 수행하기 전에 자연 로그를 사용하여 기울어 진 분포를 나타내는 연속적인 결과 변수를 변환했습니다"라고 말합니다. 비정규 데이터를 분석 할 수있는 적절한 방법입니까, 특히 기본 분포가 반드시 로그 정규성이 아닌 경우 이것은 매우 어리석은 질문 일지 모르지만 이전에는이 ​​일을 보지 …

5
오른쪽으로 치우친 분포에 로그 변환이 사용되는 이유는 무엇입니까?
나는 한 번 들었다 로그 변환은 선형 회귀 또는 분위수 회귀 분석에서 오른쪽으로 치우친 분포에 가장 많이 사용됩니다. 이 진술의 근거가되는 이유가 무엇인지 알고 싶습니다. 로그 변환이 오른쪽으로 치우친 분포에 적합한 이유는 무엇입니까? 왼쪽으로 치우친 분포는 어떻습니까?

3
"정규화"란 무엇이며 표본 또는 분포가 정규화되었는지 확인하는 방법은 무엇입니까?
균일 분포 ( Uniform(a,b)Uniform(a,b){\rm Uniform}(a,b) )가 정규화 되는지 여부를 묻는 질문 이 있습니다. 우선, 분포가 정규화되었다는 것은 무엇을 의미합니까? 둘째, 분포가 정규화되는지 여부를 확인하는 방법은 무엇입니까? 나는 X 를 계산함으로써 이해한다 - 평균X−meansdX−meansd \frac{X-\text{mean}}{\text{sd}} 정규화 된데이터를 얻지만 여기서는분포가 정규화되었는지 여부를 묻습니다.

3
등각 로그 비율 변환을 수행하는 방법
나는 대략 24에 해당하는 움직임 행동 (자고있는 시간, 앉아있는 시간, 신체 활동을하는 시간)에 대한 데이터를 가지고 있습니다 (하루에 시간 단위로). 이러한 각 동작에 소요되는 상대적 시간을 캡처하는 변수를 만들고 싶습니다. 아이소 메트릭 로그 비율 변환이이 작업을 수행한다고 들었습니다. R에서 ilr 함수를 사용해야하는 것처럼 보이지만 코드가있는 실제 예제는 찾을 수 없습니다. …

2
모델의 AIC와 로그 변환 된 버전 비교
내 질문의 본질은 다음과 같습니다. 하자 평균과 다변량 정규 확률 변수 일 및 공분산 행렬 . 하자 , 즉 Z_i = \ 로그 (Y_i), I \에서 \ {1 \ ldots 단락을 n \} . 어떻게 모델 적합의 AIC는의 관찰 실현에 비교합니까 Y 의 관찰 실현에 모델에 맞는 대 Z ? …


2
회귀 계수의 역변환
변환 된 종속 변수로 선형 회귀를 수행하고 있습니다. 잔차의 정규성의 가정이 유지되도록 다음과 같은 변환이 수행되었습니다. 변환되지 않은 종속 변수는 음으로 비뚤어졌으며 다음 변환으로 변수가 정상에 가깝습니다. Y=50−Yorig−−−−−−−−√Y=50−YorigY=\sqrt{50-Y_{orig}} 여기서 YorigYorigY_{orig} 는 원래 척도의 종속 변수입니다. 나는 원래의 척도로 돌아 가기 위해 계수 에 약간의 변환을 사용하는 것이 합리적이라고 생각합니다 . …

2
주성분 분석을 수행하기 전에 데이터를 로그 변환하는 이유는 무엇입니까?
PCA에 대한 이해를 높이려면 http://www.r-bloggers.com/computing-and-visualizing-pca-in-r/ 튜토리얼을 따르십시오 . 학습서는 Iris 데이터 세트를 사용하고 PCA 이전에 로그 변환을 적용합니다. [1] 세트에 의해 제안 공지 다음 코드에서는 연속 변수 로그 변환을 적용하는 것이 center와 scale동일 TRUE하도록 호출 prcomp전에 PCA를 적용하여 변수의 표준화. 누군가 Iris 데이터 세트의 처음 네 열에서 로그 함수를 먼저 …

2
변수가 변환 된 LM과 GLM이 다른 이유
이 과정 유인물 (1 페이지)에 설명 된대로 선형 모델은 다음 형식으로 작성 될 수 있습니다. y=β1x1+⋯+βpxp+εi,y=β1x1+⋯+βpxp+εi, y = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i, 여기서 yyy 는 반응 변수이고 xixix_{i} 는 ithithi^{th} 설명 변수. 테스트 가정을 충족시키기 위해 종종 응답 변수를 변환 할 수 있습니다. 예를 들어 …

2
GLM에 대한 정규화 변환 도출
\newcommand{\E}{\mathbb{E}} 방법 인 정규화는 지수 가족 변환 유래? A ( ⋅ ) = ∫ d uV 1 / 3 ( μ )A(⋅)=∫duV1/3(μ)A(\cdot) = \displaystyle\int\frac{du}{V^{1/3}(\mu)} 더 구체적으로 : 나는 3 페이지의 Taylor 확장 스케치를 따르려고 노력했지만 여기에 슬라이드 1 이 있지만 몇 가지 질문이 있습니다. 함께 엑스XX 지수 가족, 변환 h …

4
데이터를 변환 할 때 피해야 할 위험은 무엇입니까?
응답을 이중으로 변환 한 후 XXX 와 YYY 변수 사이에 강한 선형 관계를 얻었습니다 . 모델은 Y∼XY∼XY\sim X 이지만 √로 변환했습니다. R2를 .19에서 .76으로YX−−√∼X−−√YX∼X\sqrt{\frac{Y}{X}}\sim \sqrt{X} 개선하는 X.R2R2R^2 분명히 나는이 관계에 대해 괜찮은 수술을했다. 과도한 변환의 위험 또는 통계적 원칙 위반 가능성과 같이이 작업의 함정에 대해 토론 할 수있는 사람이 있습니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.