«continuous-data» 태그된 질문

랜덤 변수 엑스 가능한 값 세트를 계산할 수없고 특정 값을 취할 확률이 0 인 경우 연속이라고합니다 ((엑스=엑스)=0 모든 실수에 대해 엑스). 누적 확률 분포 함수가 연속 함수 인 경우에만 랜덤 변수가 연속적입니다.

6
순서가없는 범주 형 변수와의 상관 관계
많은 관측치와 변수가있는 데이터 프레임이 있습니다. 그들 중 일부는 범주 형 (정렬되지 않음)이고 다른 일부는 숫자입니다. 이 변수들 사이의 연관성을 찾고 있습니다. 수치 변수 (Spearman의 상관 관계)에 대한 상관 관계를 계산할 수 있었지만 : 정렬되지 않은 범주 형 변수 간의 상관 관계를 측정하는 방법을 모르겠습니다. 정렬되지 않은 범주 형 변수와 …

7
연속 예측 변수를 분해하면 어떤 이점이 있습니까?
모델에서 값을 사용하기 전에 연속 예측 변수를 가져 와서 분해 (예 : 5 분위수)하는 데 어떤 가치가 있는지 궁금합니다. 변수를 비닝하면 정보가 손실되는 것 같습니다. 이것이 비선형 효과를 모델링 할 수 있도록하는 것입니까? 변수를 연속적으로 유지하고 실제로 직선 관계가 아닌 경우 데이터에 가장 잘 맞는 커브를 만들어야합니까?


3
예 : 이진 결과에 glmnet을 사용하는 LASSO 회귀
관심있는 결과가 이분법 인 LASSO Regressionglmnet 과 함께 사용하기 시작했습니다 . 아래에 작은 모의 데이터 프레임을 만들었습니다. age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 


8
범주 형 데이터를 연속적인 것으로 취급하는 것이 이치에 맞습니까?
불연속적이고 연속적인 데이터에 대한이 질문에 대답 하면서, 나는 범주 형 데이터를 연속적인 것으로 취급하는 것이 거의 이치에 맞지 않는다고 주장했다. 그것의 얼굴에는 자명 한 것처럼 보이지만 직관은 종종 통계에 대한 좋지 않은 가이드이거나 적어도 내 것입니다. 그래서 지금 궁금합니다. 맞습니까? 아니면 범주 형 데이터에서 일부 연속체로의 변환이 실제로 유용한 기존의 …

5
불연속 변수와 연속 변수를 사용하여 데이터 세트 클러스터링
10 차원을 갖는 데이터 세트 X가 있는데 그 중 4는 이산 값입니다. 실제로,이 4 개의 이산 변수는 순 서적입니다. 즉, 값이 클수록 의미가 높거나 높습니다. 이 불연속 변수 중 2 개는 이러한 변수 각각에 대해 11에서 12까지의 거리가 5에서 6까지의 거리와 동일하지 않다는 점에서 범주 형입니다. 반드시 선형 일 필요는 …

4
연속 및 범주 기능을 모두 사용하여 예측
일부 예측 모델링 기법은 연속 예측 변수를 처리하기 위해 더 설계된 반면, 다른 예측 기법은 범주 형 또는 이산 변수를 처리하는 데 더 좋습니다. 물론 한 유형을 다른 유형으로 변환하는 기술이 있습니다 (분산, 더미 변수 등). 그러나 단순히 피처 유형을 변환하지 않고 두 유형의 입력을 동시에 처리하도록 설계된 예측 모델링 …

2
음 이항 분포의 연속 일반화
음 이항 (NB) 분포 는 음이 아닌 정수로 정의되며 확률 질량 함수 k \ in \ mathbb N_0 을 x \ in \ mathbb R _ {\ ge 0}로f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)={\binom {k+r-1}{k}}p^{k}(1-p)^{r}. 바꾸는 음이 아닌 실수에 대한 연속 분포를 고려하는 것이 합리적 입니까? 이항 계수는 (k + 1) \ cdot \ ldots …

2
연속적인 독립 변수 / 기능을 언제 이산 / 빈화해야합니까?
언제 독립 변수 / 기능을 이산 / 빈화해야하고 언제 안됩니까? 질문에 대답하려는 나의 시도 : 비닝은 정보를 잃을 것이기 때문에 일반적으로 비닝해서는 안됩니다. 비닝은 실제로 모형의 자유도를 증가 시키므로 비닝 후에 초과 피팅을 유발할 수 있습니다. "높은 바이어스"모델이있는 경우 비닝이 나쁘지는 않지만 "높은 분산"모델이있는 경우 비닝을 피해야합니다. 사용중인 모델에 따라 …

2
두 개의 랜덤 변수의 합으로서 균일 한 랜덤 변수
Grimmet과 Stirzaker 에서 가져온 것 : 표시는 경우가 아닐 수 있다는 것을 균일 [0,1]에 분포하고 및 독립적 동일하게 분포한다. 당신은 안 X 및 Y가 연속 변수 있다고 가정합니다.U=X+YU=X+YU=X+YUUUXXXYYY 와 같이 항상 와 를 찾을 수 있다고 주장함으로써 , 가 불연속적인 것으로 가정 되는 경우 모순에 의한 간단한 증거로 충분합니다. 반면 …

1
설계된 실험에서 ANOVA와 ANCOVA를 선택하는 방법은 무엇입니까?
다음과 같은 실험을 진행 중입니다. DV : 슬라이스 소비 (연속적이거나 범주적일 수 있음) IV : 건강한 메시지, 건강하지 않은 메시지, 메시지 없음 (통제) (사람들이 무작위로 배정 된 3 개의 그룹-범주 형) 이것은 슬라이스의 건강에 관한 조작 된 메시지입니다. 다음 IV는 개별 차이 변수로 간주 될 수 있습니다. 충동 성 (이는 …


2
지속적인 데이터에서 범주 형으로가는 것이 항상 잘못입니까?
데이터를 설정하는 방법에 대해 읽을 때 자주 접하는 한 가지 점은 일부 연속 데이터를 범주 형 데이터로 변환하는 것은 좋은 생각이 아니라는 것입니다. 임계 값이 잘못 결정되면 잘못 결론을 내릴 수 있기 때문입니다. 그러나 현재 일부 데이터 (전립선 암 환자의 PSA 값)가 있습니다. 여기서 일반적인 합의는 4 세 미만이면 아마도 …

1
순서 변수와 연속 변수 사이의 상관 관계를 올바르게 평가하는 방법은 무엇입니까?
다음 사이의 상관 관계를 추정하고 싶습니다. 서수 변수 : 피험자들은 6 가지 종류의 과일에 대한 선호도를 1-5 척도로 평가해야합니다. 연속 변수 : 동일한 대상에게 이러한 과일을 신속하게 식별하도록 요청하여 6 개의 과일에 대한 평균 정확도를 얻습니다. Spearman rho가 이러한 데이터를 분석하는 가장 좋은 방법입니까? 아니면 고려할 수있는 다른 좋은 방법이 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.