«binning» 태그된 질문

비닝은 연속 변수를 이산 범주로 그룹화하는 것을 의미합니다. 특히 히스토그램과 관련하여 사용되지만 조잡함의 의미에서 더 일반적으로 사용될 수도 있습니다.

4
히스토그램을 기반으로 데이터의 근사 분포 평가
히스토그램 (즉, 오른쪽으로 기울어 짐)을 기반으로 내 데이터가 지수인지 여부를보고 싶다고 가정합니다. 데이터를 그룹화하거나 비우는 방법에 따라 크게 다른 히스토그램을 얻을 수 있습니다. 히스토그램의 한 세트는 데이터가 지수적인 것처럼 보입니다. 다른 세트는 데이터가 지수 적이 지 않은 것처럼 보일 것입니다. 히스토그램에서 분포를 잘 정의하려면 어떻게해야합니까?

7
연속 예측 변수를 분해하면 어떤 이점이 있습니까?
모델에서 값을 사용하기 전에 연속 예측 변수를 가져 와서 분해 (예 : 5 분위수)하는 데 어떤 가치가 있는지 궁금합니다. 변수를 비닝하면 정보가 손실되는 것 같습니다. 이것이 비선형 효과를 모델링 할 수 있도록하는 것입니까? 변수를 연속적으로 유지하고 실제로 직선 관계가 아닌 경우 데이터에 가장 잘 맞는 커브를 만들어야합니까?

3
히스토그램에 대한 QQ- 플롯 사용의 이점
에서 이 댓글 닉 콕스는 썼다 : 클래스로 비닝은 고대 방법입니다. 히스토그램은 유용 할 수 있지만 최신 통계 소프트웨어를 사용하면 원시 데이터에 분포를 맞추는 것이 쉽고 좋습니다. 비닝은 어느 분포가 그럴듯한지를 결정하는 데 중요한 세부 사항 만 버립니다. 이 의견의 맥락에서 QQ- 플롯을 적합도를 평가하기위한 대체 수단으로 사용하는 것이 좋습니다. …

2
연속적인 독립 변수 / 기능을 언제 이산 / 빈화해야합니까?
언제 독립 변수 / 기능을 이산 / 빈화해야하고 언제 안됩니까? 질문에 대답하려는 나의 시도 : 비닝은 정보를 잃을 것이기 때문에 일반적으로 비닝해서는 안됩니다. 비닝은 실제로 모형의 자유도를 증가 시키므로 비닝 후에 초과 피팅을 유발할 수 있습니다. "높은 바이어스"모델이있는 경우 비닝이 나쁘지는 않지만 "높은 분산"모델이있는 경우 비닝을 피해야합니다. 사용중인 모델에 따라 …

2
카이 제곱 적합도 검정에 대한 데이터 기반 구간 경계의 영향?
이런 종류의 환경에서 카이 제곱의 저전력의 명백한 문제를 제쳐두고 데이터를 비닝하여 지정되지 않은 매개 변수로 일부 밀도에 대해 카이 제곱 우수성 테스트를 수행한다고 상상해보십시오. 구체적으로 알 수없는 평균과 표본 크기가 100 인 지수 분포를 가정 해 봅시다. 구간당 합당한 수의 관측 값을 얻으려면 데이터를 고려해야합니다 (예 : 평균값 아래에 6 …

3
두 개의 히스토그램을 같은 규모로 배치하는 가장 좋은 방법은 무엇입니까?
모양, 크기 및 이동을 쉽게 볼 수있는 방식으로 자세하게 비교하고자하는 두 개의 분포가 있다고 가정 해 봅시다. 이를 수행하는 한 가지 좋은 방법은 각 분포에 대한 히스토그램을 플로팅하여 동일한 X 스케일에 배치하고 다른 하나 아래에 쌓이는 것입니다. 이 작업을 수행 할 때 비닝을 어떻게 수행해야합니까? 아래 그림 1에서와 같이 하나의 …

2
주어진 반응 변수에 대한 최적의 비닝
주어진 응답 (목표) 이진 변수와 최대 간격 수를 매개 변수로 사용하여 연속 변수의 최적 비닝 방법 (분화)을 찾고 있습니다. 예 : 나는 "높이"(숫자 연속)와 "has_back_pains"(이진) 변수를 가진 사람들에 대한 관찰 결과를 가지고 있습니다. 나는 허리 통증이있는 ​​사람들의 다른 비율로 최대 높이를 3 간격 (그룹)으로 이산화하고 싶습니다. 그래서 알고리즘이 그룹 간의 …

5
긍정적 유방 조영술 결과에 적용된 베이 즈 정리 해석
유방 촬영 사진의 왜곡이 완벽한 클래식 유방 촬영 예에 적용된 Bayes Theorem의 결과를 머리로 감싸려고합니다. 그건, 암 발병률 : .01.01.01 환자에게 암이 있다고 가정 할 때 양성 유방 조영술의 가능성 : 111 환자에게 암이없는 경우 양성 유방 조영술의 가능성 : .01.01.01 베이 즈 : P (암 | 유방 조영술 +) …

2
정렬 된 데이터 모음을 '지능적으로'비닝하는 방법은 무엇입니까?
지능적으로 정렬 된 컬렉션을 비우려고합니다. 개의 데이터 모음 이 있습니다. 하지만 난에이 데이터 맞는 것을 알고 불평등 쓰레기통 크기. 데이터에 적합하게 엔드 포인트를 지능적으로 선택하는 방법을 모르겠습니다. 예를 들면 다음과 같습니다.m엔nn미디엄mm 내 컬렉션에 12 개의 항목이 있고 데이터가 3 개의 저장소에 적합하다는 것을 알고 있습니다. Index: 1 2 3 4 …

5
모든 비용으로 비닝을 피해야하는 이유는 무엇입니까?
비닝을 항상 피해야하는 이유에 대한 몇 가지 게시물을 읽었습니다 . 이 링크에 대한 해당 주장에 대한 대중적인 참조 . 비닝 포인트 (또는 컷 포인트)는 결과적으로 손실되는 정보뿐만 아니라 임의적이며 스플라인이 선호되어야합니다. 그러나 현재 Spotify API를 사용하고 있습니다. Spotify API는 여러 기능에 대한 지속적인 자신감 측정 방법이 있습니다. 하나의 기능 "instrumentalness"를 …

2
상호 정보를 계산할 때 빈 수
상호 정보를 사용하여 두 변수 A와 B 사이의 관계를 수량화하고 싶습니다. 이를 계산하는 방법은 관측 값을 비닝하는 것입니다 (아래 예제 Python 코드 참조). 그러나 어떤 수의 빈이 합리적인지를 결정하는 요인은 무엇입니까? 계산 속도가 빠르므로 많은 쓰레기통을 안전하게 사용할 수 없습니다. from sklearn.metrics import mutual_info_score def calc_MI(x, y, bins): c_xy = …

1
R 선형 회귀 범주 형 변수 "숨김"값
이것은 여러 번 나온 예제 일뿐이므로 샘플 데이터가 없습니다. R에서 선형 회귀 모델 실행 : a.lm = lm(Y ~ x1 + x2) x1연속 변수입니다. x2범주 형이며 "낮음", "중간"및 "높음"의 세 가지 값이 있습니다. 그러나 R이 제공하는 출력은 다음과 같습니다. summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
히스토그램 비닝에 대한 Doane의 공식
히스토그램에 사용할 가장 적합한 구간 수를 추정하기 위해 다양한 알고리즘을 구현하고 있습니다. 내가 구현하고있는 대부분의 내용은 Wikipedia "히스토그램"페이지 " 빈 수 및 너비 "* 섹션에 설명되어 있습니다. Doane의 공식에 문제가 있습니다. 1 + log(n) + log(1 + kurtosis(data) * sqrt(n / 6.)) n데이터 크기는 어디에 있습니까 ? 문제는 첨도가 음수 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.