«continuous-data» 태그된 질문

랜덤 변수 엑스 가능한 값 세트를 계산할 수없고 특정 값을 취할 확률이 0 인 경우 연속이라고합니다 ((엑스=엑스)=0 모든 실수에 대해 엑스). 누적 확률 분포 함수가 연속 함수 인 경우에만 랜덤 변수가 연속적입니다.


3
다변량 모드의 계산 효율적인 계산
짧은 버전 : 연속 분포에서 샘플링 된 다차원 데이터 세트의 모드를 추정하는 가장 계산 효율적인 방법은 무엇입니까? 긴 버전 : 모드를 추정 해야하는 데이터 세트가 있습니다. 이 모드는 평균 또는 중앙값과 일치하지 않습니다. 샘플은 다음과 같습니다. 2D 예이지만 ND 솔루션이 더 좋습니다. 현재 내 방법은 원하는 모드의 해상도와 동일한 그리드에서 …


5
매우 많은 수의 데이터 포인트에서 값을 대치하는 방법은 무엇입니까?
데이터 세트가 매우 커서 약 5 %의 임의 값이 없습니다. 이 변수들은 서로 상관되어 있습니다. 다음 예제 R 데이터 세트는 더미 상관 데이터가있는 장난감 예제 일뿐입니다. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


2
(이 분이 아닌) 명목 변수와 숫자 (간격) 또는 서수 변수 사이의 상관 계수
나는 이미이 사이트의 모든 페이지를 읽었고 내 문제에 대한 답을 찾으려고했지만 아무도 나에게 맞는 것 같지 않습니다 ... 먼저 내가 작업하는 데이터의 종류를 설명합니다 ... 300 명의 사용자마다 하나씩 여러 도시 이름을 가진 배열 벡터가 있다고 가정 해 봅시다. 또한 각 사용자의 설문 조사에 대한 점수 응답 또는 각 사용자의 …

5
연속 랜덤 변수가 고정 소수점을 가정 할 확률
연속 랜덤 변수에 대한 확률 밀도 함수가 로 정의 된 입문 통계 클래스에 있습니다. 의 적분을 이해 하지만 연속 임의 변수의 직관으로이를 수정할 수는 없습니다. X가 열차가 도착하는 시간 t에서 분 수와 같은 임의 변수라고 가정하십시오. 기차가 정확히 5 분 후에 도착할 확률을 어떻게 계산합니까? 이 확률은 어떻게 제로가 될 …

1
연속 분포에서 데이터의 최적 이산화 결정
당신이 데이터 세트를 가정 알려지지 않은 에서 지원되는 Y1,...,YnY1,...,YnY_{1}, ..., Y_{n}밀도 를 갖는 연속 분포로부터의 Y n 이지만, 은 꽤 커서 커널 밀도 (예를 들어) 는 다음과 같습니다. 꽤 정확한. 특정 응용 프로그램의 경우 관측 된 데이터를 한정된 수의 범주로 변환하여 암시 된 질량 함수 를 사용하여 새로운 데이터 세트 …



5
모든 비용으로 비닝을 피해야하는 이유는 무엇입니까?
비닝을 항상 피해야하는 이유에 대한 몇 가지 게시물을 읽었습니다 . 이 링크에 대한 해당 주장에 대한 대중적인 참조 . 비닝 포인트 (또는 컷 포인트)는 결과적으로 손실되는 정보뿐만 아니라 임의적이며 스플라인이 선호되어야합니다. 그러나 현재 Spotify API를 사용하고 있습니다. Spotify API는 여러 기능에 대한 지속적인 자신감 측정 방법이 있습니다. 하나의 기능 "instrumentalness"를 …

1
로지스틱 회귀를 훈련시키는 데 "부분 신용"(연속 결과)을주는 것이 좋은 생각입니까?
나는 어떤 선수들이 혹독한 지구력 경주를 끝내게 될지 예측하기 위해 로지스틱 회귀를 훈련하고 있습니다. 이 경주를 마친 러너는 거의 없기 때문에 심각한 클래스 불균형과 작은 성공 사례 (수십 개)가 있습니다. 나는 거의 그것을 만든 수십 명의 주자로부터 좋은 "신호"를 얻을 수 있다고 생각 합니다. (내 훈련 데이터는 완성뿐만 아니라 완료되지 …

3
연속 변수-차이의 단위에서 위험 비율을 해석하는 방법은 무엇입니까?
연속 변수에 대한 위험 비율을 보여주는 기사를 읽고 있지만 주어진 값을 해석하는 방법을 잘 모르겠습니다. 위험 비율에 대한 나의 현재 이해는 숫자가 어떤 조건에서 주어진 [사건]의 상대적 가능성을 나타냅니다. 예 : 흡연으로 인한 폐암 사망 위험 비율 (2 진 사건)이 2 인 경우, 흡연자는 비 흡연자보다 모니터링 된 시간에 사망 …

2
이분법과 연속 변수의 상관 관계
이분법과 연속 변수 사이의 상관 관계를 찾으려고합니다. 이것에 대한 나의 기초 연구에서 나는 독립적 인 t- 검정을 사용해야한다는 것을 발견했으며 그에 대한 전제 조건은 변수의 분포가 정상이어야한다는 것입니다. 나는 정규성을 테스트하기 위해 Kolmogorov-Smirnov 테스트를 수행했으며 연속 변수가 비정규이며 비대칭 적이라는 것을 알았습니다 (약 4,000 데이터 포인트). 나는 모든 변수 범위에 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.