통계 및 빅 데이터 discrete-data

10

불연속 데이터와 연속 데이터의 차이점은 무엇입니까?

62 continuous-data discrete-data

5

10 차원을 갖는 데이터 세트 X가 있는데 그 중 4는 이산 값입니다. 실제로,이 4 개의 이산 변수는 순 서적입니다. 즉, 값이 클수록 의미가 높거나 높습니다. 이 불연속 변수 중 2 개는 이러한 변수 각각에 대해 11에서 12까지의 거리가 5에서 6까지의 거리와 동일하지 않다는 점에서 범주 형입니다. 반드시 선형 일 필요는 …

33 clustering k-means discrete-data continuous-data gaussian-mixture

3

Kolmogorov-Smirnov 검정은 이산 분포에서 유효합니까?

샘플을 비교하고 샘플이 분리 된 개별 분포로 분포하는지 확인하고 있습니다. 그러나 Kolmogorov-Smirnov가 적용되는지 확실하지 않습니다. Wikipedia 는 그렇지 않은 것으로 보입니다. 그렇지 않은 경우 표본 분포를 어떻게 테스트 할 수 있습니까?

29 hypothesis-testing discrete-data kolmogorov-smirnov

4

연속 및 범주 기능을 모두 사용하여 예측

일부 예측 모델링 기법은 연속 예측 변수를 처리하기 위해 더 설계된 반면, 다른 예측 기법은 범주 형 또는 이산 변수를 처리하는 데 더 좋습니다. 물론 한 유형을 다른 유형으로 변환하는 기술이 있습니다 (분산, 더미 변수 등). 그러나 단순히 피처 유형을 변환하지 않고 두 유형의 입력을 동시에 처리하도록 설계된 예측 모델링 …

26 classification predictive-models categorical-data continuous-data discrete-data

1

개별 데이터가있는 Kolmogorov-Smirnov : R에서 dgof :: ks.test를 올바르게 사용하는 방법은 무엇입니까?

초보자 질문 : 두 개의 개별 데이터 세트가 동일한 분포에서 나온 것인지 테스트하고 싶습니다. Kolmogorov-Smirnov 테스트가 제게 제안되었습니다. Conover ( Practical Nonparametric Statistics , 3d)는 Kolmogorov-Smirnov Test가이 목적으로 사용될 수 있다고 말하지만, 그 동작은 불연속 분포와 함께 "보수적"이며, 이것이 무엇을 의미하는지 잘 모르겠습니다. 다른 질문에 대한 DavidR의 의견 은 "... …

23 r goodness-of-fit discrete-data kolmogorov-smirnov

1

one-hot 인코딩을 사용할 때 열 중 하나를 삭제

기계 학습에서 동일한 정보를 효과적으로 인코딩하기 때문에 데이터 세트에 상관 관계가 높은 기능이 있으면 문제가 될 수 있습니다. 최근 누군가 범주 형 변수에 대해 원핫 인코딩을 수행하면 관련 기능이 생겨서 그 중 하나를 "참조"로 삭제해야한다고 지적했습니다. 예를 들어 성별을 두 변수로 인코딩하면 is_male과 is_female음의 상관 관계를 갖는 두 가지 기능이 …

22 regression machine-learning categorical-data discrete-data categorical-encoding

2

이 개별 배포판의 이름이 있습니까?

이 개별 배포판의 이름이 있습니까? 옵션i∈1...Ni∈1...Ni \in 1...N f(i)=1N∑Nj=i1jf(i)=1N∑j=iN1jf(i) = \frac{1}{N} \sum_{j = i}^N \frac{1}{j} 나는이 배포판을 다음에서 보았습니다 : 나는 유틸리티 기능에 의해 순위가 매겨진 항목 목록을 가지고 있습니다. 목록의 시작을 향해 바이어스하면서 항목 중 하나를 임의로 선택하고 싶습니다. 그래서 먼저 1과 사이 의 인덱스 를 균일하게 선택합니다. 그런 …

21 probability terminology discrete-data distributions

2

더미 기능 (및 기타 이산 / 범주 기능)을 통한 이상 탐지

tl; dr discrete이상 감지를 수행 할 때 데이터 를 처리하는 권장 방법은 무엇입니까 ? categorical이상 감지를 수행 할 때 데이터 를 처리하는 권장 방법은 무엇입니까 ? 이 답변 은 개별 데이터를 사용하여 결과를 필터링하는 것이 좋습니다. 아마도 범주 값을 perctage 관찰 가능성으로 대체 하시겠습니까? 소개 이것은 처음으로 여기에 게시되므로 형식이나 …

18 machine-learning categorical-data outliers discrete-data anomaly-detection

1

이산 시간 생존 분석에 대한 기본 질문

로지스틱 회귀 모델을 사용하여 불연속 시간 생존 분석을 수행하려고하는데 프로세스를 완전히 이해하지 못했습니다. 몇 가지 기본적인 질문에 도움을 주셔서 감사합니다. 설정은 다음과 같습니다. 5 년 내에 그룹 멤버십을보고 있습니다. 각 회원은 해당 회원이 그룹에 속한 각 달의 월별 회원 기록을 보유합니다. 5 년 동안 멤버십을 시작한 모든 멤버를 고려하고 있습니다 …

18 survival discrete-data hazard kaplan-meier

2

데이터를 계산하기 위해 불연속 분포를 맞추는 방법은 무엇입니까?

다음과 같은 카운트 데이터 히스토그램이 있습니다. 그리고 나는 이것에 개별 분포를 적용하고 싶습니다. 어떻게해야할지 모르겠습니다. 먼저 히스토그램에 불연속 분포와 같은 불연속 분포를 중첩하여 이산 분포의 모수를 구한 다음 Kolmogorov–Smirnov 검정을 실행하여 p- 값을 확인해야합니까? 이 방법이 올바른지 확실하지 않습니다. 이와 같은 문제를 해결하는 일반적인 방법이 있습니까? 카운트 데이터의 빈도 표입니다. …

17 r poisson-distribution discrete-data computational-statistics negative-binomial

1

해밀턴 몬테카를로와 이산 파라미터 공간

나는 방금 스탠 에서 모델을 만들기 시작했다 . 이 도구에 익숙해지기 위해 Bayesian Data Analysis (2nd ed.)의 일부 연습을 진행하고 있습니다. Waterbuck 운동 전제로하는 데이터 와, ( N , θ ) 알 수 없습니다. Hamiltonian Monte Carlo는 이산 파라미터를 허용하지 않기 때문에 N 을 실수 ∈ [ 72 , ∞ …

13 bayesian mcmc discrete-data stan

3

다변량 베르누이 분포에 대한 확률 공식

I는 N 변량의 이벤트의 확률에 대한 수식을 필요 베르누이 분포 주어와 확률 단일 요소 및 요소의 쌍 입니다. 마찬가지로 나는 평균과 공분산을 줄 수 있습니다. P ( X i = 1 ) = p i P ( X i = 1 ∧ X j = 1 ) = p i …

13 multivariate-analysis discrete-data

2

주어진 반응 변수에 대한 최적의 비닝

주어진 응답 (목표) 이진 변수와 최대 간격 수를 매개 변수로 사용하여 연속 변수의 최적 비닝 방법 (분화)을 찾고 있습니다. 예 : 나는 "높이"(숫자 연속)와 "has_back_pains"(이진) 변수를 가진 사람들에 대한 관찰 결과를 가지고 있습니다. 나는 허리 통증이있는 사람들의 다른 비율로 최대 높이를 3 간격 (그룹)으로 이산화하고 싶습니다. 그래서 알고리즘이 그룹 간의 …

12 r dataset optimization discrete-data binning

3

이산 랜덤 변수의 속성

내 통계 과정은 이산 랜덤 변수에 유한 옵션 이 있다는 것을 가르쳐주었습니다 ... 나는 그것을 몰랐습니다. 정수 세트처럼 무한 할 수 있다고 생각했을 것입니다. 대학 과정의 일부를 포함하여 여러 웹 페이지를 인터넷으로 확인하고 확인한 결과이를 구체적으로 확인하지 못했습니다. 그러나 대부분의 사이트는 불연속 랜덤 변수가 셀 수 있다고 말합니다. 유한 한 …

11 random-variable discrete-data

3

이변 량 이항 분포 시각화

질문 : 이변 량 이항 분포는 3 차원 공간에서 어떤 모양입니까? 다음은 다양한 매개 변수 값을 시각화하려는 특정 기능입니다. 즉, 엔엔n , 피1피1p_{1} 및 피2피2p_{2} 입니다. 에프( x1, x2) = n !엑스1! 엑스2!피엑스11피엑스22,엑스1+ x2= n ,피1+ p2= 1.에프(엑스1,엑스2)=엔!엑스1!엑스2!피1엑스1피2엑스2,엑스1+엑스2=엔,피1+피2=1.f(x_{1},x_{2}) = \frac{n!}{x_{1}!x_{2}!}p_{1}^{x_{1}}p_{2}^{x_{2}}, \qquad x_{1}+x_{2}=n, \quad p_{1}+p_{2}=1. 두 가지 제약 조건이 있습니다. 엑스1+ …

11 probability data-visualization binomial discrete-data distributions

«discrete-data» 태그된 질문