통계 및 빅 데이터 modeling

2

Skellam 분포는 푸 아송 분포를 가진 두 변수 사이의 차이를 설명한다. 음의 이항 분포를 따르는 변수 간의 차이를 설명하는 유사한 분포가 있습니까? 내 데이터는 포아송 프로세스에 의해 생성되지만 상당한 양의 노이즈가 포함되어 분포가 과도하게 분산됩니다. 따라서 음 이항 (NB) 분포로 데이터를 모델링하면 효과적입니다. 이 두 NB 데이터 세트의 차이점을 모델링하려면 …

18 distributions modeling poisson-distribution negative-binomial skellam

1

로지스틱 회귀 특성

우리는 로지스틱 회귀 분석을 진행하고 있으며 평균 추정 확률은 항상 표본의 확률과 같다는 것을 깨달았습니다. 즉, 적합치의 평균은 샘플의 평균과 같습니다. 아무도 나에게 이유를 설명 하거나이 데모를 찾을 수있는 참조를 줄 수 있습니까?

17 regression logistic modeling generalized-linear-model maximum-likelihood

5

큰 데이터의 포아송 회귀 분석 : 측정 단위를 변경하는 것이 잘못 되었습니까?

포아송 분포의 계승으로 인해 관측치가 클 때 포아송 모형을 추정하는 것은 실용적이지 않습니다 (예를 들어, 최대 우도 사용). 예를 들어, 주어진 연도의 자살 횟수를 설명하는 모델을 추정하려고 할 때 (연간 데이터 만 제공) 매년 수천 명의 자살자가 있다고합니다. 2998이 29.98 ~ = 30이되도록? 즉, 측정 단위를 변경하여 데이터를 관리하기가 잘못 …

17 modeling poisson-distribution large-data

7

왜 왜곡 된 데이터가 모델링에 적합하지 않습니까?

사람들이 변수 예측 (예측 변수와 반응 변수 모두)에 대해 이야기 할 때 대부분의 경우 로그 왜곡, 상자 및 콕스 변환 등의 데이터 왜곡을 처리하는 방법에 대해 논의합니다. 내가 이해할 수없는 것은 왜도를 제거하는 것이 일반적인 모범 사례로 간주됩니까? 왜도는 트리 기반 모델, 선형 모델 및 비선형 모델과 같은 다양한 모델의 …

17 modeling skewness

3

회귀 분석에서 R- 제곱과 p- 값의 관계는 무엇입니까?

tl; dr-OLS 회귀 분석의 경우 R 제곱이 높을수록 P- 값이 더 높습니까? 특히 단일 설명 변수 (Y = a + bX + e)의 경우 n 개의 다중 설명 변수 (Y = a + b1X + ... bnX + e)도 알고 싶습니다. 컨텍스트-다양한 변수에 대해 OLS 회귀를 수행하고 선형, 대수 등의 …

17 regression modeling p-value r-squared

1

계수에 선형 제한이 적용되는 R의 피팅 모델

계수를 바인딩하는 하나 이상의 정확한 선형 제한이있는 경우 R로 모델 공식을 어떻게 정의해야합니까? 예를 들어, 간단한 선형 회귀 모델에서 b1 = 2 * b0을 알고 있다고 가정하십시오. 감사합니다!

16 r regression modeling

2

기차가 오기 전에 시간을 모델링하는 데 사용할 분포는 무엇입니까?

기차 도착 시간에 대한 일부 데이터를 모델링하려고합니다. "기다리는 시간이 길수록 열차가 나타날 가능성이 높다"는 내용 의 배포판을 사용하고 싶습니다 . P (train show up | 60 분 기다림)가 1에 가까워 지도록 그러한 분포가 CDF처럼 보일 것 같습니다. 여기서 사용하기에 적합한 분포는 무엇입니까?

15 distributions modeling

7

백분율 데이터에 어떤 종류의 곡선 (또는 모형)을 적용해야합니까?

바이러스 사본과 게놈 범위 (GCC) 간의 관계를 보여주는 그림을 만들려고합니다. 이것은 내 데이터의 모습입니다 : 처음에는 선형 회귀를 플로팅했지만 관리자가 잘못되었다고 말하고 시그 모이 드 곡선을 시도한다고 말했습니다. 그래서 geom_smooth를 사용 하여이 작업을 수행했습니다. library(scales) ggplot(scatter_plot_new, aes(x = Copies_per_uL, y = Genome_cov, colour = Virus)) + geom_point() + scale_x_continuous(trans = …

15 regression modeling curve-fitting percentage

2

모델 정제를 언제 중단해야합니까?

지난 3 년간 많은 책에서 통계를 연구 해 왔으며이 사이트 덕분에 많은 것을 배웠습니다. 그럼에도 불구하고 하나의 근본적인 질문은 여전히 답이 남아 있습니다. 매우 간단하거나 어려운 답변이있을 수 있지만 통계에 대한 깊은 이해가 필요하다는 것을 알고 있습니다. 모델을 데이터에 맞출 때 (빈번주의 또는 베이지안 접근법), 우리는 가능성, 이전 또는 커널 …

15 modeling inference aic

5

통계 모델을 정확히 구축하는 것은 무엇입니까?

통계 모델을 정확히 구축하는 것은 무엇입니까? 요즘 연구 작업이나 컨설팅 작업을 신청할 때 종종 "모델 구축"또는 "모델링"이라는 용어가 등장합니다. 이 용어는 멋지게 들리지만 정확히 무엇을 의미합니까? 어떻게 당신은 당신의 모델을 구축? k-nn 및 로지스틱 회귀 분석을 포함한 예측 모델링을 찾았습니다 .

15 modeling

3

2 차 또는 교호 작용 항은 분리 된 의미에서 유의하지만 둘 다 함께 있지는 않습니다.

과제의 일환으로 예측 변수가 두 개인 모형을 적합시켜야했습니다. 그런 다음 포함 된 예측 변수 중 하나에 대해 모형의 잔차 그림을 그려야하며이를 바탕으로 변경해야합니다. 이 플롯은 곡선 추세를 보여 주므로 해당 예측 변수에 대한 2 차 항을 포함 시켰습니다. 새로운 모델은 2 차 항이 유의하다는 것을 보여주었습니다. 지금까지는 모두 좋았습니다. 그러나 …

15 statistical-significance multiple-regression modeling

4

메타 분석의 좋은 입문 치료를 찾고

(비 통계 학자) 동료가 의학 저널에 대한 논문 검토에서 메타 분석을 경험하고 있으며 자신을 교육 할 수있는 우수한 입문 수준의 치료를 찾고 있습니다. 어떤 추천? 즐겨 찾기? 책, 논문, 비 기술적 조사 기사 모두 괜찮을 것입니다. (예, 그는 Wikipedia 항목 및 Jerry Dallal의 멋진 작은 기사 와 같은 Google 검색으로 …

15 modeling meta-analysis

5

일련의 입력에 대해 어떤 통계적 분류 알고리즘이 참 / 거짓을 예측할 수 있습니까?

일련의 입력이 주어지면이 시퀀스에 원하는 특정 속성이 있는지 확인해야합니다. 이 속성은 true 또는 false 만 가능합니다. 즉 시퀀스에 속할 수있는 클래스는 두 개뿐입니다. 시퀀스와 속성 간의 정확한 관계는 불분명하지만, 이것이 매우 일관되고 통계적 분류에 적합하다고 생각합니다. 분류기를 훈련시키는 사례가 많이 있지만,이 훈련 세트에서 시퀀스에 잘못된 클래스가 할당 될 가능성이 약간 …

15 machine-learning classification modeling

2

과대 산포를 갖는 포아송 분포 모델링

Poisson 분포를 따를 것으로 예상되는 데이터 세트가 있지만 약 3 배 정도 과대 산포되어 있습니다. 현재 R의 다음 코드와 같은 것을 사용하여이과 분산을 모델링하고 있습니다. ## assuming a median value of 1500 med = 1500 rawdist = rpois(1000000,med) oDdist = rawDist + ((rawDist-med)*3) 시각적으로 이것은 경험적 데이터에 매우 잘 맞는 …

15 distributions modeling poisson-distribution overdispersion

2

분포에서 자유도에 대한 좋은 사전 분포는 무엇입니까?

베이지안 모델에서 짧은 간격 자산 수익을 모델링하기 위해 배포시 사용하고 싶습니다. 분포에 대한 자유도 (모델의 다른 매개 변수와 함께)를 추정하고 싶습니다. 나는 자산 수익률이 정상적이지 않다는 것을 알고 있지만, 그 이상을 너무 많이 모른다. 그러한 모형에서 자유도에 대한 적절하고 약간 유익한 사전 분포는 무엇입니까?

15 distributions bayesian modeling prior

«modeling» 태그된 질문