«generalized-linear-model» 태그된 질문

"회귀 함수"를 통한 비선형 관계를 허용하고 반응의 분산이 예측 된 값에 의존하도록하는 선형 회귀의 일반화. (일반 선형 모델을 일반 공분산 구조 및 다변량 반응으로 확장하는 "일반 선형 모델"과 혼동하지 마십시오.)

2
로지스틱 회귀 분석의 Pearson VS 편차 잔차
표준화 된 Pearson 잔차는 전통적인 확률 론적 방식으로 얻어진다는 것을 알고 있습니다. ri=yi−πiπi(1−πi)−−−−−−−−√ri=yi−πiπi(1−πi) r_i = \frac{y_i-\pi_i}{\sqrt{\pi_i(1-\pi_i)}} 이탈 잔차는보다 통계적인 방법 (각 지점의 가능성에 대한 기여도)을 통해 얻습니다. di=si−2[yilogπi^+(1−yi)log(1−πi)]−−−−−−−−−−−−−−−−−−−−−−−−−−√di=si−2[yilog⁡πi^+(1−yi)log⁡(1−πi)] d_i = s_i \sqrt{-2[y_i \log \hat{\pi_i} + (1 - y_i)\log(1-\pi_i)]} 여기서, 경우 (1) = Y 난 = 1과 s의 난 = -1 …

2
변수가 변환 된 LM과 GLM이 다른 이유
이 과정 유인물 (1 페이지)에 설명 된대로 선형 모델은 다음 형식으로 작성 될 수 있습니다. y=β1x1+⋯+βpxp+εi,y=β1x1+⋯+βpxp+εi, y = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i, 여기서 yyy 는 반응 변수이고 xixix_{i} 는 ithithi^{th} 설명 변수. 테스트 가정을 충족시키기 위해 종종 응답 변수를 변환 할 수 있습니다. 예를 들어 …

1
GLM의 로그 가능성이 글로벌 최대 값으로 수렴을 보장합니까?
내 질문은 : 일반화 된 선형 모델 (GLM)이 전체 최대 값으로 수렴되도록 보장됩니까? 그렇다면 왜 그렇습니까? 또한, 볼록 함을 보장하기 위해 링크 기능에는 어떤 제약이 있습니까? GLM에 대한 나의 이해는 이들이 매우 비선형 우도 함수를 최대화한다는 것입니다. 따라서 여러 로컬 최대 값이 있고 수렴 할 매개 변수 세트가 최적화 알고리즘의 …


3
통계적 배경이없는 사람들에게 일반화 된 선형 모델을 어떻게 설명 하시겠습니까?
나는 통계적 배경이없는 청중에게 통계 기술을 설명하는 데 어려움을 겪고 있습니다. 통계 관용어를 버리지 않고 GLM이 그러한 대상에게 어떤 것인지 설명하고 싶을 때 가장 효과적인 방법은 무엇입니까? 나는 보통 GLM을 (1) 응답 변수 인 랜덤 성분, (2) 선형 예측 변수 인 시스템 성분, (3) 연결의 "핵심"링크 기능 (1)과 (2). 그런 …

2
GLM의 과대 산포 테스트는 실제로 * 유용 *합니까?
응답 변수의 분산을 제한하는 모델을 사용할 때마다 GLM에서 '과도 분산'현상이 발생하며 데이터는 모델 제한이 허용하는 것보다 큰 분산을 나타냅니다. 이것은 Poisson GLM을 사용하여 카운트 데이터를 모델링 할 때 일반적으로 발생하며 잘 알려진 테스트로 진단 할 수 있습니다. 검정 결과 과대 산포의 통계적으로 유의미한 증거가있는 경우, 분산 모형을 사용하여 원래 모형에서 …

3
단순 카이 제곱 테스트 대신 glm () 사용
glm()R을 사용하여 귀무 가설을 변경하는 데 관심 이 있습니다. 예를 들면 다음과 같습니다. x = rbinom(100, 1, .7) summary(glm(x ~ 1, family = "binomial")) 가설을 검정합니다 . 내에서 null을 p = 임의의 값 으로 변경하려면 어떻게해야 합니까? p=0.5p=0.5p = 0.5pppglm() 이 작업을 prop.test()and 로도 수행 할 수 있다는 것을 알고 …

4
반복 횟수가 증가함에 따라 그라디언트 부스팅 기계 정확도가 감소합니다.
caretR 의 패키지를 통해 그라디언트 부스팅 머신 알고리즘을 실험하고 있습니다 . 소규모 대학 입학 데이터 세트를 사용하여 다음 코드를 실행했습니다. library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
공분산 구조 지정 : 장단점
공분산 행렬의 모든 비 대각선 항목을 0으로 처리하지 않고 GLM에서 공분산 구조를 지정하면 어떤 이점이 있습니까? 데이터에 대해 아는 것을 반영하는 것 외에도 착용감 향상? 보류 된 데이터의 예측 정확도를 향상 시킵니까? 공분산의 정도를 추정 할 수 있습니까? 공분산 구조를 부과하는 비용은 얼마입니까? 그렇습니까 추정 알고리즘에 대한 계산상의 합병증을 추가합니까? …

3
0으로 덩어리가있는 음이 아닌 데이터 모델 (Tweedie GLM, 0 팽창 GLM 등)이 정확한 0을 예측할 수 있습니까?
Tweedie 분포는 모수 (평균-분산 관계에서 지수)가 1과 2 사이 일 때 0으로 점 질량을 사용하여 치우친 데이터를 모델링 할 수 있습니다 .ppp 유사하게 0 팽창 된 (그렇지 않으면 연속적이든 불연속적인) 모델은 많은 수의 0을 가질 수 있습니다. 이러한 종류의 모델로 적합치를 예측하거나 계산할 때 모든 예측값이 0이 아닌 이유를 이해하는 …

3
GAM vs GLM을 사용하는 경우
나는 이것이 잠재적으로 광범위한 질문 일 수 있음을 알고 있지만 GLM (Generalized linear model)보다 GAM (Generalized Additive Model)의 사용을 나타내는 일반화 가능한 가정이 있는지 궁금합니다. 누군가 최근에 GAM은 데이터 구조가 "가산 적"이라고 가정 할 때만 사용해야한다고했습니다. 즉, x를 더하면 y를 예측할 수 있습니다. 다른 사람은 GAM이 GLM과 다른 유형의 회귀 …

2
선형 회귀 분석에 잔차에 대한 가정이 있지만 일반화 된 선형 모형에 반응에 대한 가정이있는 이유는 무엇입니까?
선형 회귀 분석과 일반화 모형에 일관성이없는 가정이있는 이유는 무엇입니까? 선형 회귀 분석에서 잔차 가 가우시안 형태 라고 가정합니다. 다른 회귀 (logistic regression, poison regression)에서는 반응 이 일부 분포 (이항, poission 등)에서 발생 한다고 가정 합니다. 왜 때때로 잔여 시간을 가정하고 응답에 다른 시간을 가정합니까? 우리는 다른 속성을 도출하기를 원하기 때문입니까? …

1
관측치가 1 인 랜덤 효과는 일반 선형 혼합 모형에 어떤 영향을 줍니까?
임의 효과로 사용하려는 변수에 일부 수준에 대한 단일 관측치 만있는 데이터 세트가 있습니다. 이전 질문에 대한 답변을 바탕으로 원칙적으로 이것이 좋을 수 있다는 것을 모았습니다. 관측치가 1 개인 피사체에 혼합 모델을 적용 할 수 있습니까? 무작위 절편 모델-대상 당 하나의 측정 그러나 두 번째 링크에서 첫 번째 답변은 다음과 같습니다. …

2
GLM : 분배 및 링크 기능 선택 확인
가우시안 분포 및 로그 링크 기능을 채택한 일반화 선형 모형이 있습니다. 모델을 피팅 한 후 QQ 플롯, 잔차 대 예측값, 잔차 히스토그램 (적당한주의가 필요함을 인정)을 잔차를 확인합니다. 모든 것이 좋아 보인다. 이것은 가우시안 분포의 선택이 상당히 합리적이라고 제안합니다. 또는 적어도 잔차가 모형에 사용 된 분포와 일치해야합니다. Q1 : 내가 선택한 …

6
활동에서 독립 변수로 소비 한 시간
선형 모델에서 무언가 (예를 들어 모유 수유)를 독립 변수로 포함시키는 데 시간을 포함하고 싶습니다. 그러나 일부 관찰은 동작에 전혀 관여하지 않습니다. 0이 0보다 큰 값과 질적으로 다르기 때문에 0으로 코딩하는 것은 실제로 옳지 않습니다. 내가 생각해 낼 수있는 최선의 방법은 소요 시간을 분류하는 일련의 인형이지만, 이것은 귀중한 정보의 낭비입니다. 0으로 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.