통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

4
증가 된 환자 수를 설명하기 위해 이항 모형에서 오프셋 사용
나에게 두 가지 관련 질문이 있습니다. 한 열 (10-17 환자 범위)의 환자 수와 그 날 사건이 발생했는지 여부를 나타내는 0과 1을 포함하는 데이터 프레임이 있습니다. 나는 이항 모델을 사용하여 환자 수에 대한 사고 확률을 회귀하고 있습니다. 그러나 환자 수가 많을수록 병동의 총 환자 시간이 그날 더 많아지기 때문에 더 많은 …


1
혼합 효과 모형 추정치의 표준 오차는 어떻게 계산해야합니까?
특히 선형 혼합 효과 모델에서 고정 효과의 표준 오차는 어떻게 자주 계산되어야합니까? Laird and Ware [1982]에 제시된 것과 같은 전형적인 추정치 ( )는 SE에게 추정 분산 성분이 실제 값인 것처럼 취급되므로 크기가 과소 평가됩니다.V a r ( β^) = ( X'V엑스)− 1Var(β^)=(X′VX)−1{\rm Var}(\hat\beta)=(X'VX)^{-1} R 패키지 의 lme및 summary함수에 의해 생성 …


2
딥 러닝 및 의사 결정 트리 및 부스팅 방법
나는 경험적으로나 이론적으로 비교하고 토론하는 논문이나 텍스트를 찾고 있습니다. Random Forests 또는 AdaBoost 및 GentleBoost 와 같은 Boosting and Decision tree 알고리즘 은 의사 결정 트리에 적용됩니다. 와 같은 깊은 학습 방법 제한 볼츠만 기계 , 계층 임시 메모리 , 길쌈 신경망 등, 보다 구체적으로, 속도, 정확성 또는 수렴 측면에서이 …

5
어떤 강력한 상관 관계 분석법이 실제로 사용됩니까?
여러 분포 (비틀림, 특이 치 등)가있는 여러 강력한 상관 관계 기술의 성능을 비교하는 시뮬레이션 연구를 수행 할 계획입니다. 으로 강력한 , I)는 비대칭 분포, b) 특이점 및 c) 무거운 끌리는 강인한되는 이상적인 경우를 의미한다. Pearson 상관 관계를 기준으로하여 다음과 같은보다 강력한 측정 방법을 포함 시키려고했습니다. 스피어 맨의 ρρ\rho 백분율 굽힘 …

5
대규모 텍스트 분류
텍스트 데이터를 분류하려고합니다. 나는 300 classes수업 당 200 개의 교육 문서를 가지고 60000 documents in total있으며 이것은 매우 높은 차원의 데이터 를 초래할 가능성 이있다 (우리는 1 백만 개 이상의 차원을 보고있을 것이다 ). 파이프 라인에서 다음 단계를 수행하고 싶습니다 (내 요구 사항에 대한 이해를 돕기 위해). 각 문서를 피처 …

2
GLMNET의 변수 중요성
기능을 선택하고 이진 대상에 예측 모델을 맞추는 방법으로 올가미를 사용하려고합니다. 아래는 정규화 된 로지스틱 회귀 분석을 시도하기 위해 놀고있는 코드입니다. 내 질문은 "유의 한"변수 그룹을 얻는데 각각의 상대적 중요성을 추정하기 위해 순서를 매길 수 있습니까? 이 순위의 목적을 위해 절대 값으로 계수를 표준화 할 수 있습니까 ( coef함수를 통해 원래 …

4
일반적으로 정보가 없거나 주관적인 사전을 사용할 때 베이지안 체계가 어떻게 해석에 더 좋습니까?
베이지안 프레임 워크는 해석에서 (자주주의에 비해) 큰 장점을 가지고 있다고 종종 주장되는데, 이는 데이터에서 주어진 매개 변수의 확률 을 대신 대신 계산하기 때문 입니다. 빈번한 틀. 여태까지는 그런대로 잘됐다.p ( x | θ )p ( θ | x )p(θ|x)p(\theta|x)p ( x | θ )p(x|θ)p(x|\theta) 그러나 전체 방정식은 다음을 기반으로합니다. p …



3
R의 백분위 수 순위 계산 [닫기]
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 삼년 전에 . 변수 중 하나의 백분위 수 순위가되는 데이터 프레임에 새 변수를 추가하려면 어떻게해야합니까? Excel에서 쉽게 할 수 있지만 R에서 실제로하고 싶습니다. 감사
18 r  quantiles 


1
본 페로 니 또는 터키? 비교 횟수는 언제 커 집니까?
SPSS (3 판)를 사용하여 Field의 발견 통계 읽기 필자는 ANOVA의 사후 테스트에 대해 약간 충격을 받았습니다. 제 1 종 오류율을 제어하려는 사람들은 Bonferroni 또는 Tukey를 제안하고 (374 페이지)라고 말합니다. Bonferroni는 비교 횟수가 적을수록 더 많은 힘을 발휘하는 반면 Tukey는 많은 수의 평균을 테스트 할 때 더 강력합니다. 작고 많은 수단 …

1
R에서 스파크 라인 플로팅
잠김 . 이 질문과 주제는 주제가 다르지만 역사적 의미가 있기 때문에이 질문과 답변은 잠겨 있습니다. 현재 새로운 답변이나 상호 작용을받지 않습니다. R을 사용하여 다음과 같은 것을 그려보고 싶습니다. 좌표, 너비, 높이 등을 추적하는 것은 가능하지만 매우 복잡해 보입니다. 직관적으로 각 셀을 새 플롯으로 취급하고 각 셀의 좌표를 변환하는 것이 가장 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.