통계 및 빅 데이터

1

베이지안 부트 스트랩 프로세스가 무엇인지, 그리고 일반 부트 스트랩과 어떻게 다른지 이해하는 데 어려움을 겪고 있습니다. 그리고 누군가가 직관적이고 개념적인 검토와 두 가지를 비교할 수 있다면 좋을 것입니다. 예를 들어 봅시다. 데이터 세트 X가 [1,2,5,7,3]이라고 가정 해 봅시다. X 크기 ([7,7,2,5,7], [3,5,2,2,7] 등)와 동일한 샘플 크기를 생성하기 위해 여러 번 …

21 bayesian sampling bootstrap

4

“반 감독 학습”– 이것이 과적입니까?

Kaggle 경쟁에서 승리 한 솔루션에 대한 보고서를 읽고있었습니다 ( Malware Classification ). 보고서는이 포럼 게시물 에서 찾을 수 있습니다 . 문제는 열차 세트에 10000 개의 요소, 테스트 세트에 10000 개의 요소가있는 분류 문제 (9 개의 클래스, 메트릭은 로그 손실)였습니다. 경쟁하는 동안 모델은 테스트 세트의 30 %에 대해 평가되었습니다. 또 다른 …

21 machine-learning random-forest boosting overfitting semi-supervised

2

불균형 데이터에 대한 로지스틱 회귀에 가중치 추가

불균형 데이터 (9 : 1)로 로지스틱 회귀를 모델링하려고합니다. glmR 의 함수에서 가중치 옵션을 시도하고 싶었지만 100 % 확실하지 않습니다. 내 출력 변수가 c(0,0,0,0,0,0,0,0,0,1)입니다. 이제 "1"의 무게를 10 배 더 늘리고 싶습니다. 그래서 가중치 인수를 제공합니다 weights=c(1,1,1,1,1,1,1,1,1,1,1,10). 그렇게하면 최대 가능성을 계산할 때 고려됩니다. 내가 맞아? "1"의 오 분류는 "0"의 오 분류보다 …

21 regression logistic classification unbalanced-classes weighted-data

1

ROC 곡선 분석을위한 베이지안 방법을 발명 한 적이 있습니까?

전문 이것은 긴 글입니다. 이 내용을 다시 읽는다면 배경 자료는 동일하게 유지되지만 질문 부분을 수정했습니다. 또한 문제에 대한 해결책을 고안했다고 생각합니다. 해당 솔루션은 게시물 하단에 나타납니다. 내 원래 솔루션 (이 게시물에서 편집; 해당 솔루션의 편집 기록 참조)이 반드시 바이어스 된 추정치를 생성했음을 지적한 CliffAB에게 감사합니다. 문제 기계 학습 분류 문제에서 …

21 machine-learning bayesian sampling roc auc

3

양성 사례 만 훈련으로하여 결과를 예측하는 방법은 무엇입니까?

간단하게하기 위해 스팸 / 스팸이 아닌 전자 메일의 고전적인 예를 작업하고 있다고 가정하겠습니다. 20000 개의 이메일이 있습니다. 이 중 2000은 스팸이라는 것을 알고 있지만 스팸이 아닌 전자 메일의 예는 없습니다. 나머지 18000이 스팸인지 아닌지를 예측하고 싶습니다. 이상적으로, 내가 찾은 결과는 전자 메일이 스팸 일 확률 (또는 p- 값)입니다. 이 상황에서 …

21 machine-learning predictive-models unsupervised-learning supervised-learning semi-supervised

2

정규화 된 추정치가있는 신뢰 구간의 적용 범위

정규화 된 추정을 사용하여 일부 고차원 데이터에서 많은 수의 모수를 추정하려고한다고 가정하십시오. 정규화 도구는 추정치에 약간의 편견을 제공하지만 분산 감소가이를 보완하는 것 이상으로 인해 여전히 좋은 절충점이 될 수 있습니다. 신뢰 구간을 추정하려고 할 때 문제가 발생합니다 (예 : Laplace 근사 또는 부트 스트랩 사용). 특히, 추정치의 치우침으로 인해 신뢰 …

21 confidence-interval bias regularization ridge-regression coverage-probability

1

카운트 데이터에 포아송 대 기하 대 음 이항 GLM을 언제 사용해야합니까?

GLM 프레임 워크 내에서 카운트 데이터와 함께 어떤 회귀 유형 (형상, 포아송, 음 이항)을 사용하는 것이 적절할 때 나 자신을 위해 레이아웃하려고합니다 (8 개의 GLM 분포 중 3 개만 카운트 데이터에 사용됩니다. 음의 이항 분포와 포아송 분포 중심을 읽었습니다). 카운트 데이터에 포아송 대 기하 대 음 이항 GLM을 언제 사용해야합니까? …

21 generalized-linear-model negative-binomial count-data poisson-regression zero-inflation

2

회귀선 추정의 목적으로 잔차의 정규성이 왜“거의 중요하지 않은가?”

Gelman and Hill (2006)은 p46에 다음과 같이 썼다. 일반적으로 가장 중요하지 않은 회귀 가정은 오류가 정규 분포되어 있다는 것입니다. 실제로 회귀선을 추정하기 위해서는 (개별 데이터 요소를 예측하는 것과 비교하여) 정규성의 가정이 전혀 중요하지 않습니다. 따라서 많은 회귀 교과서와 달리 회귀 잔차의 정규성을 진단하는 것은 권장하지 않습니다. Gelman과 Hill은이 점을 더 …

21 regression residuals assumptions

2

일반 데이터 세트를위한 데이터 확대 기술?

많은 기계 학습 응용 프로그램에서 소위 데이터 보강 방법을 사용하면 더 나은 모델을 만들 수 있습니다. 예를 들어, 고양이와 강아지 의 이미지 훈련 세트를 가정하십시오 . 회전, 미러링, 대비 조정 등을 통해 원래 이미지에서 추가 이미지를 생성 할 수 있습니다.100100100 이미지의 경우, 데이터 확대는 비교적 간단합니다. 그러나 예를 들어 샘플로 …

21 machine-learning predictive-models dataset independence data-augmentation

2

Granger와 Pearl의 인과 관계 프레임 워크의 주요 차이점은 무엇입니까?

최근에 나는 Granger 인과 관계 를 언급 한 여러 논문과 온라인 자료를 살펴 보았습니다 . 해당 Wikipedia 기사 를 간략히 살펴보면 이 용어가 시계열 의 맥락에서 인과 관계를 의미한다는 인상을 받았습니다 (보다 일반적으로 확률 적 프로세스 ). 또한, 이 멋진 블로그 게시물을 읽으면 이 방법을 보는 방법에 혼란이 생겼습니다. 개념의 …

21 stochastic-processes causality granger-causality

2

이 개별 배포판의 이름이 있습니까?

이 개별 배포판의 이름이 있습니까? 옵션i∈1...Ni∈1...Ni \in 1...N f(i)=1N∑Nj=i1jf(i)=1N∑j=iN1jf(i) = \frac{1}{N} \sum_{j = i}^N \frac{1}{j} 나는이 배포판을 다음에서 보았습니다 : 나는 유틸리티 기능에 의해 순위가 매겨진 항목 목록을 가지고 있습니다. 목록의 시작을 향해 바이어스하면서 항목 중 하나를 임의로 선택하고 싶습니다. 그래서 먼저 1과 사이 의 인덱스 를 균일하게 선택합니다. 그런 …

21 probability terminology discrete-data distributions

1

로그 로그 로지스틱 회귀 추정값 해석

누군가가 cloglog 링크를 사용하여 로지스틱 회귀 분석에서 추정치를 해석하는 방법에 대해 조언 할 수 있습니까? 나는 다음 모델을 장착했다 lme4: glm(cbind(dead, live) ~ time + factor(temp) * biomass, data=mussel, family=binomial(link=cloglog)) 예를 들어, 예상 시간은 0.015입니다. 단위 시간당 사망률에 exp (0.015) = 1.015113 (단위 시간당 ~ 1.5 % 증가)을 곱한 것이 …

21 logistic regression-coefficients

3

퍼셉트론 규칙에서 그라디언트 디센트까지 : S 자형 활성화 기능을 가진 퍼셉트론은 로지스틱 회귀와 어떻게 다른가?

본질적으로, 내 질문은 다층 퍼셉트론에서 퍼셉트론이 시그 모이 드 활성화 기능과 함께 사용된다는 것입니다. 업데이트 규칙에서 는 다음과 같이 계산됩니다.와이^와이^\hat{y} 와이^= 11 +특급( − w티엑스나는)와이^=11+특급⁡(−승티엑스나는)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} 이 "sigmoid"Perceptron은 로지스틱 회귀와 어떻게 다릅니 까? 단일 계층 시그 모이 드 퍼셉트론은 업데이트 규칙의또한 예측에서 을 합니다. 그러나 다층 퍼셉트론에서, S 자형 …

21 logistic classification neural-networks gradient-descent perceptron

2

Quantile 회귀 분석에서 R 제곱

Quantile Regression을 사용하여 데이터의 90 번째 백분위 수 예측 변수를 찾습니다. quantreg패키지를 사용하여 R 에서이 작업을 수행하고 있습니다. 예측 변수에 의해 설명되는 변동의 정도를 나타내는 Quantile regression에 대한 를 어떻게 확인할 수 있습니까?아르 자형2r2r^2 내가 정말로 알고 싶은 것 : "얼마나 많은 변동성을 설명 할 수있는 방법이 있습니까?" P 값에 …

21 r-squared quantile-regression

1

중간 통계가 충분한 통계 인 경우는 언제입니까?

나는 화학 물질 통계 학자 에 대한 언급을 보았습니다 . 샘플 중앙값은 종종 충분한 통계량에 대한 선택이 될 수 있지만 표본 평균과 동일한 1 또는 2 개의 관측치의 명백한 경우 외에는 또 다른 사소하고 iid를 생각할 수 없습니다 샘플 중앙값이 충분한 경우.

21 median exponential-family sufficient-statistics chemistry