통계 및 빅 데이터

2

간단한 요약 포아송 회귀 (상대 위험이있는)와 반대로 이진 결과를 가진 코호트 연구에서 로지스틱 회귀 (확률이있는)가 더 일반적으로 사용되는 이유는 무엇입니까? 배경 필자의 경험에 따르면 학부 및 대학원 통계 및 역학 과정은 일반적으로 로지스틱 회귀를 이진 결과로 데이터를 모델링하는 데 사용해야하며 위험 평가는 확률 비율로보고됩니다. 그러나 포아송 회귀 (및 관련 : …

42 logistic poisson-distribution epidemiology odds-ratio relative-risk

5

기계 학습이 인과 관계를 이해하는 데 덜 유용하므로 사회 과학에 덜 흥미로울까요?

머신 러닝 / 기타 통계 예측 기법과 사회 과학자 (예 : 경제학자)가 사용하는 통계 종류의 차이점에 대한 나의 이해는 경제학자가 단일 또는 여러 변수의 효과를 이해하는 데 매우 관심이 있다는 것입니다. 규모와 관계가 인과 관계인지 감지. 이를 위해 실험 및 준 실험적 방법 등으로 자신에 관한 결과를 얻습니다. 예측 가능한 …

42 machine-learning econometrics

5

로지스틱 회귀 계수의 중요성은 무엇입니까?

저는 현재 2000 년과 2004 년 선거에서 투표 장소와 투표 선호도에 관한 논문을 읽고 있습니다. 여기에는 로지스틱 회귀 계수를 표시하는 차트가 있습니다. 몇 년 전부터 조금 읽고로지스틱 회귀 분석은 여러 독립 변수와 이진 반응 변수 간의 관계를 설명하는 방법이라는 것을 알고 있습니다. 내가 혼란스러워하는 것은, 아래 표를 보면 남한이 로지스틱 …

42 regression logistic interpretation

3

PCA의 목적 기능은 무엇입니까?

주성분 분석 은 매트릭스 분해를 사용할 수 있지만, 이는 단지 도달하기위한 도구 일뿐입니다. 행렬 대수를 사용하지 않고 주성분을 어떻게 찾을 수 있습니까? 목적 함수 (목표)는 무엇이며 제약 조건은 무엇입니까?

42 pca

2

베르누이 샘플링에 대한 신뢰 구간

Bernoulli 임의 변수 의 임의 샘플이 있습니다 . 여기서 는 iidrv이고 이고 는 알 수없는 매개 변수입니다.X1...XNX1...XNX_1 ... X_NXiXiX_iP(Xi=1)=pP(Xi=1)=pP(X_i = 1) = pppp 분명히 : 대한 추정치를 찾을 수 있습니다 .pppp^:=(X1+⋯+XN)/Np^:=(X1+⋯+XN)/N\hat{p}:=(X_1+\dots+X_N)/N 내 질문은 어떻게 대한 신뢰 구간을 만들 수 있습니까?ppp

42 confidence-interval binomial bernoulli-distribution

8

가중 소셜 네트워크 / 그래프에서 커뮤니티 감지를 수행하는 방법은 무엇입니까?

가중치가 있고 방향이없는 가장자리 가있는 그래프에서 커뮤니티 감지 / 그래프 분할 / 클러스터링을 수행 할 때 누군가가 좋은 출발점을 제안 할 수 있는지 궁금합니다 . 문제의 그래프는 약 3 백만 개의 모서리를 가지며 각 모서리는 연결하는 두 정점 사이의 유사도를 나타냅니다. 특히,이 데이터 세트에서 모서리는 개인이며 정점은 관찰 된 동작의 …

42 clustering data-visualization networks partitioning modularity

5

시계열을 고정시키는 방법?

차이를 취하는 것 외에도 고정되지 않은 시계열을 고정시키는 다른 기술은 무엇입니까? 일반적 으로 지연 연산자 통해 고정식으로 만들 수있는 경우 계열을 " 순서 p의 통합 "이라고합니다 .( 1 − L )피엑스티(1−L)PXt(1-L)^P X_t

42 time-series stationarity

8

사람들이 데이터를 더 잘 관리하도록하려면 어떻게해야합니까?

직장 에는 매우 다양한 분야의 직원이 있으므로 다양한 형태로 데이터를 생성합니다. 결과적으로 각 팀은 데이터 저장을위한 자체 시스템을 개발했습니다. 일부는 Access 또는 SQL 데이터베이스를 사용합니다. 일부 팀 (내 공포)은 거의 전적으로 Excel 스프레드 시트에 의존합니다. 종종 데이터 형식이 프로젝트마다 다릅니다. 어떤 경우에는 그것을 '시스템'이라고 부르는 것이 너무 친절합니다. 이것이 수반하는 …

42 dataset reproducible-research quality-control

5

전문가의 우선 순위 도출

베이지안 모형을 피팅 할 때 전문가의 사전 배포를 어떻게 이끌어 내야합니까?

42 bayesian prior elicitation

6

선형 회귀 분석에는 어떤 알고리즘이 사용됩니까?

나는 보통 "보통 최소 제곱"에 대해 듣습니다. 이것이 선형 회귀에 가장 널리 사용되는 알고리즘입니까? 다른 것을 사용해야 할 이유가 있습니까?

42 regression least-squares algorithms computational-statistics numerics

6

다운 샘플링하는 이유

이메일이 스팸인지 예측하는 분류기를 배우고 싶다고 가정 해보십시오. 그리고 이메일의 1 %만이 스팸이라고 가정합니다. 가장 쉬운 방법은 스팸 이메일이 없다는 간단한 분류기를 배우는 것입니다. 이 분류기는 99 %의 정확도를 제공하지만 흥미로운 것은 배우지 않으며 100 %의 잘못된 부정 비율을 갖습니다. 이 문제를 해결하기 위해 사람들은 "다운 샘플링"하거나 예제의 50 %가 …

42 machine-learning classification

3

두 부울 벡터 사이의 Pearson 또는 Spearman 상관 관계를 계산하는 것이 의미가 있습니까?

0과 1 만 포함하는 두 개의 부울 벡터가 있습니다. Pearson 또는 Spearman 상관 관계를 계산하면 의미가 있거나 합리적입니까?

42 correlation binary-data pearson-r spearman-rho

2

영화에서 상호 작용 용어를 작성하는 다른 방법은 무엇입니까?

회귀 모델에서 교호 작용을 지정하는 가장 좋은 방법에 대한 질문이 있습니다. 다음 데이터를 고려하십시오. d <- structure(list(r = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("r1","r2"), class = "factor"), s = structure(c(1L, 1L, 1L, 1L, …

42 r regression interaction

5

SVM 기능 가중치를 어떻게 해석합니까?

선형 SVM을 피팅하여 주어진 가변 가중치를 해석하려고합니다. (나는 scikit-learn 사용하고 있습니다 ) : from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ 설명서에서 이러한 가중치를 계산하거나 해석하는 방법을 구체적으로 나타내는 내용을 찾을 수 없습니다. 체중의 표시는 수업과 관련이 있습니까?

42 svm feature-selection python scikit-learn

4

당황이란 무엇입니까?

I는 용어 우연히 혼란 보이지 않는 데이터의 로그 평균 역 확률을 말한다. 난이도 에 대한 Wikipedia 기사 는 동일한 의미를 나타내지 않습니다. 이 난이도 측정은 pLSA 용지 에 사용되었습니다 . 누구든지 당혹 성 측정 의 필요성과 직관적 의미를 설명 할 수 있습니까 ?

42 measurement perplexity