통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

2
이항 결과의 상대 위험을 추정하기위한 포아송 회귀
간단한 요약 포아송 회귀 (상대 위험이있는)와 반대로 이진 결과를 가진 코호트 연구에서 로지스틱 회귀 (확률이있는)가 더 일반적으로 사용되는 이유는 무엇입니까? 배경 필자의 경험에 따르면 학부 및 대학원 통계 및 역학 과정은 일반적으로 로지스틱 회귀를 이진 결과로 데이터를 모델링하는 데 사용해야하며 위험 평가는 확률 비율로보고됩니다. 그러나 포아송 회귀 (및 관련 : …

5
기계 학습이 인과 관계를 이해하는 데 덜 유용하므로 사회 과학에 덜 흥미로울까요?
머신 러닝 / 기타 통계 예측 기법과 사회 과학자 (예 : 경제학자)가 사용하는 통계 종류의 차이점에 대한 나의 이해는 경제학자가 단일 또는 여러 변수의 효과를 이해하는 데 매우 관심이 있다는 것입니다. 규모와 관계가 인과 관계인지 감지. 이를 위해 실험 및 준 실험적 방법 등으로 자신에 관한 결과를 얻습니다. 예측 가능한 …

5
로지스틱 회귀 계수의 중요성은 무엇입니까?
저는 현재 2000 년과 2004 년 선거에서 투표 장소와 투표 선호도에 관한 논문을 읽고 있습니다. 여기에는 로지스틱 회귀 계수를 표시하는 차트가 있습니다. 몇 년 전부터 조금 읽고로지스틱 회귀 분석은 여러 독립 변수와 이진 반응 변수 간의 관계를 설명하는 방법이라는 것을 알고 있습니다. 내가 혼란스러워하는 것은, 아래 표를 보면 남한이 로지스틱 …

3
PCA의 목적 기능은 무엇입니까?
주성분 분석 은 매트릭스 분해를 사용할 수 있지만, 이는 단지 도달하기위한 도구 일뿐입니다. 행렬 대수를 사용하지 않고 주성분을 어떻게 찾을 수 있습니까? 목적 함수 (목표)는 무엇이며 제약 조건은 무엇입니까?
42 pca 

2
베르누이 샘플링에 대한 신뢰 구간
Bernoulli 임의 변수 의 임의 샘플이 있습니다 . 여기서 는 iidrv이고 이고 는 알 수없는 매개 변수입니다.X1...XNX1...XNX_1 ... X_NXiXiX_iP(Xi=1)=pP(Xi=1)=pP(X_i = 1) = pppp 분명히 : 대한 추정치를 찾을 수 있습니다 .pppp^:=(X1+⋯+XN)/Np^:=(X1+⋯+XN)/N\hat{p}:=(X_1+\dots+X_N)/N 내 질문은 어떻게 대한 신뢰 구간을 만들 수 있습니까?ppp

8
가중 소셜 네트워크 / 그래프에서 커뮤니티 감지를 수행하는 방법은 무엇입니까?
가중치가 있고 방향이없는 가장자리 가있는 그래프에서 커뮤니티 감지 / 그래프 분할 / 클러스터링을 수행 할 때 누군가가 좋은 출발점을 제안 할 수 있는지 궁금합니다 . 문제의 그래프는 약 3 백만 개의 모서리를 가지며 각 모서리는 연결하는 두 정점 사이의 유사도를 나타냅니다. 특히,이 데이터 세트에서 모서리는 개인이며 정점은 관찰 된 동작의 …

5
시계열을 고정시키는 방법?
차이를 취하는 것 외에도 고정되지 않은 시계열을 고정시키는 다른 기술은 무엇입니까? 일반적 으로 지연 연산자 통해 고정식으로 만들 수있는 경우 계열을 " 순서 p의 통합 "이라고합니다 .( 1 − L )피엑스티(1−L)PXt(1-L)^P X_t

8
사람들이 데이터를 더 잘 관리하도록하려면 어떻게해야합니까?
직장 에는 매우 다양한 분야의 직원이 있으므로 다양한 형태로 데이터를 생성합니다. 결과적으로 각 팀은 데이터 저장을위한 자체 시스템을 개발했습니다. 일부는 Access 또는 SQL 데이터베이스를 사용합니다. 일부 팀 (내 공포)은 거의 전적으로 Excel 스프레드 시트에 의존합니다. 종종 데이터 형식이 프로젝트마다 다릅니다. 어떤 경우에는 그것을 '시스템'이라고 부르는 것이 너무 친절합니다. 이것이 수반하는 …



6
다운 샘플링하는 이유
이메일이 스팸인지 예측하는 분류기를 배우고 싶다고 가정 해보십시오. 그리고 이메일의 1 %만이 스팸이라고 가정합니다. 가장 쉬운 방법은 스팸 이메일이 없다는 간단한 분류기를 배우는 것입니다. 이 분류기는 99 %의 정확도를 제공하지만 흥미로운 것은 배우지 않으며 100 %의 잘못된 부정 비율을 갖습니다. 이 문제를 해결하기 위해 사람들은 "다운 샘플링"하거나 예제의 50 %가 …



5
SVM 기능 가중치를 어떻게 해석합니까?
선형 SVM을 피팅하여 주어진 가변 가중치를 해석하려고합니다. (나는 scikit-learn 사용하고 있습니다 ) : from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ 설명서에서 이러한 가중치를 계산하거나 해석하는 방법을 구체적으로 나타내는 내용을 찾을 수 없습니다. 체중의 표시는 수업과 관련이 있습니까?

4
당황이란 무엇입니까?
I는 용어 우연히 혼란 보이지 않는 데이터의 로그 평균 역 확률을 말한다. 난이도 에 대한 Wikipedia 기사 는 동일한 의미를 나타내지 않습니다. 이 난이도 측정은 pLSA 용지 에 사용되었습니다 . 누구든지 당혹 성 측정 의 필요성과 직관적 의미를 설명 할 수 있습니까 ?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.