통계 및 빅 데이터

2

lmer () 모델에서 예측 주위의 예측 간격을 얻고 싶습니다. 이에 대한 토론을 찾았습니다. http://rstudio-pubs-static.s3.amazonaws.com/24365_2803ab8299934e888a60e7b16113f619.html http://glmm.wikidot.com/faq 그러나 그들은 무작위 효과의 불확실성을 고려하지 않은 것으로 보인다. 구체적인 예는 다음과 같습니다. 나는 금붕어를 경주하고 있습니다. 지난 100 개 인종에 대한 데이터가 있습니다. RE 추정치와 FE 추정치의 불확실성을 고려하여 101st를 예측하고 싶습니다. 나는 물고기에 …

37 r mixed-model prediction prediction-interval lme4-nlme

3

SVM과 로지스틱 회귀 비교

누군가 SVM 또는 LR을 언제 선택할지에 대한 직감을 줄 수 있습니까? 나는 두 목표의 초평면 학습의 최적화 기준 사이의 차이점이 무엇인지에 대한 직관을 이해하고 싶습니다. 각 목표는 다음과 같습니다. SVM : 가장 가까운 지원 벡터 사이의 마진을 최대화하려고 LR : 사후 클래스 확률 최대화 SVM과 LR의 선형 피처 공간을 고려해 …

37 regression logistic svm optimization

6

많은 범주 형 변수로 분류 개선

200,000 개 이상의 샘플과 샘플 당 약 50 개의 기능으로 데이터 세트를 작성하고 있습니다. 10 개의 연속 변수와 다른 40 개는 범주 형 변수 (국가, 언어, 과학 분야 등)입니다. 이러한 범주 형 변수의 경우 예를 들어 150 개의 다른 국가, 50 개의 언어, 50 개의 과학 분야 등이 있습니다. 지금까지 …

37 machine-learning classification categorical-data random-forest many-categories

8

내 결혼식에 얼마나 많은 사람들이 올지 계산할 수 있도록 도와주세요! 각 사람에게 비율을 부여하고 추가 할 수 있습니까?

나는 결혼식을 계획하고있다. 내 결혼식에 얼마나 많은 사람들이 올지 추정하고 싶습니다. 나는 사람들의 목록과 그들이 참석할 확률을 백분율로 만들었습니다. 예를 들어 Dad 100% Mom 100% Bob 50% Marc 10% Jacob 25% Joseph 30% 나는 백분율을 가진 약 230 명의 사람들의 명부를 가지고있다. 내 결혼식에 얼마나 많은 사람들이 참석할 수 있는지 …

37 probability

2

R에서 반 정현파 모델에 적합한 피팅을 찾는 방법은 무엇입니까?

발트해의 해수면 온도가 해마다 동일하다고 가정하고 함수 / 선형 모델로 설명합니다. 내가 가진 아이디어는 연도를 10 진수 (또는 num_months / 12)로 입력하고 그 시간에 대한 온도를 알아내는 것이 었습니다. R의 lm () 함수에 던지면 정현파 데이터를 인식하지 않으므로 직선을 생성합니다. 그래서 sin () 함수를 I () 괄호 안에 넣고 함수에 …

37 r regression time-series lm

4

수학의 강력한 배경이 ML의 필수 요건입니까?

나는 내 자신의 스킬 셋을 발전시키기 시작했고 항상 머신 러닝에 매료되었습니다. 그러나 6 년 전에는 이것을 추구하는 대신 컴퓨터 과학과 전혀 관련없는 학위를 받기로 결정했습니다. 나는 약 8-10 년 동안 소프트웨어와 응용 프로그램을 개발 해 왔으므로 잘 다루었지만 기계 학습 / 확률 / 통계의 수학 측면에 침투하는 것처럼 보이지 않습니다. …

37 machine-learning references mathematical-statistics

10

통계 나 머신 러닝에 대한 좋은 과학 책이 있습니까?

실제 과학뿐만 아니라 현재 이론의 역사와 이유를 다루면서 읽는 것이 매우 즐겁고 인기있는 과학 도서가 많이 있습니다. 예를 들어 James Gleick (카오스, 프랙탈, 비선형 성)의 "Chaos", Stephen Hawking (물리, 우주의 기원, 시간, 블랙홀)의 "간단한 역사"또는 Richard Dawkins의 "The Selfish Gene"( 진화와 자연 선택). 이 책들 중 일부는 논증 (Dawkins)을 제시하고 …

37 references communication

2

PCA가 분산을 설명하는 동안 요인 분석은 공분산을 어떻게 설명합니까?

다음은 Bishop의 "패턴 인식 및 기계 학습"책, 12.2.4 "인자 분석"에서 인용 한 내용입니다. 강조 표시된 부분에 따르면, 요인 분석 은 행렬 변수 간 공분산을 캡처합니다WWW . 나는 어떻게 궁금해 ? 내가 이해하는 방법은 다음과 같습니다. 말 관측 인 , 차원 변수 인자 로딩 매트릭스이며, 계수 스코어 벡터이다. 그러면 이 있습니다. …

37 pca factor-analysis geometry

5

비선형 연관성을 어떻게 테스트합니까?

플롯 1의 경우 간단한 상관 관계 분석을 수행하여 x와 y 간의 연관성을 테스트 할 수 있습니다. 관계가 비선형이지만 x와 y 사이에 명확한 관계가있는 플롯 2의 경우 연관성을 테스트하고 그 특성을 레이블링하려면 어떻게해야합니까?

37 nonlinear-regression non-independent association-measure

3

SVM, 과적 합, 차원의 저주

내 데이터 세트는 작지만 (120 개의 샘플) 기능의 수가 많으면 (1000-200,000)입니다. 기능의 하위 집합을 선택하기 위해 기능을 선택하고 있지만 여전히 초과 적합 할 수 있습니다. 첫 번째 질문은 SVM이 과적 합을 어떻게 처리하는지입니다. 둘째, 분류의 경우 과적 합에 대해 더 많이 연구함에 따라 소수의 기능을 가진 데이터 세트조차도 과적 합할 …

37 classification svm

6

베이지안 대 잦은 확률 해석

누군가 베이지안과 잦은 확률 접근 방법의 차이점을 잘 설명 할 수 있습니까? 내가 이해 한 것에서 : 잦은 주의자들은 데이터가 특정 빈도 / 확률 (시험 횟수가 무한대에 가까워 질 때 사건의 상대 빈도로 정의 됨)을 갖는 반복 가능한 랜덤 표본 (임의 변수)이라는 점입니다. 기본 파라미터 확률이 반복 과정과 편차의 변화에 …

37 probability bayesian frequentist

6

유의성 검정에 대한 가설로서의 효과 크기

오늘, 교차 검증 저널 클럽에서 (왜 거기에 없었습니까?) @mbq는 다음과 같이 물었습니다. 우리 (현대 데이터 과학자)가 의미가 무엇인지 알고 있다고 생각하십니까? 그리고 그것이 결과에 대한 우리의 확신과 어떤 관련이 있습니까? @Michelle은 (나를 포함하여) 일반적으로 다음과 같이 대답했습니다. 나는 커리어를 계속할수록 중요성 (p- 값을 기준으로)이라는 개념이 점점 덜 도움이된다는 것을 알게되었습니다. …

37 hypothesis-testing p-value large-data

10

가장 유용한 경제 데이터 소스는 무엇입니까?

경제에서 연구 할 때 실제 데이터에 대한 이론적 결론을 검증해야하는 경우가 종종 있습니다. 신뢰할만한 데이터 소스는 무엇입니까? 주로 GDP, 인구, CPI, PPI 등과 같은 다양한 통계 데이터를 제공하는 소스에 관심이 있습니다. 편집 : 다음은이 스레드에 나타나는 링크의 집계입니다. 일반 : - 톰슨 로이터 데이터 스트림 (무료, 매우 포괄적 인) - …

37 references

3

변형 된 변수의 밀도에 대한 직관적 인 설명?

가 pdf 의 랜덤 변수 라고 가정 합니다. 그런 다음 임의 변수 는 pdf를 갖습니다.XXXfX(x)fX(x)f_X(x)Y=X2Y=X2Y=X^2 fY(y)={12y√(fX(y√)+fX(−y√))0y≥0y<0fY(y)={12y(fX(y)+fX(−y))y≥00y<0f_Y(y)=\begin{cases}\frac{1}{2\sqrt{y}}\left(f_X(\sqrt{y})+f_X(-\sqrt{y})\right) & y \ge 0 \\ 0 & y \lt 0\end{cases} 나는 이것 뒤에 미적분학을 이해합니다. 그러나 나는 미적분학을 모르는 사람에게 그것을 설명하는 방법을 생각하려고합니다. 특히, 나는 요소가 왜 먼저 나타나는지 설명하려고합니다 . 나는 그것을 …

37 random-variable pdf intuition

5

신경망이 무엇을하고 있는지 시각화 / 이해하는 방법?

신경망은 복잡한 구조로 인해 종종 "블랙 박스"로 취급됩니다. 모델이 내부에서 어떻게 작동하는지 직관적으로 파악하는 것이 유리하기 때문에 이것은 이상적이지 않습니다. 훈련 된 신경망이 어떻게 작동하는지 시각화하는 방법은 무엇입니까? 다른 방법으로, 네트워크에 대해 쉽게 이해하기 쉬운 설명을 추출 할 수있는 방법은 무엇입니까 (예 :이 숨겨진 노드는 주로 이러한 입력으로 작동합니다)? 저는 …

37 data-visualization neural-networks