통계 및 빅 데이터

6

나는 최근에 " 설명 "이라는 확률 론적 추론의 원리에 대해 배웠고 , 그에 대한 직관을 파악하려고 노력하고 있습니다. 시나리오를 설정하겠습니다. 지진이 발생한 경우를 에이AA 로 하자 . 이벤트 비BB 유쾌한 녹색 거인이 마을을 돌아 다니는 이벤트가되게하십시오. 하자 씨CC 땅이 흔들리고있는 행사. 하자 ⊥⊥ BA⊥⊥BA \perp\!\!\!\perp B . 보시다시피에이AA 또는비BB 는씨CC …

36 probability intuition

4

는 어디에 있습니까

다음과 같은 중앙 제한 정리의 매우 간단한 버전 엔−−√( ( 1엔∑나는 = 1엔엑스나는) −μ ) → 디 엔( 0 ,σ2)n((1n∑i=1nXi)−μ) →d N(0,σ2) \sqrt{n}\bigg(\bigg(\frac{1}{n}\sum_{i=1}^n X_i\bigg) - \mu\bigg)\ \xrightarrow{d}\ \mathcal{N}(0,\;\sigma^2) 는 Lindeberg–Lévy CLT입니다. 나는 왜 √ 가 있는지 이해하지 못한다엔−−√n\sqrt{n}왼쪽의 n . 그리고 Lyapunov CLT는 말합니다 1에스엔∑나는 = 1엔( X나는− μ나는) → …

36 central-limit-theorem intuition

3

> 50K 변수를 사용하여 올가미 또는 능선 회귀에서 수축 매개 변수를 추정하는 방법은 무엇입니까?

변수가 50,000 개 이상인 모델에 올가미 또는 능선 회귀를 사용하고 싶습니다. R의 소프트웨어 패키지를 사용하고 싶습니다. 수축 매개 변수 ( )를 어떻게 추정 할 수 있습니까?λλ\lambda 편집 : 여기에 내가 지적한 요점이있다 : set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0), size= 1000*1000, replace = T) X <- matrix(Xv, …

36 r lasso ridge-regression high-dimensional

3

통계학 석사 프로그램에 대해 고려해야 할 사항

대학원 입학 시즌입니다. 저 (그리고 저와 같은 많은 학생들)는 어떤 통계 프로그램을 고를 지 결정하려고합니다. 통계를 다루는 사람들이 통계에서 석사 프로그램에 대해 고려할 것을 제안하는 것은 무엇입니까? 학생들이 흔히하는 함정이나 실수가 있습니까 (아마 학교 명성과 관련하여)? 고용을 위해 우리는 응용 통계 또는 응용 통계와 이론 통계의 혼합에 초점을 맞춰야합니까? 편집 …

36 machine-learning mathematical-statistics careers

2

비 iid 가우스 변형의 합의 분포는 무엇입니까?

경우 분포 , 분포 및 , I는 알고 분포 X와 Y가 독립적 인 경우 .XXXN(μX,σ2X)N(μX,σX2)N(\mu_X, \sigma^2_X)YYYN(μY,σ2Y)N(μY,σY2)N(\mu_Y, \sigma^2_Y)Z=X+YZ=X+YZ = X + YZZZN(μX+μY,σ2X+σ2Y)N(μX+μY,σX2+σY2)N(\mu_X + \mu_Y, \sigma^2_X + \sigma^2_Y) 그러나 X와 Y가 독립적이지 않은 경우, 즉 (X,Y)≈N((μXμY),(σ2XσX,YσX,Yσ2Y))(X,Y)≈N((μXμY),(σX2σX,YσX,YσY2))(X, Y) \approx N\big( (\begin{smallmatrix} \mu_X\\\mu_Y \end{smallmatrix}) , (\begin{smallmatrix} \sigma^2_X && \sigma_{X,Y}\\ \sigma_{X,Y} && \sigma^2_Y \end{smallmatrix}) \big) …

36 normal-distribution mathematical-statistics

4

머신 러닝을위한 클라우드 컴퓨팅 플랫폼

Amazon EC2를 기반으로 구축 된 클러스터에서 R, python 또는 octave 스크립트를 실행하기위한 플랫폼을 제공하는 작은 회사 목록이 있습니다. 추가해야 할 다른 이름이 있습니까? 구름 번호 오 파니 crdata

36 r machine-learning

5

데이터 마이닝에서 측정 값 상승

리프트가 정확히 어떻게 작동하는지 알기 위해 많은 웹 사이트를 검색 했습니까? 내가 찾은 결과는 응용 프로그램 자체가 아니라 응용 프로그램에서 사용하는 것입니다. 나는 지원과 자신감 기능에 대해 알고 있습니다. Wikipedia의 데이터 마이닝에서 리프트는 사례를 예측하거나 분류 할 때 모델의 성능을 측정하고 무작위 선택 모델을 기준으로 측정합니다. 그러나 어떻게? 신뢰도 * …

36 data-mining

3

임의의 숲에서 투표를 통해 "확실성 점수"를 작성 하시겠습니까?

나는 구별하는 분류 훈련을 찾고 있어요 Type A하고 Type B있는 절반에 대해, 약 10,000 개체의 합리적 큰 훈련 집합 개체를 Type A그중 절반을 Type B. 데이터 세트는 셀의 물리적 특성 (크기, 평균 반경 등)을 자세히 설명하는 100 개의 연속 기능으로 구성됩니다. 쌍별 산점도 및 밀도 플롯으로 데이터를 시각화하면 많은 특징에서 …

36 r machine-learning random-forest

4

계수의 총계가 1이되도록 제약 된 회귀를 R에 맞추려면 어떻게해야합니까?

비슷한 구속 회귀가 여기에 있습니다. 지정된 점을 통한 제한된 선형 회귀 그러나 내 요구 사항은 약간 다릅니다. 1을 더하는 계수가 필요합니다. 구체적으로, 저는 1 개의 외환 시리즈의 수익률을 3 개의 다른 외환 시리즈에 대해 회귀 시키므로 투자자는 해당 시리즈에 대한 노출을 다른 3에 대한 노출 조합으로 대체 할 수 있습니다. …

36 r regression

5

R의 타이밍 기능 [닫힘]

함수 실행을 반복하는 데 걸리는 시간을 측정하고 싶습니다. 인가 replicate()및 사용 금액에 해당하는-루프? 예를 들면 다음과 같습니다. system.time(replicate(1000, f())); system.time(for(i in 1:1000){f()}); 선호되는 방법은 무엇입니까? 의 출력 system.time()인 sys+user프로그램을 실행하기위한 실제 CPU 시간은? 가요 elapsed프로그램의 시간 성능의 좋은 측정은?

36 r

8

어떤 조건에서 다단계 / 계층 분석을 사용해야합니까?

보다 기본적인 / 전통적 분석 (예 : ANOVA, OLS 회귀 등)과 달리 다단계 / 계층 적 분석을 고려해야하는 조건은 무엇입니까? 이것이 필수로 간주 될 수있는 상황이 있습니까? 다단계 / 계층 분석 사용이 부적합한 상황이 있습니까? 마지막으로, 초보자가 다단계 / 계층 분석을 배울 수있는 좋은 자료는 무엇입니까?

36 mixed-model multilevel-analysis

10

어려운 통계 개념에 대해 가장 좋아하는 평신도의 설명은 무엇입니까?

복잡한 문제에 대한 간단한 설명을 듣는 것이 정말 좋습니다. 어려운 통계 개념을 설명하는 가장 좋아하는 유추 나 일화는 무엇입니까? 내가 가장 좋아하는 것은 술취한 개와 그녀의 개를 이용한 머레이의 설명이다. 머레이는 두 가지 무작위 과정 (방랑하는 음주와 그녀의 개, 올리버)이 어떻게 단위근을 가질 수는 있지만, 그들의 첫 번째 차이가 고정되어 …

36 teaching communication

4

신경망이 일반화되지 않으면 어떻게해야합니까?

신경망을 훈련하고 있는데 훈련 손실은 줄어들지 만 검증 손실은 그렇지 않거나 매우 유사한 아키텍처와 데이터를 사용한 참조 또는 실험을 기반으로 기대했던 것보다 훨씬 줄어 듭니다. 이 문제를 어떻게 해결할 수 있습니까? 질문은 신경망이 학습하지 않으면 어떻게해야합니까? 이 질문에서 영감을 얻은 것으로, 신경망의 일반화 오류를 달성 가능한 것으로 입증 된 수준 …

36 neural-networks deep-learning

1

사용하기 전에 word2vec의 단어 벡터를 정규화해야합니까?

word2vec로 단어 벡터를 학습 한 후 일부 다운 스트림 응용 프로그램에 사용하기 전에 정규화하는 것이 더 낫습니까? 즉, 정규화의 장단점은 무엇입니까?

36 natural-language word2vec word-embeddings

2

glmnet을 해석하는 방법?

약 60 개의 예측 변수와 30 개의 관측치가있는 다변량 선형 회귀 모형을 적합 시키려고하기 때문에 p> n 때문에 정규 회귀 분석에 glmnet 패키지를 사용하고 있습니다. 나는 문서와 다른 질문을 겪었지만 여전히 결과를 해석 할 수 없습니다. 여기에는 샘플 코드가 있습니다 (예측 자 20 명과 단순화하기 위해 10 개의 관측치가 있음). …

36 r regression regularization glmnet