통계 및 빅 데이터

11

다변량 분석에 관한 책을 얻는 데 관심이 있으며 권장 사항이 필요합니다. 무료 도서는 언제나 환영하지만 무료 MVA 도서에 대해 잘 알고 있다면 알려주십시오.

26 references multivariate-analysis

3

R의 polr 함수 (순서 로지스틱 회귀)의 출력을 이해하는 방법은 무엇입니까?

나는 R을 처음 사용하고 로지스틱 회귀를 주문했다 polr. polr 에 대한 도움말 페이지 하단의 "예제"섹션 (로지스틱 또는 프로 빗 회귀 모델을 정렬 된 요인 반응에 적합) options(contrasts = c("contr.treatment", "contr.poly")) house.plr <- polr(Sat ~ Infl + Type + Cont, weights = Freq, data = housing) pr <- profile(house.plr) plot(pr) pairs(pr) …

26 r logistic

7

R에서 LOESS 회귀 분석에 사용할 범위를 어떻게 결정합니까?

R에서 LOESS 회귀 모델을 실행 중이며 12 가지 모델의 출력을 다양한 샘플 크기와 비교하려고합니다. 질문에 대답하는 데 도움이되는 경우 실제 모델을 더 자세히 설명 할 수 있습니다. 샘플 크기는 다음과 같습니다. Fastballs vs RHH 2008-09: 2002 Fastballs vs LHH 2008-09: 2209 Fastballs vs RHH 2010: 527 Fastballs vs LHH 2010: …

26 r regression loess

2

신경망 : 이진 분류의 경우 1 개 또는 2 개의 출력 뉴런을 사용합니까?

이진 분류를 수행하고 싶다고 가정합니다 (뭔가 클래스 A 또는 클래스 B에 속함). 신경망의 출력 레이어에서이를 수행 할 수있는 몇 가지 가능성이 있습니다. 1 개의 출력 노드를 사용하십시오. 출력 0 (<0.5)은 클래스 A로 간주되고 1 (> = 0.5)은 클래스 B로 간주됩니다 (시그 모이 드의 경우). 2 개의 출력 노드를 사용하십시오. 입력은 …

26 machine-learning classification neural-networks

1

훈련 손실이 점점 줄어 듭니다. 무슨 일이야?

훈련 손실이 줄어들었다가 다시 증가합니다. 매우 이상합니다. 교차 검증 손실은 훈련 손실을 추적합니다. 무슨 일이야? Keras에서 다음과 같이 두 개의 스택 LSTMS가 있습니다. model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) model.compile(loss='binary_crossentropy', optimizer='adadelta') 나는 100 Epochs를 위해 그것을 훈련시킵니다. model.fit(X_train, np.array(y_train), batch_size=1024, nb_epoch=100, validation_split=0.2) 127803 …

26 machine-learning neural-networks loss-functions lstm

5

가능성에 대한 위키 백과 입장은 모호해 보인다

"조건부 확률"과 "가능성"에 관한 간단한 질문이 있습니다. (나는 이미이 질문을 조사했다 여기 지만 아무 소용에.) Wikipedia 페이지에서 시작합니다 . 그들은 이렇게 말합니다. 가능성 파라미터 값들의 세트는 , 소정의 결과 이며, 이러한 파라미터 값 주어진 이러한 관찰 결과의 확률 같다θθ\thetaxxx L(θ∣x)=P(x∣θ)L(θ∣x)=P(x∣θ)\mathcal{L}(\theta \mid x) = P(x \mid \theta) 큰! 따라서 영어, I …

26 probability bayesian conditional-probability likelihood definition

3

R에서 피어슨 상관에서 p- 값 찾기

R의 피어슨 상관 관계에서 p- 값을 찾을 수 있습니까? 피어슨 상관 관계를 찾기 위해 나는 보통 이렇게합니다 col1 = c(1,2,3,4) col2 = c(1,4,3,5) cor(col1,col2) # [1] 0.8315218 그러나 어떻게 이것의 p- 값을 찾을 수 있습니까?

26 r correlation p-value pearson-r

3

베이지안 이전의 표본이 큰 표본 크기와 관련이 없습니까?

베이지안 추론을 수행 할 때, 우리는 매개 변수에 대한 사전과 결합하여 우도 함수를 최대화함으로써 작동합니다. 로그 우도가 더 편리하기 때문에 MCMC를 사용하거나 사후 분포를 생성하는 (또는 각 매개 변수의 사전 및 각 데이터 포인트의 우도에 대한 pdf 사용 ) ∑ln(prior)+∑ln(likelihood)∑ln⁡(prior)+∑ln⁡(likelihood)\sum \ln (\text{prior}) + \sum \ln (\text{likelihood}) 을 효과적으로 최대화 합니다. …

26 bayesian prior

5

선형 회귀는 정규 분포를 어떻게 사용합니까?

선형 회귀 분석에서 각 예측 값은 가능한 값의 정규 분포에서 선택되었다고 가정합니다. 아래를 참조하십시오. 그러나 각 예측값이 정규 분포에서 나온 것으로 가정하는 이유는 무엇입니까? 선형 회귀는이 가정을 어떻게 사용합니까? 가능한 값이 정규 분포를 따르지 않으면 어떻게됩니까?

26 regression probability distributions normal-distribution modeling

7

다른 출처의 확률 / 정보 결합

내가 세 개의 독립적 인 출처를 가지고 있고 각각이 내일 날씨를 예측한다고 가정 해 봅시다. 첫 번째 것은 내일 비가 올 확률이 0이고 두 번째는 확률이 1이라고 말하고 마지막은 확률이 50 %라고 말합니다. 그 정보가 주어진 총 확률을 알고 싶습니다. 독립적 인 사건에 대해 곱셈 정리를 적용하면 0이 나오지만 올바르지 …

26 probability bayesian pooling model-averaging forecast-combination

7

상관 관계는 없지만 독립적 인 및 의 간단한 예

열심히 일하는 학생은 "모든 학생이 게으르다"는 반례입니다. "임의의 변수 와 가 서로 관련이 없으면 독립적입니다"에 대한 간단한 반례는 무엇입니까 ?Y엑스XX와이YY

26 correlation random-variable independence

4

표준 편차의 직관

표준 편차에 대해 더 직관적으로 이해하려고합니다. 내가 이해 한 바에 따르면 데이터 세트의 평균과 데이터 세트의 관측치 차이의 평균을 나타냅니다. 그러나 실제로 평균에서 더 많은 관측치에 가중치를 부여하므로 차이의 평균과 실제로 같지는 않습니다. 의 값으로 구성된 인구가 있다고 가정하겠습니다.{ 1 , 3 , 5 , 7 , 9 }{1,3,5,7,9}\{1, 3, …

26 standard-deviation intuition

4

왜 누군가 회귀에 KNN을 사용합니까?

내가 이해 한 바에 따르면 훈련 데이터 간격 내에있는 회귀 함수 만 작성할 수 있습니다. 예를 들어 (패널 중 하나만 필요합니다) : KNN 회귀자를 사용하여 미래를 어떻게 예측할 수 있습니까? 다시 말하지만, 훈련 데이터의 간격 내에있는 함수에 근사한 것으로 보입니다. 내 질문 : KNN 회귀자를 사용하면 어떤 이점이 있습니까? 분류를위한 …

26 regression machine-learning k-nearest-neighbour

3

올가미 식별 변수 하위 집합에서 OLS 추정치보다 올가미 추정치를 사용하는 이유는 무엇입니까?

올가미 회귀 분석 경우 최상의 솔루션 (예 : 최소 테스트 오류)이 k 개의 피처를 선택한다고 가정합니다 . 그래서 \ 모자 {\ 베타가} ^ {올가미} = \ 좌측 (\ 모자 {\ 베타 _1} ^ {올가미} \ {모자 \ 베타 _2} ^ {올가미} ... \ 모자 {\ 베타} _k ^ {lasso}, 0, …

26 regression feature-selection lasso regularization

2

로짓 값은 실제로 무엇을 의미합니까?

많은 경우 0과 1 사이의 숫자로 구성된 로짓 모델이 있지만 어떻게 해석 할 수 있습니까? 0.20의 로짓으로 사건을 처리 할 수 있습니다 사례가 그룹 B와 그룹 A에 속할 확률이 20 %라고 주장 할 수 있습니까? 로짓 값을 해석하는 올바른 방법입니까?

26 regression logistic logit