통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A


3
R의 polr 함수 (순서 로지스틱 회귀)의 출력을 이해하는 방법은 무엇입니까?
나는 R을 처음 사용하고 로지스틱 회귀를 주문했다 polr. polr 에 대한 도움말 페이지 하단의 "예제"섹션 (로지스틱 또는 프로 빗 회귀 모델을 정렬 된 요인 반응에 적합) options(contrasts = c("contr.treatment", "contr.poly")) house.plr <- polr(Sat ~ Infl + Type + Cont, weights = Freq, data = housing) pr <- profile(house.plr) plot(pr) pairs(pr) …
26 r  logistic 

7
R에서 LOESS 회귀 분석에 사용할 범위를 어떻게 결정합니까?
R에서 LOESS 회귀 모델을 실행 중이며 12 가지 모델의 출력을 다양한 샘플 크기와 비교하려고합니다. 질문에 대답하는 데 도움이되는 경우 실제 모델을 더 자세히 설명 할 수 있습니다. 샘플 크기는 다음과 같습니다. Fastballs vs RHH 2008-09: 2002 Fastballs vs LHH 2008-09: 2209 Fastballs vs RHH 2010: 527 Fastballs vs LHH 2010: …
26 r  regression  loess 

2
신경망 : 이진 분류의 경우 1 개 또는 2 개의 출력 뉴런을 사용합니까?
이진 분류를 수행하고 싶다고 가정합니다 (뭔가 클래스 A 또는 클래스 B에 속함). 신경망의 출력 레이어에서이를 수행 할 수있는 몇 가지 가능성이 있습니다. 1 개의 출력 노드를 사용하십시오. 출력 0 (<0.5)은 클래스 A로 간주되고 1 (> = 0.5)은 클래스 B로 간주됩니다 (시그 모이 드의 경우). 2 개의 출력 노드를 사용하십시오. 입력은 …

1
훈련 손실이 점점 줄어 듭니다. 무슨 일이야?
훈련 손실이 줄어들었다가 다시 증가합니다. 매우 이상합니다. 교차 검증 손실은 훈련 손실을 추적합니다. 무슨 일이야? Keras에서 다음과 같이 두 개의 스택 LSTMS가 있습니다. model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) model.compile(loss='binary_crossentropy', optimizer='adadelta') 나는 100 Epochs를 위해 그것을 훈련시킵니다. model.fit(X_train, np.array(y_train), batch_size=1024, nb_epoch=100, validation_split=0.2) 127803 …

5
가능성에 대한 위키 백과 입장은 모호해 보인다
"조건부 확률"과 "가능성"에 관한 간단한 질문이 있습니다. (나는 이미이 질문을 조사했다 여기 지만 아무 소용에.) Wikipedia 페이지에서 시작합니다 . 그들은 이렇게 말합니다. 가능성 파라미터 값들의 세트는 , 소정의 결과 이며, 이러한 파라미터 값 주어진 이러한 관찰 결과의 확률 같다θθ\thetaxxx L(θ∣x)=P(x∣θ)L(θ∣x)=P(x∣θ)\mathcal{L}(\theta \mid x) = P(x \mid \theta) 큰! 따라서 영어, I …

3
R에서 피어슨 상관에서 p- 값 찾기
R의 피어슨 상관 관계에서 p- 값을 찾을 수 있습니까? 피어슨 상관 관계를 찾기 위해 나는 보통 이렇게합니다 col1 = c(1,2,3,4) col2 = c(1,4,3,5) cor(col1,col2) # [1] 0.8315218 그러나 어떻게 이것의 p- 값을 찾을 수 있습니까?

3
베이지안 이전의 표본이 큰 표본 크기와 관련이 없습니까?
베이지안 추론을 수행 할 때, 우리는 매개 변수에 대한 사전과 결합하여 우도 함수를 최대화함으로써 작동합니다. 로그 우도가 더 편리하기 때문에 MCMC를 사용하거나 사후 분포를 생성하는 (또는 각 매개 변수의 사전 및 각 데이터 포인트의 우도에 대한 pdf 사용 ) ∑ln(prior)+∑ln(likelihood)∑ln⁡(prior)+∑ln⁡(likelihood)\sum \ln (\text{prior}) + \sum \ln (\text{likelihood}) 을 효과적으로 최대화 합니다. …
26 bayesian  prior 

5
선형 회귀는 정규 분포를 어떻게 사용합니까?
선형 회귀 분석에서 각 예측 값은 가능한 값의 정규 분포에서 선택되었다고 가정합니다. 아래를 참조하십시오. 그러나 각 예측값이 정규 분포에서 나온 것으로 가정하는 이유는 무엇입니까? 선형 회귀는이 가정을 어떻게 사용합니까? 가능한 값이 정규 분포를 따르지 않으면 어떻게됩니까?

7
다른 출처의 확률 / 정보 결합
내가 세 개의 독립적 인 출처를 가지고 있고 각각이 내일 날씨를 예측한다고 가정 해 봅시다. 첫 번째 것은 내일 비가 올 확률이 0이고 두 번째는 확률이 1이라고 말하고 마지막은 확률이 50 %라고 말합니다. 그 정보가 주어진 총 확률을 알고 싶습니다. 독립적 인 사건에 대해 곱셈 정리를 적용하면 0이 나오지만 올바르지 …


4
표준 편차의 직관
표준 편차에 대해 더 직관적으로 이해하려고합니다. 내가 이해 한 바에 따르면 데이터 세트의 평균과 데이터 세트의 관측치 차이의 평균을 나타냅니다. 그러나 실제로 평균에서 더 많은 관측치에 가중치를 부여하므로 차이의 평균과 실제로 같지는 않습니다. 의 값으로 구성된 인구가 있다고 가정하겠습니다.{ 1 , 3 , 5 , 7 , 9 }{1,3,5,7,9}\{1, 3, …

4
왜 누군가 회귀에 KNN을 사용합니까?
내가 이해 한 바에 따르면 훈련 데이터 간격 내에있는 회귀 함수 만 작성할 수 있습니다. 예를 들어 (패널 중 하나만 필요합니다) : KNN 회귀자를 사용하여 미래를 어떻게 예측할 수 있습니까? 다시 말하지만, 훈련 데이터의 간격 내에있는 함수에 근사한 것으로 보입니다. 내 질문 : KNN 회귀자를 사용하면 어떤 이점이 있습니까? 분류를위한 …

3
올가미 식별 변수 하위 집합에서 OLS 추정치보다 올가미 추정치를 사용하는 이유는 무엇입니까?
올가미 회귀 분석 경우 최상의 솔루션 (예 : 최소 테스트 오류)이 k 개의 피처를 선택한다고 가정합니다 . 그래서 \ 모자 {\ 베타가} ^ {올가미} = \ 좌측 (\ 모자 {\ 베타 _1} ^ {올가미} \ {모자 \ 베타 _2} ^ {올가미} ... \ 모자 {\ 베타} _k ^ {lasso}, 0, …

2
로짓 값은 실제로 무엇을 의미합니까?
많은 경우 0과 1 사이의 숫자로 구성된 로짓 모델이 있지만 어떻게 해석 할 수 있습니까? 0.20의 로짓으로 사건을 처리 할 수 ​​있습니다 사례가 그룹 B와 그룹 A에 속할 확률이 20 %라고 주장 할 수 있습니까? 로짓 값을 해석하는 올바른 방법입니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.