통계 및 빅 데이터

6

역 전파가 softmax / cross-entropy 출력 레이어에서 어떻게 작동하는지 이해하려고합니다. 교차 엔트로피 오류 함수는 E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j 과 와 출력 뉴런의 목표 출력으로서 J 각각. 합계는 출력 레이어의 각 뉴런 위에 있습니다. o를 J 자체 softmax를 함수의 결과이다 :tttooojjjojojo_j oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} 다시, 합은 출력 레이어의 각 뉴런 위에 있으며 …

40 backpropagation derivative softmax cross-entropy

6

부트 스트랩 샘플 수에 대한 경험 법칙

데이터 특성 (관찰 횟수 등) 및 / 또는 포함 된 변수를 기반으로 사용해야하는 부트 스트랩 샘플 수에 관한 일반적인 경험 법칙을 누군가가 알고 있는지 궁금합니다.

40 bootstrap inference monte-carlo

2

"빅 데이터"에서 올바른 결론을 도출하는 방법은 무엇입니까?

"빅 데이터"는 미디어 어디에나 있습니다. KDNuggets는 2012 년의 뜨거운 주제에 대한 설문 조사와 같이 "빅 데이터"가 2012 년에 가장 중요한 것이라고 말합니다 . 그러나 나는 여기에 깊은 우려가 있습니다. 빅 데이터를 사용하면 모든 것이 무엇이든 기뻐하는 것 같습니다 . 그러나 우리는 가설 검정 및 대표 표본 추출과 같은 모든 고전적인 …

40 data-mining dataset large-data validation

3

회귀 억제 효과 : 정의 및 시각적 설명 / 묘사

다중 회귀 분석에서 억제 변수는 무엇이며 억제 효과를 시각적으로 표시하는 방법 (역학 또는 결과의 증거)은 무엇입니까? 생각이있는 모든 사람을 초대하고 싶습니다.

40 multiple-regression data-visualization geometry suppressor

5

중앙값에 대한 신뢰 구간

중앙값과 다른 백분위 수에서 95 % CI를 찾아야합니다. 나는 이것에 접근하는 방법을 모른다. 저는 주로 프로그래밍 도구로 R을 사용합니다.

40 r confidence-interval median

2

임의의 숲에서 변수의 중요도 측정

나는 회귀를 위해 임의의 숲을 가지고 놀았으며 두 가지 중요한 측정 수단의 의미와 해석 방법을 정확하게 파악하는 데 어려움을 겪고 있습니다. importance()함수는 각 변수에 대한 두 값을 제공한다 : %IncMSE및 IncNodePurity. 이 두 값에 대한 간단한 해석이 있습니까? 의 경우 IncNodePurity특히,이 단순히 양이 그 변수의 제거 다음 RSS 증가입니까?

40 r machine-learning random-forest importance

3

분산 분석에서 F- 및 p- 값을 해석하는 방법은 무엇입니까?

통계에 익숙하지 않으며 현재 분산 분석을 처리합니다. R을 사용하여 ANOVA 분석을 수행합니다. aov(dependendVar ~ IndependendVar) 나는 다른 것들 중에서도 F 값과 p 값을 얻는다. 내 귀무 가설 ( ) 모든 그룹 수단은 동일하다는 것이다.H0H0H_0 F 계산 방법 에 대한 많은 정보 가 있지만 F- 통계를 읽는 방법과 F와 p가 연결되는 …

40 r anova interpretation

4

R의 로지스틱 회귀

에서 로지스틱 회귀 분석을 수행하려고합니다 R. STATA를 사용하여이 자료를 다루는 과정에 참석했습니다. 에서 기능을 복제하는 것이 매우 어렵다는 것을 알고 있습니다 R. 이 지역에서 성숙합니까? 이용 가능한 문서 나 지침이 거의없는 것 같습니다. 승산 비 출력을 생성하려면 설치 epicalc및 / 또는 epitools기타 작업이 필요합니다. 어느 것도 작업 할 수 없거나 …

40 r logistic odds-ratio

3

평균, 중앙값 및 모드 간의 경험적 관계

약간 왜곡 된 단항 분포의 경우 평균, 중간 및 모드 사이에 다음과 같은 경험적 관계가 있습니다. 이 관계는 어떻습니까 유래?(Mean - Mode)∼3(Mean - Median)(Mean - Mode)∼3(Mean - Median) \text{(Mean - Mode)}\sim 3\,\text{(Mean - Median)} Karl Pearson은이 결론을 내리기 전에 수천 가지의 관계를 구성 했습니까? 아니면이 관계의 논리적 인 추론이 있습니까?

40 distributions mathematical-statistics descriptive-statistics history

3

PCA가 t-SNE보다 더 적합한 경우가 있습니까?

7 가지 텍스트 수정 동작 (텍스트 수정 시간, 키 입력 횟수 등)이 서로 어떤 관련이 있는지 확인하고 싶습니다. 측정 값은 서로 관련되어 있습니다. PCA를 실행하여 측정 값이 PC1 및 PC2에 어떻게 투영되는지 확인하여 측정 값간에 별도의 양방향 상관 관계 테스트를 실행하는 것을 피할 수있었습니다. 일부 측정 값 간의 관계가 비선형 …

39 pca tsne

7

데이터를 수집하거나 해석 할 때 인간이 취하는 가장 편견은 무엇입니까?

나는 econ / stat 전공입니다. 나는 경제학자들이 사람들이 합리적으로 행동하지 않는 상황을 식별함으로써 인간의 행동과 합리성에 대한 그들의 가정을 수정하려고 노력했다는 것을 알고있다. 예를 들어, 내가 당신에게의 100 %의 확률로 제공한다고 가정 $ 1,000 손실 또는에서 50 %의 확률로 $ 2,500의 손실을, 사람들은 선택 $ 후자의 예상 값이보다 더 큰 …

39 bias

4

두 표본 t- 검정에 대한 베이지안?

나는 R에서 BEST와 같은 플러그 앤 플레이 방법을 찾고 있지 않지만 두 샘플의 평균 간의 차이를 테스트하는 데 사용할 수있는 베이지안 방법에 대한 수학적 설명을 찾고 있습니다.

39 hypothesis-testing bayesian t-test

2

PP- 플로트 vs. QQ- 플롯

데이터에 대한 적합 분포를 분석하려고 할 때 확률도, PP- 플로트 및 QQ- 플로트의 차이점은 무엇입니까?

39 probability data-visualization goodness-of-fit qq-plot

4

모형을 만들 때 통계적으로 유의하지 않은 공변량을 '유지'해야합니까?

모형 계산에 여러 공변량이 있으며 모두 통계적으로 유의하지는 않습니다. 그렇지 않은 것을 제거해야합니까? 이 질문은 현상에 대해 설명하지만 ANCOVA에서 공변량의 유의하지 않은 영향을 해석하는 방법은 무엇입니까? 그 질문에 대한 답에는 중요하지 않은 공변량이 제거 될 것을 암시하는 것은 없지만, 지금 당장은 그들이 머물러 있어야한다고 생각하는 경향이 있습니다. 일부 임계 값 …

39 regression statistical-significance ancova model predictor

7

Bayesian은 고정 된 매개 변수 값이 하나 있음을 인정합니까?

베이지안 데이터 분석에서 파라미터는 랜덤 변수로 처리됩니다. 이것은 베이지안의 주관적인 확률 개념화에서 비롯됩니다. 그러나 베이지안은 이론적으로 '실제 세계'에 하나의 진정한 고정 매개 변수 값이 있음을 인정합니까? 명백한 대답은 '예'인 것처럼 보입니다. 그러면 매개 변수를 추정하려고 시도하는 것은 거의 의미가 없습니다. 이 답변에 대한 학술 인용은 크게 감사하겠습니다.

39 probability bayesian parameterization