통계 및 빅 데이터

1

중첩 교차 검증 후 최종 모델을 작성하고 확률 임계 값을 조정하는 방법은 무엇입니까?

먼저, 여기 , 여기 , 여기 , 여기 , 여기 에서 이미 오랫동안 논의 된 질문을 게시 한 것에 대해 사과드립니다이전 주제를 재가열합니다. 나는 @DikranMarsupial 이이 주제에 대해 게시물과 저널 논문에 길게 쓴 것을 알고 있지만 여전히 혼란스럽고 비슷한 게시물 수를 판단하면 다른 사람들이 이해하기 어려워합니다. 또한 혼란에 추가 한이 …

20 machine-learning cross-validation model-selection glmnet hyperparameter

2

k- 평균의 수렴 증명

과제의 경우 k- 평균이 유한 한 단계로 수렴한다는 증거를 제공하라는 요청을 받았습니다. 이것이 내가 쓴 것입니다 : 다음에서 CCC 는 모든 클러스터 센터의 모음입니다. “에너지”함수를 정의하십시오. 에너지 함수는 음이 아닙니다. 알고리즘의 단계 (2)와 (3)이 모두 에너지를 감소시키는 것을 볼 수 있습니다. 에너지는 아래에서 묶여 있고 지속적으로 줄어들 기 때문에 지역 …

20 mathematical-statistics k-means

6

10 분과 15 분마다 운행하는 두 버스 중 첫 번째 버스의 대기 시간에 대한 예상 값

인터뷰 질문을 받았습니다. 매 10 분마다 빨간 열차가 운행됩니다. 15 분마다 파란 열차가 운행됩니다. 둘 다 임의의 시간에서 시작하므로 일정이 없습니다. 무작위 시간에 역에 도착하여 처음으로 오는 기차를 타면 예상 대기 시간은 얼마입니까?

19 probability random-variable expected-value

2

지수 가족의 장점 : 왜 우리가 그것을 연구하고 사용해야합니까?

그래서 저는 추론을 공부하고 있습니다. 누군가가 지수 가족의 장점을 열거 할 수 있기를 바랍니다. 지수 패밀리로, 나는 f ( x | θ ) = h ( x ) exp { η ( θ ) T ( x ) − B ( θ ) } 로 주어진 분포를 의미합니다. 에프( x …

19 self-study exponential-family

3

연결된 두 개의 점이있는 행이있는이 플롯의 이름은 무엇입니까?

나는 EIA 보고서를 읽었으며이 줄거리는 나의 관심을 끌었다. 이제 동일한 유형의 플롯을 만들 수 있기를 원합니다. 그것은 2 년 (1990-2015) 사이의 에너지 생산성 진화를 보여주고이 두 기간 사이의 변화 가치를 더합니다. 이 유형의 줄거리의 이름은 무엇입니까? Excel에서 동일한 플롯을 다른 국가와 함께 만들려면 어떻게해야합니까?

19 data-visualization terminology excel

3

여자 친구가 미래를 말해 줄 수 있는지 (즉, 주식 예측)하는 방법?

내 여자 친구는 최근 주요 은행에서 영업 및 거래를하는 직업을 얻었습니다. 그녀는 새 직장에 부력을 받아, 월말에 우연히 주식이 오르거나 내릴지 여부를 예측할 수 있다고 생각합니다 (80 %의 정확도로도 할 수 있다고 생각합니다!) 나는 매우 회의적입니다. 우리는 그녀가 다수의 주식을 선택하는 실험을하기로 동의했으며, 미리 정해진 시간에 주식이 위 또는 아래인지 …

19 probability forecasting finance

1

상자 그림의 역사는 무엇이며,“상자와 수염”디자인은 어떻게 발전 했습니까?

많은 출처는 고전적인 "박스 플롯"디자인을 John Tukey 와 1970 년의 "도식 플롯"으로 거슬러 올라갑니다 . Edward Tufte의 박스 플롯 컷 다운 버전은 따라 잡지 못했지만 그 이후로 디자인은 상대적으로 정적으로 유지 된 것으로 보입니다. 바이올린 음모 -박스 음모의 더 유익한 변형이지만 인기는 낮습니다. 수염이 10 번째와 90 번째 백분위 수로 …

19 data-visualization references boxplot history

4

코인 플립의 샘플 크기를 늘리면 왜 정규 곡선 근사가 향상되지 않습니까?

나는 통계 (Freeman, Pisani, Purves) 책을 읽고 동전을 50 번 던지고, 머리 수를 세고 이것을 1,000 번 반복하는 예를 재현하려고합니다. 먼저, 토스 수 (샘플 크기)를 1000으로 유지하고 반복 횟수를 늘 렸습니다. 반복이 많을수록 데이터가 정규 곡선에 더 잘 맞습니다. 다음으로 반복 횟수를 1,000으로 고정하고 샘플 크기를 늘 렸습니다. 표본 크기가 …

19 normal-distribution central-limit-theorem normal-approximation

2

MAE를 최소화하면 평균이 아닌 중앙값을 예측하게되는 이유는 무엇입니까?

로부터 예측 : 원리와 연습 롭 J Hyndman 조지 Athanasopoulos에 의해 교과서 , 특히 정확도 측정 섹션 : MAE를 최소화하는 예측 방법은 중앙값을 예측하고 RMSE를 최소화하면 평균을 예측합니다. 누군가 MAE를 최소화하면 평균이 아닌 중앙값을 예측하는 이유를 직관적으로 설명 할 수 있습니까? 그리고 이것이 실제로 무엇을 의미합니까? 고객에게 "평균 예측을보다 정확하게하거나 …

19 forecasting mean median rms mae

4

상관과 인과 관계

Wikipedia 페이지에서 상관 관계 라는 인과 관계를 암시하지는 않습니다 . 상관 관계가있는 두 이벤트 (A 및 B)의 경우 서로 다른 가능한 관계는 다음과 같습니다. A는 B (직접 원인)를 유발합니다. B는 A (역 원인)를 유발합니다. A와 B는 일반적인 원인의 결과이지만 서로를 유발하지는 않습니다. A와 B는 둘 다 C를 야기하는데, 이것은 명시 …

19 correlation causality

5

회귀 분석에서 과적 합 방지 : 정규화의 대안

회귀 정규화 (선형, 로지스틱 등)는 과적 합을 줄이는 가장 보편적 인 방법입니다. 목표가 예측 정확도 (설명하지 않음) 인 경우 정규화에 대한 대안이 있습니까? 특히 빅 데이터 세트 (수십억 개의 관측치 및 수백만 개의 특징)에 적합합니까?

19 regression regularization overfitting

1

두 개의 표본이 동일한 분포에서 추출 된 경우 비모수 검정

표본 또는 모집단의 분포에 대한 가정없이 두 표본이 동일한 모집단에서 추출되었다는 가설을 검정하고 싶습니다. 어떻게해야합니까? Wikipedia에서 Mann Whitney U 테스트는 적합해야하지만 실제로는 효과가없는 것 같습니다. 구체성을 위해 두 개의 표본 (a, b)으로 크고 (n = 10000) 비정규 (바이 모달)이지만 두 개 모집단에서 추출한 데이터 집합은 비슷하지만 (동일한 평균) 다르지만 (표준 …

19 r hypothesis-testing nonparametric wilcoxon-mann-whitney wilcoxon-signed-rank

3

Nate Silver 예측의 정확성을 어떻게 판단 할 수 있습니까?

첫째, 그는 결과의 가능성을 준다. 예를 들어, 미국 선거에 대한 그의 예측 은 현재 82 % 클린턴 대 18 % 트럼프입니다. 이제 트럼프가 이겼어도 그가 승리 한 시간의 18 %만이 아니라는 것을 어떻게 알 수 있습니까? 다른 문제는 그의 확률이 시간이 지남에 따라 변한다는 것입니다. 7 월 31 일 트럼프와 …

19 forecasting prediction validation accuracy scoring-rules

1

word2vec에서 음성 샘플링은 어떻게 작동합니까?

나는 word2vec의 맥락에서 부정적인 샘플링의 개념을 이해하려고 노력했습니다. [음수] 샘플링에 대한 아이디어를 소화 할 수 없습니다. 예를 들어 Mikolov의 논문 에서 음수 샘플링 기대치는 다음과 같이 공식화됩니다. logσ(⟨w,c⟩)+k⋅EcN∼PD[logσ(−⟨w,cN⟩)].log⁡σ(⟨w,c⟩)+k⋅EcN∼PD[log⁡σ(−⟨w,cN⟩)].\log \sigma(\langle w,c\rangle ) + k \cdot \mathbb E_{c_N\sim PD}[\log\sigma(−\langle w,c_N\rangle)]. 나는 왼쪽 용어 이해 ,하지만 난 부정적인 단어 컨텍스트 쌍을 샘플링의 개념을 …

19 machine-learning word2vec word-embeddings

2

잦은 통계에서 암시 적 우선 순위는 무엇입니까?

나는 Jaynes가 잦은 주의자들이 "암시 적 이전"으로 작동한다고 주장하는 것을 들었다. 이러한 암시 적 선행은 무엇입니까? 이것은 잦은 모델이 베이지안 모델의 모든 특수 사례가 발견되기를 기다리는 것을 의미합니까?

19 bayesian prior posterior frequentist