통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

1
중첩 교차 검증 후 최종 모델을 작성하고 확률 임계 값을 조정하는 방법은 무엇입니까?
먼저, 여기 , 여기 , 여기 , 여기 , 여기 에서 이미 오랫동안 논의 된 질문을 게시 한 것에 대해 사과드립니다이전 주제를 재가열합니다. 나는 @DikranMarsupial 이이 주제에 대해 게시물과 저널 논문에 길게 쓴 것을 알고 있지만 여전히 혼란스럽고 비슷한 게시물 수를 판단하면 다른 사람들이 이해하기 어려워합니다. 또한 혼란에 추가 한이 …

2
k- 평균의 수렴 증명
과제의 경우 k- 평균이 유한 한 단계로 수렴한다는 증거를 제공하라는 요청을 받았습니다. 이것이 내가 쓴 것입니다 : 다음에서 CCC 는 모든 클러스터 센터의 모음입니다. “에너지”함수를 정의하십시오. 에너지 함수는 음이 아닙니다. 알고리즘의 단계 (2)와 (3)이 모두 에너지를 감소시키는 것을 볼 수 있습니다. 에너지는 아래에서 묶여 있고 지속적으로 줄어들 기 때문에 지역 …



3
연결된 두 개의 점이있는 행이있는이 플롯의 이름은 무엇입니까?
나는 EIA 보고서를 읽었으며이 줄거리는 나의 관심을 끌었다. 이제 동일한 유형의 플롯을 만들 수 있기를 원합니다. 그것은 2 년 (1990-2015) 사이의 에너지 생산성 진화를 보여주고이 두 기간 사이의 변화 가치를 더합니다. 이 유형의 줄거리의 이름은 무엇입니까? Excel에서 동일한 플롯을 다른 국가와 함께 만들려면 어떻게해야합니까?

3
여자 친구가 미래를 말해 줄 수 있는지 (즉, 주식 예측)하는 방법?
내 여자 친구는 최근 주요 은행에서 영업 및 거래를하는 직업을 얻었습니다. 그녀는 새 직장에 부력을 받아, 월말에 우연히 주식이 오르거나 내릴지 여부를 예측할 수 있다고 생각합니다 (80 %의 정확도로도 할 수 있다고 생각합니다!) 나는 매우 회의적입니다. 우리는 그녀가 다수의 주식을 선택하는 실험을하기로 동의했으며, 미리 정해진 시간에 주식이 위 또는 아래인지 …

1
상자 그림의 역사는 무엇이며,“상자와 수염”디자인은 어떻게 발전 했습니까?
많은 출처는 고전적인 "박스 플롯"디자인을 John Tukey 와 1970 년의 "도식 플롯"으로 거슬러 올라갑니다 . Edward Tufte의 박스 플롯 컷 다운 버전은 따라 잡지 못했지만 그 이후로 디자인은 상대적으로 정적으로 유지 된 것으로 보입니다. 바이올린 음모 -박스 음모의 더 유익한 변형이지만 인기는 낮습니다. 수염이 10 번째와 90 번째 백분위 수로 …

4
코인 플립의 샘플 크기를 늘리면 왜 정규 곡선 근사가 향상되지 않습니까?
나는 통계 (Freeman, Pisani, Purves) 책을 읽고 동전을 50 번 던지고, 머리 수를 세고 이것을 1,000 번 반복하는 예를 재현하려고합니다. 먼저, 토스 수 (샘플 크기)를 1000으로 유지하고 반복 횟수를 늘 렸습니다. 반복이 많을수록 데이터가 정규 곡선에 더 잘 맞습니다. 다음으로 반복 횟수를 1,000으로 고정하고 샘플 크기를 늘 렸습니다. 표본 크기가 …

2
MAE를 최소화하면 평균이 아닌 중앙값을 예측하게되는 이유는 무엇입니까?
로부터 예측 : 원리와 연습 롭 J Hyndman 조지 Athanasopoulos에 의해 교과서 , 특히 정확도 측정 섹션 : MAE를 최소화하는 예측 방법은 중앙값을 예측하고 RMSE를 최소화하면 평균을 예측합니다. 누군가 MAE를 최소화하면 평균이 아닌 중앙값을 예측하는 이유를 직관적으로 설명 할 수 있습니까? 그리고 이것이 실제로 무엇을 의미합니까? 고객에게 "평균 예측을보다 정확하게하거나 …
19 forecasting  mean  median  rms  mae 

4
상관과 인과 관계
Wikipedia 페이지에서 상관 관계 라는 인과 관계를 암시하지는 않습니다 . 상관 관계가있는 두 이벤트 (A 및 B)의 경우 서로 다른 가능한 관계는 다음과 같습니다. A는 B (직접 원인)를 유발합니다. B는 A (역 원인)를 유발합니다. A와 B는 일반적인 원인의 결과이지만 서로를 유발하지는 않습니다. A와 B는 둘 다 C를 야기하는데, 이것은 명시 …


1
두 개의 표본이 동일한 분포에서 추출 된 경우 비모수 검정
표본 또는 모집단의 분포에 대한 가정없이 두 표본이 동일한 모집단에서 추출되었다는 가설을 검정하고 싶습니다. 어떻게해야합니까? Wikipedia에서 Mann Whitney U 테스트는 적합해야하지만 실제로는 효과가없는 것 같습니다. 구체성을 위해 두 개의 표본 (a, b)으로 크고 (n = 10000) 비정규 (바이 모달)이지만 두 개 모집단에서 추출한 데이터 집합은 비슷하지만 (동일한 평균) 다르지만 (표준 …

3
Nate Silver 예측의 정확성을 어떻게 판단 할 수 있습니까?
첫째, 그는 결과의 가능성을 준다. 예를 들어, 미국 선거에 대한 그의 예측 은 현재 82 % 클린턴 대 18 % 트럼프입니다. 이제 트럼프가 이겼어도 그가 승리 한 시간의 18 %만이 아니라는 것을 어떻게 알 수 있습니까? 다른 문제는 그의 확률이 시간이 지남에 따라 변한다는 것입니다. 7 월 31 일 트럼프와 …

1
word2vec에서 음성 샘플링은 어떻게 작동합니까?
나는 word2vec의 맥락에서 부정적인 샘플링의 개념을 이해하려고 노력했습니다. [음수] 샘플링에 대한 아이디어를 소화 할 수 없습니다. 예를 들어 Mikolov의 논문 에서 음수 샘플링 기대치는 다음과 같이 공식화됩니다. logσ(⟨w,c⟩)+k⋅EcN∼PD[logσ(−⟨w,cN⟩)].log⁡σ(⟨w,c⟩)+k⋅EcN∼PD[log⁡σ(−⟨w,cN⟩)].\log \sigma(\langle w,c\rangle ) + k \cdot \mathbb E_{c_N\sim PD}[\log\sigma(−\langle w,c_N\rangle)]. 나는 왼쪽 용어 이해 ,하지만 난 부정적인 단어 컨텍스트 쌍을 샘플링의 개념을 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.