통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

1
로지스틱 회귀에 대한 샘플링에 1과 0의 실제 비율이 반영되어야합니까?
나무의 특성 (fe 높이)을 기반으로 나무에 사는 일부 동물 종의 발생 확률을 추정 할 수있는 로지스틱 회귀 모형을 작성하려고한다고 가정합니다. 항상 그렇듯이 시간과 비용이 제한되어 있으므로 제한된 샘플 크기 만 수집 할 수 있습니다. 다음 질문이 있습니다. 샘플의 1과 0의 비율이 1과 0의 실제 비율을 반영해야합니까? (적어도 대략) 균형 잡힌 …

2
John Snow Cholera 문제를 해결하기 위해 어떤 통계 모델 또는 알고리즘을 사용할 수 있습니까?
John Snow Cholera의 데이터를 기반으로 일종의 진원지에 대한 지리적 근사법을 개발하는 방법에 관심이 있습니다. 우물이 어디에 있는지에 대한 사전 지식없이 그러한 문제를 해결하기 위해 사용할 수있는 통계 모델링. 일반적인 문제로, 시간, 알려진 지점의 위치 및 관찰자의 도보 경로를 사용할 수 있습니다. 내가 찾고있는 방법은이 세 가지를 사용하여 "발생"의 진원지를 추정합니다.

4
최적화 알고리즘이 다른 최적화 문제로 정의되는 이유는 무엇입니까?
기계 학습을위한 최적화 기술에 대한 연구를하고 있지만 다른 최적화 문제와 관련하여 많은 수의 최적화 알고리즘이 정의되어 있다는 사실에 놀랐습니다. 다음은 몇 가지 예를 보여줍니다. 예를 들어 https://arxiv.org/pdf/1511.05133v1.pdf 모든 것이 멋지고 좋아 보이지만 업데이트에 가 있습니다 . 대해 해결되는 알고리즘은 무엇 입니까? 우리는 알지 못합니다. 마술처럼 우리는 내부 벡터가 최소가되도록 최소화 …

1
네이트 실버가 황토에 대해 말한 것에 대한 설명
A의 나는 최근 묻는 질문 , 나는 "아니오 - 아니오"황토로 추정 할 수있는 큰 것을 들었다. 그러나 Nate Silver의 FiveThirtyEight.com에 관한 최신 기사에서 그는 선거 예측을 위해 황토를 사용하는 것에 대해 논의했습니다. 그는 황토로 공격적 예측과 보수적 예측의 세부 사항을 논의하고 있었지만, 황토 로 미래 예측을하는 것이 타당하다고 생각합니까? 나는 …

1
의존적 관찰을위한 PCA의 특성
우리는 일반적으로 PCA를 사례가 iid로 가정되는 데이터의 차원 축소 기술로 사용합니다. 질문 : 종속적이지 않은 IId 데이터에 PCA를 적용 할 때의 일반적인 뉘앙스는 무엇입니까? iid 데이터를 보유하고있는 PCA의 어떤 좋은 / 유용한 속성이 손상되거나 완전히 손실됩니까? 예를 들어, 데이터는 다변량 시계열 일 수 있으며,이 경우 자기 상관 또는 자기 회귀 …

10
메이크업 데이터를위한 최고의 용어?
예제를 작성 중이며 일부 데이터를 구성했습니다. 나는 이것이 실제 데이터가 아니라는 것을 독자에게 분명히하고 싶지만, 단지 악의에 대한 인상을주고 싶지 않습니다. 이 특정 데이터에 (의사) 임의의 구성 요소가 없으므로 '시뮬레이션 된'이 적합하지 않은 것으로 보입니다. 허구 또는 조작이라고하면 허위 데이터에 대한 인상을 주나요? '만들기'는 과학적 맥락에 맞는 단어입니까? 시뮬레이션되지 않은 …

3
t-SNE를 통해 시각화를위한 차원 축소가 "닫힌"문제로 간주되어야합니까?
차원 축소를위한 sne티티t 알고리즘에 대해 많이 읽었습니다 . MNIST와 같은 "클래식"데이터 세트의 성능에 깊은 인상을 받았습니다. MNIST는 숫자를 명확하게 구분합니다 ( 원본 기사 참조 ). 또한 훈련하는 신경망에서 배운 기능을 시각화하는 데 사용했으며 결과에 매우 만족했습니다. 그래서 내가 이해하는 것처럼 : -sne은 대부분의 데이터 세트에서 좋은 결과를 얻었 으며 Barnes-Hut …


1
케 라스, SGD 학습률은 어떻게 작동합니까?
설명서 http://keras.io/optimizers/ 를 보면 SGD에 부패에 대한 매개 변수가 있습니다. 이것이 시간이 지남에 따라 학습 속도가 감소한다는 것을 알고 있습니다. 그러나 정확히 어떻게 작동하는지 알 수 없습니다. lr = lr * (1 - decay) 지수 등의 학습률을 곱한 값 입니까? 또한 모델에서 사용중인 학습 속도를 어떻게 확인할 수 있습니까? model.optimizer.lr.get_value()몇 …

4
몬티 홀의 문제
몬티는 문 뒤에 염소가 있었는지 (혹은 비어 있는지) 완벽하게 알고있었습니다. 이 사실을 통해 플레이어는 "추측"을 다른 문으로 전환하여 시간이 지남에 따라 성공률을 두 배로 높일 수 있습니다. Monty의 지식이 완벽하지 않은 경우 어떻게해야합니까? 때때로 상이 염소와 같은 출입구에서 실제로 있었다면 어떨까요? 그러나 문을 선택하고 열 때까지는 그것을 볼 수 없었습니까? …

1
TensorBoard에서 TensorFlow가 제공 한 히스토그램을 어떻게 해석합니까?
나는 최근에 텐서 흐름을 실행하고 배우고 있었고 해석하는 방법을 모르는 몇 가지 히스토그램을 얻었습니다. 보통 막대의 높이를 주파수 (또는 상대 주파수 / 카운트)로 생각합니다. 그러나 일반적인 히스토그램에서와 같이 막대가 없으며 사물이 음영 처리된다는 사실이 혼란스러워합니다. 한 번에 많은 선 / 높이가있는 것 같습니까? 다음 그래프를 해석하는 방법을 아는 사람이 있습니까 …

3
정보 이론없이 Kullback-Leibler 발산
Cross Validated의 많은 트롤링 후에도 여전히 정보 이론의 영역 밖에서 KL 분기를 이해하는 것에 더 가깝다고 느끼지 않습니다. 정보 이론 설명을 이해하기가 훨씬 쉬운 수학 배경을 가진 사람에게는 다소 이상합니다. 정보 이론 배경에서 내 이해를 간략하게 설명하려면 : 한정된 수의 결과를 갖는 임의의 변수가있는 경우 평균적으로 가장 짧은 메시지를 가지고 …

2
고정 된 효과가 임의의 효과 내에 중첩되거나 R (aov 및 lmer)에서 반복 측도를 코딩하는 방법이 합리적입니까?
@conjugateprior의 lm / lmer R 공식 개요를 살펴 보고 다음 항목으로 인해 혼란스러워했습니다. 이제 A는 무작위이지만 B는 고정되어 있고 B는 A 안에 중첩되어 있다고 가정합니다. aov(Y ~ B + Error(A/B), data=d) 아래의 유사한 혼합 모델 공식 lmer(Y ~ B + (1 | A:B), data=d) 이 동일한 경우에 제공됩니다. 나는 그것이 …

2
최종 데이터 (생산 준비) 모델을 완전한 데이터 또는 훈련 세트에 대해서만 훈련해야합니까?
훈련 세트에 대해 여러 모델을 훈련시키고 교차 검증 세트를 사용하여 최상의 모델을 선택하고 테스트 세트에서 성능을 측정했다고 가정합니다. 이제 최종 최고의 모델이 하나 있습니다. 사용 가능한 모든 데이터 또는 훈련 세트에 대해서만 훈련 된 선박 솔루션에 대해 교육해야합니까? 후자의 경우 왜? 업데이트 : @ P.Windridge가 지적했듯이 재교육 모델을 배송하는 것은 …

4
저전력 연구가 오 탐지 가능성을 높였습니까?
이 질문은 이전에 요청했다되었습니다 여기 와 여기 하지만 난 대답이 직접 문제를 해결할 수 있다고 생각하지 않습니다. 저전력 연구가 오 탐지 가능성을 높였습니까? 일부 뉴스 기사에서이 주장을합니다. 예를 들면 다음과 같습니다. 낮은 통계 능력은 나쁜 소식입니다. 저전력 연구는 실제 효과를 놓칠 가능성이 높으며 그룹으로서 더 높은 비율의 오탐 (즉, 실제가 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.