통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A


1
충돌하는 결과를 제공하는 lme () 및 lmer ()
반복 측정에 문제가있는 일부 데이터로 작업하고 있습니다. 사이에 그렇게 나는 매우 다른 행동을 발견 lme()하고 lmer()내 테스트 데이터를 사용하는 이유를 알고 싶어합니다. 내가 만든 가짜 데이터 세트에는 10 명의 피험자에 대한 키와 체중 측정이 있으며 각각 두 번씩 측정됩니다. 나는 피험자들 사이에 키와 몸무게 사이에는 긍정적 인 관계가 있지만 각 …

3
이 분포에 대한 난수를 시뮬레이션하는 방법 찾기
누적 분포 함수를 사용하여 분포에서 의사 난수를 시뮬레이션하는 프로그램을 R로 작성하려고합니다. F(x)=1−exp(−ax−bp+1xp+1),x≥0F(x)=1−exp⁡(−ax−bp+1xp+1),x≥0F(x)= 1-\exp \left(-ax-\frac{b}{p+1}x^{p+1}\right), \quad x \geq 0 여기서 a,b>0,p∈(0,1)a,b>0,p∈(0,1)a,b>0, p \in (0,1) 역변환 샘플링을 시도했지만 역으로 분석 할 수없는 것 같습니다. 이 문제에 대한 해결책을 제안 할 수 있다면 기쁠 것입니다.

5
두 변수의 로그 사이에 선형 관계가 있다는 직관적 인 의미는 무엇입니까?
서로에 대해 플롯 할 때 많은 상관 관계를 보이지 않는 두 개의 변수가 있지만 각 변수의 로그를 다른 로그에 다시 그릴 때 매우 명확한 선형 관계가 있습니다. 그래서 나는 유형의 모델로 끝날 것입니다 : log(Y)=alog(X)+blog⁡(Y)=alog⁡(X)+b\log(Y) = a \log(X) + b . 수학적으로 훌륭하지만 정규 선형 모델의 설명 값이없는 것 같습니다. …

2
FPR (거짓 양성 비율) vs FDR (거짓 발견 률)
다음 인용문은 Storey & Tibshirani (2003) 의 유명한 유전체 연구 통계의 유의성에서 발췌 한 것입니다. 예를 들어, 오 탐지율 5 %는 연구에서 실제로 null 인 피처의 평균 5 %가 중요하다고 할 수 있음을 의미합니다. FDR (False Discovery rate)이 5 %라는 것은 중요하다고하는 모든 기능 중에서 5 %가 실제로 평균이 없음을 …

4
평균 (또는 다른 순간)이 존재하지 않는 음이 아닌 이산 분포의 예?
나는 scipy에서 약간의 일을하고 있었고 음이 아닌 이산 랜덤 변수가 정의되지 않은 순간을 가질 수 있는지 여부에 대한 핵심 scipy 그룹의 구성원과 대화가 나왔습니다. 나는 그가 정확하지만 증거가 없다고 생각합니다. 누구든지이 주장을 보여 주거나 증명할 수 있습니까? (또는이 주장이 사실이 아닌 경우) 불연속 랜덤 변수가 지원하는 경우 편리한 예가 없지만, …

9
과적 합 및 과적 합
과적 합과 과적 합에 대해 조사한 결과 이들이 정확히 무엇인지 이해했지만 그 이유를 찾을 수 없습니다. 과적 합과 과적 합의 주된 이유는 무엇입니까? 모델 훈련에서이 두 가지 문제에 직면하는 이유는 무엇입니까?

5
가능성 원칙이 * 실제로 * 중요한 예입니까?
비례 가능성을 갖는 두 개의 서로 다른 방어 테스트가 p- 값이 아주 큰 차수이지만 대안에 대한 검정력이 유사한 경우와 같이 하나가 현저하게 다른 (그리고 똑같이 방어 가능한) 추론으로 이어질 수있는 예가 있습니까? 내가 본 모든 예제는 이항식과 음의 이항식을 비교하는 매우 바보입니다. 첫 번째의 p- 값은 7 %이고 두 번째 …

3
Keras를 사용한 LSTM의 input_shape 매개 변수 이해
Keras 설명서에 "시퀀스 분류 용 스택 LSTM"(아래 코드 참조)이라는 설명 을 사용하려고하는데 input_shape내 데이터의 맥락 에서 매개 변수를 파악할 수 없습니다 . 최대 길이가 31 인 패딩 된 시퀀스에 정수로 인코딩 된 25 개의 가능한 문자 시퀀스의 행렬을 입력했습니다. 결과적으로 x_train모양의 (1085420, 31)의미가 (n_observations, sequence_length)있습니다. from keras.models import Sequential from …
20 lstm  keras  shape  dimensions 

4
일상의 확률은 알려지지 않은 문제를 다루는 방법일까요?
그것은 양자 물리가 아닌 일상의 확률에서와 같이, 확률은 실제로 미지의 것을 대체 할뿐입니다. 예를 들어 동전 던지기를 생각해보십시오. 머리가 50 %, 꼬리가 50 % 확률로 "무작위"라고 말합니다. 그러나 동전의 밀도, 크기 및 모양을 정확히 알고 있다면; 공기 밀도; 동전이 얼마나 많은 힘으로 뒤집 혔는지; 정확히 그 힘이 놓여진 곳; 동전과 …


4
여러 비교가 "계획된"경우에도 여러 비교를 수정해야합니까?
> 15 개 이상의 2x2 Chi Square 테스트를 수행 한 논문을 검토하고 있습니다. 여러 비교를 수정해야한다고 제안했지만 모든 비교가 계획되었다고 대답했기 때문에 이것이 필요하지 않습니다. 나는 이것이 정확하지 않아야한다고 생각하지만 이것이 사실인지 명시 적으로 명시하는 어떤 자원도 찾을 수 없다고 생각합니다. 누구든지 이것을 도울 수 있습니까? 최신 정보: 매우 유용한 …

1
베이지안 네트워크에서 신경 네트워크로 : 다변량 회귀를 다중 출력 네트워크로 전치하는 방법
나는 베이지안 계층 선형 모델 (여기서 그것을 설명하는 네트워크)을 다루고 있습니다. 는 슈퍼마켓에서 관찰 된 제품의 일일 판매량을 나타냅니다.YYY 는 가격, 프로모션, 요일, 날씨, 휴일을 포함하여 알려진 회귀 행렬입니다.XXX 는 각 제품의 알려지지 않은 잠재 재고 수준으로, 가장 많은 문제를 유발하고, 이진 변수로 구성된 벡터를 고려합니다. 각 제품마다 1 개가품절됨을 …

1
LASSO가 높은 차원에서 완벽한 예측 변수 쌍을 찾지 못하는 이유는 무엇입니까?
완벽한 예측 변수 쌍을 찾을 수 있는지 테스트하기 위해 R에서 LASSO 회귀로 작은 실험을 진행하고 있습니다. 쌍은 다음과 같이 정의됩니다 : f1 + f2 = 결과 결과는 '나이'라고하는 미리 정해진 벡터입니다. F1 및 f2는 연령 벡터의 절반을 취하고 나머지 값을 0으로 설정하여 작성합니다 (예 : age = [1,2,3,4,5,6], f1 = …

1
왜 로지스틱 회귀가 완벽한 분리 사례에서 작동하지 않는지에 대한 직관적 인 설명이 있습니까? 왜 정규화를 추가하면 문제가 해결됩니까?
로지스틱 회귀 분석에서 완벽한 분리에 대한 많은 토론이 있습니다. 예를 들어 R의 로지스틱 회귀는 완벽한 분리 (Hauck-Donner 현상)를 초래했습니다. 이제 뭐? 및 로지스틱 회귀 모델은 수렴하지 않습니다 . 개인적으로 여전히 문제가되는 이유와 정규화를 추가하면 문제가 해결되는 것은 직관적이지 않다고 생각합니다. 애니메이션을 만들어서 도움이 될 것이라고 생각합니다. 따라서 자신의 질문을 게시하고 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.