통계 및 빅 데이터 modeling

3

모델링 및 시뮬레이션에서 자주 단순화하는 것은 임의의 변수를 평균값으로 대체하는 것입니다. 이 단순화가 언제 잘못된 결론으로 이어질 것입니까?

10 modeling mean random-variable

3

정규 분포 종속 변수가 방향 분포 변수 와 연관되어 있는지에 대한 가설 검정이 있습니까? 예를 들어, 하루 중 시간 이 설명 변수 인 경우 (예 : 요일, 월 등의 항목이 관련이 없다고 가정) 11 시가 오전 1시 22 시간 보다 앞서고 2 시라 는 사실을 설명하는 방법 협회 시험에서 1am …

10 hypothesis-testing modeling circular-statistics

1

공간 데이터에 적합한 분포

mathoverflow에서 내 질문을 교차 게시 하여 통계 관련 도움말을 찾으십시오. 음수가 아닌 값으로 2 차원으로 훌륭하게 투영되는 데이터를 생성하는 물리적 프로세스를 연구하고 있습니다. 각 프로세스에는 - 포인트 의 (투영 된) 트랙이 있습니다 (아래 이미지 참조).엑스엑스x와이와이y 샘플 트랙은 파란색이며, 귀찮은 유형의 트랙은 녹색으로 손으로 그려졌으며 관심 영역은 빨간색으로 그려졌습니다. 각 트랙은 …

10 distributions modeling predictive-models fitting curve-fitting

1

ARIMA 모델의 관측치 48에서 혁신적인 특이 치를 어떻게 통합합니까?

데이터 세트를 작업 중입니다. 일부 모델 식별 기술을 사용한 후 ARIMA (0,2,1) 모델을 만들었습니다. R detectIO의 패키지 TSA에 있는 함수를 사용하여 48 번째 원본 데이터 세트에서 혁신적인 이상치 (IO) 를 감지했습니다 . 이 특이 치를 내 모델에 어떻게 통합하여 예측 목적으로 사용할 수 있습니까? R에서 예측할 수 없기 때문에 ARIMAX …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

2

PyMC에서 두 개의 정규 분포에 대한 적합 모형

나는 시작하기 전에 더 많은 통계를 배우려고 노력하는 소프트웨어 엔지니어이기 때문에, 이것은 새로운 영역입니다. PyMC를 배우고 실제로 (실제로) 간단한 예제를 통해 작업했습니다. 내가 일할 수없는 한 가지 문제 (및 관련 예제를 찾을 수 없음)는 두 정규 분포에서 생성 된 데이터에 모델을 피팅하는 것입니다. 1000 개의 값이 있다고 가정합니다. a에서 생성 …

10 modeling python pymc

1

student-t 오류가있는 회귀는 쓸모 없습니까?

편집을 참조하십시오. 꼬리가 굵은 데이터가있는 경우 student-t 오류로 회귀를 수행하는 것은 직관적 인 방법으로 보입니다. 이 가능성을 탐구하는 동안 나는이 논문에 부딪쳤다. Breusch, TS, Robertson, JC, & Welsh, AH (1997 년 11 월 1 일). 황제의 새로운 옷 : 다변량 회귀 모델에 대한 비판. Statistica Neerlandica, 51, 3.) ( link …

10 regression mathematical-statistics modeling robust

1

SEM 모델링 관련 도움말 (OpenMx, polycor)

SEM을 적용하려는 하나의 데이터 세트에 많은 문제가 있습니다. 우리는 지표가 각각 5 가지 잠재 요인 A, B, C, D, E의 존재를 가정합니다. A1-A5 (순서 계수), B1-B3 (정량적), C1, D1, E1 (E1에 대해 2 단계 만 포함 된 마지막 세 가지 요인 모두) 모든 요소 사이의 공분산에 관심이 있습니다. 나는 OpenMx그렇게 …

10 r modeling multiple-regression sem

1

통계 모델 훈련을위한 "충분한"데이터 개념이 있습니까?

Hidden Markov Models 및 Gaussian Mixture Models와 같은 많은 통계 모델링 작업을하고 있습니다. 이러한 각 사례에서 우수한 모델을 훈련하려면 최종 사용 환경과 유사한 환경에서 가져온 대량 (> HMM의 경우 20000 문장)의 데이터가 필요합니다. 내 질문은 : 문헌에 "충분한"훈련 데이터의 개념이 있습니까? "충분한"훈련 데이터는 얼마입니까? "좋은"(좋은 인식 정확도 (> 80 %)를 …

10 modeling hidden-markov-model gaussian-mixture

5

결과 변수가 5 %-95 %로 분할 될 때 로지스틱 회귀가 편향됩니까?

유틸리티 클라이언트에 대한 로지스틱 회귀를 사용하여 성향 모델을 작성 중입니다. 내 관심사는 전체 샘플 중 내 '나쁜'계정이 5 %에 불과하고 나머지는 모두 양호하다는 것입니다. 나는 '나쁜'을 예측하고 있습니다. 결과가 편향됩니까? 좋은 모델을 만들기위한 최적의 '나쁜 대 좋은 비율'은 무엇입니까?

10 logistic modeling

4

통계 모델링을 시작하기위한 팁과 요령?

저는 데이터 마이닝 분야에서 일하며 통계 학습은 거의 없었습니다. 최근에 저는 학습과 채굴을위한 베이지안 패러다임에 초점을 맞춘 많은 일을 읽었습니다. 내 질문은 (여러 부분으로) 있는데, 문제가 주어지면 통계 모델을 구성 할 수있는 일반적인 프레임 워크가 있습니까? 기본 프로세스를 모델링하려는 데이터 세트가 제공 될 때 가장 먼저해야 할 일은 무엇입니까? 이 …

10 bayesian modeling references eda

1

이 과정에 대한 가능성은 무엇입니까?

환자는 병원에 입원합니다. 체류 기간은 다음 두 가지에 달려 있습니다. 부상의 심각성 및 병원에 입원하기 위해 보험이 지불 할 금액. 일부 환자는 보험이 체류 비용 지불을 중단하기로 결정하면 조기 퇴원합니다. 다음을 가정하십시오. 1) 체류 기간은 매개 변수를 사용하여 포아송 분포입니다 (지금은 가정하고 실제 가정 일 수도 있고 아닐 수도 있습니다) …

10 maximum-likelihood modeling

9

재무 시계열 모델링 도구

재무 시계열 모델링에 어떤 최신 도구 (Windows 기반)를 제안합니까?

10 modeling time-series finance software

2

모형의 잘못된 사양에 따른 통계적 추론

일반적인 방법 론적 질문이 있습니다. 이전에 답변을 받았을 수도 있지만 관련 스레드를 찾을 수 없습니다. 가능한 중복에 대한 포인터에 감사드립니다. ( 이것은 훌륭한 것이지만 대답은 없습니다. 이것은 대답 이 있더라도 정신적으로 비슷하지만 후자는 내 관점에서 너무 구체적입니다. 이것은 질문을 게시 한 후에도 가깝습니다.) 주제는 데이터를보기 전에 공식화 한 모델이 데이터 …

9 modeling inference misspecification

2

배트맨을 꺼내는 크리켓 볼러 모델링

많은 크리켓 게임 (수천)을 자세히 설명하는 데이터 세트가 있습니다. 크리켓에서 "볼러"는 "타자"의 연속으로 공을 반복적으로 던집니다. 중산은 배트맨을 "아웃"시키려고합니다. 이런 점에서 그것은 야구에서 투수와 타자와 매우 유사합니다. 전체 데이터 세트를 가져 와서 배트맨을 얻은 볼의 총 수를 볼링 된 총 볼 수로 나눈 경우 볼링 선수가 배트맨을 꺼내는 평균 확률이 …

9 probability modeling games

5

매우 많은 수의 쌍으로 된 데이터 포인트를 그래픽으로 표현하는 좋은 방법은 무엇입니까?

필자의 분야에서 짝을 이룬 데이터를 그리는 일반적인 방법은 일련의가는 경 사진 선분으로 두 그룹에 대한 중앙값의 중앙값과 CI로 오버레이합니다. 그러나이 종류의 줄거리는 데이터 포인트 수가 매우 많아지면 읽기가 훨씬 어려워집니다 (제 경우에는 10000 쌍 정도입니다). 알파를 줄이면 약간 도움이되지만 여전히 좋지는 않습니다. 솔루션을 검색하는 동안 이 백서 를 발견하고 '병렬 …

9 generalized-linear-model data-visualization modeling interpretation paired-data

«modeling» 태그된 질문