정규 분포 종속 변수가 방향 분포 변수 와 연관되어 있는지에 대한 가설 검정이 있습니까? 예를 들어, 하루 중 시간 이 설명 변수 인 경우 (예 : 요일, 월 등의 항목이 관련이 없다고 가정) 11 시가 오전 1시 22 시간 보다 앞서고 2 시라 는 사실을 설명하는 방법 협회 시험에서 1am …
mathoverflow에서 내 질문을 교차 게시 하여 통계 관련 도움말을 찾으십시오. 음수가 아닌 값으로 2 차원으로 훌륭하게 투영되는 데이터를 생성하는 물리적 프로세스를 연구하고 있습니다. 각 프로세스에는 - 포인트 의 (투영 된) 트랙이 있습니다 (아래 이미지 참조).엑스엑스x와이와이y 샘플 트랙은 파란색이며, 귀찮은 유형의 트랙은 녹색으로 손으로 그려졌으며 관심 영역은 빨간색으로 그려졌습니다. 각 트랙은 …
데이터 세트를 작업 중입니다. 일부 모델 식별 기술을 사용한 후 ARIMA (0,2,1) 모델을 만들었습니다. R detectIO의 패키지 TSA에 있는 함수를 사용하여 48 번째 원본 데이터 세트에서 혁신적인 이상치 (IO) 를 감지했습니다 . 이 특이 치를 내 모델에 어떻게 통합하여 예측 목적으로 사용할 수 있습니까? R에서 예측할 수 없기 때문에 ARIMAX …
나는 시작하기 전에 더 많은 통계를 배우려고 노력하는 소프트웨어 엔지니어이기 때문에, 이것은 새로운 영역입니다. PyMC를 배우고 실제로 (실제로) 간단한 예제를 통해 작업했습니다. 내가 일할 수없는 한 가지 문제 (및 관련 예제를 찾을 수 없음)는 두 정규 분포에서 생성 된 데이터에 모델을 피팅하는 것입니다. 1000 개의 값이 있다고 가정합니다. a에서 생성 …
편집을 참조하십시오. 꼬리가 굵은 데이터가있는 경우 student-t 오류로 회귀를 수행하는 것은 직관적 인 방법으로 보입니다. 이 가능성을 탐구하는 동안 나는이 논문에 부딪쳤다. Breusch, TS, Robertson, JC, & Welsh, AH (1997 년 11 월 1 일). 황제의 새로운 옷 : 다변량 회귀 모델에 대한 비판. Statistica Neerlandica, 51, 3.) ( link …
SEM을 적용하려는 하나의 데이터 세트에 많은 문제가 있습니다. 우리는 지표가 각각 5 가지 잠재 요인 A, B, C, D, E의 존재를 가정합니다. A1-A5 (순서 계수), B1-B3 (정량적), C1, D1, E1 (E1에 대해 2 단계 만 포함 된 마지막 세 가지 요인 모두) 모든 요소 사이의 공분산에 관심이 있습니다. 나는 OpenMx그렇게 …
Hidden Markov Models 및 Gaussian Mixture Models와 같은 많은 통계 모델링 작업을하고 있습니다. 이러한 각 사례에서 우수한 모델을 훈련하려면 최종 사용 환경과 유사한 환경에서 가져온 대량 (> HMM의 경우 20000 문장)의 데이터가 필요합니다. 내 질문은 : 문헌에 "충분한"훈련 데이터의 개념이 있습니까? "충분한"훈련 데이터는 얼마입니까? "좋은"(좋은 인식 정확도 (> 80 %)를 …
유틸리티 클라이언트에 대한 로지스틱 회귀를 사용하여 성향 모델을 작성 중입니다. 내 관심사는 전체 샘플 중 내 '나쁜'계정이 5 %에 불과하고 나머지는 모두 양호하다는 것입니다. 나는 '나쁜'을 예측하고 있습니다. 결과가 편향됩니까? 좋은 모델을 만들기위한 최적의 '나쁜 대 좋은 비율'은 무엇입니까?
저는 데이터 마이닝 분야에서 일하며 통계 학습은 거의 없었습니다. 최근에 저는 학습과 채굴을위한 베이지안 패러다임에 초점을 맞춘 많은 일을 읽었습니다. 내 질문은 (여러 부분으로) 있는데, 문제가 주어지면 통계 모델을 구성 할 수있는 일반적인 프레임 워크가 있습니까? 기본 프로세스를 모델링하려는 데이터 세트가 제공 될 때 가장 먼저해야 할 일은 무엇입니까? 이 …
환자는 병원에 입원합니다. 체류 기간은 다음 두 가지에 달려 있습니다. 부상의 심각성 및 병원에 입원하기 위해 보험이 지불 할 금액. 일부 환자는 보험이 체류 비용 지불을 중단하기로 결정하면 조기 퇴원합니다. 다음을 가정하십시오. 1) 체류 기간은 매개 변수를 사용하여 포아송 분포입니다 (지금은 가정하고 실제 가정 일 수도 있고 아닐 수도 있습니다) …
일반적인 방법 론적 질문이 있습니다. 이전에 답변을 받았을 수도 있지만 관련 스레드를 찾을 수 없습니다. 가능한 중복에 대한 포인터에 감사드립니다. ( 이것은 훌륭한 것이지만 대답은 없습니다. 이것은 대답 이 있더라도 정신적으로 비슷하지만 후자는 내 관점에서 너무 구체적입니다. 이것은 질문을 게시 한 후에도 가깝습니다.) 주제는 데이터를보기 전에 공식화 한 모델이 데이터 …
많은 크리켓 게임 (수천)을 자세히 설명하는 데이터 세트가 있습니다. 크리켓에서 "볼러"는 "타자"의 연속으로 공을 반복적으로 던집니다. 중산은 배트맨을 "아웃"시키려고합니다. 이런 점에서 그것은 야구에서 투수와 타자와 매우 유사합니다. 전체 데이터 세트를 가져 와서 배트맨을 얻은 볼의 총 수를 볼링 된 총 볼 수로 나눈 경우 볼링 선수가 배트맨을 꺼내는 평균 확률이 …
필자의 분야에서 짝을 이룬 데이터를 그리는 일반적인 방법은 일련의가는 경 사진 선분으로 두 그룹에 대한 중앙값의 중앙값과 CI로 오버레이합니다. 그러나이 종류의 줄거리는 데이터 포인트 수가 매우 많아지면 읽기가 훨씬 어려워집니다 (제 경우에는 10000 쌍 정도입니다). 알파를 줄이면 약간 도움이되지만 여전히 좋지는 않습니다. 솔루션을 검색하는 동안 이 백서 를 발견하고 '병렬 …