통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

1
R에서 GLM 후 요인 수준 비교
내 상황에 대한 약간의 배경은 다음과 같습니다. 내 데이터는 포식자가 성공적으로 먹은 먹이 수를 나타냅니다. 각 시험에서 먹이의 수가 제한되어 있으므로 (25 개의 이용 가능), 이용 가능한 먹이의 수를 나타내는 "샘플"열 (각 시험에서 25)과 성공 횟수 ( "Count")가 있습니다 ( 먹이를 몇 마리 먹었는지) 비율 데이터 (578 페이지)를 기준으로 R …

1
Calinski & Harabasz (CH) 기준의 허용 가능한 값은 무엇입니까?
R과 kml 패키지를 사용하여 종단 데이터를 군집화 하려는 데이터 분석을 수행했습니다 . 내 데이터에는 약 400 개의 개별 궤적이 포함되어 있습니다 (서류에 언급되어 있음). 다음 그림에서 내 결과를 볼 수 있습니다. 해당 논문 에서 2.2 장 "최적의 군집 선택"을 읽은 후 아무런 답을 얻지 못했습니다. 3 개의 군집을 선호하지만 결과는 …

2
베이지안의 일반적인 적합도 검정은 무엇입니까?
물리적 관측치 (온도)와 숫자 모델 앙상블의 두 가지 데이터 세트가 있습니다. 모델 앙상블이 실제 독립적 인 표본을 나타내고 가정에서 해당 분포에서 관측치가 추출되는지 확인하는 완벽한 모델 ​​분석을 수행하고 있습니다. 내가 계산 한 통계는 정규화되었으며 이론적으로 표준 정규 분포 여야합니다. 물론 완벽하지는 않으므로 적합도를 테스트하고 싶습니다. 잦은 추론을 사용하여 Cramér-von Mises …

3
이 홀수 모양 분포를 모델링하는 방법 (거의 J)
아래에 표시된 내 종속 변수는 내가 알고있는 재고 분포와 맞지 않습니다. 선형 회귀는 이상한 Y로 예측 된 Y와 관련하여 다소 비정규의 오른쪽으로 치우친 잔차를 생성합니다 (2 차 플롯). 가장 유효한 결과와 최상의 예측 정확도를 얻을 수있는 변형이나 다른 방법에 대한 제안이 있습니까? 가능한 경우 5 가지 값 (예 : 0, …

3
R은 생산 (배포 된) 코드에 적합합니까?
나는 연구를 위해 R을 사용하는 Google, Facebook 및 다른 많은 회사와 같은 회사에 대해 이야기하는 많은 기사를 읽었습니다. 내가 읽은 다른 시나리오는 R을 사용하여 분석 솔루션을 프로토 타입 한 다음 다른 언어로 다시 구현하는 회사입니다. 실제 생산 분석 코드에 R을 사용하는 회사에 대한 문헌을 찾으려고합니다. 유스 케이스는 사용자가 원격 서버에서 …
25 r  references 

5
Copulas 입문
얼마 동안 저는 세미나를 위해 Copulas에 대한 좋은 소개 자료를 찾고있었습니다. 나는 이론적 인 측면에 대해 이야기 할 수있는 많은 자료를 찾고 있는데, 그것들로 넘어 가기 전에 주제에 대한 직관적 인 이해를 구축하고자합니다. 초보자에게 좋은 기초를 제공하는 좋은 논문을 제안 할 수 있습니까 (저는 1-2 코스의 통계를 가지고 있으며 한계, …


6
신경망은 이미지를 어떻게 인식합니까?
이 질문은 교차 검증에서 답변 될 수 있기 때문에 스택 오버플 로 에서 마이그레이션 되었습니다. 7 년 전에 이주했습니다 . 신경망이 이미지 인식에서 어떻게 작동하는지 배우려고합니다. 나는 몇 가지 예를 보았고 더 혼란스러워졌습니다. 20x20 이미지의 문자 인식의 예에서 각 픽셀의 값은 입력 레이어가됩니다. 400 개의 뉴런. 그런 다음 숨겨진 뉴런 …

2
Joel Spolsky의“Snark 사냥”은 유효한 통계 컨텐츠 분석 이후입니까?
최근에 커뮤니티 게시판을 읽고 있다면 StackExchange 네트워크의 CEO Joel Spolsky의 공식 StackExchange 블로그 게시물 인 Snark의 사냥 (Hunting of the Snark)을 보셨을 것입니다. 그는 외부 사용자의 관점에서 "친숙성"을 평가하기 위해 SE 의견 샘플에 대해 수행 된 통계 분석에 대해 설명합니다. 의견은 StackOverflow에서 무작위로 추출되었으며 컨텐츠 분석가는 저렴한 비용으로 작고 짧은 …

6
통계 그래픽을위한“hello, world”가 있습니까?
컴퓨터 프로그래밍에는 "hello, world"라고하는 새로운 언어 나 시스템을 배우고 가르치는 고전적인 최초의 프로그램이 있습니다. http://en.wikipedia.org/wiki/Hello_world_program 그래프 패키지를 사용하기위한 최초의 최초 데이터 시각화가 있습니까? 그렇다면 무엇입니까? 그렇지 않다면 좋은 후보는 무엇입니까?

3
R에서 시계열의 평활도를 측정하는 방법은 무엇입니까?
R에서 시계열의 평활도를 측정하는 좋은 방법이 있습니까? 예를 들어 -1, -0.8, -0.6, -0.4, -0.2, 0, 0.2, 0.4, 0.6, 0.8, 1.0 보다 매끄럽다 -1, 0.8, -0.6, 0.4, -0.2, 0, 0.2, -0.4, 0.6, -0.8, 1.0 평균과 표준 편차는 동일하지만 시계열에서 부드러운 점수를주는 기능이 있으면 멋질 것입니다.
25 r  time-series 

3
푸 아송 회귀 분석에서 잔차 대 적합치의 해석 그림
R에 GLM (poisson regression)을 사용하여 데이터를 맞추려고합니다. 잔차 대 적합치 값을 플로팅하면 플롯이 여러 개의 (거의 오목한 곡선이있는 선형) "선"을 만들었습니다. 이것은 무엇을 의미 하는가? library(faraway) modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor + freerepa + illness + actdays + hscore + …

6
R이있는 통계에 대한 참조 서 – 존재하며 무엇이 포함되어야합니까?
배경 이것에 대해 많은 토론이 있기 때문에 StackExchange의 이전 트레드와 분노한 인터넷 검색으로 내 대답을 찾을 수 있다고 생각했습니다. 반나절을 사용하여 R에 대한 (생물) 통계에 대한 하나의 참조 서적을 찾으려고 노력한 후, 나는 완전히 혼란스러워하고 포기해야했습니다. 어쩌면 현재 무료로 제공되는 책보다 무료 자료가 더 나은 것일 수도 있습니다. 알아 봅시다. …
25 r  references 

1
Quantile 회귀 분석에는 어떤 진단 도표가 있습니까?
OLS 에 대한 내 질문 에 따르면, Quantile 회귀 분석에 어떤 진단 플롯이 존재합니까? (그리고 R 구현이 있습니까?) 빠른 Google 검색은 이미 웜 플롯 (이전에 들어 본 적이없는)을 가지고 왔으며, 당신이 알고있는 더 많은 방법을 알게되어 기쁩니다. (Quantile-Regression을 위해 포팅 된 OLS 중 하나입니까?)

2
스무딩 스플라인과 스무딩의 비교 비교?
커브를 부드럽게하기 위해 황토 또는 스무딩 스플라인을 사용하는 것에 대한 장단점을 더 잘 이해하고 싶습니다. 내 질문의 또 다른 변형은 황토를 사용하는 것과 동일한 결과를 얻을 수있는 방식으로 스무딩 스플라인을 구성하는 방법이 있는지입니다. 모든 참조 또는 통찰력을 환영합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.