통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

2
상관 관계는 데이터의 정상 성을 가정합니까?
시장 간 분석은 서로 다른 시장 간의 관계를 찾아 시장 행동을 모델링하는 방법입니다. 종종 S & P 500과 30 년 미국 국채 등 두 시장 사이의 상관 관계가 계산됩니다. 이러한 계산은 가격 데이터를 기반으로하지 않는 경우가 많으며, 이는 고정 시계열의 정의에 맞지 않음을 모든 사람에게 분명합니다. 가능한 해결책은 제쳐두고 (대신에 …

5
통계적 관점에서 관찰 연구에서 성향 점수를 사용하여 인과 관계를 유추 할 수 있습니까?
질문 : 통계 학자 (또는 실무자)의 입장에서 , 관찰 연구 ( 실험이 아닌)에서 성향 점수 를 사용하여 인과성을 추론 할 수 있습니까? 화염 전쟁이나 광적인 토론을 시작하고 싶지 않습니다. 배경 : stat PhD 프로그램 내에서 우리는 실무 그룹과 몇 가지 주제 세션을 통해 인과 추론에 대해서만 다루었습니다. 그러나 다른 부서 …

3
음의 확률 / 확률 진폭에 양자 역학 외부의 응용 프로그램이 있습니까?
Quantum Mechanics는 대부분 간섭 패턴, 파동 / 입자 이중성 및 일반적으로 이상한 것들을 설명하기 위해 음수 / 상수로 확률 이론을 일반화했습니다. 그러나 베이지안 확률의 비 계산적 일반화 (Terrence Tao의 인용)로보다 추상적으로 볼 수 있습니다. 나는 결코 전문가가 아니지만 이러한 것들에 대해 궁금합니다. Quantum Mechanics 외부에 응용 프로그램이 있습니까? 그냥 궁금해서


6
이항 분포와 베타 분포의 관계
저는 통계 학자보다 프로그래머에 가깝기 때문에이 질문이 너무 순진하지 않기를 바랍니다. 임의의 시간에 프로그램 실행을 샘플링 할 때 발생합니다. 프로그램 상태의 N = 10 임의 시간 샘플을 취하면 Foo 함수가 실행되고 있음을 알 수 있습니다 (예 : 해당 샘플의 I = 3). Foo가 실행되는 시간 F의 실제 비율에 대해 알려주는 …

9
대규모 데이터 세트를 처리하기위한 통계 및 데이터 마이닝 소프트웨어 도구
현재 약 2 천만 개의 레코드를 분석하고 예측 모델을 작성해야합니다. 지금까지 Statistica, SPSS, RapidMiner 및 R을 사용해 보았습니다.이 통계 중 데이터 마이닝을 처리하는 데 가장 적합한 것으로 보이며 RapidMiner 사용자 인터페이스도 매우 편리하지만 Statistica, RapidMiner 및 SPSS는 소규모 데이터 세트에만 적합합니다. . 누구든지 큰 데이터 세트에 적합한 도구를 추천 할 …


4
유효성 검사 정확도가 향상되는 동안 유효성 검사 손실이 증가하는 방법은 무엇입니까?
CIFAR10 데이터 세트에서 간단한 신경망을 훈련하고 있습니다. 얼마 후, 검증 손실이 증가하기 시작했지만 검증 정확도도 증가했습니다. 테스트 손실 및 테스트 정확도는 계속 향상됩니다. 이것이 어떻게 가능한지? 유효성 검증 손실이 증가하면 정확도가 저하되는 것 같습니다. 추신 : 비슷한 질문이 몇 개 있지만 아무도 그 일에 대해 설명하지 못했습니다.


2
올가미 패널티가 이전의 이중 지수 (Laplace)에 해당하는 이유는 무엇입니까?
회귀 모수 벡터 대한 올가미 추정치 B비B가 각 B i에 대한 이전 분포 가 이중 지수 분포 (라플라스 분포라고도 함) 인 의 사후 모드와 같다는 많은 참고 문헌을 읽었습니다 .B비BBi비나는B_i 나는 이것을 증명하려고 노력했다. 누군가가 세부 사항을 살릴 수 있습니까?

2
정밀 회수 곡선 (PR- 곡선의 AUC) 및 평균 정밀 (AP) 영역
평균 정밀도 (AP)는 정밀도-회귀 곡선 (PR- 곡선의 AUC) 하의 영역입니까? 편집하다: 다음은 PR AUC와 AP의 차이점에 대한 의견입니다. AUC는 정밀도의 사다리꼴 보간에 의해 얻어진다. 대체적이고 대체로 거의 동등한 메트릭은 info.ap로 반환되는 평균 정밀도 (AP)입니다. 이것은 새로운 양의 샘플이 리콜 될 때마다 얻은 정밀도의 평균입니다. 정밀도가 일정한 세그먼트에 의해 보간되고 TREC에서 …

4
scikit-learn (또는 다른 파이썬 프레임 워크)을 사용하여 다른 종류의 회귀 변수 앙상블
회귀 작업을 해결하려고합니다. LassoLARS, SVR 및 Gradient Tree Boosting의 3 가지 모델이 서로 다른 데이터 하위 집합에 잘 작동한다는 것을 알았습니다. 나는이 3 가지 모델을 모두 사용하여 예측을 한 다음 '실제 출력'과 내 3 가지 모델의 출력 테이블을 만들 때마다 적어도 하나의 모델이 실제로 실제 출력에 가깝다는 것을 알았습니다. 비교적 …

1
lmer 혼합 효과 모델에 대한 predict () 함수
문제 : [R]의 혼합 효과 {lme4} 모델에 사용할 수없는 다른 게시물 을 읽었습니다 .predictlmer 장난감 데이터 세트 로이 주제를 탐색하려고했습니다 ... 배경: 데이터 세트는 이 소스 에서 적용되며 다음과 같이 사용할 수 있습니다. require(gsheet) data <- read.csv(text = gsheet2text('https://docs.google.com/spreadsheets/d/1QgtDcGJebyfW7TJsB8n6rAmsyAnlz1xkT3RuPFICTdk/edit?usp=sharing', format ='csv')) 다음은 첫 번째 행과 헤더입니다. > head(data) Subject Auditorium …

2
클러스터링에서 이진 변수와 연속 변수를 함께 사용하는 방법은 무엇입니까?
k- 평균으로 이진 변수 (값 0 및 1)를 사용해야합니다. 그러나 k- 평균은 연속 변수에서만 작동합니다. k-means가 연속 변수 전용이라는 사실을 무시하고 일부 사람들은 여전히 ​​k-means에서이 이진 변수를 사용한다는 것을 알고 있습니다. 이것은 받아 들일 수 없습니다. 질문 : k- 평균 / 계층 군집화에서 이진 변수를 사용하는 통계적 / 수학적으로 올바른 …

6
가중치가 작을수록 정규화에서 모델이 더 단순 해지는 이유는 무엇입니까?
저는 1 년 전에 Andrew Ng의 기계 학습 과정을 수료했으며 이제 로지스틱 회귀 작업과 성능 최적화 기술에 대한 고등학교 수학 탐구를 작성하고 있습니다. 물론 이러한 기술 중 하나는 정규화입니다. 정규화의 목표는 모델 단순성의 목표를 포함하도록 비용 함수를 확장하여 과적 합을 방지하는 것입니다. 우리는 비용 함수에 각 가중치를 제곱하고 정규화 매개 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.