통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

29
교육의 예 : 상관 관계가 원인을 의미하지는 않습니다
"상관은 인과 관계를 의미하지 않습니다"라는 옛말이 있습니다. 가르 칠 때, 나는이 점을 설명하기 위해 다음의 표준 예를 사용하는 경향이 있습니다. 덴마크의 황새 수와 출생률; 미국에있는 사제 수와 알코올 중독; 20 세기 초에는 '무전기 수'와 '정신 병원 망명자 수'사이에 강한 상관 관계가 있음을 알게되었다 내가 가장 좋아하는 것 : 해적은 지구 …

5
일반 영어로 정규화 란 무엇입니까?
다른 기사와 달리, 이 주제에 대한 wikipedia 항목은 수학자가 아닌 사람이 읽을 수 없음을 발견했습니다 . 규칙이 적은 모델을 선호한다는 기본 아이디어를 이해했습니다. 내가 얻지 못하는 것은 규칙 집합에서 '정규화 점수'로 어떻게 넘어가 는가? 간단한 정규화 방법을 설명 할 수 있습니까? 통계 거래 시스템을 분석하는 데 관심이 있습니다. 정규화를 적용하여 …

6
폐쇄 형 수학 솔루션을 사용할 수있는 경우 선형 회귀에 그래디언트 디센트를 사용하는 이유는 무엇입니까?
기계 학습 과정을 온라인으로 진행하고 가설의 최적 값을 계산하기위한 그라디언트 디센트에 대해 배웠습니다. h(x) = B0 + B1X 아래 수식으로 값을 쉽게 찾을 수 있다면 왜 그라데이션 하강을 사용해야합니까? 이것은 똑바로 쉽게 보입니다. 그러나 GD는 값을 얻기 위해 여러 번 반복해야합니다. B1 = Correlation * (Std. Dev. of y/ Std. …

4
심리학 저널은 p- 값과 신뢰 구간을 금지했습니다. 실제로 사용을 중단하는 것이 현명한가?
2015 년 2 월 25 일, Basic and Applied Social Psychology 저널 은 미래의 모든 논문에서 p- 값 과 신뢰 구간을 금지 하는 사설 을 발표했습니다.피pp 특히, 그들은 (포맷과 강조는 내 것입니다) : [...] 출판 전에, 저자는 NHSTP의 모든 흔적을 제거해야한다 [널 가설 유의성 테스트 절차] ( , t- 값 …


3
"제한된 최대 가능성"이란 무엇이며 언제 사용해야합니까?
나는 이 논문 의 초록을 읽었다 : "Hartley aud Rao의 ML (Maximum Likelihood) 절차는 Patterson과 Thompson의 변환을 수정하여 가능성 렌더 정규성을 두 부분으로 분할합니다. 하나는 고정 된 효과가 없습니다.이 부분을 최대화하면 제한된 최대 가능성이라고합니다. (REML) 견적 자입니다. " 또한 이 논문 의 초록에서 REML을 읽었습니다 . "고정 효과 추정으로 인한 …

2
리샘플링 / 시뮬레이션 방법 : 몬테 카를로, 부트 스트랩, 잭 나이 핑, 교차 검증, 무작위 화 테스트 및 순열 테스트
R을 사용하여 내 컨텍스트에서 다른 리샘플링 방법 (Monte Carlo 시뮬레이션, 파라 메트릭 부트 스트랩, 비 파라 메트릭 부트 스트랩, 잭 나이 핑, 교차 유효성 검사, 무작위 테스트 및 순열 테스트)과 그 구현의 차이점을 이해하려고합니다 . 다음과 같은 상황이 있다고 가정합니다. Y 변수 ( Yvar) 및 X 변수 ( Xvar) 를 …

11
박사없이 데이터 마이닝에 종사
나는 학교에서 그 분야를 전공했기 때문에 데이터 마이닝 및 기계 학습 에 매우 관심이 있었지만, 프로그래밍보다 조금 더 많은 생각을 해야하는 문제를 해결하려고 정말로 흥분되어 있기 때문에 지식과 솔루션은 여러 형태를 가질 수 있습니다. 나는 연구원 / 과학자 배경이없고, 데이터 분석에 중점을 둔 컴퓨터 과학 배경에서 왔으며 박사 학위가 아닌 …

6
강남 스타일 유튜브 조회수 예측 모델
PSY의 뮤직 비디오 "강남 스타일" 은 2 개월이 채 지나지 않아 약 5 억 5 천만 명의 시청자가 있습니다. 지난 주 저녁에 초등학생 10 명으로부터 이것을 배웠고 곧 10-12 일 동안 시청자가 몇 명이고 언제 노래를 언제 (/ if)하는지에 대한 어떤 종류의 예측이 가능한지에 대한 논의가 진행되었습니다. 8 억 명의 …
73 modeling  web 



6
클러스터링 방법 선택
유사한 사례를 그룹화하기 위해 데이터 세트에서 군집 분석을 사용하는 경우 다수의 군집 방법과 거리 측정 중에서 선택해야합니다. 때로는 하나의 선택이 다른 선택에 영향을 줄 수 있지만 여러 가지 가능한 방법 조합이 있습니다. 누구나 다양한 클러스터링 알고리즘 / 방법 및 거리 측정 방법 중에서 선택하는 방법에 대한 권장 사항이 있습니까? 변수의 …

9
선형 회귀 분석에서 특이 치를 어떻게 처리해야합니까?
종종 통계 분석가에게 세트 데이터 세트를 전달하고 선형 회귀와 같은 기술을 사용하여 모델에 적합하도록 요청합니다. 매우 자주 데이터 세트에 "아, 예, 우리는 이러한 데이터 포인트 중 일부를 수집하는 것을 엉망으로 만들었습니다. 이 상황은 잘못된 데이터 일 수있는 특이 치의 존재에 의해 크게 영향을받는 회귀 적합을 초래합니다. 다음과 같이 주어진다 : …

6
EFA 대신 PCA를 사용해야 할 이유가 있습니까? 또한 PCA가 요인 분석을 대신 할 수 있습니까?
일부 분야에서는 PCA (주성분 분석)가 정당화없이 체계적으로 사용되며 PCA와 EFA (탐사 계수 분석)는 동의어로 간주됩니다. 따라서 최근 PCA를 사용하여 규모 검증 연구 결과 (각 7 개 항목의 3 가지 요소를 구성하는 것으로 추정되는 7 점 리 커트 척도의 21 개 항목)를 분석했으며, 검토자가 EFA 대신 PCA를 선택한 이유를 묻습니다. 두 …

4
신경망이 더 깊어 지지만 더 넓어지지 않는 이유
최근 몇 년 동안 4 개의 공간 에서 최첨단 네트워크가 7 층 ( AlexNet )에서 1000 층 ( 잔여 그물) 으로 이동하면서 회선 신경 네트워크 (또는 일반적으로 깊은 신경 네트워크)가 점점 더 깊어 졌습니다. 연령. 더 깊은 네트워크에서 성능이 향상되는 이유는 더 복잡한 비선형 기능을 배울 수 있기 때문입니다. 충분한 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.