통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A


1
회귀를위한 CNN 아키텍처?
입력이 이미지이고 레이블이 80과 350 사이의 연속적인 값인 회귀 문제를 연구하고 있습니다. 이미지는 반응 후 일부 화학 물질입니다. 밝혀지는 색은 남은 다른 화학 물질의 농도를 나타내며 모델이 출력하는 것입니다-화학 물질의 농도. 이미지를 회전, 뒤집기, 대칭시킬 수 있으며 예상 출력은 여전히 ​​동일해야합니다. 이러한 종류의 분석은 실제 실험실에서 수행됩니다 (매우 전문화 된 …

5
LSTM 단위 대 세포 이해
나는 한동안 LSTM을 공부하고있다. 모든 것이 어떻게 작동하는지 높은 수준에서 이해합니다. 그러나 Tensorflow를 사용하여 구현하려고하면 BasicLSTMCell 에 많은 단위 (즉 num_units) 매개 변수가 필요 하다는 것을 알았습니다 . 에서 이 LSTMs의 매우 철저한 설명, 내가 한 것을 수집 한 LSTM 장치는 다음 중 하나입니다 실제로 GRU 단위입니다. 그 매개 변수 …


2
데이터 시각화 후 통계 테스트 수행-데이터 준설?
예제를 통해이 질문을 제안하겠습니다. 보스턴 주택 가격 데이터 세트와 같은 데이터 세트가 있고 연속적이고 범주 형 변수가 있다고 가정합니다. 여기에는 1에서 10까지의 "품질"변수와 판매 가격이 있습니다. 품질에 대한 컷오프를 (임의로) 생성하여 데이터를 "낮음", "중간"및 "고품질"주택으로 분리 할 수 ​​있습니다. 그런 다음 이러한 그룹을 사용하여 판매 가격의 히스토그램을 서로 비교할 수 …

2
로지스틱 회귀 : Scikit Learn 및 Statsmodels
이 두 라이브러리의 로지스틱 회귀 출력에서 ​​다른 결과를 얻는 이유를 이해하려고합니다. 나는 idre UCLA에서 데이터 세트 사용하고 자습서를 예측, admit기반 gre, gpa그리고 rank. rank는 범주 형 변수로 취급되므로 먼저 rank_1삭제 된 더미 변수로 변환됩니다 . 절편 열도 추가됩니다. df = pd.read_csv("https://stats.idre.ucla.edu/stat/data/binary.csv") y, X = dmatrices('admit ~ gre + gpa + …

4
시험 결과가 이항입니까?
다음은 간단한 통계 질문입니다. 나는 그것을 이해하지 못한다. X = 시험에서 획득 한 포인트의 수 (복수 선택과 정답은 1 포인트) X 이항 분포가 있습니까? 교수의 대답은 다음과 같습니다. 그렇습니다. 정답이나 오답 만 있기 때문입니다. 내 대답 : 아니요. 각 질문마다 "성공 가능성"이 다르기 때문에 p. 내가 이항 분포를 이해 한 …

1
공동 신뢰 구간 계산을위한 가우스 상관 불평등의 결과
Quanta Magazine의이 흥미로운 기사에 따르면, "오래된 증거, 발견 및 거의 잃어버린 증거" 는 다변량을 갖는 벡터 가 주어진다는 것이 증명되었습니다 가우스 분포와 주어진 구간 은 의 해당 성분의 평균을 중심으로 한 다음I 1 , … , I n xx=(x1,…,xn)x=(x1,…,xn)\mathbf{x}=(x_1,\dots,x_n)I1,…,InI1,…,InI_1,\dots,I_n xx\mathbf{x} p(x1∈I1,…,xn∈In)≥∏i=1np(xi∈Ii)p(x1∈I1,…,xn∈In)≥∏i=1np(xi∈Ii)p(x_1\in I_1, \dots, x_n\in I_n)\geq \prod_{i=1}^n p(x_i\in I_i) (가우시안 상관 …

3
긴 문자열 (단어) 목록을 유사 그룹으로 클러스터링
다음과 같은 문제가 있습니다. 단어, 이름, 성 등 매우 긴 목록이 있습니다.이 단어 목록을 클러스터링하여 유사한 단어 (예 : 유사한 편집 (Levenshtein) 거리를 가진 단어가 동일한 클러스터. 예를 들어 "algorithm"과 "alogrithm"은 같은 클러스터에 나타날 가능성이 높습니다. 패턴 인식 문헌에서 k- 평균 군집화, EM 군집화와 같은 고전적인 감독되지 않은 군집 방법을 …

6
파시 모니가 여전히 황금 표준이어야합니까?
그냥 생각 : Parsimonious 모델은 항상 모델 선택에서 기본으로 사용되었지만이 방법은 어느 정도 구식입니까? parsimony에 대한 우리의 경향이 abaci와 슬라이드 규칙의 시간 (또는 더 심각하지 않은 현대 컴퓨터)의 유물인지 궁금합니다. 오늘날의 컴퓨팅 성능을 통해 예측 능력이 더욱 강화 된 복잡한 모델을 구축 할 수 있습니다. 이러한 컴퓨팅 성능의 상한이 높아짐에 …

4
Winsorizing vs. Trimming 데이터의 상대적인 장점은 무엇입니까?
데이터 분류 는 데이터 세트의 극단 값을 각 끝에서 특정 백분위 수 값 으로 바꾸는 것을 의미하며 , 트리밍 또는 자르기는 이러한 극단 값을 제거 합니다. 난 항상 같은 평균이나 표준 편차와 같은 통계를 계산할 때 이상치의 영향을 줄일 수있는 실행 가능한 옵션으로 설명한 두 가지 방법을 모두 볼 수 …

5
정밀도에 대한 신뢰 구간은 무엇입니까 (있는 경우)?
Morey et al (2015)은 신뢰 구간은 오도의 소지가 있으며 이들에 대한 이해와 관련하여 여러 가지 편견이 있다고 주장한다. 그중에서도 정확성 오류는 다음과 같이 설명합니다. 정밀도 오류 신뢰 구간의 너비는 모수에 대한 지식의 정밀도를 나타냅니다. 좁은 신뢰 구간은 정확한 지식을 나타내고 넓은 신뢰 오차는 부정확 한 지식을 나타냅니다. 추정의 정밀도와 신뢰 …

2
OLS 선형 회귀 분석의 비용 함수
기계 학습에 대한 Coursera의 Andrew Ng가 제공 한 선형 회귀에 대한 강의와 약간 혼동됩니다. 거기서 그는 다음과 같이 제곱합을 최소화하는 비용 함수를 제공했습니다. 12m∑i=1m(hθ(X(i))−Y(i))212m∑i=1m(hθ(X(i))−Y(i))2 \frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 나는 1을 이해1212\frac{1}{2} 에서 온. 제곱 항에서 도함수를 수행 할 때 제곱 항의 2가 반으로 취소되도록 그렇게했다고 생각합니다. 그러나 나는1을이해하지 못한다.1m1m\frac{1}{m} 왔습니다. …


3
PCA를 능가하기 위해 Tensorflow에서 자동 인코더 구축
신경망으로 데이터의 차원을 줄이는 데있어 Hinton과 Salakhutdinov는 과학 2006 은 딥 오토 인코더를 사용하여 비선형 PCA를 제안했습니다. Tensorflow를 사용하여 PCA 자동 인코더를 빌드하고 훈련하려고 시도했지만 선형 PCA보다 더 나은 결과를 얻을 수 없었습니다. 자동 인코더를 효율적으로 훈련시킬 수있는 방법은 무엇입니까? (@amoeba의 나중에 편집 :이 질문의 원래 버전에는 올바르게 작동하지 않는 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.