«unsupervised-learning» 태그된 질문

차원 축소를위한 클러스터링 및 기능 추출을 포함하여 레이블이없는 데이터에서 숨겨진 (통계적) 구조 찾기

1
원격 감독 : 감독, 반 감독 또는 둘 다?
"원격 감독"은 약하게 분류 된 훈련 세트가 주어지면 분류자가 학습되는 학습 체계입니다 (훈련 데이터는 휴리스틱 / 규칙에 따라 자동으로 표시됩니다). 레이블이있는 데이터에 경험적 / 자동으로 레이블이 지정된 경우 감독 학습과 준 감독 학습 모두 그러한 "원격 감독"을 포함 할 수 있다고 생각합니다. 그러나이 페이지 에서 "원격 감독"은 "반 감독 학습"(즉, …


4
계층 적 클러스터링의 단점을 이해하는 방법?
누군가 계층 적 클러스터링의 장단점을 설명 할 수 있습니까? 계층 적 군집화에는 K와 같은 단점이 있습니까? K 평균에 비해 계층 적 클러스터링의 장점은 무엇입니까? 우리는 언제 계층 적 클러스터링보다 K 수단을 사용해야합니까? 이 게시물에 대한 답변은 k의 단점을 잘 설명합니다. K- 평균의 단점을 이해하는 방법

4
반복 횟수가 증가함에 따라 그라디언트 부스팅 기계 정확도가 감소합니다.
caretR 의 패키지를 통해 그라디언트 부스팅 머신 알고리즘을 실험하고 있습니다 . 소규모 대학 입학 데이터 세트를 사용하여 다음 코드를 실행했습니다. library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 


3
데이터 블렌딩이란 무엇입니까?
이 용어는 메소드 관련 스레드 에서 자주 나타납니다 . 되어 혼합 데이터 마이닝 및 통계 학습의 특정 방법을? Google에서 관련 결과를 얻을 수 없습니다. 블렌딩은 많은 모델의 결과를 혼합하여 더 나은 결과를 가져온 것 같습니다. 그것에 대해 더 잘 아는 데 도움이되는 자료가 있습니까?

4
인공 신경망이란 무엇입니까?
우리가 신경망 문학 을 탐구함에 따라 , 우리는 신경 형태 토폴로지 ( "Neural-Network"-like architectures)로 다른 방법을 식별하게된다. 저는 보편적 근사 정리 에 대해 이야기하고 있지 않습니다 . 아래에 예가 나와 있습니다. 그렇다면 인공 신경망의 정의는 무엇입니까? 그것의 토폴로지는 모든 것을 다루는 것처럼 보입니다. 예 : 우리가 처음으로 식별하는 것 중 …

3
음이 아닌 행렬 분해에서 최적의 잠재 요인 수를 선택하는 방법은 무엇입니까?
매트릭스 주어 Vm×nVm×n\mathbf V^{m \times n} , 음수가 아닌 매트릭스 인수 분해 (NMF)는 두 개의 음수가 아닌 행렬 찾은 Wm×kWm×k\mathbf W^{m \times k} 및 Hk×nHk×n\mathbf H^{k \times n} (즉, 모든 요소 ≥0≥0\ge 0 )으로 분해 된 매트릭스를 나타내는 : V≈WH,V≈WH,\mathbf V \approx \mathbf W\mathbf H, 예를 들어, 음이 아닌 WW\mathbf …

4
클러스터의 모양을 측정하는 방법?
이 질문은 잘 정의되지 않았지만 일부 클러스터는 타원형이거나 낮은 차원 공간에있는 반면 다른 클러스터는 비선형 모양 (2D 또는 3D 예)이 있습니다. 클러스터의 비선형 성 (또는 "모양") 측정 값이 있습니까? 2D 및 3D 공간에서는 클러스터의 모양을 보는 것이 문제가되지 않지만 더 높은 차원 공간에서는 모양에 대해 말하는 것이 문제가됩니다. 특히 볼록한 …

3
분류를 위해 T-SNE를 사용하여 하이퍼 파라미터 선택
(경쟁)으로 작업하는 특정 문제로 21 가지 기능 ([0,1]에서 숫자) 및 이진 출력이라는 다음 설정이 있습니다. 약 100K 행이 있습니다. 설정이 시끄 럽습니다. 나와 다른 참가자는 잠시 동안 기능 생성을 적용하고이 설정에서는 t- 분산 확률 론적 이웃 임베딩이 다소 강력한 것으로 나타났습니다. 나는 "t-SNE를 효과적으로 사용하는 방법"이라는 글을 우연히 발견 했지만 …

4
데이터 세트의 랜덤 서브 샘플을 사용하여 K- 평균 센터를 초기화합니까?
특정 데이터 세트가있는 경우 해당 데이터 세트의 임의 샘플을 사용하여 클러스터 센터를 초기화하는 것이 얼마나 영리합니까? 예를 들어, 내가 원한다고 가정하십시오 5 clusters. 내가 가지고 5 random samples, 말의 size=20%원본 데이터 셋의. 그런 다음이 5 개의 임의 샘플 각각의 평균을 취하여 해당 평균을 5 개의 초기 클러스터 센터로 사용할 수 …


4
교차 유효성 검사를 통해 근거가없는 데이터 집합에서 서로 다른 클러스터링 방법을 비교할 수 있습니까?
현재, 나는 진실이없는 텍스트 문서 데이터 세트를 분석하려고합니다. k-fold cross validation을 사용하여 다른 클러스터링 방법을 비교할 수 있다고 들었습니다. 그러나 과거에 보았던 예는 근거가 있습니다. 이 데이터 세트에서 k-fold 방법을 사용하여 결과를 확인할 수있는 방법이 있습니까?

2
DDoS 필터링을위한 머신 러닝 적용
에서 스탠포드의 기계 학습 코스 앤드류 응은 IT에 ML을 적용 언급했다. 얼마 후 우리 사이트에서 적당한 크기 (약 20k 봇)의 DDoS를 얻었을 때 나는 간단한 신경망 분류기를 사용하여 그것에 맞서 싸우기로 결정했습니다. 나는이 파이썬 스크립트를 약 30 분 안에 작성했습니다 : https://github.com/SaveTheRbtz/junk/tree/master/neural_networks_vs_ddos 그것은 pyBrain을 사용 하고 3 개의 nginx 로그를 …

5
공칭 / 원형 변수에 대한 SOM 클러스터링
공칭 입력 클러스터링에 익숙한 사람이 있는지 궁금합니다. 나는 SOM을 솔루션으로보고 있지만 분명히 숫자 기능에서만 작동합니다. 범주 형 기능에 대한 확장이 있습니까? 특히 가능한 기능으로 'Days of the Week'에 대해 궁금했습니다. 물론 수치 적 특징으로 변환하는 것이 가능합니다 (즉, 1-7에 해당하는 Mon-Sun) 그러나 Sun과 Mon (1 & 7) 사이의 유클리드 거리는 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.