«dimensionality-reduction» 태그된 질문

차원 축소는 가능한 한 많은 정보를 유지하면서 많은 변수를 더 작은 수로 줄이는 기술을 말합니다. 눈에 띄는 방법 중 하나는 [tag pca]입니다.


6
빅 데이터로 SVD 및 PCA를 수행하는 방법은 무엇입니까?
대용량 데이터 세트 (약 8GB)가 있습니다. 기계 학습을 사용하여 분석하고 싶습니다. 따라서 효율성을 위해 데이터 차원을 줄이려면 SVD와 PCA를 사용해야한다고 생각합니다. 그러나 MATLAB 및 Octave는 이러한 큰 데이터 세트를로드 할 수 없습니다. 이러한 대량의 데이터로 SVD를 수행하는 데 어떤 도구를 사용할 수 있습니까?

6
원하는 Facebook 사이트를 기반으로 사용자의 나이를 추정하기위한 기계 학습 기술
Facebook 응용 프로그램의 데이터베이스가 있으며 머신 러닝을 사용하여 Facebook 사이트의 선호도에 따라 사용자의 나이를 추정하려고합니다. 내 데이터베이스에는 세 가지 중요한 특성이 있습니다. 내 훈련 세트의 연령 분포 (총 사용자 수 12k)는 더 젊은 사용자 (예 : 27 세의 1157 명의 사용자와 65 세의 23 명의 사용자)로 비뚤어져 있습니다. 많은 사이트는 …

7
고차원 데이터 시각화의 목적?
T-SNE, isomap, PCA, Supervised PCA 등과 같은 고차원 데이터 세트를 시각화하기위한 많은 기술이 있습니다. 그리고 우리는 2D 또는 3D 공간으로 데이터를 투사하는 동작을 수행하므로 "예쁜 그림이 있습니다. ". 이러한 포함 (매니 폴드 학습) 방법 중 일부가 여기 에 설명되어 있습니다 . 그러나이 "예쁜 그림"은 실제로 의미가 있습니까? 이 임베디드 공간을 …

1
t-sne 치수가 의미가 있습니까?
t-sne embedding의 치수에 대한 의미가 있습니까? PCA와 마찬가지로 우리는 선형 적으로 변형 된 분산 최대화에 대한 감각을 가지고 있지만 t-sne의 경우 KL 거리의 매핑 및 최소화를 위해 정의한 공간 외에 직관이 있습니까?

4
거대한 데이터를 위해 파이썬에서 t-sne 구현 속도 향상
200 치수 ( doc2vec)를 가진 거의 백만 개의 벡터에서 차원 축소를하고 싶습니다 . 모듈 TSNE에서 구현을 사용 sklearn.manifold하고 있으며 주요 문제는 시간 복잡성입니다. 로도 method = barnes_hut계산 속도는 여전히 느립니다. 언젠가는 심지어 메모리가 부족합니다. 130G RAM의 48 코어 프로세서에서 실행 중입니다. 병렬로 실행하거나 많은 리소스를 사용하여 프로세스 속도를 높이는 방법이 …

3
가장 가까운 이웃은 매우 높은 차원의 데이터를 검색합니다
나는 사용자와 그들이 좋아하는 항목의 큰 희소 행렬을 가지고 있습니다 (1M 사용자 및 100K 항목의 순서로, 매우 낮은 수준의 희소성). kNN 검색을 수행 할 수있는 방법을 모색 중입니다. 내 데이터 세트의 크기와 내가 수행 한 초기 테스트를 고려할 때, 사용할 방법이 병렬 또는 분산이어야한다고 가정합니다. 그래서 두 가지 종류의 가능한 …

5
특징 선택 대 특징 추출. 언제 사용할 것인가?
지형지 물 추출 및 지형지 물 선택은 본질적으로 데이터의 차원을 감소 시키지만, 지형지 물 추출은 또한 내가 옳다면 데이터를 더 분리 가능하게 만듭니다. 어떤 기술이 다른 기술 보다 언제 선호 됩니까? 나는 기능 선택이 원본 데이터와 속성을 수정하지 않기 때문에 훈련하고있는 기능이 변경되지 않아야 할 때 기능 선택을 사용한다고 가정합니다. …

1
T-SNE 시각화에서 더 가까운 점이 더 유사한 것으로 간주 될 수 있습니까?
나는 Hinton의 논문에서 T-SNE가 지역적 유사성을 유지하는 데 훌륭한 역할을하고 글로벌 구조 (클러스터 화)를 보존하는 데 알맞은 역할을한다는 것을 이해합니다. 그러나 2D t-sne 시각화에서 더 가깝게 나타나는 포인트가 "더 유사한"데이터 포인트로 간주 될 수 있는지 확실하지 않습니다. 25 가지 기능이있는 데이터를 사용하고 있습니다. 예를 들어 아래 이미지를 보면 파란색 데이터 …

2
고차원 데이터 : 알아야 할 유용한 기술은 무엇입니까?
차원의 다양한 저주 로 인해 많은 일반적인 예측 기술의 정확도와 속도가 높은 차원의 데이터에서 저하됩니다. 고차원 데이터를 효과적으로 처리하는 데 도움이되는 가장 유용한 기술 / 트릭 / 휴리스틱은 무엇입니까? 예를 들어 특정 통계 / 모델링 방법이 고차원 데이터 세트에서 잘 수행됩니까? 특정 (거리의 대체 개념을 정의하는) 특정 커널 또는 도트 …

3
치수 축소를위한 자동 엔코더가 대칭 인 이유는 무엇입니까?
나는 자동 엔코더 또는 신경망의 전문가가 아니므로 어리석은 질문이라면 용서하십시오. 차원 축소 또는 고차원 데이터에서 클러스터 시각화를 위해 자동 엔코더를 사용하여 2 개의 노드로 네트워크 계층의 출력을 검사하여 (손실) 2 차원 표현을 만들 수 있습니다. 예를 들어 다음 아키텍처를 사용하면 세 번째 레이어의 출력을 검사합니다. [X]→N1=100→N2=25→(N3=2)→N4=25→N5=100→[X][X]→N1=100→N2=25→(N3=2)→N4=25→N5=100→[X][X] \rightarrow N_1=100 \rightarrow N_2=25 …

4
큰 범주 값에 대한 하나의 핫 인코딩 대안?
1600 개가 넘는 범주 값이 큰 데이터 프레임이 있습니다 .1600 개가 넘는 열이 없도록 대안을 찾을 수있는 방법이 있습니까? 나는 재미있는 링크 http://amunategui.github.io/feature-hashing/#sourcecode 아래에서 이것을 발견했다. 그러나 그들은 내가 원하지 않는 클래스 / 객체로 변환하고 있습니다. 다른 머신 러닝 모델로 테스트 할 수 있도록 최종 출력을 데이터 프레임으로 원합니까? 또는 …

2
대규모 데이터 세트를위한 효율적인 차원 축소
~ 1M 행과 ~ 500K 스파 스 기능이있는 데이터 세트가 있습니다. 1K-5K 고밀도 피쳐의 순서로 차원을 축소하고 싶습니다. sklearn.decomposition.PCA스파 스 데이터에서 작동하지 않으며 사용하려고 sklearn.decomposition.TruncatedSVD했지만 메모리 오류가 매우 빨리 발생합니다. 이 스케일에서 효율적인 차원 축소를위한 옵션은 무엇입니까?

3
파이썬에 적합한 기본 언어 모델이 있습니까?
응용 프로그램을 프로토 타이핑하고 있으며 생성 된 일부 문장의 난이도를 계산하려면 언어 모델이 필요합니다. 파이썬에서 쉽게 사용할 수있는 훈련 된 언어 모델이 있습니까? 간단한 것 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 일부 프레임 워크를 …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.