«machine-learning» 태그된 질문

"경험에 따라 자동으로 개선되는 컴퓨터 시스템"을 구축하는 방법과 원리.


1
ReLU가 다른 활성화 기능보다 나은 이유
여기 에 대답은 sigmoid유사한 활성화 기능에 있었지만 소멸 Relu이 있으며 예상 값인 그라디언트 소멸 및 폭발을 나타냅니다 . 의 출력에는 제한이 없으므로 Relu예상 값이 0이 아닙니다. 나는 Relu그것 의 인기가 이전 tanh보다 머신 러닝 전문가들 사이에서 가장 인기있는 시간을 기억합니다 sigmoid. 그 이유는의 예상 값이 tanh0과 같았으며 신경망에서 더 깊은 …

2
Doc2Vec-단락에 레이블을 지정하는 방법 (gensim)
실제 관점에서 gensim에서 doc2vec로 문장 / 단락 / 문서에 레이블을 지정하는 방법에 대해 궁금합니다. 고유 한 레이블 (예 : "Sent_123")이있는 각 문장 / 문단 / 문서가 있어야합니까? "Sent_123"이라는 단일 특정 문장과 가장 유사한 단어 나 문장을 말하려는 경우 유용합니다. 내용에 따라 레이블을 반복 할 수 있습니까? 예를 들어, 각 문장 …

3
심층 신경망에서의 배깅 대 드롭 아웃
배깅은 단일 예측 변수처럼 작동하는 여러 예측 변수를 생성하는 것입니다. 드롭 아웃은 모든 가능한 서브 네트워크를 평균화하도록 신경망에 가르치는 기술입니다. 가장 중요한 Kaggle의 경쟁을 살펴보면이 두 기술이 매우 자주 사용되는 것 같습니다. 실제 구현 외에 이론적 인 차이점을 볼 수 없습니다. 실제 응용 프로그램에서 왜 두 가지를 사용해야하는지 누가 설명 …

3
가장 가까운 이웃은 매우 높은 차원의 데이터를 검색합니다
나는 사용자와 그들이 좋아하는 항목의 큰 희소 행렬을 가지고 있습니다 (1M 사용자 및 100K 항목의 순서로, 매우 낮은 수준의 희소성). kNN 검색을 수행 할 수있는 방법을 모색 중입니다. 내 데이터 세트의 크기와 내가 수행 한 초기 테스트를 고려할 때, 사용할 방법이 병렬 또는 분산이어야한다고 가정합니다. 그래서 두 가지 종류의 가능한 …

2
의미 분석을 위해 빅 데이터에 liblinear 사용
나는 의미 분석 문제 에 대한 데이터를 훈련시키고 분류를 예측하기 위해 Libsvm 을 사용 합니다. 그러나 의미 론적 분석이 n 차원 문제와 관련되어 있기 때문에 대규모 데이터 의 성능 문제가 있습니다. 작년에 Liblinear 는 출시되었으며 성능 병목 현상을 해결할 수 있습니다. 그러나 메모리 비용이 너무 많이 듭니다 . 가 맵리 …

5
이상 감지를 통해 고양이를 시각적으로 감지
나는 지금까지 제한된 기계 학습 경험을 향상시키는 방법으로 노력하고있는 취미 프로젝트를 가지고 있습니다. 주제에 대해 Coursera MOOC를 수료하고 완료했습니다. 내 질문은 프로젝트의 타당성에 관한 것입니다. 작업은 다음과 같습니다. 이웃 고양이는 때때로 내 정원을 방문하는데, 그들은 내 잔디밭에서 배변하는 경향이 있기 때문에 싫어합니다. 고양이가있을 때 알려주는 경고 시스템을 갖고 싶어서 슈퍼 …

2
검증 세트와 테스트 세트를 모두 사용하는 이유는 무엇입니까?
신경망을 고려하십시오. 주어진 데이터 세트에 대해 훈련, 검증 및 테스트 세트로 나눕니다. 고전적인 60:20:20 비율로이를 수행 한 다음 유효성 검사 세트에서 네트워크를 확인하여 과적 합을 방지합니다. 그렇다면 성능을 확인하기 위해 테스트 세트에서 테스트해야합니까? 테스트 세트의 오류는 네트워크에 대한 유효성 검사 세트와 다소 같지 않습니까? 유효성 검사 세트와 같이 보이지 않는 …

2
분류기의 정확도를 높이는 방법?
임의의 나무와 다른 분류자를 실험하기 위해 OpenCV letter_recog.cpp 예제를 사용하고 있습니다. 이 예제에는 랜덤 트리, 부스팅, MLP, kNN, 순진한 베이 즈 및 SVM의 6 가지 분류 기가 구현되어 있습니다. 20000 개의 인스턴스와 16 개의 기능이 포함 된 UCI 문자 인식 데이터 세트가 사용되며 교육 및 테스트를 위해 절반으로 나눕니다. SVM에 …

5
seaborn 히트 맵을 더 크게 만들기
corr()원본 df 에서 df를 만듭니다 . corr()DF는 70 X 70에서 나와는 히트 맵을 시각화하는 것은 불가능합니다 ... sns.heatmap(df). 를 표시하려고 corr = df.corr()하면 테이블이 화면에 맞지 않으며 모든 상관 관계를 볼 수 있습니다. df크기에 관계없이 전체를 인쇄 하거나 히트 맵의 크기를 제어하는 ​​방법입니까?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

5
기계 학습에서 희소 데이터와 밀도가 높은 데이터를 병합하여 성능 향상
나는 예측 가능한 희소 특징을 가지고 있으며, 또한 예측 가능한 조밀 한 특징이 있습니다. 분류기의 전반적인 성능을 향상 시키려면 이러한 기능을 결합해야합니다. 이제는 이들을 함께 결합하려고 할 때 밀도가 높은 기능은 희소 기능보다 더 많이 지배되는 경향이 있으므로 밀도가 높은 기능이있는 모델에 비해 AUC가 1 % 향상됩니다. 누군가 비슷한 문제를 …

2
테스트 데이터에도 정규화를 적용해야합니까?
저자 식별 문제에 관한 프로젝트를하고 있습니다. 데이터를 훈련시키기 위해 tf-idf 정규화를 적용한 다음 해당 데이터에 대해 svm을 훈련했습니다. 이제 분류기를 사용할 때 테스트 데이터도 정규화해야합니다. 정규화의 기본 목표는 학습 알고리즘이 학습하는 동안 더 중요한 기능에 더 많은 가중치를 부여하는 것입니다. 일단 훈련을 마치면 어떤 기능이 중요하지 않은지 이미 알고 있습니다. …

2
누락 된 데이터를 처리해야하는 워크 플로우의 위치
매우 큰 데이터베이스 (여기서는 Vertica에서 SQL 및로 ) 에서 가져온 데이터 에서 기계 학습 모델 (내 경우에는 Python pandas및 sklearn패키지 사용) 을 작성하는 워크 플로우를 작성 중이며 pyodbc해당 프로세스의 중요한 단계는 누락 누락을 포함합니다. 예측 변수의 값. 이것은 단일 분석 또는 통계 플랫폼 (Python, R, Stata 등) 내에서 간단하지만 다중 …

1
기계 학습에서 LB 점수는 무엇입니까?
나는 kaggle 블로그에 관한 기사 를 겪고있었습니다. 저자는 머신 러닝의 효과 성 (CV)과 함께 머신 러닝의 효과에 대한 지표로 'LB 점수'와 'LB 맞춤'을 반복해서 언급합니다. 'LB'의 의미에 대한 연구를 통해 나는 꽤 많은 시간을 보냈으며, 사람들은 일반적으로 많은 배경없이 LB로 직접 언급한다는 것을 깨달았습니다. 내 질문은- 'LB'는 무엇입니까?

2
Support Vector Machine에 적합한 학습 문제는 무엇입니까?
서포트 벡터 머신을 사용하여 특정 학습 문제를 해결할 수 있음을 나타내는 특징 또는 특성은 무엇입니까? 다시 말해서, 학습 문제를 볼 때 신경망이나 의사 결정 트리 또는 그 밖의 어떤 것보다 "오, 나는 이것을 위해 반드시 SVM을 사용해야한다"고하는 것은 무엇입니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.