데이터 과학

2

데이터 과학의 최종 과정 프로젝트를 위해 다음을 제안했습니다. Amazon Reviews Dataset을 제공하면 Amazon 에 광고를 배치하기위한 전략적 위치를 결정하는 알고리즘 (대략 개인화 된 PageRank 기반)을 제시 할 계획입니다. 예를 들어 아마존에는 수백만 개의 제품이 있습니다. 그리고 데이터 세트는 어떤 제품이 관련되어 있는지, 어떤 제품이 모여서 함께 보았는지 등에 대한 아이디어를 …

9 machine-learning data-mining dataset recommender-system

3

감정 분석 자습서

감정 분석과 모든 언어 (R, Python 등)를 사용하여 적용하는 방법을 이해하려고합니다. 인터넷에 내가 따라 할 수있는 튜토리얼을위한 좋은 장소가 있는지 알고 싶습니다. 나는 봤지만 튜토리얼이 아니고 이론이 많기 때문에 크게 만족하지 못했습니다. 이론과 실제적인 예를 원합니다.

9 machine-learning reference-request sentiment-analysis

2

벡터 서열의 분류

내 데이터 세트는 벡터 시퀀스로 구성되어 있습니다. 각 벡터의 실제 치수는 50입니다. 시퀀스의 벡터 수는 3-5 ~ 10-15입니다. 즉, 시퀀스의 길이는 고정되어 있지 않습니다. 벡터가 아닌 일부 시퀀스에 클래스 레이블이 표시됩니다. 내 임무는 벡터 시퀀스가 주어지면 전체 시퀀스의 클래스 레이블이 계산되는 분류자를 배우는 것입니다. 나는 데이터의 정확한 본질을 말할 수 …

9 classification sequence

1

Pandas 데이터 프레임에서 다중 값 범주 변수를 이진 인코딩하는 방법은 무엇입니까?

특정 열에 대해 여러 값을 가진 다음 데이터 프레임이 있다고 가정하십시오. categories 0 - ["A", "B"] 1 - ["B", "C", "D"] 2 - ["B", "D"] 어떻게 이런 테이블을 얻을 수 있습니까? "A" "B" "C" "D" 0 - 1 1 0 0 1 - 0 1 1 1 2 - 0 …

9 python pandas

5

깊은 꿈의 적용에 대한 아이디어가 있습니까?

최근 Google은 흥미로운 깊은 꿈을 발표했습니다. http://deepdreamgenerator.com/ 과 같은 예술 생성 외에도 컴퓨터 비전이나 기계 학습에서 딥 드림의 잠재적 인 응용 프로그램이 있습니까?

9 machine-learning deep-learning

1

서포트 벡터 머신을위한 기능 선택

내 질문은 세 가지입니다 "Kernelized"지원 벡터 머신과 관련하여 변수 / 기능 선택이 바람직합니다. 특히 과적 합을 방지하기 위해 매개 변수 C를 정규화하고 커널을 SVM에 도입하는 주된 동기는 문제의 차원을 높이는 것입니다. 첫 번째 질문에 대한 답이 "아니오"라면, 어떤 조건에서 답을 명심해야합니까? 파이썬의 scikit-learn 라이브러리에서 SVM의 기능 감소를 가져 오려고 시도한 …

9 svm feature-selection scikit-learn

2

VC 치수와 자유도의 관계

저는 머신 러닝을 공부하고 있는데 VC 차원의 개념과 더 고전적인 (통계적) 자유도 개념 사이에는 강한 관계가 있다고 생각합니다. 누구든지 그런 연결을 설명 할 수 있습니까?

9 machine-learning self-study

1

NER에 Vowpal Wabbit 사용

Vowpal Wabbit (VW)는 SEARN을 통한 시퀀스 태깅 기능을 지원합니다 . 문제는 설명과 예제가있는 자세한 매개 변수 목록을 찾을 수 없다는 것입니다. 내가 찾을 수있는 가장 좋은 예는 Zinkov의 블로그 항목 입니다. 주요 위키 페이지는 거의 SEARN을 언급하고있다. 체크 아웃 된 소스 코드에서 일부 NER 샘플 데이터가있는 데모 폴더를 찾았습니다. 불행히도, …

9 machine-learning nlp

2

파이썬에서 보완적인 Naive Bayes를 구현하고 있습니까?

문제 범죄 데이터의 레이블이 지정된 데이터 세트에서 Naive 베이를 사용하려고 시도했지만 실제로는 좋지 않은 결과를 얻었습니다 (7 % 정확도). Naive Bayes는 내가 사용했던 다른 알고리즘보다 훨씬 빠르게 실행되므로 점수가 왜 그렇게 낮은 지 알아 내고 싶었습니다. 연구 읽은 후 Naive bayes는 균형 잡힌 데이터 세트와 함께 사용해야한다는 것을 알았습니다. 주파수가 …

9 machine-learning classification python naive-bayes-classifier

2

차원 축소와 반대되는 방법이 있습니까?

저는 기계 학습 분야에 익숙하지 않지만 신호 처리에 대한 부분을 다했습니다. 이 질문에 잘못 표기된 경우 알려주십시오. 시뮬레이션하기에는 너무 복잡한 비선형 모델 방식으로 적어도 3 개의 변수로 정의 된 2 차원 데이터가 있습니다. PCA 및 ICA와 같은 방법 (python 라이브러리 Scikit-Learn에서)을 사용하여 데이터에서 두 가지 주요 구성 요소를 추출하는 데 …

9 machine-learning scikit-learn

1

시간 순서가 지정된 데이터에 대한 감독되지 않은 학습 알고리즘이 있습니까?

내 데이터의 각 관측치는 0.1 초의 차이로 수집되었습니다. 날짜 및 시간 스탬프가 없으므로 시계열이라고하지 않습니다. 클러스터링 알고리즘 (온라인에서 찾음) 및 PCA의 예에서 샘플 데이터는 사례 당 1 개의 관측치를 가지며 시간이 지정되지 않았습니다. 그러나 내 데이터에는 차량 당 0.1 초마다 수백 개의 관측치가 수집되며 많은 차량이 있습니다. 참고 : quora …

9 algorithms

3

Amazon EC2의 R 임의 포리스트 오류 : 5.4Gb 크기의 벡터를 할당 할 수 없습니다

randomForest()약 20 개의 예측 변수와 600K 행이있는 1000 개의 나무와 데이터 프레임을 사용하여 R의 임의 포리스트 모델을 훈련 하고 있습니다. 내 랩톱에서는 모든 것이 잘 작동하지만 amazon ec2로 이동하고 같은 것을 실행하면 오류가 발생합니다. Error: cannot allocate vector of size 5.4 Gb Execution halted c3.4xlarge인스턴스 유형을 사용하고 있기 때문에 꽤 …

9 r random-forest

2

Latent Dirichlet Allocation에서 파생 된 주제를 사용한 문서 클러스터링

프로젝트에 Latent Dirichlet Allocation을 사용하고 gensim 라이브러리와 함께 Python을 사용하고 있습니다. 주제를 찾은 후 k-means와 같은 알고리즘을 사용하여 문서를 클러스터링하고 싶습니다 (이상적으로는 클러스터를 겹치기에 좋은 것을 사용하여 권장 사항을 환영합니다). 주제를 얻었지만 다음과 같은 형식입니다. 0.041 * Minister + 0.041 * Key + 0.041 * moments + 0.041 * 논란 …

9 python clustering lda

7

커리어 빅 데이터 분석으로 전환

저는 기술적으로 순수한 35 세의 IT 전문가입니다. 저는 프로그래밍, 신기술 학습, 이해 및 구현에 능숙합니다. 나는 학교에서 수학을 좋아하지 않았기 때문에 수학에서 점수가 좋지 않았습니다. 빅 데이터 분석 분야에서 경력을 쌓는 데 관심이 많습니다. 빅 데이터 기술 (Hadoop 등)보다는 분석에 더 관심이 있지만 싫어하지는 않습니다. 그러나 인터넷을 둘러 보면 분석에 …

9 career

2

일괄 업데이트와 개별 업데이트 간의 MLP 정규화에 차이가 있습니까?

과적 합을 제어하는 접근 방식으로 정규화에 대해 배웠으며,이 아이디어를 간단한 백프로 파 게이션 및 MLP ( Multilayer Perceptron) 구현에 통합하고 싶습니다 . 현재 과적 합을 피하기 위해 검증 세트에서 네트워크를 교차 검증하고 최고 점수를 유지했습니다. 이것은 정상적으로 작동하지만 정규화를 추가하면 정규화 알고리즘과 매개 변수를 올바르게 선택하면 네트워크가 비 과적 모델에 …

9 neural-network