데이터 과학

데이터 과학 전문가, 기계 학습 전문가 및 현장 학습에 관심이있는 전문가를위한 Q & A

2
아마존에서 사용자의 구매 행동을 모델링하는 방법은 무엇입니까?
데이터 과학의 최종 과정 프로젝트를 위해 다음을 제안했습니다. Amazon Reviews Dataset을 제공하면 Amazon 에 광고를 배치하기위한 전략적 위치를 결정하는 알고리즘 (대략 개인화 된 PageRank 기반)을 제시 할 계획입니다. 예를 들어 아마존에는 수백만 개의 제품이 있습니다. 그리고 데이터 세트는 어떤 제품이 관련되어 있는지, 어떤 제품이 모여서 함께 보았는지 등에 대한 아이디어를 …

3
감정 분석 자습서
감정 분석과 모든 언어 (R, Python 등)를 사용하여 적용하는 방법을 이해하려고합니다. 인터넷에 내가 따라 할 수있는 튜토리얼을위한 좋은 장소가 있는지 알고 싶습니다. 나는 봤지만 튜토리얼이 아니고 이론이 많기 때문에 크게 만족하지 못했습니다. 이론과 실제적인 예를 원합니다.

2
벡터 서열의 분류
내 데이터 세트는 벡터 시퀀스로 구성되어 있습니다. 각 벡터의 실제 치수는 50입니다. 시퀀스의 벡터 수는 3-5 ~ 10-15입니다. 즉, 시퀀스의 길이는 고정되어 있지 않습니다. 벡터가 아닌 일부 시퀀스에 클래스 레이블이 표시됩니다. 내 임무는 벡터 시퀀스가 ​​주어지면 전체 시퀀스의 클래스 레이블이 계산되는 분류자를 배우는 것입니다. 나는 데이터의 정확한 본질을 말할 수 …



1
서포트 벡터 머신을위한 기능 선택
내 질문은 세 가지입니다 "Kernelized"지원 벡터 머신과 관련하여 변수 / 기능 선택이 바람직합니다. 특히 과적 합을 방지하기 위해 매개 변수 C를 정규화하고 커널을 SVM에 도입하는 주된 동기는 문제의 차원을 높이는 것입니다. 첫 번째 질문에 대한 답이 "아니오"라면, 어떤 조건에서 답을 명심해야합니까? 파이썬의 scikit-learn 라이브러리에서 SVM의 기능 감소를 가져 오려고 시도한 …

2
VC 치수와 자유도의 관계
저는 머신 러닝을 공부하고 있는데 VC 차원의 개념과 더 고전적인 (통계적) 자유도 개념 사이에는 강한 관계가 있다고 생각합니다. 누구든지 그런 연결을 설명 할 수 있습니까?

1
NER에 Vowpal Wabbit 사용
Vowpal Wabbit (VW)는 SEARN을 통한 시퀀스 태깅 기능을 지원합니다 . 문제는 설명과 예제가있는 자세한 매개 변수 목록을 찾을 수 없다는 것입니다. 내가 찾을 수있는 가장 좋은 예는 Zinkov의 블로그 항목 입니다. 주요 위키 페이지는 거의 SEARN을 언급하고있다. 체크 아웃 된 소스 코드에서 일부 NER 샘플 데이터가있는 데모 폴더를 찾았습니다. 불행히도, …

2
파이썬에서 보완적인 Naive Bayes를 구현하고 있습니까?
문제 범죄 데이터의 레이블이 지정된 데이터 세트에서 Naive 베이를 사용하려고 시도했지만 실제로는 좋지 않은 결과를 얻었습니다 (7 % 정확도). Naive Bayes는 내가 사용했던 다른 알고리즘보다 훨씬 빠르게 실행되므로 점수가 왜 그렇게 낮은 지 알아 내고 싶었습니다. 연구 읽은 후 Naive bayes는 균형 잡힌 데이터 세트와 함께 사용해야한다는 것을 알았습니다. 주파수가 …

2
차원 축소와 반대되는 방법이 있습니까?
저는 기계 학습 분야에 익숙하지 않지만 신호 처리에 대한 부분을 다했습니다. 이 질문에 잘못 표기된 경우 알려주십시오. 시뮬레이션하기에는 너무 복잡한 비선형 모델 방식으로 적어도 3 개의 변수로 정의 된 2 차원 데이터가 있습니다. PCA 및 ICA와 같은 방법 (python 라이브러리 Scikit-Learn에서)을 사용하여 데이터에서 두 가지 주요 구성 요소를 추출하는 데 …

1
시간 순서가 지정된 데이터에 대한 감독되지 않은 학습 알고리즘이 있습니까?
내 데이터의 각 관측치는 0.1 초의 차이로 수집되었습니다. 날짜 및 시간 스탬프가 없으므로 시계열이라고하지 않습니다. 클러스터링 알고리즘 (온라인에서 찾음) 및 PCA의 예에서 샘플 데이터는 사례 당 1 개의 관측치를 가지며 시간이 지정되지 않았습니다. 그러나 내 데이터에는 차량 당 0.1 초마다 수백 개의 관측치가 수집되며 많은 차량이 있습니다. 참고 : quora …

3
Amazon EC2의 R 임의 포리스트 오류 : 5.4Gb 크기의 벡터를 할당 할 수 없습니다
randomForest()약 20 개의 예측 변수와 600K 행이있는 1000 개의 나무와 데이터 프레임을 사용하여 R의 임의 포리스트 모델을 훈련 하고 있습니다. 내 랩톱에서는 모든 것이 잘 작동하지만 amazon ec2로 이동하고 같은 것을 실행하면 오류가 발생합니다. Error: cannot allocate vector of size 5.4 Gb Execution halted c3.4xlarge인스턴스 유형을 사용하고 있기 때문에 꽤 …

2
Latent Dirichlet Allocation에서 파생 된 주제를 사용한 문서 클러스터링
프로젝트에 Latent Dirichlet Allocation을 사용하고 gensim 라이브러리와 함께 Python을 사용하고 있습니다. 주제를 찾은 후 k-means와 같은 알고리즘을 사용하여 문서를 클러스터링하고 싶습니다 (이상적으로는 클러스터를 겹치기에 좋은 것을 사용하여 권장 사항을 환영합니다). 주제를 얻었지만 다음과 같은 형식입니다. 0.041 * Minister + 0.041 * Key + 0.041 * moments + 0.041 * 논란 …

7
커리어 빅 데이터 분석으로 전환
저는 기술적으로 순수한 35 세의 IT 전문가입니다. 저는 프로그래밍, 신기술 학습, 이해 및 구현에 능숙합니다. 나는 학교에서 수학을 좋아하지 않았기 때문에 수학에서 점수가 좋지 않았습니다. 빅 데이터 분석 분야에서 경력을 쌓는 데 관심이 많습니다. 빅 데이터 기술 (Hadoop 등)보다는 분석에 더 관심이 있지만 싫어하지는 않습니다. 그러나 인터넷을 둘러 보면 분석에 …
9 career 

2
일괄 업데이트와 개별 업데이트 간의 MLP 정규화에 차이가 있습니까?
과적 합을 제어하는 ​​접근 방식으로 정규화에 대해 배웠으며,이 아이디어를 간단한 백프로 파 게이션 및 MLP ( Multilayer Perceptron) 구현에 통합하고 싶습니다 . 현재 과적 합을 피하기 위해 검증 세트에서 네트워크를 교차 검증하고 최고 점수를 유지했습니다. 이것은 정상적으로 작동하지만 정규화를 추가하면 정규화 알고리즘과 매개 변수를 올바르게 선택하면 네트워크가 비 과적 모델에 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.