데이터 과학

데이터 과학 전문가, 기계 학습 전문가 및 현장 학습에 관심이있는 전문가를위한 Q & A

3
MongoDB 용으로 작성된 맵 축소 알고리즘을 나중에 Hadoop으로 이식 할 수 있습니까?
우리 회사에는 많은 비정형 데이터가 포함 된 MongoDB 데이터베이스가 있으며, 여기에는 보고서 및 기타 분석을 생성하기 위해 map-reduce 알고리즘을 실행해야합니다. 필요한 분석을 구현하기 위해 선택할 수있는 두 가지 방법이 있습니다. 한 가지 방법은 MongoDB에서 Hadoop 클러스터로 데이터를 추출하고 Hadoop 플랫폼에서 완전히 분석하는 것입니다. 그러나 플랫폼 (소프트웨어 및 하드웨어)을 준비하고 팀이 …

2
LSTM의 어느 계층에 대한 드롭 아웃?
LSTM드롭 아웃과 함께 멀티 레이어 를 사용하는 경우 출력 Dense 레이어뿐만 아니라 모든 숨겨진 레이어에 드롭 아웃을 배치하는 것이 좋습니다? Hinton의 논문 (드롭 아웃을 제안한)에서 그는 밀집된 레이어에만 드롭 아웃을 넣었지만 숨겨진 내부 레이어는 컨볼 루션이기 때문입니다. 분명히 특정 모델을 테스트 할 수 있지만 이에 대한 합의가 있는지 궁금합니다.

1
그래프 구조화 된 데이터에 Scikit-Learn 레이블 전파를 사용하는 방법은 무엇입니까?
연구의 일환으로 그래프에서 레이블 전파를 수행하는 데 관심이 있습니다. 특히이 두 가지 방법에 관심이 있습니다. Xiaojin Zhu와 Zoubin Ghahramani. 레이블 전파를 통해 레이블이있는 데이터와 레이블이없는 데이터로부터 학습 기술 보고서 ​​CMU-CALD-02-107, 2002 년 카네기 멜론 대학교 http://pages.cs.wisc.edu/~jerryzhu/pub/CMU-CALD-02-107.pdf Dengyong Zhou, Olivier Bousquet, Thomas Navin Lal, Jason Weston, Bernhard Schoelkopf. 지역 및 글로벌 …

5
감독되지 않은 이미지 분할
평면 테이블에 여러 객체가있는 이미지가 주어진 경우 각 객체에 대한 세그먼트 화 마스크의 출력이 필요한 알고리즘을 구현하려고합니다. CNN과 달리, 여기서 목표는 익숙하지 않은 환경에서 객체를 감지하는 것입니다. 이 문제에 대한 최선의 접근 방법은 무엇입니까? 또한 온라인으로 사용할 수있는 구현 예제가 있습니까? 편집 : 죄송합니다. 질문이 약간 오도되었을 수 있습니다. "친숙하지 …

3
해싱 벡터 라이저와 tfidf 벡터 라이저의 차이점은 무엇입니까?
텍스트 문서 모음을 각 문서의 단어 벡터로 변환하고 있습니다. 내가 사용이 시도했습니다 TfidfVectorizer 과 HashingVectorizer을 나는 a 처럼 점수 HashingVectorizer를 고려하지 않는다는 것을 이해합니다 . 내가 아직도 일하고있는 이유 는 here 및 here 설명 된 것처럼 거대한 데이터 세트를 처리하는 동안 제공하는 유연성 때문 입니다. (내 원래 데이터 세트에는 3 …

1
Keras를 다중 시스템 다중 코어 CPU 시스템에서 실행
Keras의 LSTM (Theano 배경 사용)을 사용하여 Seq2Seq 모델 을 작업 중이며 몇 MB의 데이터조차도 훈련에 몇 시간이 필요하기 때문에 프로세스를 병렬화하고 싶습니다. GPU가 CPU보다 병렬 처리에서 훨씬 더 낫다는 것은 분명합니다. 현재는 CPU 만 사용할 수 있습니다. 16 개의 CPU에 액세스 할 수 있습니다 (코어 당 2 개의 스레드 X …

3
신경망-손실 및 정확도 상관
신경망에서 손실 및 정확도 메트릭의 공존으로 약간 혼란 스럽습니다. 둘 다 와 비교의 "정확성"을 표현해야 합니까? 훈련 시대에 두 개의 중복을 적용하지 않습니까? 또한 왜 서로 관련이 없습니까?와이yyy를와이^y^\hat{y}

3
TensorFlow는 완전한 기계 학습 라이브러리입니까?
나는 새로운 오전 TensorFlow 나는 그것을 사용하기 전에 나는 TensorFlow의 기능과 단점을 이해할 필요가있다. 나는 그것이 딥 러닝 프레임 워크라는 것을 알고 있지만 다른 기계 학습 알고리즘과는 별도로 텐서 흐름과 함께 사용할 수 있습니다. 예를 들어 TensorFlow를 사용하여 SVM 또는 임의 포리스트를 사용할 수 있습니까? (이것이 미친 소리라는 것을 안다) …

2
컨볼 루션 네트워크의 바이어스에 관한 질문
CNN에 필요한 가중치와 바이어스의 수를 파악하려고합니다. (3, 32, 32) 이미지가 있고 (32, 5, 5) 필터를 적용하고 싶다고 가정 해보십시오. 각 기능 맵마다 5x5 가중치가 있으므로 3 x (5x5) x 32 매개 변수가 있어야합니다. 이제 편견을 추가해야합니다. 나는 (3 x (5x5) + 1) x 32 매개 변수 만 가지고 있다고 생각하므로 …

4
알고리즘 벤치마킹, 기능 선택, 파라미터 튜닝 중 어느 것이 먼저입니까?
예를 들어 분류를 시도 할 때 현재 나의 접근 방식은 먼저 다양한 알고리즘을 시도하고 벤치마킹하십시오 위의 1에서 최상의 알고리즘에 대한 기능 선택 수행 선택한 기능과 알고리즘을 사용하여 매개 변수를 조정 그러나 다른 알고리즘이 최상의 매개 변수 / 가장 적합한 기능으로 최적화 된 경우 선택한 알고리즘보다 더 나은 알고리즘이있을 수 있음을 …

3
회귀 트리는 지속적으로 예측할 수 있습니까?
와 같은 부드러운 함수가 있다고 가정하십시오 . 훈련 세트가 있습니다. D \ subsetneq \ {((x, y), f (x, y)) | (x, y) \ in \ mathbb {R} ^ 2 \} 그리고 물론 내가 원하는 곳에서 f 를 평가할 수는 있지만 f 는 모른다 .f(x,y)=x2+y2f(x,y)=x2+y2f(x, y) = x^2+y^2D⊊{((x,y),f(x,y))|(x,y)∈R2}D⊊{((x,y),f(x,y))|(x,y)∈R2}D \subsetneq \{((x, y), …

2
Pyspark에서 범주 형 데이터를 숫자 형 데이터로 변환하는 방법
pyspark 애플리케이션으로 작업하기 위해 Ipython 노트북을 사용하고 있습니다. 소득이 50k 범위 이하인지 여부를 결정하기 위해 범주 열이 많은 CSV 파일이 있습니다. 소득 범위를 결정하기 위해 모든 입력을 취하는 분류 알고리즘을 수행하고 싶습니다. 매핑 된 변수에 변수 사전을 작성하고 맵 함수를 사용하여 처리 할 변수를 숫자에 매핑해야합니다. 기본적으로 모델을 구현할 수 …

2
기능 확장의 결과
현재 SVM을 사용하고 있으며 훈련 기능을 [0,1] 범위로 조정하고 있습니다. 먼저 훈련 세트에 적합 / 변환 한 다음 동일한 변형을 테스트 세트에 적용합니다 . 예를 들면 다음과 같습니다. ### Configure transformation and apply to training set min_max_scaler = MinMaxScaler(feature_range=(0, 1)) X_train = min_max_scaler.fit_transform(X_train) ### Perform transformation on testing set X_test …

3
다자간 시스템에서 선거 결과를 계산하기 위해 어떤 회귀를 사용합니까?
의회 선거 결과를 예측하고 싶습니다. 내 결과는 각 당사자가받는 %입니다. 둘 이상의 당사자가 있으므로 로지스틱 회귀는 실행 가능한 옵션이 아닙니다. 각 당사자에 대해 별도의 회귀를 만들 수 있지만 그 경우 결과는 서로 독립적입니다. 결과의 합이 100 %임을 보장하지는 않습니다. 어떤 회귀 (또는 다른 방법)를 사용해야합니까? 특정 라이브러리를 통해 R 또는 …

4
텍스트 처리에서 클러스터링 사용
안녕하세요, 이것은 데이터 과학 스택의 첫 번째 질문입니다. 텍스트 분류를위한 알고리즘을 만들고 싶습니다. 많은 텍스트와 기사가 있다고 가정하십시오. 약 5000 개의 일반 텍스트를 말할 수 있습니다. 먼저 간단한 함수를 사용하여 4 개 이상의 문자 단어의 빈도를 결정합니다. 그런 다음이를 각 교육 샘플의 기능으로 사용합니다. 이제 알고리즘이 기능에 따라 훈련 세트를 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.