데이터 과학

3

코스 라에서 Geoff Hinton의 신경망 과정을 밟았고 제한된 boltzmann 기계 를 소개했지만 RBM 의 직관을 이해하지 못했습니다. 이 기계에서 에너지를 계산해야하는 이유는 무엇입니까? 이 기계에서 확률의 사용은 무엇입니까? 나는 또한이 비디오를 보았다 . 비디오에서 그는 계산 단계 전에 확률과 에너지 방정식을 작성했지만 어디에서나 사용하지 않는 것으로 보입니다. 위의 내용에 덧붙여서 …

15 unsupervised-learning rbm

4

R : GPU의 기계 학습

훈련 속도를 향상시키기 위해 GPU를 사용할 수있는 R 용 머신 러닝 패키지가 있습니까? gputools라는 패키지가 gpu에서 코드를 실행할 수 있다는 것을 알지만 기계 학습을위한보다 완벽한 라이브러리를 찾고 있습니다.

15 machine-learning r gpu

5

히든 마르코프 모델을 구현하는 파이썬 라이브러리

히든 마르코프 모델을 구현하기 위해 어떤 안정적인 파이썬 라이브러리를 사용할 수 있습니까? 이전에이 모델을 실제로 사용한 적이 없기 때문에 합리적으로 잘 문서화해야합니다. 또는 HMM을 사용하여 데이터 세트에서 시계열 분석을 수행하는보다 직접적인 접근 방법이 있습니까?

15 python time-series markov-process

4

스칼라를 사용한 데이터 과학 도구

Spark가 Scala와 완전히 통합되어 있음을 알고 있습니다. 유스 케이스는 특히 대규모 데이터 세트를위한 것입니다. 스칼라를 잘 지원하는 다른 도구는 무엇입니까? Scala는 대규모 데이터 세트에 가장 적합합니까? 아니면 더 작은 데이터 세트에도 적합합니까?

15 scalability scala

4

중요한 속성을 지정하는 방법?

많은 데이터 소스로 구성된 느슨하게 구조화 된 데이터 세트 (예 : 웹 테이블 / 링크 된 공개 데이터)를 가정하십시오. 데이터 뒤에 공통 스키마가 없으며 각 소스는 동의어 속성을 사용하여 값을 설명 할 수 있습니다 (예 : "nationality"vs "bornIn"). 내 목표는 그들이 설명하는 개체를 어떻게 든 "정의"하는 "중요한"속성을 찾는 것입니다. 따라서 …

15 machine-learning statistics feature-selection

2

Hadoop과 noSQL의 차이점은 무엇입니까

사람들이 데이터를 처리하는 데 도움이되는 많은 도구 / 프레임 워크에 대해 들었습니다. 하나는 하둡이고 다른 하나는 noSQL 개념입니다. 처리 시점의 차이점은 무엇입니까? 그들은 보완 적인가?

15 nosql tools processing apache-hadoop

2

LSTM에서 슬라이딩 윈도우가 과적 합을 유발합니까?

슬라이딩 윈도우 방식으로 훈련하면 LSTM을 과도하게 맞출 수 있습니까? 사람들이 왜 LSTM에 그것을 사용하지 않는 것 같습니까? 간단한 예를 들어, 문자 순서를 예측해야한다고 가정하십시오. A B C D E F G H I J K L M N O P Q R S T U V W X Y Z …

15 lstm backpropagation mini-batch-gradient-descent

3

왜 치우친 데이터를 정규 분포로 변환합니까?

나는 Kaggle ( House Price on Human Price 's Kernel on House Price : Advance Regression Techniques ) 에서 주택 가격 경쟁의 해결책을 겪고 있었고이 부분을 보았습니다 . # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import …

15 regression feature-extraction feature-engineering kaggle feature-scaling

4

두 단어의 유사성

두 단어 또는 문장의 유사성을 식별하는 데 도움이되는 Python 라이브러리를 찾고 있습니다. 오디오를 텍스트로 변환하여 영어 사전 또는 비 사전 단어를 생성합니다 (개인 또는 회사 이름 일 수 있음). 그런 다음 알려진 단어와 비교해야합니다. 예: 1) 텍스트 대 오디오 결과 : America Expansion에 전화 해 주셔서 감사합니다 . American Express …

15 nlp nltk

1

주어진 텍스트에서 특정 문자 뒤의 문자열 제거

아래와 같은 데이터 세트가 있습니다. 문자 © 다음의 모든 문자를 제거하고 싶습니다. R에서 어떻게 할 수 있습니까? data_clean_phrase <- c("Copyright © The Society of Geomagnetism and Earth", "© 2013 Chinese National Committee ") data_clean_df <- as.data.frame(data_clean_phrase)

15 r data-cleaning

2

활성화 기능이 단조로운 이유는 무엇입니까?

현재 신경망 시험을 준비 중입니다. 이전 시험의 여러 프로토콜에서 (다층 퍼셉트론에서) 뉴런의 활성화 기능이 단조로워 야한다는 것을 읽었습니다. 활성화 함수는 미분 가능해야하며, 대부분의 점에서 0이 아닌 미분이어야하며 비선형이어야합니다. 왜 단조로운 것이 중요하고 도움이되는지 이해하지 못합니다. 다음과 같은 활성화 기능을 알고 있으며 단조로운 기능입니다. RELU 시그 모이 드 탄 Softmax : …

15 machine-learning neural-network

5

기여할 오픈 소스 데이터 과학 프로젝트

오픈 소스 프로젝트에 참여하는 것은 일반적으로 초보자를위한 연습을하고 경험이 풍부한 데이터 과학자 및 분석가를위한 새로운 영역을 시도하는 좋은 방법입니다. 어떤 프로젝트에 기여합니까? Github에 소개 + 링크를 제공하십시오.

15 beginner open-source

2

Mahout의 항목 기반 및 사용자 기반 권장 사항 차이

사용자 기반과 항목 기반 권장 사항이 정확히 어떻게 다른지 알고 싶습니다. 그것은 정의 사용자 기반 : 유사한 사용자를 찾아 항목을 추천합니다. 사용자의 동적 특성으로 인해 확장이 어려운 경우가 많습니다. 아이템 기반 : 아이템 간의 유사성을 계산하고 추천합니다. 일반적으로 항목은 많이 변경되지 않으므로 오프라인으로 계산할 수 있습니다. 그러나 두 가지 종류의 …

15 machine-learning data-mining algorithms recommender-system

2

K- 평균 대 온라인 K- 평균

K- 평균 은 클러스터링을위한 잘 알려진 알고리즘이지만 이러한 알고리즘의 온라인 변형 (온라인 K- 평균)도 있습니다. 이러한 접근법의 장단점은 무엇이며 각각 선호하는시기는 언제입니까?

15 clustering algorithms k-means

3

병렬 및 분산 컴퓨팅

병렬 컴퓨팅과 분산 컴퓨팅의 차이점은 무엇입니까? 확장 성과 효율성에 관해서는 머신 클러스터에서 계산을 처리하는 솔루션을 보는 것이 매우 일반적이며 병렬 처리 또는 분산 처리라고도합니다. 어떤 식 으로든 동시에 실행되는 것이 있기 때문에 계산은 항상 병렬 인 것처럼 보입니다. 그러나 분산 계산은 단순히 하나 이상의 기계를 사용하는 것과 관련이 있습니까, 아니면이 …

15 definitions parallel distributed