데이터 과학

데이터 과학 전문가, 기계 학습 전문가 및 현장 학습에 관심이있는 전문가를위한 Q & A


7
데이터 정리를위한 체계화 된 프로세스
R을 사용하여 데이터 과학을 제한적으로 사용하면서 나쁜 데이터를 정리하는 것이 분석을 위해 데이터를 준비하는 데 매우 중요하다는 것을 깨달았습니다. 데이터를 처리하기 전에 데이터를 정리하는 모범 사례 나 프로세스가 있습니까? 그렇다면 이러한 모범 사례 중 일부를 구현하는 자동 또는 반자동 도구가 있습니까?
34 r  data-cleaning 

5
팬더로 분석하기 위해 20GB 파일 열기
현재 머신 러닝 목적으로 팬더와 파이썬으로 파일을 열려고합니다. 데이터 프레임에 모두 넣는 것이 이상적입니다. 이제 파일 크기는 18GB이고 RAM은 32GB이지만 메모리 오류가 계속 발생합니다. 당신의 경험에서 가능합니까? 이 문제를 해결하는 더 좋은 방법을 모르십니까? (하이브 테이블? RAM의 크기를 64로 늘리십시오. 데이터베이스를 만들고 파이썬에서 액세스하십시오)

3
케 라스의 멀티 GPU
여러 GPU에서 교육을 분할하기 위해 keras 라이브러리 (또는 tensorflow)에서 어떻게 프로그래밍 할 수 있습니까? 8 개의 GPU가있는 Amazon ec2 인스턴스에 있고 이들 모두를 사용하여 더 빨리 훈련하고 싶지만 코드는 단일 CPU 또는 GPU 전용이라고 가정 해 봅시다.

4
NCE (Noise Contrastive Estimation) 손실에 대한 직관적 인 설명?
이 두 가지 출처에서 NCE (후보 샘플링 형식)에 대해 읽었습니다. 텐서 플로우 쓰기 원본 용지 누군가 다음을 도울 수 있습니까? NCE의 작동 방식에 대한 간단한 설명 (위의 구문 분석 및 이해가 어려워서 직관적으로 제시되는 수학으로 이어질 수 있음) 위의 포인트 1 이후에 네거티브 샘플링과 다른 점을 자연스럽게 직관적으로 설명합니다. 수식에 …

5
Apache Spark와 Hadoop의 사용 사례는 무엇입니까
Hadoop 2.0 및 YARN을 사용하면 Hadoop은 더 이상 맵 감소 솔루션에만 국한되지 않습니다. 이러한 발전과 함께 Apache Spark와 Hadoop의 사용 사례는 모두 HDFS 위에 있다고 생각합니까? Spark의 소개 문서를 읽었지만 Hadoop과 비교하여 Spark 로보 다 효율적이고 해결하기 쉬운 문제가있는 사람이 있는지 궁금합니다.

1
논문 : Layer Normalization, Recurrent Batch Normalization (2016), Batch Normalized RNN (2015)의 차이점은 무엇입니까?
최근에는 레이어 정규화 용지가 있습니다. Keras 에도 구현되어 있습니다 . 그러나 Recurrent Batch Normalization (Cooijmans, 2016) 및 Batch Normalized Recurrent Neural Networks (Laurent, 2015) 라는 제목의 논문이 있습니다 . 이 세 가지의 차이점은 무엇입니까? 이해가 안되는 관련 작업 섹션이 있습니다. 배치 정규화는 이전에 반복적 인 신경망으로 확장되었다 [Laurent et al., …


5
딥 러닝 vs 그라디언트 부스팅 : 언제 무엇을 사용해야합니까?
큰 데이터 세트에 큰 데이터 문제가 있습니다 (예 : 5 천만 행 및 200 열 사용). 데이터 집합은 약 100 개의 숫자 열과 100 개의 범주 열 및 이진 클래스 문제를 나타내는 응답 열로 구성됩니다. 각 범주 열의 카디널리티는 50보다 작습니다. 딥 러닝 방법 또는 앙상블 트리 기반 방법 (예 …

3
softmax 분류기에서 exp 함수를 사용하여 정규화하는 이유는 무엇입니까?
표준 정규화와 달리 softmax를 사용하는 이유는 무엇입니까? @Kilian Batzner는이 질문에 대한 답변의 의견 영역에서 2 가지 질문을 제기하여 많은 혼란을 겪었습니다. 수치상의 이점을 제외하고는 아무도 설명하지 않는 것 같습니다. Cross-Entropy Loss를 사용하는 이유를 알지만 softmax와 어떤 관련이 있습니까? "softmax 함수는 예측과 진실 사이의 교차 엔트로피를 최소화하려는 것으로 볼 수 있습니다." …

5
강화 학습에서 Q 기능은 무엇이며 V 기능은 무엇입니까?
저 보인다 기능을 용이하게 나타낼 수있다 함수 따라서 함수 나에게 불필요한 것으로 보인다. 그러나, 나는 강화 학습에 익숙하지 않아서 뭔가 잘못되었다고 생각합니다.VVVQQQVVV 정의 Q 및 V 학습은 Markov 의사 결정 프로세스와 관련이 있습니다. MDP는 5 튜플 와(S,A,P,R,γ)(S,A,P,R,γ)(S, A, P, R, \gamma) SSS 는 일련의 상태입니다 (일반적으로 유한) AAA 는 일련의 …

7
머신 러닝 작업을 위해 데이터를 섞어 야하는 이유
머신 러닝 작업에서는 데이터를 섞고 정규화하는 것이 일반적입니다. 정규화의 목적은 분명합니다 (같은 범위의 기능 값을 갖기 위해). 그러나 많은 어려움을 겪은 후 데이터를 섞는 데 중요한 가치를 찾지 못했습니다. 이 게시물 읽게 여기에 우리가 데이터를 셔플해야 할 때 논의를하지만, 우리는 데이터를 셔플해야하는 이유는 명확하지 않다. 또한 배치 그라디언트 디센트가 필요한 …

5
목록 목록을 Pandas 데이터 프레임으로 변환
다음과 같은 목록 목록을 Pandas Dataframe으로 변환하려고합니다. [['New York Yankees ', '"Acevedo Juan" ', 900000, ' Pitcher\n'], ['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], ['New York Yankees ', '"Clemens Roger" ', 10100000, ' Pitcher\n'], ['New York Yankees ', '"Contreras Jose"', 5500000, ' Pitcher\n']] 기본적으로 배열의 각 항목을 4 …
30 pandas 

1
xgboost가 GradientBoostingClassifier를 sklearn보다 훨씬 빠른 이유는 무엇입니까?
100 개의 숫자 기능을 가진 50k 개 이상의 그라디언트 부스팅 모델을 훈련하려고합니다. XGBClassifier동안 내 컴퓨터 43 초 이내에 핸들 (500) 나무, GradientBoostingClassifier핸들 10 나무 (!) 일분 2 초 :( 내가 귀찮게하지 않았다에서 그것은 시간이 걸릴 것으로 500 그루의 나무를 성장하려고합니다. 나는 같은 사용하고 있습니다 learning_rate및 max_depth설정 아래를 참조하십시오. XGBoost를 훨씬 …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
불균형이 높은 데이터 세트 교육에 대한 빠른 안내
훈련 세트에서 약 1000 개의 양성 및 10000 개의 음성 샘플로 분류 문제가 있습니다. 따라서이 데이터 세트는 상당히 불균형합니다. 일반 임의 포리스트는 모든 테스트 샘플을 대다수 클래스로 표시하려고합니다. 서브 샘플링 및 가중 임의 숲에 대한 좋은 답변은 여기에 주어집니다 : 높은 바이어스 데이터 세트와 나무 앙상블 훈련의 의미는 무엇인가? RF …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.