데이터 과학

데이터 과학 전문가, 기계 학습 전문가 및 현장 학습에 관심이있는 전문가를위한 Q & A

5
최신 R 및 / 또는 Python 라이브러리는 SQL을 더 이상 사용하지 않습니까?
데이터 처리에서 정리, 녹이는 것까지 SQL Server가 모든 작업의 ​​중추 인 사무실에서 근무하고 있습니다. 저의 동료는 들어오는 데이터를 표준화하여 보고서, 시각화 및 분석 프로젝트에서 사용할 수 있도록 복잡한 함수 및 저장 프로 시저를 작성하여 들어오는 데이터를 체계적으로 처리하는 데 전문적입니다. 여기서 시작하기 전에 가장 기본적인 쿼리를 작성하는 것 외에는 SQL에 …
14 python  r  data-cleaning  data  sql 

1
파이썬에서 맵의 히트 맵
Mode Analytics에는 멋진 히트 맵 기능이 있습니다 ( https://community.modeanalytics.com/gallery/geographic-heat-map/ ). 그러나지도를 비교하는 데 도움이되지 않습니다 (보고서 당 하나만). 그들이 허용하는 것은 랩핑 된 파이썬 노트북에 데이터를 쉽게 가져올 수 있다는 것입니다. 그런 다음 파이썬의 모든 이미지를 보고서에 쉽게 추가 할 수 있습니다. 그래서 내 질문은 : 파이썬의 실제 맵에서 히트 …

1
최대 풀링 계층을 통한 역 전파
이 질문에 대한 작은 하위 질문 이 있습니다. 최대 풀링 레이어를 통해 역 전파 할 때 최대로 선택된 이전 레이어의 뉴런이 모든 그라디언트를 얻는 방식으로 그라디언트가 다시 라우팅됩니다. 100 % 확실하지 않은 것은 다음 레이어의 그라디언트가 풀링 레이어로 다시 라우팅되는 방식입니다. 첫 번째 질문은 풀링 레이어가 아래 이미지와 같이 완전히 …

3
Doc2vec (gensim)-보이지 않는 문장의 레이블을 어떻게 유추 할 수 있습니까?
https://radimrehurek.com/gensim/models/doc2vec.html 예를 들어, doc2vec를 "aaaaaAAAAAaaaaaa"- "label 1" "bbbbbbBBBBBbbbb"- "라벨 2" Doc2vec를 사용하여“aaaaAAAAaaaaAA”가 레이블 1임을 추측 할 수 있습니까? Doc2vec가 단어 벡터와 레이블 벡터를 훈련시킬 수 있다는 것을 알고 있습니다. 이 벡터를 사용하여 어떤 레이블에 보이지 않는 문장 (훈련 된 단어의 조합)을 유추 할 수 있습니까?
14 gensim 

1
(동적) Bayes 네트워크와 HMM의 차이점은 무엇입니까?
HMM, 파티클 필터 및 칼만 필터가 다이내믹 베이 네트워크의 특별한 사례라는 것을 읽었습니다. 그러나 HMM 만 알고 있으며 동적 Bayes 네트워크와의 차이점은 없습니다. 누군가 설명해 주시겠습니까? 귀하의 답변이 다음과 유사하지만 베이 즈 네트워크의 경우 좋을 것입니다. 숨겨진 마르코프 모델 HMM (Hidden Markov Model)은 5- 튜플 .λ = ( S, O …

2
고차원 데이터 : 알아야 할 유용한 기술은 무엇입니까?
차원의 다양한 저주 로 인해 많은 일반적인 예측 기술의 정확도와 속도가 높은 차원의 데이터에서 저하됩니다. 고차원 데이터를 효과적으로 처리하는 데 도움이되는 가장 유용한 기술 / 트릭 / 휴리스틱은 무엇입니까? 예를 들어 특정 통계 / 모델링 방법이 고차원 데이터 세트에서 잘 수행됩니까? 특정 (거리의 대체 개념을 정의하는) 특정 커널 또는 도트 …

3
p- 값은 언제 사기입니까?
p- 값이 통계적 유의성을 결정하는 가장 좋은 방법이 아닐 수있는주의해야 할 데이터 조건은 무엇입니까? 이 범주에 속하는 특정 문제 유형이 있습니까?

3
CNN의 이미지 크기 조정 및 패딩
이미지 인식을 위해 CNN을 훈련시키고 싶습니다. 훈련 용 이미지의 크기가 고정되어 있지 않습니다. 예를 들어 CNN의 입력 크기를 50x100 (높이 x 너비)으로 만들고 싶습니다. 작은 크기의 이미지 (예 : 32x32)의 크기를 입력 크기로 조정하면 이미지의 내용이 가로로 너무 많이 늘어나지 만 일부 중간 크기 이미지의 경우 괜찮습니다. 콘텐츠가 손상되는 것을 …

1
의사 결정 트리 : 잎사귀 (가장 우선) 및 수준별 나무 통과
문제 1 : 나는 나무가 확장되는 방식에 관한 LightGBM 의 설명으로 혼란스러워합니다 . 그들은 말한다 : 대부분의 의사 결정 트리 학습 알고리즘은 다음 이미지와 같이 수준별로 심도별로 트리를 확장합니다. 질문 1 : 어떤 "가장 많은"알고리즘이 이런 식으로 구현됩니까? 내가 아는 한 C4.5와 CART는 DFS를 사용합니다. XGBoost는 BFS를 사용합니다. 의사 결정 …


3
Max Pooling이 이미지를 다운 샘플링하려고하면 왜 복잡합니까?
가장자리 식별과 같은 작업을 수행하기 위해 필터를 적용한다는 아이디어는 매우 멋진 아이디어입니다. 예를 들어, 7의 이미지를 찍을 수 있습니다. 일부 필터를 사용하면 원래 이미지의 다른 특성을 강조하는 변환 된 이미지로 끝날 수 있습니다. 원본 7 : 네트워크는 다음과 같이 경험할 수 있습니다. 각 이미지가 원본 7의 다른 가장자리를 어떻게 추출했는지 …

4
사전 훈련 된 모델 가중치로 새로운 word2vec 모델을 초기화하는 방법은 무엇입니까?
Word2vector 모델을 사용하고 훈련시키기 위해 Python에서 Gensim Library를 사용하고 있습니다. 최근에 (GoogleNewDataset 사전 훈련 모델)과 같은 사전 훈련 된 word2vec 모델을 사용하여 모델 가중치를 초기화하려고했습니다. 나는 몇 주에 어려움을 겪고있다. 이제 gesim에는 사전 훈련 된 모델 가중치로 모델의 가중치를 초기화하는 데 도움이되는 기능이 있음을 검색했습니다. 아래에 언급되어 있습니다. reset_from(other_model) Borrow …

8
파이썬이 빅 데이터에 적합합니까?
이 글에서 읽은 것은 빅 데이터가 구성하는 빅 데이터에 적합한 R 언어5TB 이며, 이러한 유형의 데이터로 작업 할 가능성에 대한 정보를 제공하는 것은 훌륭 R하지만 정보는 거의 제공하지 않습니다 Python. Python이 많은 데이터로도 작업 할 수 있는지 궁금합니다 .
14 bigdata  python 

4
LSTM 시계열 예측 주위의 예측 구간
LSTM (또는 다른 반복적) 신경망으로부터 시계열 예측에 대한 예측 간격 (확률 분포)을 계산하는 방법이 있습니까? 예를 들어, 마지막 10 개의 관측 된 샘플 (t-9 ~ t)을 기반으로 미래에 10 개의 샘플 (t + 1 ~ t + 10)을 예측한다고 가정하면, t + 1에서의 예측은 더 많을 것으로 예상됩니다 t + …

2
xgBoost에서 쌍별 순위 모델에 얼마나 적합합니까?
내가 아는 한, 모델 순위를 정하는 학습을 훈련 시키려면 데이터 세트에 세 가지가 있어야합니다. 라벨 또는 관련성 그룹 또는 쿼리 ID 특징 벡터 예를 들어 Microsoft Learning to Rank 데이터 세트 는이 형식 (레이블, 그룹 ID 및 기능)을 사용합니다. 1 qid:10 1:0.031310 2:0.666667 ... 0 qid:10 1:0.078682 2:0.166667 ... GBM을 …
14 search  ranking  xgboost  gbm 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.