데이터 과학

데이터 과학 전문가, 기계 학습 전문가 및 현장 학습에 관심이있는 전문가를위한 Q & A

1
의사 결정 트리에서 연속 변수에 대해 분리 점이 어떻게 선택됩니까?
의사 결정 트리와 관련된 두 가지 질문이 있습니다. 연속 속성이있는 경우 분할 값을 어떻게 선택합니까? 예 : 나이 = (20,29,50,40 ....) R에 값 이있는 연속 속성 가 있다고 가정하십시오 . f 를 v로 나눌 때 f > v에 대한 최소 게인을 갖기 위해 분할 점 v 를 찾는 알고리즘을 어떻게 …

1
CNN에서 역 전파
다음과 같은 CNN이 있습니다. 5x5 크기의 입력 이미지로 시작합니다. 그런 다음 2x2 커널과 stride = 1을 사용하여 회선을 적용하여 크기가 4x4 인 기능 맵을 생성합니다. 그런 다음 stride = 2로 2x2 최대 풀링을 적용하여 기능 맵을 크기 2x2로 줄입니다. 그런 다음 로지스틱 시그 모이 드를 적용합니다. 그런 다음 2 개의 …

5
문장 유사성 예측
다음과 같은 문제를 해결하려고합니다. 데이터 세트로 문장 세트가 있고 새로운 문장을 입력하고 새로운 문장이 데이터 세트에서 가장 유사한 문장을 찾고 싶습니다. 예를 들면 다음과 같습니다. 새로운 문장 : " I opened a new mailbox" 데이터 세트에 기반한 예측 : Sentence | Similarity A dog ate poop 0% A mailbox is …

2
useragent, ip, session_id로 고유 방문자 클러스터링
session_id, ip, user_agent아래 조건 에 따라 웹 사이트 액세스 데이터 형식 과 시간 소인 (선택 사항)이 제공되면 세션을 순 방문자수로 가장 잘 클러스터링하는 방법은 무엇입니까? session_id:는 모든 새로운 방문자에게 부여 된 아이디입니다. 만료되지는 않지만 사용자가 쿠키를 허용하지 않거나 쿠키를 지우거나 브라우저를 변경하거나 장치를 변경하면 더 이상 인식되지 않습니다. IP 여러 …
15 clustering 

6
Keras — 전송 학습 — 입력 텐서 모양 변경
이 게시물 은 내가 달성하려는 것이 불가능하다는 것을 나타내는 것 같습니다. 그러나 나는 이것을 확신하지 못합니다. 내가 이미 한 일을 감안할 때 왜 내가하고 싶은 일을 달성 할 수 없는지 알 수 없습니다 ... 하나는 모양 (480, 720, 3)의 이미지가 있고 다른 하나는 모양 (540, 960, 3)의 이미지가있는 두 개의 …
15 keras 

4
의사 결정 트리 대 KNN
어떤 경우에는 의사 결정 트리를 사용하고 다른 경우에는 KNN을 사용하는 것이 더 낫습니까? 특정 경우에 왜 그중 하나를 사용합니까? 그리고 다른 경우에 다른? (알고리즘이 아닌 기능을 보면) 누구든지 이것에 대한 설명이나 언급이 있습니까?

2
특정 주제에 대한 지식이없는 데이터 과학, 경력으로 추구 할 가치가 있습니까? [닫은]
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? Data Science Stack Exchange에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 최근에 누군가와 대화를 나누고 데이터 분석에 관심이 있으며 필요한 기술과 도구를 배우려는 사람을 언급했습니다. 그들은 특정 분야에 대한 전문 지식이 없으면 도구를 …

2
왜 열차 및 테스트 데이터의 변수가 대문자를 사용하여 정의됩니까 (파이썬)?
이 질문이이 사이트에서 가장 적합하기를 바랍니다. Python에서 일반적으로 클래스 이름은 대문자를 첫 문자로 사용하여 정의됩니다 (예 : class Vehicle: ... 그러나, 기계 학습 분야에서, 종종는 훈련과 테스트 데이터는 다음과 같이 정의 X하고 Y-하지 x와 y. 예를 들어, Keras에서이 튜토리얼을 읽고 있지만 Xand Y를 변수로 사용합니다 . from sklearn import datasets …
15 python  dataset 


2
SelectKBest는 어떻게 작동합니까?
이 자습서를보고 있습니다 : https://www.dataquest.io/mission/75/improving-your-submission 섹션 8에서 최상의 기능을 찾으면 다음 코드가 표시됩니다. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked", "FamilySize", "Title", "FamilyId"] # Perform feature selection selector = SelectKBest(f_classif, k=5) selector.fit(titanic[predictors], titanic["Survived"]) # Get the raw p-values for …

1
PyTorch vs. Tensorflow 열망
Google은 최근에 tensorflow의 야간에 포함되어 tensorflow 계산 기능에 액세스하는 명령형 API 인 Eager 모드를 구축 합니다. tensorflow는 PyTorch와 어떻게 비교됩니까? 비교에 영향을 줄 수있는 몇 가지 측면은 다음과 같습니다. 정적 그래프 레거시 (예 : 노드의 이름)로 인해 열망의 장단점. 다른 것에는없는 본질적인 한계. 그 중 하나가 개선이 필요한 영역 (예 …

3
텍스트에 대한 GAN (Generative Adversarial Network)도 가능합니까?
GAN (생식 적대적 네트워크)은 이미지에만 적합합니까, 아니면 텍스트에도 사용될 수 있습니까? 마찬가지로, 요약을 통해 의미있는 텍스트를 생성하도록 네트워크를 훈련시킵니다. UPD-GAN 발명가 Ian Goodfellow의 인용문. GAN은 실제 데이터에만 정의되므로 GAN은 NLP에 적용되지 않았습니다. ( 2016 ) 소스 근본적으로 결함이있는 아이디어는 아닙니다. 다음 중 하나 이상을 수행 할 수 있어야합니다 ... (2017) …
14 gan 

4
Generative Adversarial Networks로 거대한 데이터 세트를 생성 할 수 있습니까?
훈련을 위해 깊은 신경망에 공급할 충분한 데이터 세트 (이미지)를 찾을 수없는 문제를 처리하고 있습니다. Scott Reed et al.에 의해 출판 된 Generative Adversarial Text to Image Synthesis 논문에서 영감을 받았습니다 . 적대적 네트워크 생성. 사용 가능한 작은 데이터 집합을 GAN 모델에 대한 입력으로 사용하고 더 큰 네트워크 집합을 처리하기 위해 …

1
계층화 된 샘플링이 필요합니까 (랜덤 포레스트, Python)?
파이썬을 사용하여 불균형 데이터 세트에서 임의의 포리스트 모델을 실행합니다 (대상 변수는 이진 클래스였습니다). 교육 및 테스트 데이터 세트를 분할 할 때 계층화 된 샘플링을 사용할지 (표시된 코드와 같은) 사용하지 않을지 고민했습니다. 지금까지 프로젝트에서 계층화 된 사례가 더 높은 모델 성능으로 이어질 것으로 관찰했습니다. 그러나 현재 데이터 세트와 대상 클래스의 분포가 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.