많은 기능 중에서 GPS 좌표 (위도 및 경도)를 포함하는 데이터 세트가 있습니다. 이 데이터 세트를 사용하여 다음과 같은 문제를 탐색하고 싶습니다. (1) ETA를 계산하여 시작 지점과 끝 지점 사이를 이동합니다. 및 (2) 특정 지점에 대한 범죄의 양을 추정. 선형 회귀 모델을 사용하고 싶습니다. 그러나 이러한 GPS 좌표를 선형 모델에서 직접 …
로지스틱 회귀에 대한 이진 클래스 문제가있는 각 샘플에 대해 330 개의 샘플과 27 개의 기능이있는 데이터 세트가 있습니다. "10이면 규칙"에 따르면 각 기능을 포함하려면 최소한 10 개의 이벤트가 필요합니다. 그럼에도 불구하고 나는 긍정적 인 클래스 20 %와 부정적인 클래스 80 %의 불균형 데이터 세트를 가지고 있습니다. 이로 인해 70 개의 …
저는 신경망의 초보자이며 현재 word2vec 모델을 탐색하고 있습니다. 그러나 기능 매트릭스가 정확히 무엇인지 이해하기가 어렵습니다. 첫 번째 행렬은 주어진 단어에 대한 one-hot 인코딩 벡터라는 것을 이해할 수 있지만 두 번째 행렬은 무엇을 의미합니까? 보다 구체적으로, 이들 각각의 값 (즉, 17, 24, 1 등)은 무엇을 의미합니까?
사람들이 제 2 언어로 영어를 배우도록 돕기 위해 앱을 개발 중입니다. 추가 문맥을 제공함으로써 문장이 언어를 배우는 데 도움이된다는 것을 확인했습니다. 나는 60 명의 학생들로 구성된 작은 교실에서 작은 연구를 수행함으로써 그렇게했습니다. 다양한 영어 단어 (Barrons'800 단어 및 1000 개의 가장 일반적인 영어 단어 포함)에 대해 Wikipedia에서 수십만 문장을 채굴했습니다. …
캘리포니아의 여러 도시에있는 고객 집합, 각 고객의 통화 시간 및 통화 상태 (고객이 전화에 응답하면 True, 고객이 응답하지 않으면 False)를 포함하는 데이터 집합이 있습니다. 전화를받을 확률이 높을 수 있도록 향후 고객을위한 적절한 전화 시간을 찾아야합니다. 그렇다면이 문제에 가장 적합한 전략은 무엇입니까? 시간 (0,1,2, ... 23)이 클래스 인 분류 문제로 고려해야합니까? …
을 감안할 때 어려운 학습 과제 (예 : 높은 차원, 고유 데이터의 복잡성) 깊은 신경망은 기차 열심히된다. 많은 문제를 해결하기 위해 : 품질 데이터 표준화 및 핸드 픽 다른 학습 알고리즘을 선택하십시오 (예 : Gradient Descent 대신 RMSprop) 더 가파른 그래디언트 비용 함수 선택 (예 : MSE 대신 교차 엔트로피) …
권장 사항에 따르면 "클릭"과 같이 레이블이있는 사용자 제품 데이터가있는 것이 일반적입니다. 모델을 배우려면 클릭 앤 클릭 데이터가 필요합니다. 생성하는 가장 간단한 방법은 클릭 데이터에서 찾을 수없는 사용자 제품 쌍을 취하는 것입니다. 그러나 오해의 소지가 있습니다. 예: user1, product1 (click) user2, product2 (click) user2, product3 (click) user3, product2 (click) product1을 제외한 …
상점 판매를 예측하고 있으며 교육 데이터에는 두 가지 기능이 있습니다. 날짜가있는 상점 판매에 대한 정보 ( "Store"필드는 고유하지 않습니다) 상점 유형에 대한 하나 ( "Store"필드는 여기에서 고유합니다) 따라서 행렬은 다음과 같습니다. +-------+-----------+------------+---------+-----------+------+-------+--------------+ | Store | DayOfWeek | Date | Sales | Customers | Open | Promo | StateHoliday | +-------+-----------+------------+---------+-----------+------+-------+--------------+ …
유전자를 찾는 것과 같은 게놈 서열에서 숨겨진 마르코프 모델이 어떻게 사용되는지 이해합니다. 그러나 특정 Markov 모델을 만드는 방법을 이해하지 못합니다. 모델에 몇 개의 상태가 있어야합니까? 가능한 전환 수는 몇 개입니까? 모델에 루프가 있어야합니까? 모델이 최적이라는 것을 어떻게 알 수 있을까요? 그들은 서로 다른 10 가지 모델을보고 그 10 가지 모델을 …
두 개의 회선 레이어 (c1, c2)와 두 개의 숨겨진 레이어 (c1, c2)로 인공 신경망을 훈련하려고합니다. 표준 역 전파 접근법을 사용하고 있습니다. 역방향 패스에서 이전 레이어의 오류, 이전 레이어의 가중치 및 현재 레이어의 활성화 기능에 대한 활성화의 기울기를 기반으로 레이어의 델타 항을 계산합니다. 보다 구체적으로 l 계층의 델타는 다음과 같습니다. delta(l) …
가능한 모든 쌍을 비교하지 않고도 비슷한 항목 쌍을 찾을 수 있도록 코사인 로컬 리티에 민감한 해시를 작성하려고합니다. 나는 기본적으로 작동하지만 내 데이터의 대부분의 쌍은 -0.2에서 +0.2 범위의 코사인 유사성을 가진 것처럼 보이므로 상당히 미세하게 주사위를 굴려 코사인 유사성이 0.1 이상인 것을 선택하려고합니다. Mining Massive Datasets 3 장을 읽었습니다. 이것은 Locality-Sensitive …