* 백만 * 계수 / 독립 변수로 다변량 회귀 분석을 실제로 수행합니까?


18

나는 기계 학습을 배우는 데 시간을 보내고 (재귀에 대한 미안 :) 다변량 선형 회귀의 경우 회귀 계수 계산을위한 직접 방정식 풀기보다 Gradient Descent를 선택 하는 규칙에 흥미를 느끼지 못했습니다 .

경험 법칙 : 피처 수 (읽기 계수 / 독립 변수)가 또는 백만 이상인 경우 그라디언트 디센트 (Gradient Descent)를 사용하지 않으면 상품 역학에서 행렬 역 계산을 상당히 관리 할 수 ​​있으므로 계수를 직접 계산하면 충분히 잘 수행해야합니다. .10,0001,000,000

계산적으로 말하면, 나는 트레이드 오프 / 한계를 얻습니다. 그러나 통계적 관점에서 볼 때 우리는 계수가 많은 모델을 실제로 계산합니까? 대학원생의 다변량 선형 회귀 클래스를 기억하면 종속 변수에 매우 무시할만한 영향을 미치거나 분포가 데이터에 대한 가정에 따르지 않기 때문에 너무 많은 독립 변수를 사용하지 않도록주의했습니다. "많은 IV"를 생각하기 위해 마음을 넓힌다 고해도 나는 아직도 수백만 을 생각하지 않았을 것 입니다.

질문 :

  • 이것이 실제로 발생합니까 아니면 이론적 인 문제입니까?
  • IV 만 분석의 요점은 무엇입니까? 정보 를 무시하는 대신 얻는 정보의 가치 가 크게 증가 했습니까?
  • 아니면 처음에 무엇이 유용한 지 전혀 모르기 때문에 망할 회귀실행하여 무엇이 유용한 지보고 거기서 나가서 IV 세트를 정리할 수 있습니까?

나는 우리가 "모든 것"을 분석 할 수 있다고해서 그것을 솔버에 던져야한다는 것을 의미하지는 않으며 , 과거의 질문 중 일부는 유사한 POV를 반영합니다.

나는 아직 과정을 마치지 않고 곧 질문을 할지도 모르지만,이 "왜"생각을 머릿속에서 내릴 수없고 최선을 다해 이해하려고 노력하고 있습니다.

답변:


14

이것이 실제로 발생합니까 아니면 이론적 인 문제입니까?

컴퓨터 비전에 대한 인기있는 심화 학습 모델을 참조하십시오. 말은 alexnet는 400 만 계수의 2048 및 2048 단위 사이의 조밀 한 연결을 가지고있다.

IV 만 분석의 요점은 무엇입니까? 정보를 무시하는 대신 얻는 정보의 가치가 크게 증가 했습니까?

범주가 높은 데이터 (예 : 인터넷 광고 데이터)를 분석하는 경우 모델은 각 범주 (예 : 도시, 페이지 ID, 사이트 이름, 광고 ID, 사용자 ID 등)에 대해 의미있는 '설명'을 유지해야합니다. '설명'의 크기는 선택한 ML 모델에 따라 다릅니다.

단순한 로지스틱 회귀 분석조차도 수십만 개의 매개 변수를 적용 할 수 있습니다 (범주 당 하나씩). 분해 시스템과 같은 고급 모델은 시간이 더 많아 질 것입니다.

아니면 처음에 무엇이 유용한 지 전혀 모르기 때문에 유용한 회귀를 실행하여 무엇이 유용한 지 확인하고 거기에서 나가서 IV 세트를 정리할 수 있습니까?

실제로, 이러한 모델에 장착 된 대부분의 매개 변수는 제거 할 수 있지만 미리 알 수 없으므로 기계 학습에 중요한 매개 변수를 정의하는 문제를 남기고 '소프트 한계'를 유효 수로 설정하기 위해 일부 정규화 를 적용합니다. 유지할 매개 변수 수

... ML 과정에서 나중에 이러한 예제를 찾을 수 있다고 생각합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.