이러한 분석 기술에 대한 글로벌 비전이 있습니까?


24

나는 현재 우리 모두처럼 출력 가 입력 와 어떻게 관련되어 있는지 이해하기 위해 기본적으로 필요한 프로젝트에 있습니다. 여기서의 특이점은 데이터 가 한 번에 하나씩 제공되므로 새로운 받을 때마다 분석을 업데이트하고 싶습니다 . 필자는 필요한 모든 데이터를 보유하고 동시에 모든 데이터를 사용하여 계산을 수행하는 "배치"처리와 달리 "온라인"처리라고합니다.yx(y,x)(y,x)

그래서 나는 아이디어를 둘러 보았고 마침내 세상이 세 가지로 나뉘어져 있다는 결론을 얻었습니다.

  • 첫 번째 부분은 통계와 계량 경제의 땅입니다. 사람들은 OLS, GLS, 기기 변수, ARIMA, 테스트, 차이의 차이, PCA 등을 수행합니다. 이 토지는 대부분 선형성에 의해 지배되며 "일괄 처리"만합니다.

  • 두 번째 부분은 기계 학습의 섬이며 인공 지능, 감독 및 비지도 학습, 신경망 및 SVM과 같은 단어입니다. 여기서 "배치"및 "온라인"처리가 모두 수행됩니다.

  • 세 번째 부분은 제가 방금 발견 한 대륙 전체이며, 대부분 전기 기술자들이 거주하고있는 것 같습니다. 거기에서 사람들은 종종 "필터"라는 단어를 도구에 추가하고 Widrow-Hoff 알고리즘, 재귀 최소 제곱 , Wiener 필터 , Kalman 필터 및 내가 아직 발견하지 못한 다른 것들과 같은 훌륭한 것들을 발명했습니다 . 분명히 그들은 그들의 요구에 더 잘 맞기 때문에 대부분 "온라인"처리를합니다.

제 질문은이 모든 것에 대한 비전을 가지고 있습니까? 나는이 세 부분이 서로 너무 많이 말하지 않는다는 인상을 받고 있습니다. 내가 잘못? 와 의 관계를 이해하는 대단 일 통합 이론이 있습니까? 당신은 그 이론의 기초가 놓일 수있는 자원을 알고 있습니까?YX

이 질문이 실제로 의미가 있는지 확실하지 않지만 모든 이론 사이에서 조금 잃어 버렸습니다. 나는 "이것을 사용해야합니까?"라는 질문에 대한 답을 상상합니다. "원하는 작업 (및 데이터)에 따라 다릅니다". 그러나 나는이 세 세계가 같은 질문에 대답하려고하는 것 같은 느낌이 들기 때문에 ( ?)이 모든 것에 대해 더 높은 시각을 가질 수 있어야하며, 각 기술을 구체적으로 만드는 이유를 깊이 이해해야합니다.y=f(x)


요즘 처음 두 영역은 서로 더 많이 이야기하는 것 같습니다. 그래도 좋은 질문입니다!
Zach

다이너마이트 주제와 잘 쓰여진 질문!
rolando2

1
이 CW를 만드십시오.
추기경

1
나는 스스로 통계학 자라고 부르지 만, 온라인에서 많은 일을하고, 다양한 종류의 비선형 모델링을하고, 최소한 인공 지능에 빠져 들었다. 일반적인 도구의 차이점은 사람들이 겪는 문제의 종류와 더 관련이 있다고 생각합니다. 문제가 수렴 할 때마다 조만간 같은 도구를 찾거나 다시 만드는 경향이 있습니다 (종종 다른 이름으로, 종과 휘파람이 약간 다름).
Glen_b-복지국 Monica

답변:


4

배치 대 온라인과 관련하여 내 경험에 따르면 때로는 두 가지를 결합한다고합니다. 의미하는 것은 모델 구성과 관련된 집중적 인 계산 작업을 오프라인에서 수행 한 다음 이러한 모델을 사용하기 위해 빠른 / 적응 절차를 사용하는 것입니다. 우리는 "새로운 데이터"가 세 가지 방식으로 사용될 수 있다는 것을 발견했다. 1. 단순히 예측; 2. 알려진 모델의 매개 변수를 수정하고 3. 매개 변수를 수정하고 가능하면 모델을 수정합니다. 이 세 가지 접근 방식은 "실시간 분석"에 사용되었으며 물론이 세 단계 중 하나를 완료하는 시간은 사용 된 소프트웨어와 사용 가능한 하드웨어에 따라 다릅니다.

이제 y 대 x를 모델링하는 방법에 관한 다른 요점입니다. y의 히스토리와 x의 현재 및 pas 값의 영향을 풀기위한 기초로 확장 된 회귀 버전 (전송 함수 또는 ARMAX 모델)을 사용하는 것이 좋습니다. 가우시안 요구 사항을 검증하고 생략 된 결정 론적 구조 (Outlier Detection을 통해)와 생략 된 확률 론적 구조를 위해 필요한 프록시를 ARMA 구성 요소를 통해 통합하는 것이 중요합니다. 또한 너무 많은 데이터를 사용하지 않았는지 (모수 불변성 테스트) 결정적 / 확률 적 오차 분산 및 / 또는 y의 예상 값과 분산 사이의 연관성으로 인한 불일치 오류 분산이 있는지 확인해야합니다 잔차.

이제 역사적으로 (또는 원한다면 히스테리 적으로) 다른 생각의 사일로가 접근법을 공식화하려고 시도했습니다. 우리 조상이 사용하는 많은 임시 모델은 전달 함수의 하위 집합으로 표시 될 수 있지만 전달 함수의 가정에 도전 할 수있는 데이터 세트가 있습니다. 이러한 데이터 세트가 존재할 수 있지만 분석에서 결론을 얻지 않는 한 데이터 세트가 사용자에게 직접 영향을 줄 것이라고 가정해서는 안됩니다.

Wei (Addison-Wessley) 또는 Box-Jenkins와 같은 텍스트는 내 친구들을 지원하고 더 많은 "답변"으로 이끄는 합리적인 로드맵을 제공해야합니다.

그건 그렇고 이것은 큰 질문입니다!

또한 사용하려는 데이터가 있으면 여기에 설명 된 다양한 옵션을 시연 할 수 있습니다. "y to x"와 관련된 모든 노력을보고 사용하려면 웹에 데이터를 게시하십시오.


답변 주셔서 감사합니다! 시간이 생기 자마자 좀 더 깊이 살펴보고 다시 연락 드리겠습니다. ARMAX 모델을 모른다고 말해야합니다. 나는 내생 VAR에 직접 있었을 것 같아요. 데이터에 관해서는 실제로 우리는 여전히 프로젝트를 위해 다른 것들을 구축하고 있으므로 지금은 관련 데이터가 많지 않습니다. 하지만 정말 고마워요. 다시 연락을주세요!
Arthur

"가우시안 요구 사항 확인": 가우시안 / 비모수 적 / 망각 모델링 (페이스 브레이 만)이 깊게 분리되어 있지 않습니까?
데니스

2

Breiman은 " 통계 모델링 : 두 문화 " 에서이 문제를 해결 합니다. 훌륭한 질문에 대한 첫 번째 응답.


감사! 귀하의 링크는, 나를 위해 작동하지 않았다 하나 개 작품 이 하나 개의 PDF에 리드 직접. 나는 텍스트에서 초록과 일부를 무작위로 읽었으며 매우 흥미롭게 보입니다. 그러나 그 사람들은 완전히 "반 클래식 통계"인 것 같습니다. 다시 감사합니다.
Arthur

좋아요-링크를 업데이트했습니다. 재미있게 읽습니다. 즐기십시오!
Ram Ahluwalia

Breiman의 "2 가지 문화"에 대해 논의 했습니다 . 흥미로운 점이 있지만, 자신의 사고 방식을 바꾸거나 설명하기는 어렵습니다.
데니스

1

나는이 질문에 대한 대답이 "무료 점심은 없다"는 내용에 따른 것이라고 생각합니다. 통계 학자, 컴퓨터 과학자 및 전기 엔지니어가 다른 알고리즘을 개발 한 이유는 다른 종류의 문제를 해결하는 데 관심이 있기 때문일 것입니다.


0

나는 당신이 표시 한이 세 그룹이 실제로 두 그룹이라고 말합니다.

  • 통계
  • 기계 학습, 인공 지능 및 패턴 인식.

신호 필터링과 관련된 모든 브랜치는 패턴 인식에 속하는 특징 추출 (wavelet, Gabor 및 Fourier)과 하드 수학에 속하는 Discrete Fourier Transformation의 두 가지 측면을 기반으로합니다. 실제로 디지털 필터링은 단순하고 낮은 계산 비용 알고리즘을 통해이 패턴 인식 문제를 해결하려고하기 때문에 엔지니어링 측면에 더 가깝습니다. 그러나 본질적으로 기계 학습입니다.

또한 필터링, Wavelets, Gabor 및 Fourier는 인공 비전의 핵심 인 이미지 처리에 광범위하게 사용됩니다.

통계와 머신 러닝에는 차이가 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.