데이터 마이닝에서 카오스 이론의 기존의 실제 적용은 무엇입니까?


13

지난 몇 년 동안 혼돈 이론에 대한 일부 대중 시장의 작품을 우연히 읽는 동안 신경망, 패턴 인식, 불확실성 관리 등과 같은 데이터 마이닝 및 관련 분야에 다양한 측면이 어떻게 적용될 수 있는지 궁금해지기 시작했습니다. 나는 출판 된 리서치에서 그러한 애플리케이션의 예를 거의 접하지 않았기 때문에 a) 실제로 알려진, 출판 된 실험 및 프로젝트에 실제로 적용되었는지, b) 그렇지 않은 경우 왜 이러한 상호 관련성에서 그다지 사용되지 않는지 궁금합니다. 필드?

지금까지 본 카오스 이론에 대한 대부분의 토론은 완전히 유용하지만 데이터 인식 및 패턴 인식과 같은 관련 분야와는 거의 관련이없는 과학적 응용 프로그램을 중심으로 진행됩니다. 전형적인 예 중 하나는 물리학의 3 체 문제입니다. 나는 이런 종류의 일반적인 과학적 응용에 대한 논의를 포기하고 데이터 마이닝 및 관련 분야와 관련이있는 응용들에 대해서만 질문을 제한하고 싶다. 아래의 잠재적 인 응용 프로그램 목록은 출판 된 연구를위한 검색의 출발점으로 사용될 수 있지만 실제로 적용되는 응용 프로그램에만 관심이 있습니다. 내가 찾고있는 것은 데이터 마이닝에 대한 카오스 이론의 알려진 구현입니다. 잠재적 인 응용 프로그램 목록과는 대조적으로 훨씬 더 광범위합니다. 다음은 읽는 동안 나에게 일어난 데이터 마이닝 응용 프로그램에 대한 간단한 아이디어 샘플입니다. 아마도 그들 중 어느 것도 실용적이지 않을 수도 있고, 아마도 우리가 말하는 것처럼 일부는 실용적으로 사용될 수도 있지만, 아직 익숙하지 않은 용어로 진행됩니다.

  1. 수십 년 전에 아날로그 전화선에서 오류 버스트가 발생했을 때 Mandelbrot가 실제 방식으로 패턴 인식에서 자기 유사 구조를 식별했습니다.
  2. 마이닝 결과에서 Feigenbaum의 상수를 만나기
  3. 신경 순 가중치 및 다양한 마이닝 테스트를위한 최적의 비트 심도 식별 초기 조건에 대한 감도가 작용하는 소소한 숫자 스케일 때문에 혼돈 관련 기능의 예측할 수없는 부분적인 원인으로 인해 이것에 대해 궁금했습니다.
  4. Menger Sponges, Koch Curves 또는 Sierpinski Carpets와 같은 매혹적인 프랙탈 호기심과 관련이없는 다른 방식으로 분수 차원의 개념을 사용하십시오. 아마도 개념을 분수로 취급하여 마이닝 모델의 차원에 유리한 방식으로 적용 할 수 있습니까?
  5. 프랙탈에서 작용하는 것과 같은 전력 법칙을 도출.
  6. 프랙탈에서 발생하는 함수는 비선형이기 때문에 비선형 회귀에 실제 적용이 있는지 궁금합니다.
  7. 혼돈 이론은 엔트로피와 접선 관계 (때로는 과장되어 있음)를 가지므로 혼돈 이론에 사용 된 함수에서 섀넌의 엔트로피 (또는 그와 친척에 대한 제한)를 계산할 수있는 방법이 있는지 또는 그 반대인지 궁금합니다.
  8. 데이터에서 기간이 두 배인 행동 식별.
  9. 유용한 방법으로 "자체 구성"될 가능성이 가장 높은 것을 지능적으로 선택하여 신경망의 최적 구조를 식별합니다.
  10. 혼돈과 프랙탈 등도 계산 복잡성과 관련이 있으므로 혼돈 구조를 식별하는 데 복잡성을 사용할 수 있는지, 그 반대인지를 궁금합니다.
  11. 나는 혼돈 이론의 관점에서 Lyapunov 지수에 대해 처음 들었고 그 이후 특정 신경망과 엔트로피 토론을위한 레시피에서 몇 번 주목했습니다.

내가 여기에 나열하지 않은 수십 개의 다른 관계가있을 것입니다. 이 모든 것이 내 머리 꼭대기에서 떨어졌습니다. 나는 이러한 특정 추측에 대한 특정 답변에 좁게 관심이 없지만 야생에 존재할 수있는 응용 프로그램 유형의 예로 그냥 버리고 있습니다. 응용 프로그램이 데이터 마이닝에 구체적으로 적용되는 한 현재 연구 및 이와 같은 아이디어의 기존 구현 예가있는 답글을보고 싶습니다.

정보 이론, 퍼지 세트 및 신경망과 같이 더 친숙한 영역 및 회귀와 같이 더 적은 역량을 가진 분야에서도 더 잘 모르는 다른 구현이있을 수 있습니다. 환영합니다. 여기서 실질적인 목적은 혼돈 이론의 특정 측면에 대한 학습에 더 많은 투자를 할 것인지 아닌지를 결정하는 것입니다.

CrossValidated를 검색했지만 데이터 마이닝 등에 대한 혼돈 이론의 실용적 응용을 직접적으로 다루는 주제는 보지 못했습니다. 가장 가까운 것은 스레드 혼돈 이론, 방정식이없는 모델링 및 비모수 통계입니다 . 특정 하위 집합으로.


의견은 긴 토론을위한 것이 아닙니다. 이 대화는 채팅 으로 이동 되었습니다 .
whuber

답변:


7

실제 접근 방식 인 데이터 마이닝 (DM)은 수학적 모델링 (MM) 접근 방식과 거의 보완적인 것으로 보이며 심지어 혼돈 이론 (CT)과 모순되는 것으로 보입니다. 먼저 DM 및 일반 MM에 대해 이야기하고 CT에 중점을 둡니다.

수학적 모델링

경제 모델링 DM에서 아주 최근까지 인과 관계에 대한 학습 대신 상관 관계를 찾기위한 물고기의 핵인 거의 금기 사항으로 간주 되었습니다. 이 게시물 은 SAS 블로그를 참조하십시오 . 태도는 변하고 있지만 가짜 관계 , 데이터 준설 , p- 해킹 등과 관련된 많은 함정이 있습니다 .

경우에 따라, MM 관행이 확립 된 분야에서도 DM이 합법적 인 접근 방법 인 것처럼 보입니다. 예를 들어, DM은 입자 스 매셔를 생각하면서 많은 데이터를 생성하는 물리적 실험에서 입자 상호 작용을 검색하는 데 사용될 수 있습니다. 이 경우 물리학자는 입자가 어떻게 보이는지 알고 데이터 세트에서 패턴을 검색 할 수 있습니다.

혼돈 이론

혼돈 시스템은 아마도 DM 기법을 사용한 분석에 특히 저항력이 있습니다. 일반적인 의사 난수 생성기에 사용되는 친숙한 선형 합동 분석법 ( LCG )을 고려하십시오 . 그것은 본질적으로 혼란 시스템입니다 . 이것이 난수를 "가짜"만드는 데 사용되는 이유입니다. 좋은 발전기는 난수 시퀀스와 구별 할 수 없습니다. 이는 통계적 방법을 사용하여 무작위인지 아닌지를 판단 할 수 없음을 의미합니다. 여기에도 데이터 마이닝을 포함시킬 것입니다. 데이터 마이닝으로 RAND () 생성 시퀀스에서 패턴을 찾아보십시오! 그러나 다시 말하지만, 그것은 당신이 알고있는 완전히 결정적인 순서이며, 방정식도 매우 간단합니다.

혼돈 이론은 유사성 패턴을 무작위로 찾는 것이 아닙니다. 혼돈 이론은 프로세스와 동적 인 관계에 대한 학습을 ​​포함하여 작은 교란이 불안정한 행동을 일으키는 시스템에서 증폭되는 반면,이 혼돈에서는 안정된 패턴이 나타납니다. 이 멋진 것들은 모두 방정식 자체의 속성으로 인해 발생합니다. 그런 다음 연구원들은이 방정식과 시스템을 연구합니다. 이것은 적용된 데이터 마이닝의 사고 방식과는 매우 다릅니다.

예를 들어 혼란스러운 시스템을 연구하면서 자기 유사성 패턴에 대해 이야기하고 데이터 마이너가 패턴 검색에 대해서도 이야기한다는 것을 알 수 있습니다. 그러나 이들은 "패턴"개념을 매우 다르게 처리합니다. 혼돈 시스템은 방정식에서 이러한 패턴을 생성합니다. 실제 시스템 등을 관찰하여 방정식 세트를 만들려고 할 수도 있지만 어떤 시점에서는 항상 방정식을 처리합니다. 데이터 마이너는 다른 쪽에서 왔으며 시스템의 내부 구조에 대해 잘 모르거나 추측하지 않으면 패턴을 찾으려고 시도했습니다. 나는이 두 그룹이 동일한 실제 시스템이나 데이터 세트를 본다고 생각하지 않습니다.

또 다른 예는 Feigenbaum이 유명한 기간 배가 분기를 만들기 위해 협력 한 가장 간단한 물류지도입니다.

여기에 이미지 설명을 입력하십시오

방정식은 엄청나게 간단합니다. 그러나 데이터 마이닝 기술로 어떻게 그것을 발견 할 수 있을지는 모르겠습니다.

xn+1=rxn(1xn)


(+1). 혼란스러운 시스템의 행동을 결정하는 방정식을 정확히 찾아 낼 수있을 때, 그 행동을 완전히 예측하거나 가까이 할 수 있다고 덧붙입니다. 데이터 마이닝 / 예측 모델링에서> .5의 R- 제곱 짝수도 거의 얻을 수 없습니다.
rolando2

+1 이것은 한동안 준비한 답을 확실히 보완하며 몇 시간 안에 게시 할 것입니다.
SQLServerSteve

4

이 질문에 대답하기 위해 혼돈 이론을 읽을 때 내가 발견 한 가장 이상한 점은 데이터 마이닝과 그 친척이 혼돈 이론을 활용하는 출판 된 연구의 놀라운 어려움이었다. AB Ҫbel의 Applied Chaos Theory : A Complex of the Complexity and Alligood, et al. 'Chaos : An Introduction to Dynamical Systems와 같은 소스를 참고함으로써 이들을 찾기위한 공동 노력에도 불구하고 (후자는 소스 시스템으로 매우 유용합니다. 이 주제)와 참고 문헌을 습격. 결국, 나는 자격이 될 수있는 단일 연구를 생각해 내야했고이 경우를 포함시키기 위해“데이터 마이닝”의 범위를 확장해야했습니다. 텍사스 대학 (University of Texas)의 Belousov-Zhabotinsky (BZ) 반응에 대한 연구 (이미 비 주기성 경향이있는 것으로 알려진) 반응은 혼란스러운 패턴으로 인해 실험에 사용 된 말 론산의 불일치를 우연히 발견하여 공급자. [1] 아마도 카오스 이론의 전문가가 아니고 문헌에 대한 철저한 평가를 거의 할 수없는 다른 것들도있을 것입니다. 그러나 물리학의 삼체 문제와 같은 일반적인 과학적 용도의 엄청난 불균형은 우리가 그것들을 모두 열거하더라도 크게 변하지 않을 것입니다. 실제로이 질문이 끝날 때까지 나는“데이터 마이닝 및 관련 분야에서 카오스 이론의 구현이 왜 그렇게 적은가?”라는 제목으로 다시 작성하는 것을 고려했습니다. 이것은 신경망, 패턴 인식, 불확실성 관리, 퍼지 세트 등과 같은 데이터 마이닝 및 관련 분야에서 다수의 응용 프로그램이 있어야한다는 잘못 정의되었지만 널리 퍼져있는 정서와 일치하지 않습니다. 결국, 혼돈 이론은 많은 유용한 응용을 가진 최첨단 주제입니다. 검색이 효과가없고 인상이 잘못된 이유를 이해하기 위해이 필드들 사이의 경계가 정확히 어디에 있는지에 대해 길고 열심히 생각해야했습니다.

; tldr 답변

연구 횟수와 기대와의 편차에서 이러한 불균형에 대한 짧은 설명은 혼돈 이론과 데이터 마이닝 등이 깔끔하게 분리 된 두 가지 질문에 대답한다는 사실에 기인 할 수 있습니다. 그들 사이의 날카로운 이분법은 한 번 지적되었지만 자신의 코를 보는 것처럼 눈에 띄지 않는 근본적인 것입니다. 혼돈 이론과 데이터 마이닝과 같은 필드의 상대적인 새로움이 구현의 일부 어려움을 설명한다는 믿음에 대한 타당성이있을 수 있지만, 이러한 필드가 단순히 다른 측면을 다루기 때문에 이러한 필드가 성숙하더라도 상대적인 불균형이 지속될 것으로 예상 할 수 있습니다. 같은 동전. 현재까지 거의 모든 구현은 몇 가지 수수께끼의 혼란을 나타내는 잘 정의 된 출력을 가진 알려진 기능에 대한 연구에있었습니다. 신경망 및 의사 결정 트리와 같은 데이터 마이닝 및 개별 기술은 모두 알려지지 않거나 잘못 정의 된 기능의 결정과 관련됩니다. 패턴 인식 및 퍼지 세트와 같은 관련 필드도 마찬가지로 해당 조직의 수단이 명확하지 않은 경우 종종 알려지지 않거나 잘못 정의 된 기능 결과의 구성으로 볼 수 있습니다. 이것은 거의 드문 상황에서만 교차 할 수없는 실질적으로 극복 할 수없는 틈을 만들어냅니다. 그러나 단일 사용 사례의 루 브릭으로 그룹화 할 수도 있습니다. 데이터 마이닝 알고리즘과의 비 주기적 간섭 방지. 패턴 인식 및 퍼지 세트와 같은 관련 필드도 마찬가지로 해당 조직의 수단이 명확하지 않은 경우 종종 알려지지 않거나 잘못 정의 된 기능 결과의 구성으로 볼 수 있습니다. 이것은 거의 드문 상황에서만 교차 할 수없는 실질적으로 극복 할 수없는 틈을 만들어냅니다. 그러나 단일 사용 사례의 루 브릭으로 그룹화 할 수도 있습니다. 데이터 마이닝 알고리즘과의 비 주기적 간섭 방지. 패턴 인식 및 퍼지 세트와 같은 관련 필드도 마찬가지로 해당 조직의 수단이 명확하지 않은 경우 종종 알려지지 않거나 잘못 정의 된 기능 결과의 구성으로 볼 수 있습니다. 이것은 거의 드문 상황에서만 교차 할 수없는 실질적으로 극복 할 수없는 틈을 만들어냅니다. 그러나 단일 사용 사례의 루 브릭으로 그룹화 할 수도 있습니다. 데이터 마이닝 알고리즘과의 비 주기적 간섭 방지.

카오스 사이언스 워크 플로우와의 비 호환성

"카오스 사이언스"의 일반적인 워크 플로우는 알려진 다이어그램의 함수, 종종 분기 다이어그램, Hénon 맵, Poincaré 섹션, 위상 다이어그램 및 위상 궤적과 같은 위상 공간의 시각 보조 도구와 함께 계산 된 계산을 수행하는 것입니다. 연구원들이 전산 실험에 의존한다는 사실은 혼란스러운 효과가 얼마나 어려운지를 보여줍니다. 일반적으로 펜과 종이로 결정할 수있는 것은 아닙니다. 또한 비선형 함수에서만 발생합니다. 알려진 작업 기능이 없으면이 워크 플로를 실행할 수 없습니다. 데이터 마이닝은 회귀 방정식, 퍼지 함수 등을 생성 할 수 있지만 모두 동일한 제한을 공유합니다. 이들은 일반적인 근사치이며 훨씬 더 넓은 오차 범위를 갖습니다. 반대로 혼란에 노출 된 알려진 기능은 비교적 드물다. 혼돈 패턴을 생성하는 입력의 범위도 마찬가지이므로 혼돈 효과를 테스트하기 위해서는 높은 수준의 특이성이 필요합니다. 알려지지 않은 기능의 위상 공간에 존재하는 이상한 어 트랙터는 정의와 입력이 변경됨에 따라 Alligood 등과 같은 저자가 설명한 탐지 절차를 크게 복잡하게 만들거나 완전히 사라질 것입니다.

데이터 마이닝 결과의 오염 물질로서의 혼란

사실, 데이터 마이닝과 그 친척이 혼돈 이론과의 관계는 사실상 대적입니다. 암호화 체계의 혼란을 활용하는 적어도 하나의 연구 논문을 검토 한 결과, 암호화 분석을 특정 형태의 데이터 마이닝으로 광범위하게 본다면 말 그대로 사실입니다 (현재 인용을 찾을 수는 없지만 사냥 할 수는 있습니다) 요청시 다운). 데이터 마이너에게는 혼란이 존재하는 것은 일반적으로 나쁜 일입니다. 출력이 아닌 것처럼 보이는 값 범위는 출력이 알 수없는 함수를 근사화하는 이미 힘든 과정을 크게 복잡하게 만들 수 있기 때문에 좋지 않습니다. 데이터 마이닝 및 관련 필드에서 혼돈을 가장 일반적으로 사용하는 것은이를 배제하는 것입니다. 혼란스러운 효과가 있지만 감지되지 않으면 데이터 마이닝 벤처에 미치는 영향을 극복하기 어려울 수 있습니다. 일반적인 신경망이나 의사 결정 트리가 혼란스런 인력의 겉보기에 무의미한 결과에 얼마나 쉽게 적합 할 수 있는지, 또는 입력 값이 갑자기 급등하여 회귀 분석을 혼란스럽게 만들고 나쁜 표본이나 다른 오류의 원인이 될 수있는 방법을 생각해보십시오. 모든 기능과 입력 범위에서 혼돈의 영향이 드물다는 것은 실험자에 의해 그 기능에 대한 조사가 심각하게 우선시되지 않음을 의미합니다.

데이터 마이닝 결과에서 혼돈을 탐지하는 방법

혼돈 이론과 관련된 특정 조치는 Kolmogorov Entropy와 같은 비 주기적 효과를 식별하고 위상 공간이 긍정적 인 Lyapunov 지수를 나타내는 요구 사항에 유용합니다. 이것들은 AB Ҫambel의 Applied Chaos Theory에서 제공되는 혼돈 감지 체크리스트 [2]에 있지만 Lyapunov 지수와 같은 근사 함수에는 유용하지 않으며 알려진 한계가있는 명확한 함수가 필요합니다. 그럼에도 불구하고 그가 설명하는 일반적인 절차는 데이터 마이닝 상황에서 유용 할 수 있습니다. 암벨의 목표는 궁극적으로 "혼돈 통제"프로그램, 즉 방해하는 비 주기적 효과를 제거하는 것입니다. [3] 혼돈으로 이어지는 분수 차원을 탐지하기위한 박스-카운팅 및 상관 차원을 계산하는 것과 같은 다른 방법은 Lyapunov 및 그의 목록에있는 다른 것보다 데이터 마이닝 응용에서 더 실용적 일 수 있습니다. 혼돈 효과의 또 다른 이야기는 함수 출력에주기 배가 (또는 3 배 이상) 패턴이 존재한다는 것인데, 이는 종종 위상 다이어그램에서 비 주기적 (즉, "혼돈") 동작보다 우선합니다.

탄젠트 어플리케이션 차별화

이 기본 사용 사례는 혼돈 이론과 접하는 유일한 응용 프로그램 클래스와 차별화되어야합니다. 면밀히 살펴보면, 제 질문에 제공 한“잠재적 응용 프로그램”목록은 실제로 카오스 이론이 의존하는 개념을 활용하기위한 아이디어로 구성되어 있지만 비 주기적 행동이없는 경우 독립적으로 적용 할 수 있습니다 (기간을 두 배로 늘림 제외). 나는 최근에 새로운 전위차 적 틈새 사용을 생각하여 국소 적 최소 점에서 신경망을 터뜨리기 위해 비 주기적 행동을 생성했지만 이것도 접선 응용 프로그램 목록에 속할 것입니다. 그들 중 많은 사람들이 혼돈 과학에 대한 연구의 결과로 발견되거나 다뤄졌지만 다른 분야에도 적용될 수 있습니다. 이 "접선 응용 프로그램"은 서로에 대한 퍼지 연결 만 가지고 있지만 고유 한 클래스를 형성합니다. 데이터 마이닝에서 혼돈 이론의 주요 사용 사례에서 엄격한 경계로 분리; 첫 번째는 비 주기적 패턴이없는 혼돈 이론의 특정 측면을 활용하는 반면, 후자는 데이터 마이닝 결과에서 복잡한 요소로 혼돈을 배제하는 데 전념합니다. . 우리가 혼돈 이론과 다른 개념을 올바르게 사용한다면, 그것을 올바르게 사용한다면, 전자의 적용이 본질적으로 일반적인 과학 연구에서 알려진 기능으로 제한되어 있음을 쉽게 알 수 있습니다. 혼돈이 없을 때 이러한 2 차 개념의 잠재적 적용에 대해 흥분 할만한 충분한 이유가 있습니다. 그러나 예상치 못한 비 주기적 행동이 데이터 마이닝에 존재할 때 오염 효과에 대해 걱정할 이유도 있습니다. 그러한 경우는 드물지만 희귀 성 또한 탐지되지 않을 것입니다. belambel의 방법은 이러한 문제를 방지하는 데 사용할 수 있습니다.

[1] 143-147 쪽, Alligood, Kathleen T .; Sauer, Tim D. 및 Yorke, James A., 2010, Chaos : 동적 시스템 소개, Springer : New York. [2] pp. 208-213, bel 암벨, AB, 1993, 응용 혼돈 이론 : 복잡성 패러다임, Academic Press, Inc .: 보스턴. [3] p. 215, 암벨.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.