응용 데이터 과학에서 정보 이론의 사용


9

오늘 저는 제임스 스톤 (James Stone)의 "정보 이론 : 튜토리얼 소개" 라는 책을 읽었 으며 응용 데이터 과학 에서 정보 이론 의 사용 정도에 대해 한두 번 생각했습니다 (여전히 다소 모호한 용어에 익숙하지 않다면, IMHO 데이터 과학이 영화화 된 버전 이라고 생각 합니다 . 나는의 중요한 사용을 잘 알고있어 정보 이론 기반의 접근 방식 , 방법조치 , 특히, 엔트로피 , 후드 아래 다양한 통계 기법과 데이터 분석 방법.

그러나 저는 응용 사회 과학자 가 이론의 수학적 기원에 너무 깊이 빠져들지 않고 개념, 측정 및 도구 를 성공적으로 선택 하고 적용 하는 데 필요한 지식 의 정도 / 수준 에 대해 궁금 합니다. 귀하의 답변을 기다리겠습니다. 위에 언급 된 책 (또는 기타 유사한 책의 맥락에서) 또는 일반적으로 저의 우려를 해결할 수 있습니다.

나는 또한 논의 인쇄 또는 온라인 소스에 대한 몇 가지 권장 사항 감사하겠습니다 정보 이론 과 개념의에서, 방법 및 조치에 접근 컨텍스트 (에서의 비교 다른 (더)로) 기존의 통계 방법 ( 빈도주의베이지안 ).


2
아마도 엔트로피를 사용하는 가장 잘 알려진 "적용된"사례 중 하나가 나무를 만들 때 발생합니다. 알고리즘이 분할 될 때 가능한 가능성 중 하나는 정보 게인 메트릭을 취하는 것인데, 이는 최상위 수준과 하위 수준 사이의 엔트로피 차이입니다. 여기에 더 많은 정보가 있습니다. en.wikipedia.org/wiki/Information_gain_in_decision_trees
D.Castro

@ D.Castro : 귀하의 의견에 감사드립니다-그 사건에 대해 알고 있습니다 (또한 Cross Validated 또는 Data Science SE 사이트 에서이 정확한 주제에 대한 답변을 게시했습니다). 주제의보다 포괄적 인 범위 / 토론을 기대하고 있습니다.
Aleksandr Blekh

1
저에게는, 그리고 대부분 대륙 교육뿐만 아니라 훈련을받는 분야 나 분야의 문제입니다. 필자의 견해로는 물리학 자, 수학자, 순수 머신 러닝 전문가는 통계 학자, 경제학자 또는 정량적 재무 분석가보다 정보 이론에 깊이 노출 될 가능성이 훨씬 높다. 또한 유럽에서 훈련받은 사람들을 위해 이것을 두 배로 줄입니다. 즉 유럽인은 IT에 익숙 할 가능성이 훨씬 높습니다. 그러나 통계 학습을위한 모델의 출현은 미국의 데이터 과학자를위한 모델의 변화로 바뀌고 있습니다.
Mike Hunter

@DJohnson 미세한 지점이지만 영국과 다른 곳에서는 IT == 정보 기술입니다. 그렇지 않으면 당신의 인상은 내 것과 비슷합니다.
Nick Cox

@NickCox 감사합니다. 귀하의 요점은 미국에도 적용됩니다. 그것은 더 긴 주석이었고, 공간이 허락한다면, 나는 그 단어의 철자를 쓰셨을 것입니다.
Mike Hunter

답변:


4

질문의 첫 번째 부분 : 데이터 과학자는 정보 이론을 알아야 합니까? 나는 최근까지 대답이 없다고 생각했다. 내가 마음을 바꾼 이유는 소음입니다.

많은 기계 학습 모델 (확률 론적이든 아니든)은 인코딩 및 변환 프로세스의 일부로 노이즈를 사용하며, 이러한 많은 모델에서는 변환 된 모델의 출력을 디코딩 한 후 노이즈가 영향을받을 확률을 추론해야합니다. 이것이 정보 이론의 핵심 부분이라고 생각합니다. 뿐만 아니라 딥 러닝에서 KL 발산은 정보 이론에서 비롯된 매우 중요한 수단입니다.

질문의 두 번째 부분 : 최고의 소스는 David MacKay의 정보 이론, 추론 및 학습 알고리즘 이라고 생각합니다 . 그는 정보 이론 (Information Theory)으로 시작하여 이러한 아이디어를 추론 네트워크와 신경 네트워크에 모두 적용합니다. PDF 파일은 무료입니다 데이브의 웹 사이트강의는 온라인 훌륭한있는


3
훌륭한 책입니다. 관심이 있으신 분은 en.wikipedia.org/wiki/David_J._C._MacKay
Nick Cox

답변 주셔서 감사합니다 (더 이상 포괄적 인 답변이 표시되지 않으면 +1 및 잠재적 수락). 참고 문헌에 대한 특별한 감사. 나는 당신이 거의 잊혀졌지만 중요한 내 질문에 부딪쳤다는 것에 놀랐습니다. :-)
Aleksandr Blekh

예, 흥미 롭습니다. 절대로 질문을 포기해서는 안됩니다. NIPS2016에 참석 한 후 나에게 와서 KL 분기 및 인코더에 대한 노이즈 영향에 대한 모든 이야기를 보았습니다.
Ambodi
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.