고차원 데이터 시각화의 목적?


23

T-SNE, isomap, PCA, Supervised PCA 등과 같은 고차원 데이터 세트를 시각화하기위한 많은 기술이 있습니다. 그리고 우리는 2D 또는 3D 공간으로 데이터를 투사하는 동작을 수행하므로 "예쁜 그림이 있습니다. ". 이러한 포함 (매니 폴드 학습) 방법 중 일부가 여기 에 설명되어 있습니다 .

여기에 이미지 설명을 입력하십시오

그러나이 "예쁜 그림"은 실제로 의미가 있습니까? 이 임베디드 공간을 시각화하여 어떤 통찰력을 얻을 수 있습니까?

이 임베디드 공간으로의 투영은 일반적으로 의미가 없기 때문에 묻습니다. 예를 들어, PCA에서 생성 한 주요 구성 요소로 데이터를 투영하는 경우 해당 주요 구성 요소 (eiganvector)는 데이터 세트의 기능과 일치하지 않습니다. 그들은 자신의 기능 공간입니다.

마찬가지로 t-SNE는 데이터를 KL 발산을 최소화하면 서로 가까이있는 공간으로 데이터를 투사합니다. 이것은 더 이상 원래 기능 공간이 아닙니다. (내가 틀렸다면 정정하십시오. 그러나 ML 커뮤니티가 t-SNE를 사용하여 분류를 돕기 위해 많은 노력을 기울이고 있다고 생각하지도 않습니다.하지만 데이터 시각화와는 다른 문제입니다.)

사람들이 왜 이러한 시각화 중 일부에 대해 그렇게 많이 만드는지 혼란 스럽습니다.


"예쁜 그림"에 관한 것이 아니라 고차원 데이터를 시각화하는 목적은 일반 2/3 차원 데이터를 시각화하는 것과 유사합니다. 예 : 상관 관계, 경계 및 특이 치
eliasah

@eliasah : 이해합니다. 그러나 데이터를 투영하는 공간은 더 이상 원래 공간이 아니므로 일부 도형이 높은 차원으로 왜곡 될 수 있습니다. 4 차원의 얼룩이 있다고 가정합니다. 2D 또는 3D로 투영하자마자 구조물이 이미 파괴되었습니다.
hlin117

데이터가 그림과 같이 저 차원 매니 폴드에있는 경우에는 아닙니다. 이 매니 폴드를 결정하는 것은 매니 폴드 학습의 목표입니다.
Emre

답변:


9

나는 자연 언어 처리를 예로 들어 설명합니다. 왜냐하면 그것은 더 많은 경험을 가진 분야이기 때문에 다른 사람들이 컴퓨터 비전, 생물 통계학, 시계열 등과 같은 다른 분야에서 그들의 통찰력을 공유하도록 장려합니다. 비슷한 예.

때로는 모델 시각화가 의미가 없다는 데 동의하지만, 이런 종류의 시각화의 주된 목적은 모델이 실제로 인간의 직관 또는 다른 (계산이 아닌) 모델과 관련이 있는지 확인하는 데 도움이된다고 생각합니다. 또한 데이터에 대해 탐색 데이터 분석을 수행 할 수 있습니다.

Gensim을 사용하여 Wikipedia의 말뭉치로 만든 단어 포함 모델이 있다고 가정 해 봅시다.

model = gensim.models.Word2Vec(sentences, min_count=2)

그런 다음 최소 두 번 존재하는 모음에 표현 된 각 단어에 대해 100 차원 벡터를 갖게됩니다. 따라서이 단어를 시각화하려면 t-sne 알고리즘을 사용하여 2 차원 또는 3 차원으로 줄여야합니다. 여기에 매우 흥미로운 특성이 나타납니다.

예를 들어 보자.

vector ( "king") + vector ( "man")-vector ( "woman") = 벡터 ( "queen")

http://multithreaded.stitchfix.com/blog/2015/03/11/word-is-worth-a-thousand-vectors/

여기서 각 방향은 특정 ​​의미 적 특징을 인코딩합니다. 3D에서도 마찬가지입니다.

https://www.tensorflow.org/versions/master/images/linear-relationships.png
(출처 : tensorflow.org )

이 예에서 과거 시제가 해당 분사의 특정 위치에 어떻게 위치하는지보십시오. 성별도 마찬가지입니다. 국가 및 수도와 동일합니다.

임베드 세계라는 단어에서 더 오래되고 순진한 모델에는이 속성이 없었습니다.

자세한 내용은이 스탠포드 강의를 참조하십시오. 간단한 단어 벡터 표현 : word2vec, GloVe

그것들은 의미론을 고려하지 않고 유사한 단어들을 묶는 것으로 만 제한되었습니다 (성 또는 동사 시제는 방향으로 인코딩되지 않았습니다). 놀랍게도 낮은 차원의 방향으로 의미 인코딩이있는 모델이 더 정확합니다. 더 중요한 것은 각 데이터 포인트를보다 적절한 방식으로 탐색하는 데 사용될 수 있습니다.

이 특별한 경우에, 나는 t-SNE가 분류 자체를 돕기 위해 사용되지 않는다고 생각합니다. 모델에 대한 온 전성 검사와 같으며 때로는 사용중인 특정 모음에서 통찰력을 찾는 것입니다. 벡터가 더 이상 원래 피처 공간에 있지 않다는 문제가 있습니다. Richard Socher는 강의에서 저 차원 벡터는 저 차원 임베딩 벡터에서 시각적으로 그럴듯하게 분석 할 수있는 다른 통계적 속성뿐만 아니라 자체적으로 더 큰 표현으로 통계 분포를 공유한다고 설명합니다.

추가 자료 및 이미지 출처 :

  1. http://multithreaded.stitchfix.com/blog/2015/03/11/word-is-worth-a-thousand-vectors/

  2. https://www.tensorflow.org/tutorials/word2vec/index.html#motivation_why_learn_word_embeddings%3F

  3. http://deeplearning4j.org/word2vec.html

  4. https://www.tensorflow.org/tutorials/word2vec/index.html#motivation_why_learn_word_embeddings%3F


11

먼저 방법에 대한 귀하의 설명이 옳습니다. 요점은 임베딩 알고리즘은 통계적 데이터 분석의 두 가지 주요 문제, 즉 Dimentionaliy의 저주낮은 표본 크기 문제 에 대처하기 위해 차원을 시각화 할뿐만 아니라 기본적으로 차원을 줄여 물리적으로 이해되는 특징을 나타내지 않아야한다는 점입니다. 의미 가있을뿐 아니라 데이터 분석뿐만 아니라 필요!

실제로 시각화는 임베딩 방법의 거의 마지막 사용법입니다. 고차원 데이터를 저 차원 공간에 투영하면 고차원으로 왜곡되거나 다른 기능의 분산에 포함 된 대부분의 정보를 캡처하는 실제 쌍별 거리 (주로 유클리드 거리)를 보존 할 수 있습니다.


10

Richard Hamming은 "컴퓨팅의 목적은 숫자가 아니라 통찰력입니다."라는 문장에 기인합니다. 이 1973 년 학술지 ( 완전히 다르게 보이지만 유사한 요약 통계를 갖는 유명한 데이터 세트 란 무엇입니까?의 토론 참조)), Francis Anscombe는 "그래프는 우수한 통계 분석에 필수적"이라고 주장합니다. Anscombe의 4 중주는 오랜 시간 동안 인기를 얻었습니다. 같은 통계와 회귀, 낮은 차원이지만 잡음, 특이 치, 의존성에 대해 매우 다른 동작입니다. 아래에 표시된 2 차원으로 11 차원 데이터를 투영하는 것은 오해의 소지가 있습니다. 하나는 상관 관계와 분산이 있고, 두 번째 (아래 아래)는 하나의 특이 치를 제외하고 정확히 일치합니다. 세 번째는 명확한 관계가 있지만 선형은 아닙니다. 네 번째는 변수가 임계 값을 제외하고 잠재적으로 관련이 없음을 보여줍니다.

여기에 이미지 설명을 입력하십시오

Bruce L. Brown 의 Biobehavioral and Social Sciences 다변량 분석 책에서 . , 우리는 찾을 수있어:

Latour는 그의 1990 년 작품 "Drawing Things Together"에서 어려운 과학자들의 사고 방식이 그래피 즘에 대한 강렬한 "집착"중 하나라고 주장합니다.

3D 공간, 최대 6 차원 플롯 (공간, 색상, 모양 및 시간)으로 제한되거나 10 차원을 상상하더라도 인간은 시야가 제한적입니다. 관찰 가능한 현상 사이의 관계 : 아닙니다.

또한, 차원의 저주가 차원이 작은 역설로 분류되어 다음과 같은 몇 가지를 제공합니다.

모든 규범이 유한 차원에서 동일하더라도 변수 간의 관계가 잘못 될 수 있습니다. 이것은 한 공간에서 다른 공간으로 거리를 유지하는 한 가지 이유입니다. 이러한 개념은 신호에 대한 더 낮은 차원의 임베딩의 핵심입니다 (예 : 압축 감지 및 고차원에서 저 차원 유클리드 공간으로 점의 저 왜곡 임베딩에 관한 Johnson-Lindenstauss lemma ) 또는 특징 ( 분류를위한 산란 변환 ) .

따라서 시각화는 데이터에 대한 통찰력을 얻는 데 도움이되는 또 다른 도움이되며 차원 축소를 포함한 계산과 밀접한 관련이 있습니다.

피자 박스 역설

2 차원에서 중앙 파란 공은 작습니다. 3D에서도. 그러나 매우 빨리 중심 볼이 커지고 반경이 큐브의 반경을 초과합니다. 예를 들어 이러한 통찰력은 중요한 클러스터링입니다.


4

진술과 토론을 바탕으로 구별해야 할 중요한 점이 있다고 생각합니다. 저 차원 공간으로의 변환은 은 정보를 감소시킬 수 있으며, 이는 정보를 무의미 하게 만드는 것과는 다른 것 입니다. 다음 비유를 사용하겠습니다.

우리 세상의 사진 (2D)을 관찰하는 것은 일반적인 관행입니다. 시각화 방법은 차원이 큰 공간을보기 위해 서로 다른 "안경"만 제공합니다.

시각화 방법을“신뢰”하는 것이 내부를 이해하는 것입니다. 내가 가장 좋아하는 예는 MDS 입니다. 일부 최적화 도구 (예 : R optim )를 사용하여이 방법을 쉽게 구현할 수 있습니다 . 당신이 할 수 있도록 표시 하는 방법 방법 단어를, 당신은 할 수있다 결과 등 의 오류측정

결국 원본 데이터의 유사성을 어느 정도 정밀하게 유지하는 그림을 얻을 수 있습니다. 더 이상은 아니지만.


4

때로는 물리학을 말할 수 있기 때문에 고차원 데이터를 시각화하는 것이 의미가 있습니다.

천체 물리학에는 데이터를 PCA가 생성 한 주요 구성 요소로 투영하는 예가 하나 이상 있으며, 이러한 주요 구성 요소는 은하에 대한 많은 물리적 통찰에 해당합니다. 자세한 내용은 http://www.astroml.org/sklearn_tutorial/dimensionality_reduction.html#id2 의 마지막 그림을 참조하십시오.

그리고 종이에

http://iopscience.iop.org/article/10.1086/425626/pdf

기본 아이디어는 다음과 같습니다. 저자는 망원경을 통해 PCA를 많은 스펙트럼 (예 : 10,000)에 적용합니다. 각 스펙트럼에는 ~ 1000 개의 속성이 있습니다. 이 데이터 세트는 크기가 크기 때문에 시각화하기가 어렵습니다. 그러나 PCA의 첫 4 가지 구성 요소는 스펙트럼에 대해 많은 물리학을 보여줍니다 (위 논문의 4.1-4.4 절 참조).


4

여기의 다른 훌륭한 답변과 약간 다른 접근법을 취하면 "예쁜 그림"은 천 단어의 가치가 있습니다. 궁극적으로, 당신은 결과를 통계적으로 이해하지 못하거나 단순히 시간, 관심 또는 그 밖의 모든 상황을 파악할 수없는 사람에게 결과를 전달해야합니다. 그렇다고해서 적어도 일반적인 개념이나 현실의 한 부분을 이해하도록 도울 수는 없습니다. Freakonomics와 같은 책은 수학과 데이터 세트가 거의 없지만 결과는 여전히 제시됩니다.

예술 에서 러시아의 퇴각에 있는 원수 Ney를 보십시오 . 그럼에도 불구하고이 나폴레옹 전쟁에 대한 과장된 단순화는 큰 의미를 전달하며 심지어 전쟁에 대해 가장 무지한 지식을 가진 사람들도 러시아의 침략에 침투 한 잔인 함, 기후, 풍경, 죽음 및 장식을 이해할 수있게합니다.

궁극적으로 차트는 단순히 의사 소통이며, 인간의 의사 소통은 종종 의사 소통, 단순화 및 간결성에 중점을 둡니다.


3

훌륭한 질문입니다. James J. Thomas와 Kristin A. Cook이 쓴 "비주얼 분석을위한 경로, 연구 및 개발 의제"의 4 장에서 데이터 표현 및 데이터 변환에 대해 논의합니다. 내 연구에서 나는 PCA 및 요인 분석의 맥락 에서이 질문에 접근했습니다. 간단한 대답은 시각화 공간에서 원래 데이터 공간으로 이동할 데이터 변환이있는 경우 시각화가 유용하다는 것입니다. 이는 시각적 분석 프레임 워크 내에서 추가로 수행됩니다.


투영 된 공간에서 원래 공간으로의 매핑이 적합합니다. 그러나 다른 사용 사례가 있습니까?
hlin117

또한 "비주얼 애널리틱스의 연구 개발 아젠다 길을 밝히기"의 4 장을 살펴 보았습니다. 가시적 인 부분 공간의 고차원 시각화에 대해서는 언급하지 않습니다.
hlin117
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.