"복제"행 또는 열 벡터


154

때때로 행 또는 열 벡터를 행렬에 "복제"하는 것이 유용합니다. 복제함으로써 나는 다음과 같은 행 벡터를 변환하는 것을 의미합니다.

[1,2,3]

행렬로

[[1,2,3]
 [1,2,3]
 [1,2,3]
]

또는 다음과 같은 열 벡터

[1
 2
 3
]

으로

[[1,1,1]
 [2,2,2]
 [3,3,3]
]

matlab 또는 옥타브에서 이것은 매우 쉽게 수행됩니다.

 x = [1,2,3]
 a = ones(3,1) * x
 a =

    1   2   3
    1   2   3
    1   2   3

 b = (x') * ones(1,3)
 b =

    1   1   1
    2   2   2
    3   3   3

나는 이것을 numpy로 반복하고 싶지만 실패했습니다.

In [14]: x = array([1,2,3])
In [14]: ones((3,1)) * x
Out[14]:
array([[ 1.,  2.,  3.],
       [ 1.,  2.,  3.],
       [ 1.,  2.,  3.]])
# so far so good
In [16]: x.transpose() * ones((1,3))
Out[16]: array([[ 1.,  2.,  3.]])
# DAMN
# I end up with 
In [17]: (ones((3,1)) * x).transpose()
Out[17]:
array([[ 1.,  1.,  1.],
       [ 2.,  2.,  2.],
       [ 3.,  3.,  3.]])

첫 번째 방법 ( In [16])이 작동 하지 않은 이유는 무엇 입니까? 파이썬 에서이 작업을보다 우아한 방법으로 달성 할 수있는 방법이 있습니까?


6
Matlab에서는 다음을 사용하는 것이 훨씬 빠릅니다 repmat. repmat([1 2 3],3,1)또는repmat([1 2 3].',1,3)
Luis Mendo

옥타브도 있습니다 repmat.
ma11hew28

팬더 데이터 프레임 체크 아웃과 비슷한 것을 tile_df
원한다면

답변:


80

우아하고 파이썬적인 방법은 다음과 같습니다.

>>> array([[1,2,3],]*3)
array([[1, 2, 3],
       [1, 2, 3],
       [1, 2, 3]])

>>> array([[1,2,3],]*3).transpose()
array([[1, 1, 1],
       [2, 2, 2],
       [3, 3, 3]])

문제 [16]는 조옮김이 배열에 영향을 미치지 않는다는 것 같습니다. 아마도 대신 행렬을 원할 것입니다.

>>> x = array([1,2,3])
>>> x
array([1, 2, 3])
>>> x.transpose()
array([1, 2, 3])
>>> matrix([1,2,3])
matrix([[1, 2, 3]])
>>> matrix([1,2,3]).transpose()
matrix([[1],
        [2],
        [3]])

1
(조옮김은 2D 배열, 예를 들어 정사각형 배열, (N,1)또는를 사용하여 모양 배열 로 전환 할 때 작동 .reshape(-1, 1))
Mark

34
이것은 매우 비효율적입니다. pv. 's answer에numpy.tile 표시된대로 사용하십시오 .
David Heffernan

302

사용 numpy.tile:

>>> tile(array([1,2,3]), (3, 1))
array([[1, 2, 3],
       [1, 2, 3],
       [1, 2, 3]])

또는 반복되는 열의 경우 :

>>> tile(array([[1,2,3]]).transpose(), (1, 3))
array([[1, 1, 1],
       [2, 2, 2],
       [3, 3, 3]])

16
공감! 내 시스템에서 10000 개의 요소가 1000 번 반복되는 벡터의 경우 tile방법은 현재 승인 된 답변의 방법보다 19.5 배 빠릅니다 (곱셈 연산자 방법 사용).
박사 Jan-Philip Gehrcke

1
두 번째 섹션 ( "반복 열")에서 두 번째 대괄호 세트의 기능, 즉 [[1,2,3]]
Ant

@ 첫 번째 축의 길이 1 (화면의 수직)과 두 번째 축의 길이 3 (화면의 수평)의 2D 배열로 만듭니다. 그런 다음 조옮김하면 첫 번째 축의 길이 3과 두 번째 축의 길이 1이됩니다. 타일 ​​모양은 (1, 3)이 열을 세 번 이상 복사하므로 결과 행에 각각 고유 한 단일 요소가 포함됩니다.
BallpointBen

이미 초기화 된 벡터를 전달할 수있는 반면, 벡터를 초기화하는 동안 쉼표를 추가하는 경우에만 허용되는 것이 가능하므로 허용되는 답변이어야합니다. 감사 !
요한 오바 디아

나는 이것을 2D에서 3D 솔루션으로 작동시킬 수 없다 :(
john ktejik

41

먼저 numpy의 브로드 캐스트 작업에서는 일반적으로 행과 열을 복제 할 필요가 없습니다. 참조 에 대한 설명.

그러나 이렇게하려면 반복새로운 축 이 가장 좋은 방법 일 것입니다.

In [12]: x = array([1,2,3])

In [13]: repeat(x[:,newaxis], 3, 1)
Out[13]: 
array([[1, 1, 1],
       [2, 2, 2],
       [3, 3, 3]])

In [14]: repeat(x[newaxis,:], 3, 0)
Out[14]: 
array([[1, 2, 3],
       [1, 2, 3],
       [1, 2, 3]])

이 예제는 행 ​​벡터에 대한 것이지만 이것을 열 벡터에 적용하는 것은 분명합니다. 반복은이 철자를 잘 쓰는 것처럼 보이지만 예제와 같이 곱셈을 통해 할 수도 있습니다.

In [15]: x = array([[1, 2, 3]])  # note the double brackets

In [16]: (ones((3,1))*x).transpose()
Out[16]: 
array([[ 1.,  1.,  1.],
       [ 2.,  2.,  2.],
       [ 3.,  3.,  3.]])

5
newaxis는 필요할 때까지 실제로 데이터를 복사하지 않는다는 추가 이점이 있습니다. 따라서 다른 3x3 배열에 곱하거나 추가하기 위해이 작업을 수행하는 경우 반복이 필요하지 않습니다. 아이디어를 얻으려면 numpy 방송을 읽으십시오.
AFoglia

@AFoglia-좋은 지적입니다. 나는 이것을 지적하기 위해 대답을 업데이트했다.
tom10

1
np.repeatvs 를 사용하면 어떤 이점이 np.tile있습니까?
mrgloom

@mrgloom :이 경우에는 대부분 없습니다. 작은 1D 배열의 경우 유사하며 큰 차이 / 혜택 / 장점 / 등이 없습니다. 개인적으로 행 복제와 열 복제 사이의 대칭이 더 직관적이라는 것을 알았습니다. 타일에 필요한 조옮김은 마음에 들지 않지만 맛의 문제 일뿐입니다. Mateen Ulhaq의 답변에 따르면 반복은 빠르지 만 반복은 C 기능에 훨씬 가깝지만 정확한 고려 사례에 따라 달라질 수 있으므로 다소 빠를 것입니다. 2D에서는 동작이 다르므로 중요합니다.
tom10

12

허락하다:

>>> n = 1000
>>> x = np.arange(n)
>>> reps = 10000

제로 비용 할당

보기는 추가 메모리를하지 않습니다. 따라서 이러한 선언은 즉각적입니다.

# New axis
x[np.newaxis, ...]

# Broadcast to specific shape
np.broadcast_to(x, (reps, n))

강제 할당

내용을 메모리에 강제로 저장하려면 다음을 수행하십시오.

>>> %timeit np.array(np.broadcast_to(x, (reps, n)))
10.2 ms ± 62.3 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

>>> %timeit np.repeat(x[np.newaxis, :], reps, axis=0)
9.88 ms ± 52.4 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

>>> %timeit np.tile(x, (reps, 1))
9.97 ms ± 77.3 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

세 가지 방법 모두 대략 같은 속도입니다.

계산

>>> a = np.arange(reps * n).reshape(reps, n)
>>> x_tiled = np.tile(x, (reps, 1))

>>> %timeit np.broadcast_to(x, (reps, n)) * a
17.1 ms ± 284 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

>>> %timeit x[np.newaxis, :] * a
17.5 ms ± 300 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

>>> %timeit x_tiled * a
17.6 ms ± 240 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

세 가지 방법 모두 대략 같은 속도입니다.


결론

계산 전에 복제하려면 "제로 비용 할당"방법 중 하나를 사용하십시오. "강제 할당"으로 인한 성능 저하가 발생하지 않습니다.


8

나는 numpy에서 방송을 사용하는 것이 가장 좋고 빠르다고 생각합니다.

나는 다음과 같이 비교했다

import numpy as np
b = np.random.randn(1000)
In [105]: %timeit c = np.tile(b[:, newaxis], (1,100))
1000 loops, best of 3: 354 µs per loop

In [106]: %timeit c = np.repeat(b[:, newaxis], 100, axis=1)
1000 loops, best of 3: 347 µs per loop

In [107]: %timeit c = np.array([b,]*100).transpose()
100 loops, best of 3: 5.56 ms per loop

방송을 사용하여 약 15 배 더 빠름


None같은 작업을 수행하기 위해 색인을 생성 할 수 있습니다 .
DanielSank

newaxis는 무엇입니까?!
dreab

np.newaxis 없음의 별칭입니다
존 ktejik

반복이 더 빨랐다 : 5.56 ms = 5560 µs
Augusto Fadel

4

깨끗한 솔루션 중 하나는 NumPy의 외부 제품 함수를 벡터로 사용하는 것입니다.

np.outer(np.ones(n), x)

n반복되는 행을 제공 합니다. 반복되는 열을 얻으려면 인수 순서를 전환하십시오. 같은 수의 행과 열을 얻으려면

np.outer(np.ones_like(x), x)

3

당신이 사용할 수있는

np.tile(x,3).reshape((4,3))

타일은 벡터의 담당자를 생성합니다

모양을 변경하면 원하는 모양이됩니다.


1

팬더 데이터 프레임이 있고 범주를 포함하여 dtype을 유지하려는 경우이를 수행하는 가장 빠른 방법입니다.

import numpy as np
import pandas as pd
df = pd.DataFrame({1: [1, 2, 3], 2: [4, 5, 6]})
number_repeats = 50
new_df = df.reindex(np.tile(df.index, number_repeats))

-1
import numpy as np
x=np.array([1,2,3])
y=np.multiply(np.ones((len(x),len(x))),x).T
print(y)

수율 :

[[ 1.  1.  1.]
 [ 2.  2.  2.]
 [ 3.  3.  3.]]
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.