게으른 프로그래머의 XML 파서


15

배경

자동차 판매 회사의 프로그래머로 일하고 있습니다. 이번 주 과제는 다른 자동차 제조업체의 사용 가능한 모델에 대한 데이터를 가져오고 최신 모델에 대한 정보를 예쁘게 인쇄하는 XML 파서를 프로그래밍하는 것입니다. 다행히 테스트 부서는 단 하나의 테스트 사례 만 제공했습니다! 코드를 전달하는 코드를 빨리 작성할수록 나머지 주 동안 지연 시간이 더 걸립니다.

입력

귀하의 의견은 정확히 테스트 부서에서 제공하는 XML 데이터의 조각. 여기에는 일부 자동차 제조업체, 일련의 자동차 및이 시리즈의 모델에 대한 데이터가 포함됩니다. 후행 줄 바꿈을 가정 할 수 있습니다.

<?xml version="1.0" ?>
<products>
  <manufacturer name="Test Manufacturer 1">
    <series title="Supercar" code="S1">
      <model>
        <name>Road Czar</name>
        <code>C</code>
        <year>2011</year>
      </model>
      <model>
        <name>Ubervehicle</name>
        <code>U</code>
        <year>2013</year>
      </model>
      <model>
        <name>Incredibulus</name>
        <code>I</code>
        <year>2015</year>
      </model>
      <model>
        <name>Model 1</name>
        <code>01</code>
        <year>2010</year>
      </model>
    </series>
    <series title="Test series 22" code="Test">
      <model>
        <name>Test model asdafds</name>
        <code>TT</code>
        <year>2014</year>
      </model>
    </series>
  </manufacturer>
  <manufacturer name="Car Corporation">
    <series title="Corporation Car" code="CC">
      <model>
        <name>First and Only Model</name>
        <code>FOM</code>
        <year>2012</year>
      </model>
    </series>
  </manufacturer>
  <manufacturer name="Second Test Manufacturer">
    <series title="AAAAAAAAAAAAAA" code="D">
      <model>
        <name>Some older model</name>
        <code>O</code>
        <year>2011</year>
      </model>
      <model>
        <name>The newest model</name>
        <code>N</code>
        <year>2014</year>
      </model>
    </series>
    <series title="BBBBBBBBBBBBBBB" code="asdf">
      <model>
        <name>Another newest model here</name>
        <code>TT</code>
        <year>2015</year>
      </model>
    </series>
  </manufacturer>
</products>

산출

출력은이 문자열입니다. 자동차 제조업체를 알파벳 순서로 나열한 다음 콜론과 시리즈 수를 표시합니다. 각 제조업체에는 최신에서 시작하여 연도별로 시리즈 이름, 모델 이름 및 각 모델의 코드가 나열됩니다. 출력시 출력이 이와 비슷해 보이는 한 후행 공백과 줄 바꿈이 허용됩니다.

Car Corporation: 1 series
  Corporation Car, First and Only Model (CC-FOM)
Second Test Manufacturer: 2 series
  BBBBBBBBBBBBBBB, Another newest model here (asdf-TT)
  AAAAAAAAAAAAAA, The newest model (D-N)
  AAAAAAAAAAAAAA, Some older model (D-O)
Test Manufacturer 1: 2 series
  Supercar, Incredibulus (S1-I)
  Test series 22, Test model asdafds (Test-TT)
  Supercar, Ubervehicle (S1-U)
  Supercar, Road Czar (S1-C)
  Supercar, Model 1 (S1-01)

규칙과 채점

함수 또는 전체 프로그램을 작성할 수 있습니다. 가장 낮은 바이트 수가 이기고 표준 허점은 허용되지 않습니다.

입력은 고정되어 있습니다. 여기에 제공된 것 이외의 다른 입력은 지원하지 않아도됩니다. 입력이 어떤 식 으로든 수정되면 프로그램은 넌센스를 반환하거나 심지어 충돌을 일으킬 수 있습니다. 원하는 경우 입력을 무시하고 출력을 하드 코딩 할 수도 있습니다. 그러나 XML 또는 HTML 파서 라이브러리 또는 내장 기능을 사용할 수 없습니다 .


HTML 파서가 허용됩니까, 아니면 규칙을 위반하는 것입니까?
Downgoat

11
나는이 회사에서 차를 사고 싶지 않다.
kirbyfan64sos

1
@vihan 나는 두 형식이 너무 비슷하기 때문에 HTML 파서도 허용되지 않는다고 임의로 결정합니다.
Zgarb

XSLT는 어떻습니까? ;)
베타 부패

@BetaDecay XSLT를 예외로 허용 할 것입니다. 아마도 해당 언어에서 XML 파싱 작업을 사용 하지 않는 것이 매우 지루하고 귀찮기 때문입니다 . : P 그리고 그것은 CJam 답변과 경쟁하지 않을 것입니다.
Zgarb

답변:


8

CJam, 109 107 바이트

"rzn ¸À¨ 4T\$D"S/q"<>"'"er'"/
f{\:i2/_E5bf.+.+\ff=)1<_s,9/+":  series
"2/.+\"  ,  ()
-"2/Z4e\f.\}

처음에 문자열의 네 문자는 인쇄 할 수 없습니다.

CJam 통역사 에서 온라인으로 사용해보십시오 .

생각

이것은 기본적으로 < , >" 의 모든 발생에서 입력을 분할하고 특정 청크를 선택하여 출력의 나머지 부분과 인터리브 하는 하드 코드입니다 .

입력을 분할 한 후, 인덱스 110 , 114122 의 청크 는 Car Corporation , Corporation CarFirst and Only Model 입니다. 시리즈 및 이름에 대한 코드는 인덱스 116 및 126에서 찾을 수 있으며, 이름의 인덱스에 2와 4를 더하여 계산할 수 있습니다. 마지막으로 시리즈의 수는 문자열 Car Corporation 의 길이를 9 로 나눈 값입니다 (분명히).

따라서이 제조업체에 해당하는 출력 부분 [114 122 110]또는 string 을 인코딩 합니다 "rzn".

암호

e# Split the string at spaces.

"rzn ¸À¨ 4T\$D"S/

e# After replacing characters with their code points, this will be the result:
e# [[114 122 110] [184 192 144 168 144 152 140] [12 52 84 92 12 36 12 20 12 68 8]]

e# Read from STDIN, replace < and > with " and split at double quotes.

q"<>"'"er'"/ 

f{       e# For each chunk of the split string, push the split input; then:
\:i2/    e# Replace characters with character codes and split into chunks of
         e# length 2.
_E5b     e# Copy the result and push [2 4].
f.+      e# Replace each pair [I J] in the copy with [I+2 J+4].
.+       e# Vectorized concatenation.
         e# For the first chunk, we've achieved
         e# [114 122 110] -> [[114 122] [110]]
         e#               -> [[114 122] [110]] [[116 126] [110 112 4]]
         e#               -> [[114 122 116 126] [110 112 4]]
\ff=     e# Replace each integer with the chunk of the split input at that index.
)1<      e# Pop the first chunk and reduce it to the first string.
_s,9/    e# Divide that strings length by 9 and append the integer to the array.
":  series
"2/      e# Push [": " " s" "er" "ie" "s\n"].
.+       e# Vectorized concatenation; pushes the manufacturer line.
\        e# Swap the remaining strings on top of the stack.
"  ,  ()
-"2/     e# Push ["  " ", " " (" ")\n" "-"].
Z4e\     e# Swap the chunks at indexes 3 and 4.
\f.\     e# Interleave both arrays of strings.
}

10

풍선 껌 , 227 225 바이트

0000000: 6d 50 45 b6 02 31 10 dc cf 29 6a 87 eb 92 1d ee 0e 07  mPE..1...)j.......
0000012: 08 93 1e 3c e1 45 be 9d fe 37 ae bd 2b 7d 95 54 85 41  ...<.E...7..+}.T.A
0000024: 55 9b 83 36 c2 ad b5 2a a1 00 4b 66 4d 36 c0 23 0f f6  U..6...*..KfM6.#..
0000036: a5 d1 58 1b eb 20 94 c4 50 ed 7e d1 d7 92 76 88 57 ab  ..X.. ..P.~...v.W.
0000048: 99 c6 b0 9f 08 a6 14 6a 96 66 c4 9e be 50 3e 12 a1 f3  .......j.f...P>...
000005a: 86 4c 09 c5 7b 67 e5 f9 d2 28 2b ed 56 64 a0 e8 9b 83  .L..{g...(+.Vd....
000006c: d8 9f 3a 99 20 c4 85 95 51 66 36 4b 70 ac fc 74 69 cc  ..:. ...Qf6Kp..ti.
000007e: 56 f4 9c 88 d7 32 83 4f c6 a9 de 13 f4 4e 92 b9 1b 87  V....2.O.....N....
0000090: 89 e0 6d 24 0a 4f 33 a7 fe 40 26 e4 37 a3 ad 42 43 72  ..m$.O3..@&.7..BCr
00000a2: bd f0 3b 6f 11 9f 16 32 ed 04 eb a7 fc d9 8d 62 91 f7  ..;o...2.......b..
00000b4: dc 97 f0 6a 11 49 f6 1e b9 cb fc 7b dd 7c 41 e6 8b 56  ...j.I.....{.|A..V
00000c6: eb 70 47 a7 b6 f9 b3 3c d1 42 a2 fa 27 cc 49 ac 3e 89  .pG....<.B..'.I.>.
00000d8: 97 ff 2e 9c a4 7c 21 f1 0f                             .....|!..

이것은 경쟁이 치열하지는 않지만 실제 문제에 대한 첫 번째 풍선 껌 답변을 게시하는 것에 저항 할 수 없었습니다 .

16 진 덤프는로 되돌릴 수 있습니다 xxd -r -c 18 > xml.bg.

코드는 입력을 완전히 무시합니다. 압축은 DEFLATE 형식을 사용하지만 (g) zip보다 나은 비율을 얻는 zopfli 로 수행되었습니다 .

-2 바이트를위한 @ Sp3000에 감사합니다!


9

sed, 449 바이트

-nr옵션으로 sed를 실행한다고 가정합니다 .

/\?|<p/d;:M
/<ma/{s/.*"(.*)".*/Q\1: X series/;/C/ s/X/1/;s/X/2/;H;d}
/<se/{s/.*"([^"]*)".*"([^"]*)".*/@\1!\2/;H;d}
/<mo/{
G;s/.*@(.*)*$/\1/;x;s/@(.*)*$//;x;:A N
/<\/m/!bA
s/\n/!/g;s/  +//g;s|<[/a-z]*>||g;s/(.*)!(.*)!(.*)!(.*)!(.*)!/%\1, \3 (\2-\4)@\1!\2/;H}
/<\/se/{x;s/\n*@.*$//;x}
$!{n;bM}
x;s/\n//g;s/Q(.*)Q(.*)%(.*)Q(.*)/\2\n  \3\n\4\n\1/
s/%(.*)%(.*)%(.*)\n(.*)%(.*)%(.*)%(.*)%(.*)%(.*)/\n  \3\n  \2\n  \1\n\4\n  \7\n  \9\n  \6\n  \5\n  \8/;p

언 골프 버전 :

# Remove first 2 lines
/\?|<p/ d

:M
#manufacturer
/<ma/ {
    s/.*"(.*)".*/Q\1: X series/
    #Car corp
    /C/ s/X/1/
    #other
    s/X/2/
    H
    d
}

#series: store in hold buffer. (treating the hold buffer as a list, with @ as a delimeter)
/<se/{
    s/.*"([^"]*)".*"([^"]*)".*/@\1!\2/
    H
    d
}
/<mo/ {
    # pull series from hold buffer
    G
    s/.*@(.*)*$/\1/

    # remove series from hold buffer
    x
    s/@(.*)*$//
    x

    # Concatenate model into one line
    :A N
    /<\/m/ !{
        bA
    }
    s/\n/!/g

    # Remove junk
    s/  +//g
    s|<[/a-z]*>||g

    # Append formatted line to hold buffer, replace series at the end
    s/(.*)!(.*)!(.*)!(.*)!(.*)!/%\1, \3 (\2-\4)@\1!\2/
    H
}
/<\/se/ {
    #pop series name
    x
    s/\n*@.*$//
    x
}

$ ! {
    n
    b M
}
# end of loop

x
s/\n//g

# "sort"
s/Q(.*)Q(.*)%(.*)Q(.*)/\2\n  \3\n\4\n\1/
s/%(.*)%(.*)%(.*)\n(.*)%(.*)%(.*)%(.*)%(.*)%(.*)/\n  \3\n  \2\n  \1\n\4\n  \7\n  \9\n  \6\n  \5\n  \8/
p

1
프로그래밍 퍼즐 및 코드 골프에 오신 것을 환영합니다!
Dennis

2

배쉬, 388 368 365

base64 -d<<<H4sICKVS9FUCA2hlcmUAbVFBasMwELwH8oc92mBD5GNuqUogB9dQOw9QpDUWKFJYWS3t6yvJtI3T7k07szOzKy4IuKObIzFrZ/fAwCNp9NsN3APABVVw1ORnEFZBZ80HtE6hgYLz+ti15XbTo3QRGzCSWmHDKOQcCGkPzZ3q07oqOFg3T0hg8T1NXrNqbCAUwquxHoYyzR1WVcEw4XqkeK5f/mX27orgjIoeP8wuMv8EBbaO2ocbkkybn6wkVPoSTPBQ9Kw+ZaessPChaarlvXjE6GJUkZx63zv8Cp4vSG84aWkw650f8FcnFPDP+D0J5Q/ocnmWsR0rvwC2OTuexgEAAA==|zcat

다음과 같은 이유로 작은 테스트 :

$ bash ./go_procrastination.sh cars.xml
Car Corporation: 1 series
  Corporation Car, First and Only Model (CC-FOM)
Second Test Manufacturer: 2 series
  BBBBBBBBBBBBBBB, Another newest model here (asdf-TT)
  AAAAAAAAAAAAAA, The newest model (D-N)
  AAAAAAAAAAAAAA, Some older model (D-O)
Test Manufacturer 1: 2 series
  Supercar, Incredibulus (S1-I)
  Test series 22, Test model asdafds (Test-TT)
  Supercar, Ubervehicle (S1-U)
  Supercar, Road Czar (S1-C)
  Supercar, Model 1 (S1-01)

1
인쇄 할 수없는 문자와 경고를 피하려고하더라도 훨씬 짧아 질 수 있습니다. 1. 압축 파일에 원본 파일 이름이 포함되어 있습니다 car_manufacturer.txt. 2. here 문자열은 3 바이트 더 짧습니다. 3. 바닐라 gzip 대신 zopfli를 사용하면 12 바이트가 더 절약됩니다.
Dennis

충고 감사합니다. 실제로 그것은 약간의 바이트를 절약했습니다. 그러나 도전의 분위기를 유지하기 위해 게으름은 zopfli 또는 PAQ 데이터 압축 프로그램 중 하나를 설치하지 않는 것이 좋습니다. :)
LukStorms

1
here 문자열은 쉬운 골프입니다. 그냥 교체 <<L와 함께 <<<(base encoded stuff).
Dennis

그리고 3 바이트가 면도했습니다. 좋은.
LukStorms
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.