Info Guide
#13
01 апреля 2021 |
|
Wild - тетрис в 256 байт и змейка размером 55 байт
Плотность кода Alone Coder Как вы помните, в Inferno #3 Shiru опу─ бликовал Snake длиной в 255 байт, а в Info Guide #10 я опубликовал упрощённый Snake длиной 121 байт. Он был написан на кодах калькулятора Basic 48 и казался довольно плотным. Однако потом Firestarter предложил со─ вершенно новый алгоритм Snake. Он писал не в редакцию,он написал на Хабр, а потом тут же удалил статью. Но сам исходник сохрани─ лся. Игра занимала 93 байта, а работала она так. Все "кролики" разбрасываются по полю уже в начале уровня и хранятся непосредст─ венно в атрибутах экрана. Массива с коор─ динатами змейки тоже нет, есть только го─ лова, которая двигается и рисуется опреде─ лённым кодом атрибута, означающим "взрос─ лость" змеи. Каждый игровой кадр уменьшаю─ тся коды атрибутов на всём игровом поле, кроме пустых мест и кроликов. Получается, что за головой остаётся след - "хвост", столкновение с которым заканчивается пла─ чевно. Чем змея "взрослее", тем длиннее этот хвост. А если она выросла до опреде─ лённого уровня, соответствующего полному отсутствию кроликов на поле, то игра начи─ нается сначала (но смысла в этом нет). Таким образом,нужно только написать эф─ фективный код генерации кроликов, проверки клетки в позиции будущей головы,декремента цвета с одновременным подсчётом кроликов и опроса клавиш. После того, как Firestarter забросил проект и исчез, исходник оптимизировал krt17. У него получилось 85 байт при том же поведении. Но было видно, что 85 байт - не предел. Тем более,что известно, что на IBM PC игра Snake в версии от Jin X зани─ мает 64 байта, а Nibbles (змея,которая ра─ стёт всегда, без кроликов и движения хвос─ та) с конкурса Hugi compo - всего 48 байт. После предварительного ознакомления с версией от krt17 я выиграл несколько байт за счёт смены порядка кусков кода. Потом учёл регистры при вызове из Бейсика.Но это было не самое главное сокращение. Код оп─ роса клавиш остался довольно жирным (пожа─ луй, жирнее,чем в моём Snake121 ). И я по─ ступил самым радикальным способом - клави─ ши управления выбраны таким образом, что переводятся в дельту перемещения головы наиболее коротко: sub (hl):ld c,a:sbc a,a: ld b,a. Для этого пришлось выбрать доволь─ но оригинальные клавиши управления - "," влево, "." вправо, ENTER вверх, M вниз. Результат того стоил - 55 байт, трепещите, писюканцы! В последний момент я обнаружил,что мож─ но выиграть ещё пару байт,если обслуживать столкновение с хвостом, который ещё сущес─ твует, но уже виден как чёрный. Так что в исходнике можно переключить два варианта - 55 байт и 53 байта! ;Alone Coder 53/55 bytes 10.11.2020 ;from basic: ;de=0x5d83/5dcc, hl=0x2d2b, bc=start ;from TR-DOS RUN "..." CODE: ;de=0x5d83, hl=0x2d2b, bc=start l1 ld d,0x5b if 1==0 ;55 bytes ld a,(hl) inc a cp 9 jr nc,restart ;collided with visible ;tail else ;53 bytes ;a=0xff in most cases add a,(hl) cp d ;0x5b jr c,restart ;collided with visible ;or invisible tail endif ld a,h inc a and 00000011b ;screen margin jr nz,norestart restart ;at restart: e=0xff, d=0x5b ld h,d ;0x5b rabbit1 ld a,r ld (hl),e ;0xff cpl jr z,rabbit2 inc (hl) ;0x00 rabbit2 dec hl bit 3,h jr nz,rabbit1 ;l=0xff ;bc=direction (delta) inc h ;0x58 norestart ld (hl),0x2d ;0x21 ;head ;, LEFT ;. RIGHT ;ENTER UP ;M DOWN ld a,(23560) sub (hl) ;0x2d ld c,a sbc a a ld b,a ;bc=1/-1/32/-32 ;ld d,0x5a move1 ld a,(de) dec a cp 0xfe jr nc,move2 ;was 0xff = rabbit ;or 0x00 = empty ld (de),a ;move snake ;(decrease colour) move2 jr nz,move3 dec (hl) ;was 0xff = uneaten rabbit, ;so decrease snake size ;(head color) move3 dec de bit 6,d jr nz,move1 ;e=0xff ;d=0x3f add hl,bc jr l1 * * * Пожалуй, самым коротким Тетрисом для Спектрума долгое время был Impetris - пла─ гин для ACEdit. Занимал он 745 байт, кидал цветные фигуры, показывал следующую, счи─ тал очки (они даже прыгали на экране) и даже ускорялся по мере прохождения. Что касается прыгающих очков и ускорения, это было довольно излишне в этом классе, да и остальное выглядит необязательным для ре─ корда. А рекорд на IBM PC к настоящему времени опустился ниже 256 байт (без под─ счёта очков). А что можем сделать мы? За основу я взял не Impetris, а Тетрис из NedoOS. Там был довольно рыхлый, но очень понятный код, до этого написанный за два часа в качестве обучалки. Работу я вёл на стриме, точнее,на двух стримах - поско─ льку Тетрис действительно неплох для обу─ чения ассемблеру. Что я, например, делал: - заменил координаты фигуры на адрес. - объединил процедуры отрисовки,стирания и проверки. - объединил процедуры storeposition и restoreposition. - сократил опрос клавиш до минимума. - оптимизировал поиск и удаление полных линий (вопреки интуиции, CPIR не помог!) Я закончил стримить, когда достиг 256 байт. Но не мог решить, оставить ли стенки (их отсутствие приводило к зацикливанию поля и невозможности показать счёт). Но потом мне подсказали простую процедуру пе─ чати, а ещё пришло в голову несколько идей, так что финальная версия влезает в 256 байт вместе с показом счёта, то есть получается лучше, чем версия для IBM PC! Обратите внимание:игра рассчитывает,что в начале буфера принтера (0x5b00) лежат нули, как это положено на 48K машине. Кро─ ме того, опять-таки, как там положено, эк─ ран залит атрибутом 0x38. Память после программы тоже считается пустой. Фигуры занимают 1 байт на каждую, кроме последней, а первые две даже используются в качестве параметра jp. Стенки находятся на расстоянии 16 зна─ комест друг от друга, чтобы рисовать их одним циклом,а не двумя (дно гарантируется буфером принтера). И в это даже можно играть! ;Alone Coder 02,28.12.2020 ;48K or usr0 only! ;(0x5b00..5b1f must be clean) SCORE=1 WALLS=1 if WALLS fieldwid=16 else fieldwid=32 endif fieldhgt=24 fieldx=16-fieldwid/2 fieldy=0 addrDropFig=0x580c emptyattr=0x38 newfig=%0110011011000110 if WALLS ;begin=0x6100-(fieldx-1)-16 begin=newfig-13 else begin=newfig endif display "begin=",begin,"=",/D,begin ;hl=0x2d2b ;de=0x5dxx ;bc=begin ;hx=0 ;iy=0x5c3a ;bc'=0x1114 ;hl'=10072 if WALLS xor a ld hl,0x5800+(fieldx-1) ld (hl),a ld de,0x5800+(fieldx-1)+fieldwid ;ld b,2 ;bc,0x300-(fieldx-1)-32 ld bc,0x300-(fieldx-1)-16 ldir ;newfig endif if (WALLS == 0) && (SCORE == 1) ld (iy+86),0xff endif ld a,r and 7 ld hl,figs add a,l ld l,a xor a ld de,curfig ld (de),a inc de ld b,3 ;- rld ld (de),a inc de ;e djnz $-4 ld hl,addrDropFig ld (curxy),hl gameloop ld a,prfig_pixel&0xff ;proc addr call prfig_curxy halt halt halt ld a,prfig_clearpixel&0xff ;procaddr call prfig_curxy ;nz!!! call storeposition_ldir ;bc=0 ld hl,(curxy) ld (oldcurxy),hl ld hl,(curxy) xor a ;z! in a,(0xfe) rra ;'q' jr c,$+3 dec l rra ;'w' jr c,$+3 inc l ;rra ;'e' ;jr nc,godown ;bug with right+down!! nodown jr nz,noautodown ;left or right ;pressed - don't fall exx rlc b ;was 0x11, then random(?) with ;few bits on exx jr nc,noautodown godown ld c,32 ;also flag for stopfig add hl,bc noautodown ld (curxy),hl rra ;'e';'r' jr c,norotfig ld hl,curfig ld sp,hl pop bc pop de ld sp,hl rotfig0 xor a rr c rla rr b rla rr e rla rr d rla ld (hl),a inc l jr nz,rotfig0 ld c,l ;0 ;or else rotation near a ;wall can stop fig!!! norotfig ld lx,c ;32=stopfig for godown, ;0=no godown ld a,prfig_checkpixel&0xff ;procaddr call prfig_curxy ;z=collision call z,restoreposition ;can't move ;in that direction jr nz,gameloop ;no collision ;a=0 cp lx ;32=stopfig for godown, ;0=no godown jr z,gameloop ;collided not with gnd stopfig ld hl,(oldcurxy) ld a,prfig_pixel&0xff ;proc addr call prfig ;search a filled line from above ;if found, shift down (with lddr) ;ld hl,0x5800+fieldx-1 ;ld lx,fieldhgt ld hl,0x5a00+fieldx-1 ;only lowest 8 ;lines can be fired finddellines0 xor a ;for "or (hl)" ld b,fieldwid checkfilledline0 inc hl or (hl) djnz checkfilledline0 jr nz,finddellines_nofire ;ld a,emptyattr ;ld bc,fieldwid ;cpir ;jr z,finddellines_nofire ;extrabyte ;hl=last byte of current line push hl ex de,hl ld hl,-32 add hl,de ld a,h sub 0x58 ld b,a ld c,l ;bc=(y-1)*32 ;bc=hl-#5800=de-#5820 lddr if SCORE inc hx ld c,hx ld a,22 rst 16 ;requires iy=23610 xor a rst 16 rst 16 ;call 11563 ;call 11747 call 0x1a1b ;print bc endif pop hl finddellines_nofire ;ld de,32-fieldwid ;add hl,de ;xor a ;for "or (hl)" in next line ;dec lx ;jr nz,finddellines0 ld a,l add a,32-fieldwid ld l,a jr nc,finddellines0 if SCORE ;ld b,hx ;lines fired (0..4) ;inc a ;ld c,1 ;if there are fired ;lines, c=0 (if there aren't, ;c<<256 = 0) ;add a,a ;djnz $-1 ;a=2,4,8,16 ;exx ;add a,h ;ld h,a ;exx ;ld c,a ;ld a,22 ;rst 16 ;requires iy=23610 ;xor a ;rst 16 ;rst 16 ;call 11563 ;6683 ;call 11747 ;- endif ;if WALLS ;jp newfig ;else db 0xc3 ;endif figs display "figs=",figs db %11000110 ;zigzag2 db %01100110 ;square db %00110110 ;zigzag1 db %11110000 ;I db %00101110 ;L db %01000111 ;J db %01001110 ;T db %01001110 ;T (8 figs) nfigs=($-figs) display "nfigs=",nfigs restoreposition ;z ld hl,(oldcurxy) ld (curxy),hl storeposition_ldir restoreposition_ldir ;nz=store ;z=restore ld bc,4 ld de,curfig ld hl,oldcurfig jr z,$+3 ex de,hl ldir prfig_clearpixel ld (hl),emptyattr ret prfig_pixel ld (hl),0 prfig_checkpixel and (hl) ret prfig_curxy ld hl,(curxy) prfig ;NC!!! ld (prfig_calladdr),a or h ;(a&8) != 0 ld de,curfig prfig_lines ex de,hl ld b,(hl) ;%0000pppp set 4,b ;%0001pppp ex de,hl prfig_pixels prfig_calladdr=$+1 call c,prfig_pixel inc hl ;x srl b ;pixel jr nz,prfig_pixels ld c,32-5 add hl,bc inc e jr nz,prfig_lines or a ret end ;это конец файла игры! curxy dw 0 oldcurxy dw 0 align 256 ds 256-4 curfig ds 4 nop ;for spoiling oldcurfig ds 4 * * * Многие видели исходник рейтрейса на Бейсике, который считает два шарика 8 ча─ сов. Этот исходник промелькнул в Интернете в 2018 году и исчез, но заставил задумать─ ся: а на какую скорость можно рассчитывать на ассемблере, и можно ли вписать рендер в 1 килобайт (жанр процедурной графики)? Для проверки я поступил следующим обра─ зом: - сначала переписал этот рендер на C++ Builder и получил правильную картинку. - потом заменил флоаты на 32-битные це─ лые числа. - потом переписал код для совместимости с NedoLang. - перенёс код в NedoLang и допилил до работоспособности. - процедуры,скомпилированные NedoLang'ом в ассемблер, оптимизировал одну за другой. - определил нужные диапазоны чисел и пе─ реписал всё на 16-битные целые. - только после этого стал загонять в ки─ лобайт с учётом компрессора (Hrum оказался лучше, чем MegaLZ ) и добавлять мелкие оп─ тимизации, чтобы оказаться на грани. Пос─ ледней оптимизацией был расчёт "на лету" квадратов, за пределы которых точно не вы─ ходят шарики. (Я не стал вбивать эти раз─ меры железно и даже сделал версию с анима─ цией.) Итак,мой результат (демонстрировался на Дне Космонавтики в 2019 году): ровно 1024 байта, менее 71 секунды на Пентагоне. Ускорение в 400 раз при том же разрешении 256x176, что и в оригинале! Интересно,что Daniel A.Nagy тоже прово─ дил такой же эксперимент, но использовал свою библиотеку 2-байтных флоатов (lpfp). Его версия занимает в упакованном виде около 4 килобайт и рендерит экран более 5 минут, с качеством совсем чуть-чуть лучше, чем в наших 16-битных целых... Сохраню свою версию на память в прило─ жении. Цветная версия есть в репозитории NedoOS. Может быть, кто-то сможет ускорить или придумает полезное применение этому рейтрейсу? * * * На Hugi compo было ещё несколько инте─ ресных size compo: - вычисление выражений с +-*/ , скобками и унарными +- ( 117 байт) - игра Pong ( 142 байта) - игра "крестики-нолики" ( 213 байт) - игра Sokoban с заданной картой ( 189 байт) - интерпретатор brainfuck ( 98 байт) - поиск простых чисел до миллиона ( 76 байт) Известны также рекорды по размерам шах─ матных программ (несколько версий меньше 512 байт, качество игры которых ещё пред─ стоит сравнить) и по размеру выводилки ло─ готипа Unix ( http://www.deater.net/weave/ vmwprod/asm/ll/ll.html - правда, код для Z80 там написан из рук вон плохо). Обычно x86 выигрывает у всех других процессоров. Но означает ли это,что нельзя придумать более плотную систему команд? Конечно, нет. Там довольно много битов тратится на указание номеров регистров, адресов и ширины слова. Сам размер байта в 8 бит тоже не обязательно идеален. Команды могут быть короче, вплоть до 4 бит на сте─ ковом процессоре. Я проводил такой эксперимент в газете ACNews #59; потом допиливал этот движок,но так и не использовал;потом пробовал писать стековый процессор с 4-битными командами и для FPGA. Последняя моя мысль по интерпретируемо─ му стековому процессору выглядела так (со─ вершенно не проверена на работоспособ─ ность): ;для условий,выходов и ветвлений 3 команды ; jrNC N, ifZ{scf} ;для математики 4 команды ; sub, add, sub1, inc(+rcf) ;для стека 3 команды ; push(dup), pop(skip), swap ;для переменных 4 команды: ; getvar N, putvar N, peek8, poke8 ;для управления 3 команды ; callr N, ret, z80 (z80 позволяет дальше писать машинный код) ;входим в скрипт по rst #10,для этого надо ;патчить адрес в описателе канала #5cb6 ;(#5d26 в TR-DOS) ;104b: _startscript pop hl ;skip #15fe (return from call ;#162c) pop hl ;restore hl' exx ;de=вершина стека pop hl ;address after RST #10 _callq: ld c,0x55 _getcmd: ld a,(hl) rlc c jr nc,$+2+5 ;первый раз не сдвигаем rrca rrca rrca rrca inc hl and 15 ret z ;0=ret ;флаги сейчас в f', ;на выходе из call они достанутся ld b,a push hl ;return addr ld l,(hl) ;read 8bit djnz _ncall ;1 ;call N ;лежит в конце байта, так что сейчас ;c=0x55, hl=следующий байт call jphl ;jp (hl);call machine code ;procedure ;на выходе флаги в f' _popincq ;флаги сейчас в f' pop hl ;return addr после call-ret inc hl ;skip 8bit jr _callq ;можно переделать на ;push bc... pop bc (медленнее, но ;делает ex af,af') _ncall: ld h,vars/256 djnz _nputvar ;2 ; putvar N: (var)<=reg (не удаляем его, ;а то лишний pop) ;лежит в конце байта, так что сейчас ;c=0x55, hl=следующий байт ld (hl),e inc hl ld (hl),d jr _popincq ;не получается выбросить _nputvar: djnz _ngetvar ;3 ; getvar N: reg<=(var) (затираем старый ;TOS, а то лишний push - а без него можно ;объединить ветки) ;лежит в конце байта, так что сейчас ;c=0x55, hl=следующий байт ld e,(hl) inc hl ld d,(hl) jr _popincq _ngetvar: pop hl ex af,af' ;flags djnz _njrnc ;4 jr c,_getcmd ld l,(hl) _njrnc: djnz _npush ;5 push de _npush: djnz _npop ;6 pop de _npop: djnz _nswap ;7 ex de,hl ex (sp),hl ex de,hl _nswap: ex (sp),hl djnz _nsub ;8 ;reg<=pop-reg-CY ;_oldminusnew sbc hl,de _nsub: djnz _nadd ;9 ;reg<=reg+pop add hl,de _nadd: djnz _nsub1 ;A ;sub1 scf ld d,b ;0 ld e,b ;0 sbc hl,de _nsub1: ex de,hl pop hl djnz _ninc ;B ;inc(+rcf) inc de or a _ninc: djnz _npeek8 ;C ;peek8 ;можно сделать h<-l<-(hl)? ld l,(hl) ld h,b ;0 _npeek8: djnz _npoke8 ;D ;poke8 ld a,l pop hl ld (hl),a _npoke8: djnz _nifzscf ;E ;ifZ{scf} jr nz,_nifzscf scf _nifzscf: ex af,af' ;flags djnz _getcmd ;F ;z80 - нет выхода в _getcmd ;лежит в конце байта, так что сейчас ;c=0x55, hl=следующий байт jp (hl) Мы, конечно, не верим в фантастические цифры типа "Код для M-машины был в три-че─ тыре раза меньше кода для PDP-11 и i8086, в два-три раза меньше кода для Motorola 68000 и в полтора-два раза меньше кода для National Semiconductor 32000", но чем чёрт не шутит? Ведь команды могут быть даже плавающей длины. А если вообще заточить процессор на определённую задачу (напри─ мер, матричные вычисления), то программа под него может быть вдвое меньше, чем для обычных CPU: https:// nabbla1.livejournal.com/234532.html Но вопрос:если бы вы не зависели от те─ кущих систем команд и готовых компилято─ ров, а сами проектировали процессор,то ка─ кую систему команд бы вы предложили? Авто─ ры RISC-V утверждают,что несмотря на прос─ тую систему команд, они достигли плотности кода не хуже x86. Так ли это на самом де─ ле? Можно ли как-то доказать "почти-опти─ мальность" системы команд по размеру для типичных задач? Например,что больше чем на 10% уже не сократить при заданных ограни─ чениях (скажем, не более 256 команд)? Пишите свои мысли!
Другие статьи номера:
Похожие статьи:
В этот день... 11 сентября