31 декабря 2017 |
|
3D движок: фрагменты Alone Coder 1. Отрисовка залитого полигона Классические сканлайны для полигона, залитого текстурой: - Second Breath:200..500 t - Iris Ultrademo:377 t - 3D Lame:>400 t - Awaken demo:258 t(линейный экранный буфер) Наш сканлайн тоже под линейный экранный буфер (l=Y ), время переброски которого утонет во времени отрисовки множества по─ лигонов. И оптимизирован он для трёх самых частых случаев: - ширина 1 байт (левая и правая стороны в одном байте) =167t - ширина 1+0+1 байт =223t - ширина 1+1+1 байт =234t И далее с каждым байтом ширины добавля─ ется11t. Это быстрее, чем LDI. DRSNO inc e ;Y exx add hl,de ;left add ix,bc ;right dec hy jp z,DRSKEEP;обработка конца текущего ;левого или правого ребра ld a,h;XL exx ld l,a;XL ld b,(hl);leftmask inc h ld a,(hl);endx(L) ld d,hx;XR ld l,d ld d,(hl);beginx(R) dec h sub d;beginx jp z,DRSNSAME;если лев.и прав. стороны ;в одном байте jr nc,DRSNO;если отрицательная ширина add a,a ld (DRSjr),a ld a,(de) xor c;texture cpl or (hl) cpl xor c;texture ld (de),a dec d ld a,c;texture DRSjr=$+1 jp DRSLOOP ... DRSLOOP ;лев.и пр.стороны не в одном байте dup 31;максимальная ширина = 256 пикс ld (de),a;texture dec d edup ld a,(de) xor c;texture and l xor c;texture ld (de),a ...(на начало, реально 2 копии начала) DRSNSAME ;лев.и прав.стороны в одном байте ld a,(hl);rightmask cpl or b;leftmask ld l,a ld a,(de) xor c;texture and l xor c;texture ld (de),a ...(на начало, реально 2 копии начала) Чтобы сделать текстуру не на интерлейс─ ном экране,достаточно продублировать цикл, а во второй копии цикла вместо регистраc использоватьly. 2. Проверка видимости полигона Нам нужно узнать знак одной проекции векторного произведения одного ребра на другое: x21 := vert[poly[i].v2].xscr -vert[poly[i].v1].xscr; x31 := vert[poly[i].v3].xscr -vert[poly[i].v1].xscr; y21 := vert[poly[i].v2].yscr -vert[poly[i].v1].yscr; y31 := vert[poly[i].v3].yscr -vert[poly[i].v1].yscr; poly[i].visible := ((x21*y31-x31*y21) >0); Обычно при этом действительно делают вызовы знаковых умножений (иногда даже используется вращение нормали грани),но мы пойдём другим путём. ;bc=y1x1 ;de=y2x2 ;hl=yЗxЗ ld a,h;y1 sub b;y3 ld h,a;-dy2 = -y31 add a,e;x2 sub c;x1 ;a += (dx1 = x21) ;e*b => a (dx1*dy2) ld e,a;(A/2-(-b)/2) sub h sub h;b+(A/2-(-b)/2) ld h,a ld a,d;y1 sub b;y2 ld d,a;-dy1 = -y21 add a,l;x3 sub c;x1 ;a += (dx2 = x31) ;a*d => a (dx2*dy1) ld b,a;(A/2-(-d)/2) sub d sub d;d+(A/2-(-d)/2) ld l,a ld d,h ld h,tsqr/256;таблица квадратов ld a,(hl) ld l,b sub (hl);a=(dx2*dy1)=-63..+63 ;вычесть e*b => a (dx1*dy2) ld l,d sub (hl) ld l,e add a,(hl);(dx1*dy2)=-63..+63 ;a=-126..+126 (7-й бит содержит видимость) Итого123 такта. Реально в действующем коде несколько костылей для точности, использующих нашу технику "зумов" объекта. И всегда можно включить вместо этого 16-битный код(VISIBILITY16=1). 3. Отрисовка короткой линии Обычно оптимизируют случай длинной ли─ нии, то есть смотрят, сколько тактов ухо─ дит на один пиксель. Но на больших сценах наоборот - много коротких линий. Поэтому надо смотреть, сколько тактов уходит на обвязку линии - на вход и выход. Сколько занимает обвязка в известных движках: - Dies Irae =192..227t - Second Breath =222..645t - Iris Ultrademo = в среднем458t - X-Trade = в среднем533t (30..44t/pix горизонтальная,40..49t/pixвертикальная) - Cheburashka = в среднем244t(60t/pix) Мы сделаем экстремально - для каждой короткой линии сгенерируем спрайт. А чтобы два раза не вставать, сгенерируем его пря─ мо в виде процедуры. Рисуем опять-таки в линейный экранный буфер. ;de=xy1 ;hl=xy2 ;x=#80..#ff ;так не зашкалим по H ;y=#80..#ff ld a,d;x1 sub h;a=dx=-31..+31 cp 8 jp p,line_slow_p cp -7 jp m,line_slow_m add a,jumptable_center/256 ld h,a ld a,e;y1 sub l;a=dy=-31..+31 add a,a;a=2*dy=-62..+62 jp pe,line_slow_dx;overflow add a,a;a=4*dy=-124..+124 jp pe,line_slow_dx;overflow ld l,a;4*dy ld c,d;для восстановления в длинных sra d jp (hl);там jp drawspr_thisangle ;(с выходом в line_slow_dy) Код коротких линий выглядит так: ...00 ;<рисуем> 00 (set n,(hl):inc/dec...) ret ...0x sra h jr nc,...00 ;<рисуем> 01 (set n,(hl):inc/dec...) ret ...10 ;<рисуем> 10 (set n,(hl):inc/dec...) ret drawspr_thisangle ex de,hl ;l=y=#80..#ff (т.к. рисуем только чётные ;строки для моушн блура) ;h=x=#80..#ff (точность 2 пикселя) jr nc,0x sra h jr nc,10 ;hl=scrbuf+...: ;h=f(x)=#e0..#ff, ;l=f(y)=#80..#ff (остальные l свободны) ;<рисуем> 11 (set n,(hl):inc/dec...) ret Некоторые куски кода можно оптимизиро─ вать черезld a,(hl):or N:ld (hl),a и inc (hl). Можно рисовать и в нелинейный экран, если добавить код типа: ;e=х ;l=y ld d,tX/256 ld a,(de) ;l(X) ld h,tY/256 add a,(hl);l(Y) inc h ld h,(hl) ;h(Y) ld l,a ld a,h or 7 И вместо инкремента по вертикали испо─ льзовать, например: cp h call z,dhlchr inc h Например, для объекта из80 полигонов, 120 линий (по10 пикс) и 40 вершин можно добиться таких показателей: - вершины (без перспективы):118*40=4720 - полигоны:165*80 = 13200 - линии:41*60 + (79+460)*60 = 34800 - стирание (128*128=2K)= 11264 Итого63984 тактов, то есть можно даже фреймово. Код линий (более5 килобайт) генерируе─ тся довольно сложным генератором, который ещё объединяет похожие линии. Ещё4 кило─ байта (15 сегментов) занимают переходы. Это для максимального размера линии7 пикс. Можно настроить максимальный размер до31 пикс. Правда, в текущей версии ЗD-движка этот код вообще выключен, потому что упор сде─ лан на залитые полигоны, а память на 48K не резиновая. Все линии считаются длинными и рисуются через медленный код с клипиро─ ванием. Но вдруг кому пригодится... 4. Вращение вершин с перспективной коррекцией Пусть рассчитана матрица вращения (см. rotmatrix.asm - там же приведены формулы для случая вращения по двум и трём осям), и после этого для каждой её клеточки сге─ нерирована таблица умножения на эту клето─ чку (в каждой таблице всего32 значения координат в объекте: от0 до 31 ). Назовём это "таблицами засечек". Таблицы засечек строятся простым сложением: dup 15 ld c,h push bc add hl,de ld b,h add hl,de edup ;от de*0 до de*29 ld c,h push bc;от de*30 до de*31 Пусть координаты вершин в объекте про─ писаны прямо в коде (с прибавлением смеще─ ния начала соответствующей таблицы засе─ чек). В случае чего, код можно патчить. Вращаем по трём осям. Для двух осей (то есть без вращения по крену) теряется толь─ ко одно слагаемое в одной из координат. Пусть отрицательные координаты вершин в объекте прописаны кодом, чтобы не разду─ вать таблицы засечек в два раза. ld de,#100*_z+_x ld hl,CUTS+_y;засечки ld a,(hl);или xor a:sub (hl) ld l,d;_z add/sub (hl);(=0 без крена) ld l,e;_x add/sub (hl) ld c,a;x' inc h ld a,(hl);или xor a:sub (hl) ld l,d;_z add/sub (hl) ld l,_y add/sub (hl) ld b,a;y' inc h ld a,(hl);или xor a:sub (hl) ld l,d;_z add/sub (hl) ld l,e;_x add/sub (hl) ;a = z' ;b = y' ;c = x' call div8xinch ;bc = полученные экранные координаты push bc Процедура div8xinch делает перспектив─ ную коррекцию с учётом "зума" объекта: ;a = z ;b = y ;c = x div8xinch inc h;таблица 1/z ;a=-127..+127 ...;сдвигаем a,b,c через sra ;в соответствии с текущим "зумом" ;a=-63..+63 add a,#40;Z объекта (патчится) ld e,a ld a,c;x add a,0;X объекта (патчится) ;a/e => c ;f=флаги после сложения двух знаковых ;+-8/+7 => +-1.6 (т.е. можно перспективу в ;удвоенном створе экрана, но реально ;зависит от делителя - при e=255 будет ;только один створ экрана) ;для правильного деления надо a < 2*e ;(иначе надо формировать переполнение) jp po,div8xposjp;pe=переполнение ;S=9-й бит результата инверсный jp m,div8xpos div8xneg DIV8NEG div8xpos,div8x_128 jp div8y div8x_128 ;выход по переполнению DIV8NEG ld l,e ;Z+z ld d,(hl) ;1/(Z+z) ld h,trotsqrpos/256 ld c,128 jp div8y div8x_127 ;выход по переполнению DIV8POS ld l,e ;Z+z ld d,(hl) ;1/(Z+z) ld h,trotsqrpos/256 ld c,127 jp div8y div8xposjp ;S=9-й бит результата jp m,div8xneg div8xpos DIV8POS div8xpos,div8x_127 jp div8y На этот момент посчитан правильныйx в экране с учётом "сплющивания" объекта,пер─ спективной коррекции и "сплющивания" пере─ полнения деления.Делаем то же самое дляy: div8y ld a,b ;y add a,0 ;Y объекта (патчится) ;a/e => b ;f=флаги после сложения двух знаковых ;+-8/+7 => +-1.6 (т.е. можно перспективу в ;удвоенном створе экрана, но реально ;зависит от делителя - при e=255 будет ;только один створ экрана) ;для правильного деления надо a < 2*e ;(иначе надо формировать переполнение) jp po,div8yposjp;pe=переполнение ;S=9-й бит результата инверсный jp m,div8ypos div8yneg DIV8NEG div8ypos,div8y_128 ret div8y_128 ld b,128;переполнение DIV8NEG ret div8y_127 ld b,127;переполнение DIV8POS ret div8yposjp ;S=9-й бит результата jp m,div8yneg div8ypos DIV8POS div8ypos,div8y_127 ret Вот как выглядит деление(X+x)/(Z+z) для случая положительных аргументов: sub e jr c,$+2+1+2;CY:a<e cp e jr nc,div8_127addr;CY:a<2*e ;выход по ;переполнению add a,e ld l,e ld d,(hl);1/(Z+z) inc h sub d ld l,a;a-e add a,d add a,d ld c,a;a+e ;a-e = -#6b..#70 ld a,(hl);-sqrsigned inc h ld l,c;a+e ;a+e = #11..#b5 add a,(hl);sqrpos srl a;лишний бит точности add a,XADD ld c,a Для(Y+y)/(Z+z) немного короче, потому что1/(Z+z) уже прочитано в регистр d: sub e jr c,$+2+1+2;CY:a<e cp e jr nc,div8_127addr;CY:a<2*e ;выход по ;переполнению add a,e dec h sub d;1/(Z+z) ld l,a;a-e add a,d add a,d ld d,a;a+e ;a-e = -#6b..#70 ld a,(hl);-sqrsigned inc h ld l,d;a+e ;a+e = #11..#b5 add a,(hl);sqrpos srl a;лишний бит точности add a,YADD ld b,a Разумеется, в реальном коде прописаны костыли,макросы и патчи.Изучайте по месту. Но это для совсем бесстрашных :) 5. Вращение объекта Объекты переводятся в систему координат камеры без учёта угла поворота объекта от─ носительно вертикальной оси (в отличие от вращения вершин того же объекта). Но это не единственная причина, почему мы вращаем объекты не по матрице вращения. Просто у этой матрицы недостаточная точность, а ес─ ли её рассчитывать в16 битах, то мы толь─ ко проиграем в скорости. Но тот факт, что все объекты преобразу─ ются одинаково, позволяет патчить сами 16-битные умножения, которыми происходит поворот! Кроме того, нам нужна не вся точность синусов-косинусов, потому что в каждом от─ дельном кадре это отражается только на по─ зиции камеры. Кроме того, если мы вращаем камеру то─ лько по двум осям (без крена), нам нужно только два перекрёстных умножения, причём можно считать сразу по два умножения в од─ ном сумматоре! Код умножения одновременно на две конс─ танты (ячейки матрицы вращения): ;bc,de=+-10.0=%ssssssxx xxxxxxxx ;результат в hl = k1*bc + k2*de xor a;по идее 1 раз из 4,но надо CY=0 ld h,a ld l,a sbc hl,bc;или патчем #ed:nop or a sbc hl,de;или патчем #ed:nop add hl,hl dup 5;6 add hl,bc;или патчем nop add hl,de;или патчем nop add hl,hl edup org $-1 add hl,hl sbc a,a add hl,hl rla add hl,hl rla ld l,h ld h,a Для одного перекрёстного вращения нужно два таких фрагмента. Патчи нужно делать только один раз на кадр примерно таким кодом: ... rl e sbc a,a and c;"add hl,bc" ld (hl),a inc hl rl d sbc a,a and b;"add hl,de" ld (hl),a inc hl inc hl ... В итоге со всеми входами-выходами всё вращение объекта занимает 1184 такта, а для объектов за спиной происходит экстрен─ ный выход всего за358 тактов! Это потому, что для выхода нужна только половинка од─ ного перекрёстного вращения. Разумеется, такое срабатывает только при ограниченном угле тангажа. Если это не ваш случай, то экстренный выход можно убрать.
Other articles:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Similar articles:
В этот день... 23 November