環境原猫 80~86日目

uvec4で8バイト符号なし整数を4つつなげて、最大

3.4028236692093846346337460743177e+38

の整数型を作ります。

符号は別途用意します。

で、このuvec4の足し算や引き算や掛け算を作りました。(引き算について、少しでも速度出したいので2の補数を利用していません)

/* [uvec4の足し算] */\
void vec4_add(in uvec4 a, in uvec4 b, out uvec4 res) {\
  uint over;\
  res.w = a.w + b.w;\
  if (UINT_MAX - a.w < b.w) { over = 1u; } else { over = 0u; }\
  res.z = a.z + b.z + over;\
  if ((UINT_MAX - a.z < b.z + over) || (UINT_MAX - over < b.z)) { over = 1u; } else { over = 0u; }\
  res.y = a.y + b.y + over;\
  if ((UINT_MAX - a.y < b.y + over) || (UINT_MAX - over < b.y)) { over = 1u; } else { over = 0u; }\
  res.x = a.x + b.x + over;\
  if ((UINT_MAX - a.x < b.x + over) || (UINT_MAX - over < b.x)) { over = 1u; } else { over = 0u; }\
}\
\
/* [uvec4 x 2 の足し算] */\
void vec4_add2(in uvec4 a1, in uvec4 a2, in uvec4 b1, in uvec4 b2, out uvec4 res1, out uvec4 res2) {\
  uint over;\
  res1.w = a1.w + b1.w;\
  if (UINT_MAX - a1.w < b1.w) { over = 1u; } else { over = 0u; }\
  res1.z = a1.z + b1.z + over;\
  if ((UINT_MAX - a1.z < b1.z + over) || (UINT_MAX - over < b1.z)) { over = 1u; } else { over = 0u; }\
  res1.y = a1.y + b1.y + over;\
  if ((UINT_MAX - a1.y < b1.y + over) || (UINT_MAX - over < b1.y)) { over = 1u; } else { over = 0u; }\
  res1.x = a1.x + b1.x + over;\
  if ((UINT_MAX - a1.x < b1.x + over) || (UINT_MAX - over < b1.x)) { over = 1u; } else { over = 0u; }\
  \
  res2.w = a2.w + b2.w + over;\
  if ((UINT_MAX - a2.w < b2.w + over) || (UINT_MAX - over < b2.w)) { over = 1u; } else { over = 0u; }\
  res2.z = a2.z + b2.z + over;\
  if ((UINT_MAX - a2.z < b2.z + over) || (UINT_MAX - over < b2.z)) { over = 1u; } else { over = 0u; }\
  res2.y = a2.y + b2.y + over;\
  if ((UINT_MAX - a2.y < b2.y + over) || (UINT_MAX - over < b2.y)) { over = 1u; } else { over = 0u; }\
  res2.x = a2.x + b2.x + over;\
  if ((UINT_MAX - a2.x < b2.x + over) || (UINT_MAX - over < b2.x)) { over = 1u; } else { over = 0u; }\
}\
\
/* [uvec4の引き算] */\
/* a > b の前提 */\
void vec4_sub(in uvec4 a, in uvec4 b, out uvec4 res) {\
  uint over;\
  \
  res.w = a.w - b.w;\
  if (a.w < b.w) { over = 1u; } else { over = 0u; }\
  res.z = a.z - b.z - over;\
  if ((a.z < b.z + over) || (UINT_MAX - b.z < over)) { over = 1u; } else { over = 0u; }\
  res.y = a.y - b.y - over;\
  if ((a.y < b.y + over) || (UINT_MAX - b.y < over)) { over = 1u; } else { over = 0u; }\
  res.x = a.x - b.x - over;\
}\
\
/* [uvec4 x 2 の引き算] */\
/* a > b の前提 */\
void vec4_sub2(in uvec4 a1, in uvec4 a2, in uvec4 b1, in uvec4 b2, out uvec4 res1, out uvec4 res2) {\
  uint over;\
  \
  res1.w = a1.w - b1.w;\
  if (a1.w < b1.w) { over = 1u; } else { over = 0u; }\
  res1.z = a1.z - b1.z - over;\
  if ((a1.z < b1.z + over) || (UINT_MAX - b1.z < over)) { over = 1u; } else { over = 0u; }\
  res1.y = a1.y - b1.y - over;\
  if ((a1.y < b1.y + over) || (UINT_MAX - b1.y < over)) { over = 1u; } else { over = 0u; }\
  res1.x = a1.x - b1.x - over;\
  if ((a1.x < b1.x + over) || (UINT_MAX - b1.x < over)) { over = 1u; } else { over = 0u; }\
  \
  res2.w = a2.w - b2.w - over;\
  if ((a2.w < b2.w + over) || (UINT_MAX - b2.w < over)) { over = 1u; } else { over = 0u; }\
  res2.z = a2.z - b2.z - over;\
  if ((a2.z < b2.z + over) || (UINT_MAX - b2.z < over)) { over = 1u; } else { over = 0u; }\
  res2.y = a2.y - b2.y - over;\
  if ((a2.y < b2.y + over) || (UINT_MAX - b2.y < over)) { over = 1u; } else { over = 0u; }\
  res2.x = a2.x - b2.x - over;\
  if ((a2.x < b2.x + over) || (UINT_MAX - b2.x < over)) { over = 1u; } else { over = 0u; }\
}\
\
/* [uvec4 の左シフト] */\
/* shift < 128u */\
void vec4_shift_l(in uvec4 a, in uint shift, out uvec4 res1, out uvec4 res2) {\
  if (shift < 32u) {\
    res1.x = a.x << shift;\
    res1.y = a.y << shift;\
    res1.z = a.z << shift;\
    res1.w = a.w << shift;\
    res2.x = 0u;\
    res2.y = 0u;\
    res2.z = 0u;\
    res2.w = 0u;\
    if (0u < shift) {\
      res1.x += a.y >> (32u - shift);\
      res1.y += a.z >> (32u - shift);\
      res1.z += a.w >> (32u - shift);\
      res2.w += a.x >> (32u - shift);\
    }\
  } else if (shift < 64u) {\
    res1.x = a.y << (shift - 32u);\
    res1.y = a.z << (shift - 32u);\
    res1.z = a.w << (shift - 32u);\
    res1.w = 0u;\
    res2.x = 0u;\
    res2.y = 0u;\
    res2.z = 0u;\
    res2.w = (a.x << (shift - 32u));\
    if (32u < shift) {\
      res1.x += a.z >> (64u - shift);\
      res1.y += a.w >> (64u - shift);\
      res2.z += a.x >> (64u - shift);\
      res2.w += a.y >> (64u - shift);\
    }\
  } else if (shift < 96u) {\
    res1.x = a.z << (shift - 64u);\
    res1.y = a.w << (shift - 64u);\
    res1.z = 0u;\
    res1.w = 0u;\
    res2.x = 0u;\
    res2.y = 0u;\
    res2.z = a.x << (shift - 64u);\
    res2.w = a.y << (shift - 64u);\
    if (64u < shift) {\
      res1.x += a.w >> (96u - shift);\
      res2.y += a.x >> (96u - shift);\
      res2.z += a.y >> (96u - shift);\
      res2.w += a.z >> (96u - shift);\
    }\
  } else {\
    res1.x = (a.w << (shift - 96u));\
    res1.y = 0u;\
    res1.z = 0u;\
    res1.w = 0u;\
    res2.x = 0u;\
    res2.y = a.x << (shift - 96u);\
    res2.z = a.y << (shift - 96u);\
    res2.w = a.z << (shift - 96u);\
    if (96u < shift) {\
      res2.x += a.x >> (128u - shift);\
      res2.y += a.y >> (128u - shift);\
      res2.z += a.z >> (128u - shift);\
      res2.w += a.w >> (128u - shift);\
    }\
  }\
}\
\
/* [uvec4 の右シフト] */\
/* shift < 128u */\
void vec4_shift_r(in uvec4 a1, in uvec4 a2, in uint shift, out uvec4 res1, out uvec4 res2) {\
  if (shift < 32u) {\
    res2.x = a2.x >> shift;\
    res2.y = a2.y >> shift;\
    res2.z = a2.z >> shift;\
    res2.w = a2.w >> shift;\
    res1.x = a1.x >> shift;\
    res1.y = a1.y >> shift;\
    res1.z = a1.z >> shift;\
    res1.w = a1.w >> shift;\
    if (0u < shift) {\
      res2.y += a2.x << (32u - shift);\
      res2.z += a2.y << (32u - shift);\
      res2.w += a2.z << (32u - shift);\
      res1.x += a2.w << (32u - shift);\
      res1.y += a1.x << (32u - shift);\
      res1.z += a1.y << (32u - shift);\
      res1.w += a1.z << (32u - shift);\
    }\
  } else if (shift < 64u) {\
    res2.x = 0u;\
    res2.y = a2.x >> (shift - 32u);\
    res2.z = a2.y >> (shift - 32u);\
    res2.w = a2.z >> (shift - 32u);\
    res1.x = a2.w >> (shift - 32u);\
    res1.y = a1.x >> (shift - 32u);\
    res1.z = a1.y >> (shift - 32u);\
    res1.w = a1.z >> (shift - 32u);\
    if (32u < shift) {\
      res2.z += a2.x << (64u - shift);\
      res2.w += a2.y << (64u - shift);\
      res1.x += a2.z << (64u - shift);\
      res1.y += a2.w << (64u - shift);\
      res1.z += a1.x << (64u - shift);\
      res1.w += a1.y << (64u - shift);\
    }\
  } else if (shift < 96u) {\
    res2.x = 0u;\
    res2.y = 0u;\
    res2.z = a2.x >> (shift - 64u);\
    res2.w = a2.y >> (shift - 64u);\
    res1.x = a2.z >> (shift - 64u);\
    res1.y = a2.w >> (shift - 64u);\
    res1.z = a1.x >> (shift - 64u);\
    res1.w = a1.y >> (shift - 64u);\
    if (64u < shift) {\
      res2.w += a2.x << (96u - shift);\
      res1.x += a2.y << (96u - shift);\
      res1.y += a2.z << (96u - shift);\
      res1.z += a2.w << (96u - shift);\
      res1.w += a1.x << (96u - shift);\
    }\
  } else {\
    res2.x = 0u;\
    res2.y = 0u;\
    res2.z = 0u;\
    res2.w = a2.x >> (shift - 96u);\
    res1.x = a2.y >> (shift - 96u);\
    res1.y = a2.z >> (shift - 96u);\
    res1.z = a2.w >> (shift - 96u);\
    res1.w = a1.x >> (shift - 96u);\
    if (96u < shift) {\
      res1.x += a2.x << (128u - shift);\
      res1.y += a2.y << (128u - shift);\
      res1.z += a2.z << (128u - shift);\
      res1.w += a2.w << (128u - shift);\
    }\
  }\
}\
\
/* [uvec4 の乗算] */\
void vec4_mul(in uvec4 a, in uvec4 b, out uvec4 res1, out uvec4 res2) {\
  uvec4 checkbit = uvec4(0u, 0u, 0u, 1u);\
  uvec4 tmp;\
  uvec4 a1 = a;\
  uvec4 a2 = uvec4(0u, 0u, 0u, 0u);\
  res1 = uvec4(0u, 0u, 0u, 0u);\
  res2 = uvec4(0u, 0u, 0u, 0u);\
  for (uint i = 0u; i < 128u; i++) {\
    if (0u < ((b.x & checkbit.x) + (b.y & checkbit.y) + (b.z & checkbit.z) + (b.w & checkbit.w))) {\
      vec4_add2(res1, res2, a1, a2, res1, res2);\
    }\
    vec4_shift_l(a, i + 1u, a1, a2);\
    vec4_shift_l(checkbit, 1u, checkbit, tmp);\
  }\
}\
int vec4_cmp(in uvec4 a, in uvec4 b) {\
  if (a.x > b.x) {\
    return 1;\
  } else if (a.x < b.x) {\
    return -1;\
  }\
  if (a.y > b.y) {\
    return 1;\
  } else if (a.y < b.y) {\
    return -1;\
  }\
  if (a.z > b.z) {\
    return 1;\
  } else if (a.z < b.z) {\
    return -1;\
  }\
  if (a.w > b.w) {\
    return 1;\
  } else if (a.w < b.w) {\
    return -1;\
  }\
  return 0;\
}\
int vec4_cmp2(in uvec4 a1, in uvec4 a2, in uvec4 b1, in uvec4 b2) {\
  if (a1.x > b1.x) {\
    return 1;\
  } else if (a1.x < b1.x) {\
    return -1;\
  }\
  if (a1.y > b1.y) {\
    return 1;\
  } else if (a1.y < b1.y) {\
    return -1;\
  }\
  if (a1.z > b1.z) {\
    return 1;\
  } else if (a1.z < b1.z) {\
    return -1;\
  }\
  if (a1.w > b1.w) {\
    return 1;\
  } else if (a1.w < b1.w) {\
    return -1;\
  }\
  if (a2.x > b2.x) {\
    return 1;\
  } else if (a2.x < b2.x) {\
    return -1;\
  }\
  if (a2.y > b2.y) {\
    return 1;\
  } else if (a2.y < b2.y) {\
    return -1;\
  }\
  if (a2.z > b2.z) {\
    return 1;\
  } else if (a2.z < b2.z) {\
    return -1;\
  }\
  if (a2.w > b2.w) {\
    return 1;\
  } else if (a2.w < b2.w) {\
    return -1;\
  }\
  return 0;\
}\

次回はこの型を使ってマンデルブロ集合を描くことに挑戦します。

次の週

環境原猫 73~79日目

今回は、GLSLでのfloat型の精度向上策を考案していました。

最初はGLSLで独自の高精度浮動小数型を自作しようとしたのですが、小数による演算はとても複雑で、小数点の位置を合わせたりオーバーフローチェックが大変だったり一筋縄ではいきそうにないことが分かりました。つまり

無理そうなことが判明

/(^o^)\オワタ

そこで無い頭を捻って、整数で扱えるような座標系に一旦変換することを考えました。

マンデルブロ集合はおおよそ実軸と虚軸が共に-2.0~2.0位の実数の範囲に収まります。

これを、(4バイト整数なら) -2.0相当を整数値-2147483648に、2.0相当を2147483647に一旦変換して、その系でマンデルブロ集合の計算をして、元の座標系に戻す等をします。

このようにすれば計算を整数として扱え、WebGL2.0で導入されたビット演算子も手伝って、巨大な数を扱える整数型を自作出来る気がします。

次の週

環境原猫 66~72日目

今回は、前回描画したマンデルブロ集合を、マウス操作により自由に描画位置や倍率を調整可能にしました。

GPUで描画してるんで速いんですが、精度が終わっていてある程度拡大したところで直ぐに画像がぼやけてきます。

これは、GLSLでのfloat型の精度に依存して発生していると思います。

C++なら任意精度数値計算ライブラリとか持ってくれば、計算時間の問題はとりあえず置いておいて精度は上がるのですが、GLSLにそのようなライブラリは無さそうです。

GLSLで精度上げるには、精度の高い小数型を自作するしかないのかな・・・

ヽ(д´ )ノ うわーん

次の週

環境原猫 59~65日目

今回は、WebGL2.0のTransform Feedbackによりマンデルブロ集合をとりあえず描画することが出来ました。

数値が発散するまでの計算回数を元に適当に色付けしています。

シェーダは以下のようになりました。in_realやtf_realが実部、in_imgやtf_imgが虚部に関する計算値です。

#version 300 es
in vec3 aVertexPosition;
in float in_real;
in float in_img;
in float in_count;

out float tf_real;
out float tf_img;
out float tf_count;

uniform float uReset;
uniform float uCalcs;
uniform float uScale;
uniform float uBaseX;
uniform float uBaseY;

void main(void) {
    float real = in_real;
    float img = in_img;
    float count = in_count;
    for(float i = 0.0; i < uCalcs; i++){
        if (0.0 < uReset && 0.0 == i) {
            real = (aVertexPosition.x + uBaseX) * uScale;
            img = (aVertexPosition.y + uBaseY) * uScale;
            count = 0.0;
        } else {
            float a = real * real - img * img + (aVertexPosition.x + uBaseX) *uScale;
            float b = 2.0 * real * img + (aVertexPosition.y + uBaseY) * uScale;
            real = a;
            img = b;
            if (4.0 < a * a + b * b) {
                count = count + 0.05;
            } else {
                count = count;
            }
        }
    }
    tf_real = real;
    tf_img = img;
    tf_count = count;
    gl_Position = vec4(aVertexPosition, 1.0);
}

シェーダの呼出しコード(概略)は以下の通りです。入力と出力のVBOを描画ごとに入れ替えることでマンデルブロ集合の計算を進めています。

~略~
// --- Transform Feedback ---
gl.useProgram(this.shader_tf);
this.shader_tf.enableAttribute();

// [入力] ユニフォーム変数
gl.uniform1f(this.shader_tf["uReset"], bReset ? 1.0 : 0.0);
gl.uniform1f(this.shader_tf["uCalcs"], calcs);
gl.uniform1f(this.shader_tf["uScale"], scale);
gl.uniform1f(this.shader_tf["uBaseX"], baseX);
gl.uniform1f(this.shader_tf["uBaseY"], baseY);

// [入力] VBO のバインド
gl.bindBuffer(gl.ARRAY_BUFFER, this.vID);
gl.vertexAttribPointer(this.shader_tf["aVertexPosition"], this.v.itemSize, gl.FLOAT, false, 0, 0);
gl.bindBuffer(gl.ARRAY_BUFFER, this.tf_turn ? this.tf_rID : this.tf_r2ID);
gl.vertexAttribPointer(this.shader_tf["in_real"], this.tf_turn ? this.tf_r.itemSize : this.tf_r2.itemSize, gl.FLOAT, false, 0, 0);
gl.bindBuffer(gl.ARRAY_BUFFER, this.tf_turn ? this.tf_iID : this.tf_i2ID);
gl.vertexAttribPointer(this.shader_tf["in_img"], this.tf_turn ? this.tf_i.itemSize : this.tf_i2.itemSize, gl.FLOAT, false, 0, 0);
gl.bindBuffer(gl.ARRAY_BUFFER, this.tf_turn ? this.tf_cID : this.tf_c2ID);
gl.vertexAttribPointer(this.shader_tf["in_count"], this.tf_turn ? this.tf_c.itemSize : this.tf_c2.itemSize, gl.FLOAT, false, 0, 0);

// [出力] 書き込み先の VBO をバインド
gl.bindBufferBase(gl.TRANSFORM_FEEDBACK_BUFFER, 0, this.tf_turn ? this.tf_r2ID : this.tf_rID);
gl.bindBufferBase(gl.TRANSFORM_FEEDBACK_BUFFER, 1, this.tf_turn ? this.tf_i2ID : this.tf_iID);
gl.bindBufferBase(gl.TRANSFORM_FEEDBACK_BUFFER, 2, this.tf_turn ? this.tf_c2ID : this.tf_cID);

gl.enable(gl.RASTERIZER_DISCARD);
gl.beginTransformFeedback(gl.POINTS);

// 実行
gl.drawArrays(gl.POINTS, 0, this.points);

gl.disable(gl.RASTERIZER_DISCARD);
gl.endTransformFeedback();

this.shader_tf.disableAttribute();

gl.bindBufferBase(gl.TRANSFORM_FEEDBACK_BUFFER, 0, null);
gl.bindBufferBase(gl.TRANSFORM_FEEDBACK_BUFFER, 1, null);
gl.bindBufferBase(gl.TRANSFORM_FEEDBACK_BUFFER, 2, null);

this.tf_turn = !this.tf_turn;
~略~

動画は画素ごとに1フレーム1回で計算した様子ですが、シェーダ内でループしてまとめて計算もできます。

4Kの解像度で1フレーム1万回の計算をした場合、RTX3070で約18FPSの結果となりました。

これは、 f(z) = z^2 + C の計算を、1秒間に3,840 * 2,160 * 10,000 * 18 = 1,492,992,000,000 回行っていることを意味します。

( -`ω-)キリッ
_人人人人人人_
> 意味します <
 ̄Y^Y^Y^Y^Y^Y ̄

次の週