src/base/cl_low.h

   1 // Low-level arithmetic: operations on 16-bit and 32-bit words
   2
   3 #ifndef _CL_LOW_H
   4 #define _CL_LOW_H
   5
   6 namespace cln {
   7
   8 // Determines the sign of a 16-bit number.
   9 // sign_of(wert)
  10 // > wert: eine 16-Bit-Zahl
  11 // < sint16 ergebnis: 0 falls wert>=0, -1 falls wert<0.
  12 inline sint16 sign_of (sint16 wert)
  13 {
  14 #if defined(__sparc64__)
  15         return (sint64)wert >> 63;
  16 #elif defined(__sparc__) || defined(__arm__)
  17         return (sint32)wert >> 31;
  18 #else
  19         return (wert >= 0 ? 0 : -1);
  20 #endif
  21 }
  22
  23 // Determines the sign of a 32-bit number.
  24 // sign_of(wert)
  25 // > wert: eine 32-Bit-Zahl
  26 // < sint32 ergebnis: 0 falls wert>=0, -1 falls wert<0.
  27 inline sint32 sign_of (sint32 wert)
  28 {
  29 #if defined(__sparc64__)
  30         return (sint64)wert >> 63;
  31 #elif defined(__sparc__) || defined(__arm__)
  32         return wert >> 31;
  33 #else
  34         return (wert >= 0 ? 0 : -1);
  35 #endif
  36 }
  37
  38 #ifdef HAVE_FAST_LONGLONG
  39
  40 // Determines the sign of a 64-bit number.
  41 // sign_of(wert)
  42 // > wert: eine 64-Bit-Zahl
  43 // < sint64 ergebnis: 0 falls wert>=0, -1 falls wert<0.
  44 inline sint64 sign_of (sint64 wert)
  45 {
  46         return wert >> 63;
  47 }
  48
  49 #endif /* HAVE_FAST_LONGLONG */
  50
  51
  52 // High-Word einer 32-Bit-Zahl bestimmen
  53 // high16(wert)
  54 inline uint16 high16 (uint32 wert)
  55 {
  56         return wert >> 16;
  57 }
  58
  59 // Low-Word einer 32-Bit-Zahl bestimmen
  60 // low16(wert)
  61 inline uint16 low16 (uint32 wert)
  62 {
  63         return (uint16)wert;
  64 }
  65
  66 // Eine 32-Bit-Zahl aus ihrem High-Word und ihrem Low-Word bestimmen:
  67 // highlow32(uint16 high, uint16 low)
  68 inline uint32 highlow32 (uint16 high, uint16 low)
  69 {
  70         return ((uint32)high << 16) | (uint32)low;
  71 }
  72
  73 // Eine 32-Bit-Zahl aus ihrem High-Word und ihrem Low-Word 0 bestimmen:
  74 // highlow32_0(uint16 high)
  75 inline uint32 highlow32_0 (uint16 high)
  76 {
  77         return (uint32)high << 16;
  78 }
  79
  80 #ifdef HAVE_LONGLONG
  81
  82 // High-Word einer 64-Bit-Zahl bestimmen
  83 // high32(wert)
  84 inline uint32 high32 (uint64 wert)
  85 {
  86         return wert >> 32;
  87 }
  88
  89 // Low-Word einer 64-Bit-Zahl bestimmen
  90 // low32(wert)
  91 inline uint32 low32 (uint64 wert)
  92 {
  93         return (uint32)wert;
  94 }
  95
  96 // Eine 64-Bit-Zahl aus ihrem High-Word und ihrem Low-Word bestimmen:
  97 // highlow64(uint32 high, uint32 low)
  98 inline uint64 highlow64 (uint32 high, uint32 low)
  99 {
 100         return ((uint64)high << 32) | (uint64)low;
 101 }
 102
 103 // Eine 64-Bit-Zahl aus ihrem High-Word und ihrem Low-Word 0 bestimmen:
 104 // highlow64_0(uint32 high)
 105 inline uint64 highlow64_0 (uint32 high)
 106 {
 107         return (uint64)high << 32;
 108 }
 109
 110 #endif /* HAVE_LONGLONG */
 111
 112
 113 // Multipliziert zwei 16-Bit-Zahlen miteinander und liefert eine 32-Bit-Zahl:
 114 // mulu16(arg1,arg2)
 115 // > arg1, arg2 : zwei 16-Bit-Zahlen
 116 // < ergebnis: eine 32-Bit-Zahl
 117 #if defined(__GNUC__) && defined(__sparc__) && !defined(__sparc64__) && defined(FAST_DOUBLE)
 118 // Ist das schneller als mulu16_ ??
 119 inline uint32 mulu16 (uint16 arg1, uint16 arg2)
 120 {
 121         union { double f; uint32 i[2]; } __fi;
 122         __fi.f = (double)(sint32)arg1 * (double)(sint32)arg2
 123                  + (double)(4503599627370496.0L); // + 2^52, zum Normalisieren
 124         return __fi.i[1]; // untere 32 Bit herausholen (benutzt CL_CPU_BIG_ENDIAN_P !)
 125 }
 126 #elif defined(__GNUC__) && defined(__sparc64__) && !defined(NO_ASM)
 127 inline uint32 mulu16 (uint16 arg1, uint16 arg2)
 128 {
 129         register uint64 _prod;
 130         __asm__("umul %1,%2,%0"
 131                 : "=r" (_prod)
 132                 : "r" (arg1), "r" (arg2)
 133                );
 134         return _prod;
 135 }
 136 #elif defined(__GNUC__) && (defined(__i386__) || defined(__x86_64__)) && !defined(NO_ASM)
 137 inline uint32 mulu16 (uint16 arg1, uint16 arg2)
 138 {
 139         register uint16 _hi;
 140         register uint16 _lo;
 141         __asm__("mulw %2"
 142                 : "=d" /* %dx */ (_hi), "=a" /* %ax */ (_lo)
 143                 : "rm" (arg1), "1" /* %eax */ (arg2)
 144                );
 145         return highlow32(_hi,_lo);
 146 }
 147 #elif (defined(__sparc__) || defined(__sparc64__)) && !defined(NO_ASM)
 148   extern "C" uint32 mulu16_ (uint16 arg1, uint16 arg2);
 149   #define mulu16  mulu16_  // extern in Assembler
 150 #else
 151 inline uint32 mulu16 (uint16 arg1, uint16 arg2)
 152 {
 153         return arg1 * arg2;
 154 }
 155 #endif
 156
 157 // Multipliziert zwei 24-Bit-Zahlen zusammen und liefert eine 48-Bit-Zahl.
 158 // mulu24(arg1,arg2,hi=,lo=);
 159 // > arg1, arg2 : zwei 24-Bit-Zahlen
 160 // < 2^32*hi+lo : eine 48-Bit-Zahl
 161 #if defined(__sparc__) && !defined(__sparc64__) && defined(FAST_DOUBLE)
 162   #define mulu24(x,y,hi_zuweisung,lo_zuweisung)  \
 163     { var uint32 _x = (x);                                      \
 164       var uint32 _y = (y);                                      \
 165       var union { double f; uint32 i[2]; uint16 s[4]; } __fi;   \
 166       __fi.f = (double)(sint32)(_x)*(double)(sint32)(_y)        \
 167                + (double)(4503599627370496.0L); /* + 2^52, zum Normalisieren */\
 168       unused (hi_zuweisung __fi.s[1]); /* mittlere 16 Bit herausholen, (benutzt CL_CPU_BIG_ENDIAN_P !) */\
 169       lo_zuweisung __fi.i[1]; /* untere 32 Bit herausholen (benutzt CL_CPU_BIG_ENDIAN_P !)    */\
 170     }
 171 #else
 172   #define mulu24  mulu32
 173 #endif
 174
 175 // Multipliziert zwei 32-Bit-Zahlen miteinander und liefert eine 32-Bit-Zahl:
 176 // mulu32_unchecked(arg1,arg2)
 177 // > arg1, arg2 : zwei 32-Bit-Zahlen
 178 // < ergebnis : eine 32-Bit-Zahl
 179 // Es wird vorausgesetzt, daß arg1*arg2 < 2^32.
 180 #if defined(__GNUC__) && defined(__sparc64__) && !defined(NO_ASM)
 181 inline uint32 mulu32_unchecked (uint32 arg1, uint32 arg2)
 182 {
 183         register uint64 _prod;
 184         __asm__("umul %1,%2,%0"
 185                 : "=r" (_prod)
 186                 : "r" (arg1), "r" (arg2)
 187                );
 188         return _prod;
 189 }
 190 #elif defined(__sparc__) && !defined(NO_ASM)
 191   extern "C" uint32 mulu32_unchecked (uint32 x, uint32 y); // extern in Assembler
 192 #else
 193   // Wir können dafür auch die Bibliotheksroutine des C-Compilers nehmen:
 194   inline uint32 mulu32_unchecked (uint32 arg1, uint32 arg2)
 195   {
 196         return arg1 * arg2;
 197   }
 198 #endif
 199
 200 // Multipliziert zwei 32-Bit-Zahlen miteinander und liefert eine 64-Bit-Zahl:
 201 // mulu32(arg1,arg2,hi=,lo=);
 202 // > arg1, arg2 : zwei 32-Bit-Zahlen
 203 // < 2^32*hi+lo : eine 64-Bit-Zahl
 204   extern "C" uint32 mulu32_ (uint32 arg1, uint32 arg2); // -> Low-Teil
 205   extern "C" uint32 mulu32_high;                        // -> High-Teil
 206 #if defined(__GNUC__) && defined(__m68k__) && !defined(NO_ASM)
 207   #define mulu32(x,y,hi_zuweisung,lo_zuweisung)  \
 208     ({ var uint32 _x = (x);       \
 209        var uint32 _y = (y);       \
 210        var uint32 _hi;            \
 211        var uint32 _lo;            \
 212        __asm__("mulul %3,%0:%1" : "=d" (_hi), "=d"(_lo) : "1" (_x), "dm" (_y) ); \
 213        unused (hi_zuweisung _hi); \
 214        lo_zuweisung _lo;          \
 215      })
 216 #elif defined(__GNUC__) && defined(__m68k__)
 217   #define mulu32(x,y,hi_zuweisung,lo_zuweisung)  \
 218     ({ var uint32 _x = (x);                                             \
 219        var uint32 _y = (y);                                             \
 220        var uint16 _x1 = high16(_x);                                     \
 221        var uint16 _x0 = low16(_x);                                      \
 222        var uint16 _y1 = high16(_y);                                     \
 223        var uint16 _y0 = low16(_y);                                      \
 224        var uint32 _hi = mulu16(_x1,_y1); /* obere Portion */            \
 225        var uint32 _lo = mulu16(_x0,_y0); /* untere Portion */           \
 226        {var uint32 _mid = mulu16(_x0,_y1); /* 1. mittlere Portion */    \
 227         _hi += high16(_mid); _mid = highlow32_0(low16(_mid));           \
 228         _lo += _mid; if (_lo < _mid) { _hi += 1; } /* 64-Bit-Addition */\
 229        }                                                                \
 230        {var uint32 _mid = mulu16(_x1,_y0); /* 2. mittlere Portion */    \
 231         _hi += high16(_mid); _mid = highlow32_0(low16(_mid));           \
 232         _lo += _mid; if (_lo < _mid) { _hi += 1; } /* 64-Bit-Addition */\
 233        }                                                                \
 234        unused (hi_zuweisung _hi);                                       \
 235        lo_zuweisung _lo;                                                \
 236      })
 237 #elif defined(__GNUC__) && defined(__sparc64__) && !defined(NO_ASM)
 238   #define mulu32(x,y,hi_zuweisung,lo_zuweisung)  \
 239     ({ var register uint64 _prod;                               \
 240        __asm__("umul %1,%2,%0"                                  \
 241                : "=r" (_prod)                                   \
 242                : "r" ((uint32)(x)), "r" ((uint32)(y))           \
 243               );                                                \
 244        unused (hi_zuweisung (uint32)(_prod>>32));               \
 245        lo_zuweisung (uint32)(_prod);                            \
 246      })
 247 #elif defined(__GNUC__) && defined(__sparc__) && !defined(NO_ASM)
 248   #define mulu32(x,y,hi_zuweisung,lo_zuweisung)  \
 249     ({ lo_zuweisung mulu32_(x,y); /* extern in Assembler */     \
 250       {var register uint32 _hi __asm__("%g1");                  \
 251        unused (hi_zuweisung _hi);                               \
 252      }})
 253 #elif defined(__GNUC__) && defined(__arm__) && 0 // see comment cl_asm_arm.cc
 254   #define mulu32(x,y,hi_zuweisung,lo_zuweisung)  \
 255     ({ lo_zuweisung mulu32_(x,y); /* extern in Assembler */     \
 256       {var register uint32 _hi __asm__("%r1"/*"%a2"*/);         \
 257        unused (hi_zuweisung _hi);                               \
 258      }})
 259 #elif defined(__GNUC__) && (defined(__i386__) || defined(__x86_64__)) && !defined(NO_ASM)
 260   #define mulu32(x,y,hi_zuweisung,lo_zuweisung)  \
 261     ({ var register uint32 _hi;                                  \
 262        var register uint32 _lo;                                  \
 263        __asm__("mull %2"                                         \
 264                : "=d" /* %edx */ (_hi), "=a" /* %eax */ (_lo)    \
 265                : "g" ((uint32)(x)), "1" /* %eax */ ((uint32)(y)) \
 266               );                                                 \
 267        unused (hi_zuweisung _hi); lo_zuweisung _lo;              \
 268      })
 269 #elif defined(__GNUC__) && defined(__mips__) && !defined(NO_ASM)
 270   #define mulu32(x,y,hi_zuweisung,lo_zuweisung)  \
 271     ({ var register uint32 _hi;                       \
 272        var register uint32 _lo;                       \
 273        __asm__("multu %3,%2 ; mfhi %0 ; mflo %1"      \
 274                : "=r" (_hi), "=r" (_lo)               \
 275                : "r" ((uint32)(x)), "r" ((uint32)(y)) \
 276               );                                      \
 277        unused (hi_zuweisung _hi); lo_zuweisung _lo;   \
 278      })
 279 #elif defined(__GNUC__) && defined(HAVE_LONGLONG) && !defined(__arm__)
 280   #define mulu32(x,y,hi_zuweisung,lo_zuweisung)  \
 281     ({ var register uint64 _prod = (uint64)(uint32)(x) * (uint64)(uint32)(y); \
 282        unused (hi_zuweisung (uint32)(_prod>>32));                             \
 283        lo_zuweisung (uint32)(_prod);                                          \
 284      })
 285 #elif defined(WATCOM) && defined(__i386__) && !defined(NO_ASM)
 286   #define mulu32(x,y,hi_zuweisung,lo_zuweisung)  \
 287     { var register uint32 _hi;                     \
 288       var register uint32 _lo;                     \
 289       _lo = mulu32_(x,y), _hi = mulu32_high_();    \
 290       unused (hi_zuweisung _hi); lo_zuweisung _lo; \
 291     }
 292   extern "C" uint32 mulu32_high_ (void);
 293   #pragma aux mulu32_ = 0xF7 0xE2 /* mull %edx */ parm [eax] [edx] value [eax] modify [eax edx];
 294   #pragma aux mulu32_high_ = /* */ value [edx] modify [];
 295 #else
 296   #define mulu32(x,y,hi_zuweisung,lo_zuweisung)  \
 297     { lo_zuweisung mulu32_(x,y); unused (hi_zuweisung mulu32_high); }
 298   #if (defined(__m68k__) || defined(__sparc__) || defined(__sparc64__) || defined(__arm__) || (defined(__i386__) && !defined(WATCOM) && !defined(MICROSOFT)) || defined(__x86_64__) || defined(__mips__) || defined(__hppa__)) && !defined(NO_ASM)
 299     // mulu32_ extern in Assembler
 300     #if defined(__sparc__) || defined(__sparc64__)
 301       extern "C" uint32 _get_g1 (void);
 302       #define mulu32_high  (_get_g1()) // Rückgabe im Register %g1
 303     #elif !defined(__hppa__)
 304       #define NEED_VAR_mulu32_high
 305     #endif
 306   #else
 307     #define NEED_FUNCTION_mulu32_
 308   #endif
 309 #endif
 310
 311 #ifdef HAVE_FAST_LONGLONG
 312
 313 // Multipliziert zwei 32-Bit-Zahlen miteinander und liefert eine 64-Bit-Zahl:
 314 // mulu32_w(arg1,arg2)
 315 // > arg1, arg2 : zwei 32-Bit-Zahlen
 316 // < result : eine 64-Bit-Zahl
 317 #if defined(__GNUC__) && defined(__sparc64__) && !defined(NO_ASM)
 318   // Prefer the umul instruction over the mulx instruction (overkill).
 319   #define mulu32_w(x,y)  \
 320     ({ var register uint64 _prod;                               \
 321        __asm__("umul %1,%2,%0"                                  \
 322                : "=r" (_prod)                                   \
 323                : "r" ((uint32)(x)), "r" ((uint32)(y))           \
 324               );                                                \
 325        _prod;                                                   \
 326      })
 327 #elif defined(__GNUC__)
 328   #define mulu32_w(x,y)  ((uint64)(uint32)(x) * (uint64)(uint32)(y))
 329 #else
 330   extern "C" uint64 mulu32_w (uint32 arg1, uint32 arg2);
 331   #define NEED_FUNCTION_mulu32_w
 332 #endif
 333
 334 // Multipliziert zwei 64-Bit-Zahlen miteinander und liefert eine 128-Bit-Zahl:
 335 // mulu64(arg1,arg2,hi=,lo=);
 336 // > arg1, arg2 : zwei 64-Bit-Zahlen
 337 // < 2^64*hi+lo : eine 128-Bit-Zahl
 338   extern "C" uint64 mulu64_ (uint64 arg1, uint64 arg2); // -> Low-Teil
 339   extern "C" uint64 mulu64_high;                        // -> High-Teil
 340 #if defined(__GNUC__) && defined(__alpha__) && !defined(NO_ASM)
 341   #define mulu64(x,y,hi_zuweisung,lo_zuweisung)  \
 342     ({ var register uint64 _x = (x);    \
 343        var register uint64 _y = (y);    \
 344        var register uint64 _hi;         \
 345        var register uint64 _lo;         \
 346        __asm__("mulq %1,%2,%0"          \
 347                : "=r" (_lo)             \
 348                : "r" (_x), "r" (_y)     \
 349               );                        \
 350        __asm__("umulh %1,%2,%0"         \
 351                : "=r" (_hi)             \
 352                : "r" (_x), "r" (_y)     \
 353               );                        \
 354        hi_zuweisung _hi;                \
 355        lo_zuweisung _lo;                \
 356      })
 357 #elif defined(__GNUC__) && defined(__sparc64__) && !defined(NO_ASM)
 358   #define mulu64(x,y,hi_zuweisung,lo_zuweisung)  \
 359     ({ lo_zuweisung mulu64_(x,y); /* extern in Assembler */     \
 360       {var register uint64 _hi __asm__("%g2");                  \
 361        hi_zuweisung _hi;                                        \
 362      }})
 363 #elif defined(__GNUC__) && defined(__x86_64__) && !defined(NO_ASM)
 364   #define mulu64(x,y,hi_zuweisung,lo_zuweisung)  \
 365     ({ var register uint64 _hi;                                  \
 366        var register uint64 _lo;                                  \
 367        __asm__("mulq %2"                                         \
 368                : "=d" /* %rdx */ (_hi), "=a" /* %rax */ (_lo)    \
 369                : "rm" ((uint64)(x)), "1" /* %rax */ ((uint64)(y)) \
 370               );                                                 \
 371        hi_zuweisung _hi; lo_zuweisung _lo;                       \
 372      })
 373 #elif defined(__GNUC__) && defined(__ia64__) && !defined(NO_ASM)
 374   #define mulu64(x,y,hi_zuweisung,lo_zuweisung)  \
 375     ({ var register uint64 _x = (x);                              \
 376        var register uint64 _y = (y);                              \
 377        var register uint64 _hi;                                   \
 378        __asm__("xma.hu %0 = %1, %2, f0"                           \
 379                : "=f" (_hi)                                       \
 380                : "f" ((uint64)(_x)), "f" ((uint64)(_y))           \
 381               );                                                  \
 382        hi_zuweisung _hi; lo_zuweisung ((uint64)(_x)*(uint64)(_y));\
 383      })
 384 #else
 385   #define mulu64(x,y,hi_zuweisung,lo_zuweisung)  \
 386     { lo_zuweisung mulu64_(x,y); hi_zuweisung mulu64_high; }
 387   #if defined(__sparc64__) && !defined(NO_ASM)
 388     // mulu64_ extern in Assembler
 389     extern "C" uint64 _get_g2 (void);
 390     #define mulu64_high  (_get_g2()) // Rückgabe im Register %g2
 391   #else
 392     #define NEED_FUNCTION_mulu64_
 393   #endif
 394 #endif
 395
 396 #endif /* HAVE_FAST_LONGLONG */
 397
 398
 399 // Dividiert eine 16-Bit-Zahl durch eine 16-Bit-Zahl und
 400 // liefert einen 16-Bit-Quotienten und einen 16-Bit-Rest.
 401 // divu_1616_1616(x,y,q=,r=);
 402 // > uint16 x: Zähler
 403 // > uint16 y: Nenner
 404 // < uint16 q: floor(x/y)
 405 // < uint16 r: x mod y
 406 // < x = q*y+r
 407   #define divu_1616_1616(x,y,q_zuweisung,r_zuweisung)  \
 408     { var uint16 __x = (x);                                     \
 409       var uint16 __y = (y);                                     \
 410       q_zuweisung floor(__x,__y);                               \
 411       r_zuweisung (__x % __y);                                  \
 412     }
 413
 414 // Dividiert eine 32-Bit-Zahl durch eine 16-Bit-Zahl und
 415 // liefert einen 16-Bit-Quotienten und einen 16-Bit-Rest.
 416 // divu_3216_1616(x,y,q=,r=);
 417 // > uint32 x: Zähler
 418 // > uint16 y: Nenner
 419 // > Es sei bekannt, daß 0 <= x < 2^16*y .
 420 // < uint16 q: floor(x/y)
 421 // < uint16 r: x mod y
 422 // < x = q*y+r
 423 #if defined(__sparc__)
 424   extern "C" uint32 divu_3216_1616_ (uint32 x, uint16 y); // -> Quotient q, Rest r
 425 #else
 426   extern "C" uint16 divu_3216_1616_ (uint32 x, uint16 y); // -> Quotient q
 427   extern "C" uint16 divu_16_rest;                         // -> Rest r
 428 #endif
 429 #if defined(__GNUC__) && defined(__sparc64__) && !defined(NO_ASM)
 430   #define divu_3216_1616(x,y,q_zuweisung,r_zuweisung)  \
 431     ({var uint32 __x = (x);        \
 432       var uint16 __y = (y);        \
 433       var uint64 __q;              \
 434       var uint64 __r;              \
 435       __asm__ __volatile__ (       \
 436         "wr %%g0,%%g0,%%y\n\t"     \
 437         "udiv %2,%3,%0\n\t"        \
 438         "umul %0,%3,%1\n\t"        \
 439         "sub %2,%1,%1"             \
 440         : "=&r" (__q), "=&r" (__r) \
 441         : "r" (__x), "r" (__y));   \
 442       q_zuweisung (uint16)__q;     \
 443       r_zuweisung (uint16)__r;     \
 444      })
 445 #elif defined(__GNUC__) && (defined(__sparc__) || defined(__sparc64__)) && !defined(NO_ASM)
 446   #define divu_3216_1616(x,y,q_zuweisung,r_zuweisung)  \
 447     ({ var uint32 __qr = divu_3216_1616_(x,y); /* extern in Assembler */\
 448        q_zuweisung low16(__qr);                                         \
 449        r_zuweisung high16(__qr);                                        \
 450      })
 451 #elif defined(__GNUC__) && defined(__m68k__) && !defined(NO_ASM)
 452   #define divu_3216_1616(x,y,q_zuweisung,r_zuweisung)  \
 453     ({var uint32 __x = (x);                                             \
 454       var uint16 __y = (y);                                             \
 455       var uint32 __qr;                                                  \
 456       __asm__ __volatile__ ("                                           \
 457         divu %2,%0                                                      \
 458         " : "=d" (__qr) : "0" (__x), "dm" (__y));                       \
 459       q_zuweisung low16(__qr);                                          \
 460       r_zuweisung high16(__qr);                                         \
 461      })
 462 #elif defined(__GNUC__) && (defined(__i386__) || defined(__x86_64__)) && !defined(NO_ASM)
 463   #define divu_3216_1616(x,y,q_zuweisung,r_zuweisung)  \
 464     ({var uint32 __x = (x);                                             \
 465       var uint16 __y = (y);                                             \
 466       var uint16 __q;                                                   \
 467       var uint16 __r;                                                   \
 468       __asm__("divw %4"                                                 \
 469               : "=a" /* %ax */ (__q), "=d" /* %dx */ (__r)              \
 470               : "1" /* %dx */ ((uint16)(high16(__x))), "0" /* %ax */ ((uint16)(low16(__x))), "rm" (__y) \
 471              );                                                         \
 472       q_zuweisung __q;                                                  \
 473       r_zuweisung __r;                                                  \
 474      })
 475 #elif defined(__GNUC__) && defined(__arm__) && 0 // see comment cl_asm_arm.cc
 476   #define divu_3216_1616(x,y,q_zuweisung,r_zuweisung)  \
 477     { var uint32 __q = divu_3216_1616_(x,y); /* extern in Assembler */  \
 478       var register uint32 __r __asm__("%r1"/*"%a2"*/);                  \
 479       q_zuweisung __q; r_zuweisung __r;                                 \
 480     }
 481 #elif defined(__GNUC__) && !defined(__arm__)
 482   #define divu_3216_1616(x,y,q_zuweisung,r_zuweisung)  \
 483     ({var uint32 __x = (x);                                             \
 484       var uint16 __y = (y);                                             \
 485       var uint16 __q = floor(__x,__y);                                  \
 486       q_zuweisung __q;                                                  \
 487       r_zuweisung (__x - __q * __y);                                    \
 488      })
 489 #elif (defined(__sparc__) || defined(__sparc64__)) && !defined(NO_ASM)
 490   #define divu_3216_1616(x,y,q_zuweisung,r_zuweisung)  \
 491     { var uint32 __qr = divu_3216_1616_(x,y); /* extern in Assembler */ \
 492       q_zuweisung low16(__qr);                                          \
 493       r_zuweisung high16(__qr);                                         \
 494     }
 495 #elif defined(__arm__) && !defined(NO_ASM)
 496   #define divu_3216_1616(x,y,q_zuweisung,r_zuweisung)  \
 497     { q_zuweisung divu_3216_1616_(x,y); /* extern in Assembler */       \
 498       r_zuweisung divu_16_rest;                                         \
 499     }
 500   #define NEED_VAR_divu_16_rest
 501 #else
 502   #define divu_3216_1616(x,y,q_zuweisung,r_zuweisung)  \
 503     { q_zuweisung divu_3216_1616_(x,y); r_zuweisung divu_16_rest; }
 504   #define NEED_FUNCTION_divu_3216_1616_
 505 #endif
 506
 507 // Dividiert eine 32-Bit-Zahl durch eine 16-Bit-Zahl und
 508 // liefert einen 32-Bit-Quotienten und einen 16-Bit-Rest.
 509 // divu_3216_3216(x,y,q=,r=);
 510 // > uint32 x: Zähler
 511 // > uint16 y: Nenner
 512 // Es sei bekannt, daß y>0.
 513 // < uint32 q: floor(x/y)
 514 // < uint16 r: x mod y
 515 // < x = q*y+r
 516   extern "C" uint32 divu_3216_3216_ (uint32 x, uint16 y); // -> Quotient q
 517   extern "C" uint16 divu_16_rest;                         // -> Rest r
 518 #if defined(__GNUC__) && defined(__sparc64__) && !defined(NO_ASM)
 519   #define divu_3216_3216(x,y,q_zuweisung,r_zuweisung)  \
 520     ({var uint32 __x = (x);        \
 521       var uint16 __y = (y);        \
 522       var uint64 __q;              \
 523       var uint64 __r;              \
 524       __asm__ __volatile__ (       \
 525         "wr %%g0,%%g0,%%y\n\t"     \
 526         "udiv %2,%3,%0\n\t"        \
 527         "umul %0,%3,%1\n\t"        \
 528         "sub %2,%1,%1"             \
 529         : "=&r" (__q), "=&r" (__r) \
 530         : "r" (__x), "r" (__y));   \
 531       q_zuweisung (uint32)__q;     \
 532       r_zuweisung (uint16)__r;     \
 533      })
 534 #elif defined(__sparc__) || defined(__sparc64__) || defined(__i386__) || defined(__x86_64__)
 535   #define divu_3216_3216  divu_3232_3232
 536 #else
 537   // Methode: (beta = 2^16)
 538   // x = x1*beta+x0 schreiben.
 539   // Division mit Rest: x1 = q1*y + r1, wobei 0 <= x1 < beta <= beta*y.
 540   // Also 0 <= q1 < beta, 0 <= r1 < y.
 541   // Division mit Rest: (r1*beta+x0) = q0*y + r0, wobei 0 <= r1*beta+x0 < beta*y.
 542   // Also 0 <= q0 < beta, 0 <= r0 < y
 543   // und x = x1*beta+x0 = (q1*beta+q0)*y + r0.
 544   // Setze q := q1*beta+q0 und r := r0.
 545   #define divu_3216_3216(x,y,q_zuweisung,r_zuweisung)  \
 546     { var uint32 _x = (x);                                              \
 547       var uint16 _y = (y);                                              \
 548       var uint16 _q1;                                                   \
 549       var uint16 _q0;                                                   \
 550       var uint16 _r1;                                                   \
 551       divu_3216_1616(high16(_x),_y, _q1 = , _r1 = );                    \
 552       divu_3216_1616(highlow32(_r1,low16(_x)),_y, _q0 = , r_zuweisung); \
 553       q_zuweisung highlow32(_q1,_q0);                                   \
 554     }
 555 #endif
 556
 557 // Dividiert eine 32-Bit-Zahl durch eine 32-Bit-Zahl und
 558 // liefert einen 32-Bit-Quotienten und einen 32-Bit-Rest.
 559 // divu_3232_3232(x,y,q=,r=);
 560 // > uint32 x: Zähler
 561 // > uint32 y: Nenner
 562 // Es sei bekannt, daß y>0.
 563 // < uint32 q: floor(x/y)
 564 // < uint32 r: x mod y
 565 // < x = q*y+r
 566   extern "C" uint32 divu_3232_3232_ (uint32 x, uint32 y); // -> Quotient q
 567   extern "C" uint32 divu_32_rest;                         // -> Rest r
 568 #if defined(__GNUC__) && defined(__sparc64__) && !defined(NO_ASM)
 569   #define divu_3232_3232(x,y,q_zuweisung,r_zuweisung)  \
 570     ({var uint32 __x = (x);        \
 571       var uint32 __y = (y);        \
 572       var uint64 __q;              \
 573       var uint64 __r;              \
 574       __asm__ __volatile__ (       \
 575         "wr %%g0,%%g0,%%y\n\t"     \
 576         "udiv %2,%3,%0\n\t"        \
 577         "umul %0,%3,%1\n\t"        \
 578         "sub %2,%1,%1"             \
 579         : "=&r" (__q), "=&r" (__r) \
 580         : "r" (__x), "r" (__y));   \
 581       q_zuweisung (uint32)__q;     \
 582       r_zuweisung (uint32)__r;     \
 583      })
 584   #define divu_3232_3232_(x,y) divu_6432_3232_(0,x,y)
 585 #elif defined(__sparc__) || defined(__sparc64__) || defined(__i386__) || defined(__x86_64__)
 586   #define divu_3232_3232(x,y,q_zuweisung,r_zuweisung)  \
 587     divu_6432_3232(0,x,y,q_zuweisung,r_zuweisung)
 588   #define divu_3232_3232_(x,y) divu_6432_3232_(0,x,y)
 589 #else
 590   // Methode: (beta = 2^n = 2^16, n = 16)
 591   // Falls y < beta, handelt es sich um eine 32-durch-16-Bit-Division.
 592   // Falls y >= beta:
 593   // Quotient  q = floor(x/y) < beta  (da 0 <= x < beta^2, y >= beta).
 594   // y habe genau n+k Bits (1 <= k <= n), d.h. 2^(n+k-1) <= y < 2^(n+k).
 595   // Schreibe  x = 2^k*x1 + x0  mit  x1 := floor(x/2^k)
 596   // und       y = 2^k*y1 + y0  mit  y1 := floor(y/2^k)
 597   // und bilde den Näherungs-Quotienten floor(x1/y1)
 598   // oder (noch besser) floor(x1/(y1+1)).
 599   // Wegen 0 <= x1 < 2^(2n) und 0 < 2^(n-1) <= y1 < 2^n
 600   // und  x1/(y1+1) <= x/y < x1/(y1+1) + 2
 601   // (denn x1/(y1+1) = (x1*2^k)/((y1+1)*2^k) <= (x1*2^k)/y <= x/y
 602   // und x/y - x1/(y1+1) = (x+x*y1-x1*y)/(y*(y1+1))
 603   // = (x+x0*y1-x1*y0)/(y*(y1+1)) <= (x+x0*y1)/(y*(y1+1))
 604   // <= x/(y*(y1+1)) + x0/y
 605   // <= 2^(2n)/(2^(n+k-1)*(2^(n-1)+1)) + 2^k/2^(n+k-1)
 606   // = 2^(n-k+1)/(2^(n-1)+1) + 2^(1-n) <= 2^n/(2^(n-1)+1) + 2^(1-n) < 2 )
 607   // gilt  floor(x1/(y1+1)) <= floor(x/y) <= floor(x1/(y1+1)) + 2  .
 608   // Man bildet also  q:=floor(x1/(y1+1))  (ein Shift um n Bit oder
 609   // eine (2n)-durch-n-Bit-Division, mit Ergebnis q <= floor(x/y) < beta)
 610   // und x-q*y und muß hiervon noch höchstens 2 mal y abziehen und q
 611   // incrementieren, um den Quotienten  q = floor(x/y)  und den Rest
 612   // x-floor(x/y)*y  der Division zu bekommen.
 613   #define divu_3232_3232(x,y,q_zuweisung,r_zuweisung)  \
 614     { var uint32 _x = (x);                                              \
 615       var uint32 _y = (y);                                              \
 616       if (_y <= (uint32)(bit(16)-1))                                    \
 617         { var uint16 _q1;                                               \
 618           var uint16 _q0;                                               \
 619           var uint16 _r1;                                               \
 620           divu_3216_1616(high16(_x),_y, _q1 = , _r1 = );                \
 621           divu_3216_1616(highlow32(_r1,low16(_x)),_y, _q0 = , r_zuweisung); \
 622           q_zuweisung highlow32(_q1,_q0);                               \
 623         }                                                               \
 624         else                                                            \
 625         { var uint32 _x1 = _x; /* x1 := x */                            \
 626           var uint32 _y1 = _y; /* y1 := y */                            \
 627           var uint16 _q;                                                \
 628           do { _x1 = floor(_x1,2); _y1 = floor(_y1,2); } /* k erhöhen */\
 629              until (_y1 <= (uint32)(bit(16)-1)); /* bis y1 < beta */    \
 630           { var uint16 _y2 = low16(_y1)+1; /* y1+1 bilden */            \
 631             if (_y2==0)                                                 \
 632               { _q = high16(_x1); } /* y1+1=beta -> ein Shift */        \
 633               else                                                      \
 634               { divu_3216_1616(_x1,_y2,_q=,); } /* Division von x1 durch y1+1 */\
 635           }                                                             \
 636           /* _q = q = floor(x1/(y1+1)) */                               \
 637           /* x-q*y bilden (eine 16-mal-32-Bit-Multiplikation ohne Überlauf): */\
 638           _x -= highlow32_0(mulu16(_q,high16(_y))); /* q * high16(y) * beta */\
 639           /* gefahrlos, da q*high16(y) <= q*y/beta <= x/beta < beta */  \
 640           _x -= mulu16(_q,low16(_y)); /* q * low16(y) */                \
 641           /* gefahrlos, da q*high16(y)*beta + q*low16(y) = q*y <= x */  \
 642           /* Noch höchstens 2 mal y abziehen: */                       \
 643           if (_x >= _y)                                                 \
 644             { _q += 1; _x -= _y;                                        \
 645               if (_x >= _y)                                             \
 646                 { _q += 1; _x -= _y; }                                  \
 647             }                                                           \
 648           r_zuweisung _x;                                               \
 649           q_zuweisung (uint32)(_q);                                     \
 650     }   }
 651   #define NEED_FUNCTION_divu_3232_3232_
 652 #endif
 653
 654 // Dividiert eine 64-Bit-Zahl durch eine 32-Bit-Zahl und
 655 // liefert einen 32-Bit-Quotienten und einen 32-Bit-Rest.
 656 // divu_6432_3232(xhi,xlo,y,q=,r=);
 657 // > uint32 xhi,xlo: x = 2^32*xhi+xlo = Zähler
 658 // > uint32 y: Nenner
 659 // > Es sei bekannt, daß 0 <= x < 2^32*y .
 660 // < uint32 q: floor(x/y)
 661 // < uint32 r: x mod y
 662 // < x = q*y+r
 663   extern "C" uint32 divu_6432_3232_ (uint32 xhi, uint32 xlo, uint32 y); // -> Quotient q
 664   extern "C" uint32 divu_32_rest;                                       // -> Rest r
 665 #if defined(__GNUC__) && defined(__m68k__) && !defined(NO_ASM)
 666   #define divu_6432_3232(xhi,xlo,y,q_zuweisung,r_zuweisung)  \
 667     ({var uint32 __xhi = (xhi);                                         \
 668       var uint32 __xlo = (xlo);                                         \
 669       var uint32 __y = (y);                                             \
 670       var uint32 __q;                                                   \
 671       var uint32 __r;                                                   \
 672       __asm__ __volatile__ ("                                           \
 673         divul %4,%1:%0                                                  \
 674         " : "=d" (__q), "=d" (__r) : "1" (__xhi), "0" (__xlo), "dm" (__y)); \
 675       q_zuweisung __q;                                                  \
 676       r_zuweisung __r;                                                  \
 677      })
 678   #define divu_6432_3232_(xhi,xlo,y) \
 679     ({var uint32 ___q; divu_6432_3232(xhi,xlo,y,___q=,); ___q; })
 680 #elif defined(__GNUC__) && defined(__sparc64__) && !defined(NO_ASM)
 681   #define divu_6432_3232(xhi,xlo,y,q_zuweisung,r_zuweisung)  \
 682     ({var uint32 __xhi = (xhi);    \
 683       var uint32 __xlo = (xlo);    \
 684       var uint32 __y = (y);        \
 685       var uint64 __q;              \
 686       var uint64 __r;              \
 687       __asm__ __volatile__ (       \
 688         "wr %2,%%g0,%%y\n\t"       \
 689         "udiv %3,%4,%0\n\t"        \
 690         "umul %0,%4,%1\n\t"        \
 691         "sub %3,%1,%1"             \
 692         : "=&r" (__q), "=&r" (__r) \
 693         : "r" (__xhi), "r" (__xlo), "r" (__y)); \
 694       q_zuweisung (uint32)__q;     \
 695       r_zuweisung (uint32)__r;     \
 696      })
 697 #elif defined(__GNUC__) && (defined(__sparc__) || defined(__sparc64__)) && !defined(NO_ASM)
 698   #define divu_6432_3232(xhi,xlo,y,q_zuweisung,r_zuweisung)  \
 699     ({ var uint32 _q = divu_6432_3232_(xhi,xlo,y); /* extern in Assembler */\
 700        var register uint32 _r __asm__("%g1");                               \
 701        q_zuweisung _q; r_zuweisung _r;                                      \
 702      })
 703 #elif defined(__GNUC__) && defined(__arm__) && 0 // see comment cl_asm_arm.cc
 704   #define divu_6432_3232(xhi,xlo,y,q_zuweisung,r_zuweisung)  \
 705     ({ var uint32 _q = divu_6432_3232_(xhi,xlo,y); /* extern in Assembler */\
 706        var register uint32 _r __asm__("%r1"/*"%a2"*/);                      \
 707        q_zuweisung _q; r_zuweisung _r;                                      \
 708      })
 709 #elif defined(__GNUC__) && (defined(__i386__) || defined(__x86_64__)) && !defined(NO_ASM)
 710   #define divu_6432_3232(xhi,xlo,y,q_zuweisung,r_zuweisung)  \
 711     ({var uint32 __xhi = (xhi);                                         \
 712       var uint32 __xlo = (xlo);                                         \
 713       var uint32 __y = (y);                                             \
 714       var uint32 __q;                                                   \
 715       var uint32 __r;                                                   \
 716       __asm__ __volatile__ (                                            \
 717          "divl %4"                                                      \
 718          : "=a" /* %eax */ (__q), "=d" /* %edx */ (__r)                 \
 719          : "1" /* %edx */ (__xhi), "0" /* %eax */ (__xlo), "rm" (__y)   \
 720          );                                                             \
 721       q_zuweisung __q;                                                  \
 722       r_zuweisung __r;                                                  \
 723      })
 724   #define divu_6432_3232_(xhi,xlo,y) \
 725     ({var uint32 ___q; divu_6432_3232(xhi,xlo,y,___q=,); ___q; })
 726 #elif defined(__GNUC__) && defined(HAVE_LONGLONG) && !defined(__arm__)
 727   #define divu_6432_3232(xhi,xlo,y,q_zuweisung,r_zuweisung) \
 728     ({var uint32 __xhi = (xhi);                                         \
 729       var uint32 __xlo = (xlo);                                         \
 730       var uint64 __x = ((uint64)__xhi << 32) | (uint64)__xlo;           \
 731       var uint32 __y = (y);                                             \
 732       var uint32 __q = floor(__x,(uint64)__y);                          \
 733       q_zuweisung __q; r_zuweisung __xlo - __q * __y;                   \
 734      })
 735   #define divu_6432_3232_(xhi,xlo,y) \
 736     ({var uint32 ___q; divu_6432_3232(xhi,xlo,y,___q=,); ___q; })
 737 #elif defined(WATCOM) && defined(__i386__) && !defined(NO_ASM)
 738   #define divu_6432_3232(xhi,xlo,y,q_zuweisung,r_zuweisung)  \
 739     { var uint32 __xhi = (xhi);                                         \
 740       var uint32 __xlo = (xlo);                                         \
 741       var uint32 __y = (y);                                             \
 742       var uint32 __q;                                                   \
 743       var uint32 __r;                                                   \
 744       __q = divu_6432_3232_(__xhi,__xlo,__y); __r = divu_6432_3232_rest(); \
 745       q_zuweisung __q;                                                  \
 746       r_zuweisung __r;                                                  \
 747     }
 748   extern "C" uint32 divu_6432_3232_rest (void);
 749   #pragma aux divu_6432_3232_ = 0xF7 0xF1 /* divl %ecx */ parm [edx] [eax] [ecx] value [eax] modify [eax edx];
 750   #pragma aux divu_6432_3232_rest = /* */ value [edx] modify [];
 751 #else
 752   #define divu_6432_3232(xhi,xlo,y,q_zuweisung,r_zuweisung)  \
 753     { q_zuweisung divu_6432_3232_(xhi,xlo,y); r_zuweisung divu_32_rest; }
 754   #if (defined(__m68k__) || defined(__sparc__) || defined(__sparc64__) || defined(__arm__) || (defined(__i386__) && !defined(WATCOM) && !defined(MICROSOFT)) || defined(__x86_64__) || defined(__hppa__)) && !defined(NO_ASM)
 755     // divu_6432_3232_ extern in Assembler
 756     #if defined(__sparc__) || defined(__sparc64__)
 757       extern "C" uint32 _get_g1 (void);
 758       #define divu_32_rest  (_get_g1()) // Rückgabe im Register %g1
 759     #else
 760       #define NEED_VAR_divu_32_rest
 761     #endif
 762   #else
 763     #define NEED_FUNCTION_divu_6432_3232_
 764   #endif
 765 #endif
 766
 767 #ifdef HAVE_FAST_LONGLONG
 768
 769 // Dividiert eine 64-Bit-Zahl durch eine 32-Bit-Zahl und
 770 // liefert einen 32-Bit-Quotienten und einen 32-Bit-Rest.
 771 // divu_6432_3232_w(x,y,q=,r=);
 772 // > uint64 x: Zähler
 773 // > uint32 y: Nenner
 774 // > Es sei bekannt, daß 0 <= x < 2^32*y .
 775 // < uint32 q: floor(x/y)
 776 // < uint32 r: x mod y
 777 // < x = q*y+r
 778 #if defined(__GNUC__) && defined(__sparc64__) && !defined(NO_ASM)
 779   // Prefer the udiv and umul instructions over the udivx and mulx instructions
 780   // (overkill).
 781   #define divu_6432_3232_w(x,y,q_zuweisung,r_zuweisung)  \
 782     ({var uint64 __x = (x);           \
 783       var uint32 __xhi = high32(__x); \
 784       var uint32 __xlo = low32(__x);  \
 785       var uint32 __y = (y);           \
 786       var uint64 __q;                 \
 787       var uint64 __r;                 \
 788       __asm__ __volatile__ (          \
 789         "wr %2,%%g0,%%y\n\t"          \
 790         "udiv %3,%4,%0\n\t"           \
 791         "umul %0,%4,%1\n\t"           \
 792         "sub %3,%1,%1"                \
 793         : "=&r" (__q), "=&r" (__r)    \
 794         : "r" (__xhi), "r" (__xlo), "r" (__y)); \
 795       q_zuweisung (uint32)__q;        \
 796       r_zuweisung (uint32)__r;        \
 797      })
 798 #elif defined(__GNUC__) && (defined(__alpha__) || defined(__ia64__) || defined(__mips64__) || defined(__sparc64__))
 799   // On __alpha__, computing the remainder by multiplication is just two
 800   // instructions, compared to the __remqu (libc) function call for the %
 801   // operator.
 802   // On __ia64__, computing the remainder by multiplication is just four
 803   // instructions, compared to the __umoddi3 (libgcc) function call for the %
 804   // operator.
 805   // On __mips64__, computing the remainder by multiplication is just two
 806   // instructions, compared to the __umoddi3 (libgcc) function call for the %
 807   // operator.
 808   // On __sparc64__, computing the remainder by multiplication uses a 32-bit
 809   // multiplication instruction, compared to a 64-bit multiplication when the %
 810   // operator is used.
 811   #define divu_6432_3232_w(x,y,q_zuweisung,r_zuweisung)  \
 812     ({var uint64 __x = (x);                                             \
 813       var uint32 __y = (y);                                             \
 814       var uint32 __q = floor(__x,(uint64)__y);                          \
 815       q_zuweisung __q; r_zuweisung (uint32)__x - __q * __y;             \
 816      })
 817 #elif defined(__GNUC__) && defined(__x86_64__)
 818   // On __x86_64__, gcc 4.0 performs both quotient and remainder computation
 819   // in a single instruction.
 820   #define divu_6432_3232_w(x,y,q_zuweisung,r_zuweisung)  \
 821     ({var uint64 __x = (x);                                             \
 822       var uint32 __y = (y);                                             \
 823       var uint32 __q = floor(__x,(uint64)__y);                          \
 824       q_zuweisung __q; r_zuweisung __x % (uint64)__y;                   \
 825      })
 826 #else
 827   #define divu_6432_3232_w(x,y,q_zuweisung,r_zuweisung)  \
 828     { var uint64 __x = (x);                                               \
 829       divu_6432_3232(high32(__x),low32(__x),(y),q_zuweisung,r_zuweisung); \
 830     }
 831 #endif
 832
 833 // Dividiert eine 64-Bit-Zahl durch eine 32-Bit-Zahl und
 834 // liefert einen 64-Bit-Quotienten und einen 32-Bit-Rest.
 835 // divu_6432_6432(x,y,q=,r=);
 836 // > uint64 x: Zähler
 837 // > uint32 y: Nenner
 838 // > Es sei bekannt, daß y>0.
 839 // < uint64 q: floor(x/y)
 840 // < uint32 r: x mod y
 841 // < x = q*y+r
 842 #if defined(__GNUC__) && (defined(__alpha__) || defined(__ia64__) || defined(__mips64__) || defined(__sparc64__))
 843   // On __alpha__, computing the remainder by multiplication is just two
 844   // instructions, compared to the __remqu (libc) function call for the %
 845   // operator.
 846   // On __ia64__, computing the remainder by multiplication is just four
 847   // instructions, compared to the __umoddi3 (libgcc) function call for the %
 848   // operator.
 849   // On __mips64__, computing the remainder by multiplication is just two
 850   // instructions, compared to the __umoddi3 (libgcc) function call for the %
 851   // operator.
 852   // On __sparc64__, computing the remainder by multiplication uses a 32-bit
 853   // multiplication instruction, compared to a 64-bit multiplication when the %
 854   // operator is used.
 855   #define divu_6432_6432(x,y,q_zuweisung,r_zuweisung)  \
 856     ({var uint64 _x = (x);                    \
 857       var uint32 _y = (y);                    \
 858       var uint64 _q;                          \
 859       q_zuweisung _q = floor(_x,(uint64)_y);  \
 860       r_zuweisung low32(_x) - low32(_q) * _y; \
 861      })
 862 #elif defined(__GNUC__) && defined(__x86_64__)
 863   // On __x86_64__, gcc 4.0 performs both quotient and remainder computation
 864   // in a single instruction.
 865   #define divu_6432_6432(x,y,q_zuweisung,r_zuweisung)  \
 866     ({var uint64 _x = (x);               \
 867       var uint32 _y = (y);               \
 868       q_zuweisung floor(_x,(uint64)_y);  \
 869       r_zuweisung _x % (uint64)_y;       \
 870      })
 871 #else
 872   // Methode: (beta = 2^32)
 873   // x = x1*beta+x0 schreiben.
 874   // Division mit Rest: x1 = q1*y + r1, wobei 0 <= x1 < beta <= beta*y.
 875   // Also 0 <= q1 < beta, 0 <= r1 < y.
 876   // Division mit Rest: (r1*beta+x0) = q0*y + r0, wobei 0 <= r1*beta+x0 < beta*y.
 877   // Also 0 <= q0 < beta, 0 <= r0 < y
 878   // und x = x1*beta+x0 = (q1*beta+q0)*y + r0.
 879   // Setze q := q1*beta+q0 und r := r0.
 880   #if defined(__GNUC__)
 881     #define divu_6432_6432(x,y,q_zuweisung,r_zuweisung)  \
 882       ({var uint64 _x = (x);            \
 883         var uint32 _y = (y);            \
 884         var uint32 _q1;                 \
 885         var uint32 _q0;                 \
 886         var uint32 _r1;                 \
 887         divu_6432_3232(0,high32(_x),_y, _q1 = , _r1 = ); \
 888         divu_6432_3232(_r1,low32(_x),_y, _q0 = , r_zuweisung); \
 889         q_zuweisung highlow64(_q1,_q0); \
 890        })
 891   #else
 892     #define divu_6432_6432(x,y,q_zuweisung,r_zuweisung)  \
 893       {var uint64 _x = (x);            \
 894        var uint32 _y = (y);            \
 895        var uint32 _q1;                 \
 896        var uint32 _q0;                 \
 897        var uint32 _r1;                 \
 898        divu_6432_3232(0,high32(_x),_y, _q1 = , _r1 = ); \
 899        divu_6432_3232(_r1,low32(_x),_y, _q0 = , r_zuweisung); \
 900        q_zuweisung highlow64(_q1,_q0); \
 901       }
 902   #endif
 903 #endif
 904
 905 // Dividiert eine 64-Bit-Zahl durch eine 64-Bit-Zahl und
 906 // liefert einen 64-Bit-Quotienten und einen 64-Bit-Rest.
 907 // divu_6464_6464(x,y,q=,r=);
 908 // > uint64 x: Zähler
 909 // > uint64 y: Nenner
 910 // > Es sei bekannt, daß y>0.
 911 // < uint64 q: floor(x/y)
 912 // < uint64 r: x mod y
 913 // < x = q*y+r
 914 #if defined(__GNUC__) && (defined(__alpha__) || defined(__ia64__) || defined(__mips64__) || defined(__sparc64__))
 915   // On __alpha__, computing the remainder by multiplication is just two
 916   // instructions, compared to the __remqu (libc) function call for the %
 917   // operator.
 918   // On __ia64__, computing the remainder by multiplication is just four
 919   // instructions, compared to the __umoddi3 (libgcc) function call for the %
 920   // operator.
 921   // On __mips64__, computing the remainder by multiplication is just two
 922   // instructions, compared to the __umoddi3 (libgcc) function call for the %
 923   // operator.
 924   // On __sparc64__, it doesn't matter.
 925   #define divu_6464_6464(x,y,q_zuweisung,r_zuweisung)  \
 926     ({var uint64 _x = (x);           \
 927       var uint64 _y = (y);           \
 928       var uint64 _q;                 \
 929       q_zuweisung _q = floor(_x,_y); \
 930       r_zuweisung _x - _q * _y;      \
 931      })
 932 #elif defined(__GNUC__) && (defined(__sparc64__) || defined(__x86_64__))
 933   // On __sparc64__, it doesn't matter.
 934   // On __x86_64__, gcc 4.0 performs both quotient and remainder computation
 935   // in a single instruction.
 936   #define divu_6464_6464(x,y,q_zuweisung,r_zuweisung)  \
 937     ({var uint64 _x = (x);      \
 938       var uint64 _y = (y);      \
 939       q_zuweisung floor(_x,_y); \
 940       r_zuweisung _x % _y;      \
 941      })
 942 #else
 943   // For unknown CPUs, we don't know whether gcc's __udivdi3 function plus a
 944   // multiplication is slower or faster than our own divu_6464_6464_ routine.
 945   // Anyway, call our own routine.
 946   extern "C" uint64 divu_6464_6464_ (uint64 x, uint64 y); // -> Quotient q
 947   extern "C" uint64 divu_64_rest;                         // -> Rest r
 948   #define divu_6464_6464(x,y,q_zuweisung,r_zuweisung)  \
 949     { q_zuweisung divu_6464_6464_(x,y); r_zuweisung divu_64_rest; }
 950   #define NEED_VAR_divu_64_rest
 951   #define NEED_FUNCTION_divu_6464_6464_
 952 #endif
 953
 954 // Dividiert eine 128-Bit-Zahl durch eine 64-Bit-Zahl und
 955 // liefert einen 64-Bit-Quotienten und einen 64-Bit-Rest.
 956 // divu_12864_6464(xhi,xlo,y,q=,r=);
 957 // > uint64 xhi,xlo: x = 2^64*xhi+xlo = Zähler
 958 // > uint64 y: Nenner
 959 // > Es sei bekannt, daß 0 <= x < 2^64*y .
 960 // < uint64 q: floor(x/y)
 961 // < uint64 r: x mod y
 962 // < x = q*y+r
 963   extern "C" uint64 divu_12864_6464_ (uint64 xhi, uint64 xlo, uint64 y); // -> Quotient q
 964   extern "C" uint64 divu_64_rest;                                        // -> Rest r
 965 #if defined(__GNUC__) && defined(__x86_64__) && !defined(NO_ASM)
 966   #define divu_12864_6464(xhi,xlo,y,q_zuweisung,r_zuweisung)  \
 967     ({var uint64 __xhi = (xhi);                                         \
 968       var uint64 __xlo = (xlo);                                         \
 969       var uint64 __y = (y);                                             \
 970       var uint64 __q;                                                   \
 971       var uint64 __r;                                                   \
 972       __asm__ __volatile__ (                                            \
 973          "divq %4"                                                      \
 974          : "=a" /* %rax */ (__q), "=d" /* %rdx */ (__r)                 \
 975          : "1" /* %rdx */ (__xhi), "0" /* %rax */ (__xlo), "rm" (__y)   \
 976          );                                                             \
 977       q_zuweisung __q;                                                  \
 978       r_zuweisung __r;                                                  \
 979      })
 980   #define divu_12864_64364_(xhi,xlo,y) \
 981     ({var uint64 ___q; divu_12864_6464(xhi,xlo,y,___q=,); ___q; })
 982 #else
 983   #define divu_12864_6464(xhi,xlo,y,q_zuweisung,r_zuweisung)  \
 984     { q_zuweisung divu_12864_6464_(xhi,xlo,y); r_zuweisung divu_64_rest; }
 985   #define NEED_VAR_divu_64_rest
 986   #define NEED_FUNCTION_divu_12864_6464_
 987 #endif
 988
 989 #endif /* HAVE_FAST_LONGLONG */
 990
 991
 992 // Zieht die Ganzzahl-Wurzel aus einer 32-Bit-Zahl und
 993 // liefert eine 16-Bit-Wurzel und einen Rest.
 994 // isqrt_32_16(x,y=,sqrtp=);
 995 // > uint32 x: Radikand, >= 2^30, < 2^32
 996 // < uint16 y: floor(sqrt(x)), >= 2^15, < 2^16
 997 // < boolean sqrtp: /=0, falls x=y^2
 998   // Methode:
 999   // y := 2^16 als Anfangswert,
1000   // y := floor((y + floor(x/y))/2) als nächster Wert,
1001   // solange z := floor(x/y) < y, setze y := floor((y+z)/2).
1002   // y ist fertig; x=y^2 genau dann, wenn z=y und die letzte Division aufging.
1003   // (Beweis:
1004   //  1. Die Folge der y ist streng monoton fallend.
1005   //  2. Stets gilt y >= floor(sqrt(x)) (denn für alle y>0 ist
1006   //     y + x/y >= 2*sqrt(x) und daher  floor((y + floor(x/y))/2) =
1007   //     floor(y/2 + x/(2*y)) >= floor(sqrt(x)) ).
1008   //  3. Am Schluß gilt x >= y^2.
1009   // )
1010   #define isqrt_32_16(x,y_zuweisung,sqrtp_zuweisung)  \
1011     { var uint32 _x = (x);                                              \
1012       var uint16 _x1 = high16(_x);                                      \
1013       var uint16 _y = floor(_x1,2) | bit(16-1);                         \
1014       loop                                                              \
1015         { var uint16 _z;                                                \
1016           var uint16 _r;                                                \
1017           if (_x1 >= _y) /* Division _x/_y ergäbe Überlauf -> _z > _y */\
1018             { unused (sqrtp_zuweisung FALSE); break; }                  \
1019           divu_3216_1616(_x,_y, _z=,_r=); /* Dividiere _x/_y */         \
1020           if (_z >= _y)                                                 \
1021             { unused (sqrtp_zuweisung (_z == _y) && (_r == 0)); break; } \
1022           _y = floor((uint16)(_z+_y),2) | bit(16-1); /* _y muß >= 2^15 bleiben */\
1023         }                                                               \
1024       y_zuweisung _y;                                                   \
1025     }
1026
1027 // Zieht die Ganzzahl-Wurzel aus einer 64-Bit-Zahl und
1028 // liefert eine 32-Bit-Wurzel und einen Rest.
1029 // isqrt_64_32(xhi,xlo,y=,sqrtp=);
1030 // > uint32 xhi,xlo: Radikand x = 2^32*xhi+xlo, >= 2^62, < 2^64
1031 // < uint32 y: floor(sqrt(x)), >= 2^31, < 2^32
1032 // < boolean sqrtp: /=0, falls x=y^2
1033 #if defined(__sparc__) || defined(__sparc64__) || defined(__m68k__) || defined(__hppa__)
1034   // Methode:
1035   // y := 2^32 als Anfangswert,
1036   // y := floor((y + floor(x/y))/2) als nächster Wert,
1037   // solange z := floor(x/y) < y, setze y := floor((y+z)/2).
1038   // y ist fertig; x=y^2 genau dann, wenn z=y und die letzte Division aufging.
1039   // (Beweis:
1040   //  1. Die Folge der y ist streng monoton fallend.
1041   //  2. Stets gilt y >= floor(sqrt(x)) (denn für alle y>0 ist
1042   //     y + x/y >= 2*sqrt(x) und daher  floor((y + floor(x/y))/2) =
1043   //     floor(y/2 + x/(2*y)) >= floor(sqrt(x)) ).
1044   //  3. Am Schluß gilt x >= y^2.
1045   // )
1046   #define isqrt_64_32(xhi,xlo,y_zuweisung,sqrtp_zuweisung)  \
1047     { var uint32 _xhi = (xhi);                                          \
1048       var uint32 _xlo = (xlo);                                          \
1049       var uint32 _y = floor(_xhi,2) | bit(32-1);                        \
1050       loop                                                              \
1051         { var uint32 _z;                                                \
1052           var uint32 _rest;                                             \
1053           if (_xhi >= _y) /* Division _x/_y ergäbe Überlauf -> _z > _y */\
1054             { sqrtp_zuweisung FALSE; break; }                           \
1055           divu_6432_3232(_xhi,_xlo,_y, _z=,_rest=); /* Dividiere _x/_y */\
1056           if (_z >= _y)                                                 \
1057             { sqrtp_zuweisung (_z == _y) && (_rest == 0); break; }      \
1058           _y = floor(_z+_y,2) | bit(32-1); /* _y muß >= 2^31 bleiben */        \
1059         }                                                               \
1060       y_zuweisung _y;                                                   \
1061     }
1062 #else
1063   // Methode:
1064   // Wie bei UDS_sqrt mit n=2.
1065   // y = 2^16*yhi + ylo ansetzen.
1066   // Dann muß
1067   //   yhi = floor(y/2^16) = floor(floor(sqrt(x))/2^16)
1068   //       = floor(sqrt(x)/2^16) = floor(sqrt(x/2^32)) = isqrt(xhi)
1069   // sein. Es folgt yhi >= 2^15.
1070   // Danach sucht man das größte ylo >=0 mit
1071   // x - 2^32*yhi^2 >= 2*2^16*yhi*ylo + ylo^2.
1072   // Dazu setzen wir  xhi*2^32+xlo := x - 2^32*yhi^2
1073   // (also xhi := xhi - yhi^2, das ist >=0, <=2*yhi).
1074   // Die Schätzung für die zweite Ziffer
1075   //     ylo' := min(2^16-1,floor((xhi*2^32+xlo)/(2*2^16*yhi)))
1076   // erfüllt ylo'-1 <= ylo <= ylo', ist also um höchstens 1 zu groß.
1077   // (Beweis: Rechte Ungleichung klar, da  ylo < 2^16  und
1078   //   xhi*2^32+xlo >= 2*2^16*yhi*ylo + ylo^2 >= 2*2^16*yhi*ylo
1079   //   ==> (xhi*2^32+xlo)/(2*2^16*yhi) >= ylo  gelten muß.
1080   //   Linke Ungleichung: Falls floor(...)>=2^16, ist
1081   //   xhi*2^32+xlo >= 2*2^16*2^16*yhi >= 2*2^16*yhi*(2^16-1) + 2^32
1082   //                >= 2*2^16*yhi*(2^16-1) + (2^16-1)^2
1083   //   und xhi*2^32+xlo < 2*2^16*2^16*yhi + (2^16)^2, also
1084   //   ylo = 2^16-1 = ylo'.
1085   //   Sonst ist ylo' = floor((xhi*2^32+xlo)/(2*2^16*yhi)), also
1086   //   xhi*2^32+xlo >= 2*2^16*yhi*ylo' >= 2*2^16*yhi*(ylo'-1) + 2^32
1087   //                >= 2*2^16*yhi*(ylo'-1) + (ylo'-1)^2,
1088   //   also ylo >= ylo'-1 nach Definition von ylo.)
1089   #define isqrt_64_32(xhi,xlo,y_zuweisung,sqrtp_zuweisung)  \
1090     { var uint32 _xhi = (xhi);                                          \
1091       var uint32 _xlo = (xlo);                                          \
1092       var uint16 _yhi;                                                  \
1093       var uint16 _ylo;                                                  \
1094       /* erste Ziffer berechnen: */                                     \
1095       isqrt_32_16(_xhi,_yhi=,); /* yhi := isqrt(xhi) */                 \
1096       _xhi -= mulu16(_yhi,_yhi); /* jetzt 0 <= xhi <= 2*yhi */          \
1097       /* x = 2^32*yhi^2 + 2^32*xhi + xlo */                             \
1098       /* Schätzung für die zweite Ziffer berechnen: */                        \
1099       /* ylo := min(2^16-1,floor((xhi*2^32+xlo)/(2*2^16*yhi))) bilden: */\
1100      {var uint32 _z = (_xhi << 15) | (_xlo >> 17); /* < 2^15*(2*yhi+1) */\
1101       var uint32 _r = highlow32_0(_yhi);                                \
1102       if (_z >= _r)                                                     \
1103         { _ylo = bit(16)-1; _r = _z - _r + (uint32)_yhi; }              \
1104         else                                                            \
1105         { divu_3216_1616(_z,_yhi, _ylo=,_r=); }                         \
1106       /* x = 2^32*yhi^2 + 2*2^16*yhi*ylo + 2^17*r + (xlo mod 2^17), */  \
1107       /* 0 <= r < yhi + 2^15 */                                         \
1108       _xlo = (_r << 17) | (_xlo & (bit(17)-1));                         \
1109       /* x = 2^32*yhi^2 + 2*2^16*yhi*ylo + 2^32*floor(r/2^15) + xlo */  \
1110       _z = mulu16(_ylo,_ylo); /* z = ylo^2 */                           \
1111       /* Versuche vom Rest 2^32*floor(r/2^15) + xlo  z zu subtrahieren. */\
1112       /* Falls Rest >= z (d.h. r>=2^15 oder xlo>=z), ist ylo fertig, */ \
1113       /* und es gilt x=y^2 genau dann, wenn r<2^15 und xlo=z. */        \
1114       /* Sonst (d.h. r<2^15 und xlo<z), muß man ylo erniedrigen. Dazu */\
1115       /* setzt man  ylo := ylo-1, z := z-(2*ylo+1), */                  \
1116       /* Rest := Rest + 2^17*yhi = xlo + 2^17*yhi >= 2^32 > z, also x>y^2. */\
1117       if (_r < bit(15))                                                 \
1118         { if (_xlo < _z)                                                \
1119             { _ylo -= 1; sqrtp_zuweisung FALSE; }                       \
1120             else                                                        \
1121             { sqrtp_zuweisung (_xlo == _z); }                           \
1122         }                                                               \
1123         else                                                            \
1124         { sqrtp_zuweisung FALSE; }                                      \
1125       y_zuweisung highlow32(_yhi,_ylo);                                 \
1126     }}
1127 #endif
1128
1129 #ifdef HAVE_FAST_LONGLONG
1130
1131 // Zieht die Ganzzahl-Wurzel aus einer 128-Bit-Zahl und
1132 // liefert eine 64-Bit-Wurzel und einen Rest.
1133 // isqrt_128_64(xhi,xlo,y=,sqrtp=);
1134 // > uint64 xhi,xlo: Radikand x = 2^64*xhi+xlo, >= 2^126, < 2^128
1135 // < uint64 y: floor(sqrt(x)), >= 2^63, < 2^64
1136 // < boolean sqrtp: /=0, falls x=y^2
1137   // Methode:
1138   // Wie bei UDS_sqrt mit n=2.
1139   // y = 2^32*yhi + ylo ansetzen.
1140   // Dann muß
1141   //   yhi = floor(y/2^32) = floor(floor(sqrt(x))/2^32)
1142   //       = floor(sqrt(x)/2^32) = floor(sqrt(x/2^64)) = isqrt(xhi)
1143   // sein. Es folgt yhi >= 2^31.
1144   // Danach sucht man das größte ylo >=0 mit
1145   // x - 2^64*yhi^2 >= 2*2^32*yhi*ylo + ylo^2.
1146   // Dazu setzen wir  xhi*2^64+xlo := x - 2^64*yhi^2
1147   // (also xhi := xhi - yhi^2, das ist >=0, <=2*yhi).
1148   // Die Schätzung für die zweite Ziffer
1149   //     ylo' := min(2^32-1,floor((xhi*2^64+xlo)/(2*2^32*yhi)))
1150   // erfüllt ylo'-1 <= ylo <= ylo', ist also um höchstens 1 zu groß.
1151   // (Beweis: Rechte Ungleichung klar, da  ylo < 2^32  und
1152   //   xhi*2^64+xlo >= 2*2^32*yhi*ylo + ylo^2 >= 2*2^32*yhi*ylo
1153   //   ==> (xhi*2^64+xlo)/(2*2^32*yhi) >= ylo  gelten muß.
1154   //   Linke Ungleichung: Falls floor(...)>=2^32, ist
1155   //   xhi*2^64+xlo >= 2*2^32*2^32*yhi >= 2*2^32*yhi*(2^32-1) + 2^64
1156   //                >= 2*2^32*yhi*(2^32-1) + (2^32-1)^2
1157   //   und xhi*2^64+xlo < 2*2^32*2^32*yhi + (2^32)^2, also
1158   //   ylo = 2^32-1 = ylo'.
1159   //   Sonst ist ylo' = floor((xhi*2^64+xlo)/(2*2^32*yhi)), also
1160   //   xhi*2^64+xlo >= 2*2^32*yhi*ylo' >= 2*2^32*yhi*(ylo'-1) + 2^64
1161   //                >= 2*2^32*yhi*(ylo'-1) + (ylo'-1)^2,
1162   //   also ylo >= ylo'-1 nach Definition von ylo.)
1163   #define isqrt_128_64(x_hi,x_lo,y_zuweisung,sqrtp_zuweisung)  \
1164     { var uint64 xhi = (x_hi);                                          \
1165       var uint64 xlo = (x_lo);                                          \
1166       var uint32 yhi;                                                   \
1167       var uint32 ylo;                                                   \
1168       /* erste Ziffer berechnen: */                                     \
1169       isqrt_64_32(high32(xhi),low32(xhi),yhi=,); /* yhi := isqrt(xhi) */\
1170       xhi -= mulu32_w(yhi,yhi); /* jetzt 0 <= xhi <= 2*yhi */           \
1171       /* x = 2^64*yhi^2 + 2^64*xhi + xlo */                             \
1172       /* Schätzung für die zweite Ziffer berechnen: */                        \
1173       /* ylo := min(2^32-1,floor((xhi*2^64+xlo)/(2*2^32*yhi))) bilden: */\
1174      {var uint64 z = (xhi << 31) | (xlo >> 33); /* < 2^31*(2*yhi+1) */  \
1175       var uint64 r = highlow64_0(yhi);                                  \
1176       if (z >= r)                                                       \
1177         { ylo = bit(32)-1; r = z - r + (uint64)yhi; }                   \
1178         else                                                            \
1179         { divu_6432_3232_w(z,yhi, ylo=,r=); }                           \
1180       /* x = 2^64*yhi^2 + 2*2^32*yhi*ylo + 2^33*r + (xlo mod 2^33), */  \
1181       /* 0 <= r < yhi + 2^31 */                                         \
1182       xlo = (r << 33) | (xlo & (bit(33)-1));                            \
1183       /* x = 2^64*yhi^2 + 2*2^32*yhi*ylo + 2^64*floor(r/2^31) + xlo */  \
1184       z = mulu32_w(ylo,ylo); /* z = ylo^2 */                            \
1185       /* Versuche vom Rest 2^64*floor(r/2^31) + xlo  z zu subtrahieren. */\
1186       /* Falls Rest >= z (d.h. r>=2^31 oder xlo>=z), ist ylo fertig, */ \
1187       /* und es gilt x=y^2 genau dann, wenn r<2^31 und xlo=z. */        \
1188       /* Sonst (d.h. r<2^31 und xlo<z), muß man ylo erniedrigen. Dazu */\
1189       /* setzt man  ylo := ylo-1, z := z-(2*ylo+1), */                  \
1190       /* Rest := Rest + 2^33*yhi = xlo + 2^33*yhi >= 2^64 > z, also x>y^2. */\
1191       if (r < bit(31))                                                  \
1192         { if (xlo < z)                                                  \
1193             { ylo -= 1; sqrtp_zuweisung FALSE; }                        \
1194             else                                                        \
1195             { sqrtp_zuweisung (xlo == z); }                             \
1196         }                                                               \
1197         else                                                            \
1198         { sqrtp_zuweisung FALSE; }                                      \
1199       y_zuweisung highlow64(yhi,ylo);                                   \
1200     }}
1201
1202 #endif /* HAVE_FAST_LONGLONG */
1203
1204 // Zieht die Ganzzahl-Wurzel aus einer 32-Bit-Zahl und
1205 // liefert eine 16-Bit-Wurzel.
1206 // isqrt(x)
1207 // > uintL x : Radikand, >=0, <2^32
1208 // < uintL ergebnis : Wurzel, >=0, <2^16
1209   extern uintL isqrt (uintL x);
1210
1211 #ifdef HAVE_LONGLONG
1212 // Extracts integer root of a 64-bit number and returns a 32-bit number.
1213 // isqrt(x)
1214 // > uintQ x : radicand, >=0, <2^64
1215 // < uintL result : square root, >=0, <2^32
1216   extern uintL isqrt (uintQ x);
1217 #endif
1218
1219 // Sorry for this. We need an isqrt function taking uintC arguments but we
1220 // cannot use overloading since this would lead to ambiguities with any of the
1221 // two signatures above.
1222   inline uintL isqrtC (uintC x)
1223   {
1224 #if (intCsize==32)
1225       return isqrt((uintL)x);
1226 #else
1227       return isqrt((uintQ)x);
1228 #endif
1229   }
1230
1231
1232 // Zieht die Ganzzahl-Wurzel aus einer 64-Bit-Zahl und
1233 // liefert eine 32-Bit-Wurzel.
1234 // isqrt(x1,x0)
1235 // > uintL2 x = x1*2^32+x0 : Radikand, >=0, <2^64
1236 // < uintL ergebnis : Wurzel, >=0, <2^32
1237   extern uintL isqrt (uintL x1, uintL x0);
1238
1239
1240 // Bits einer 8-Bit-Zahl zählen:
1241 // integerlength8(digit,size=);
1242 // setzt size auf die höchste in digit vorkommende Bitnummer.
1243 // > digit: ein uint8 >0
1244 // < size: >0, <=8, mit 2^(size-1) <= digit < 2^size
1245 #if defined(__GNUC__) && defined(__m68k__) && !defined(NO_ASM)
1246   #define integerlength8(digit,size_zuweisung)  \
1247     { var uintL _zero_counter; /* zählt die führenden Nullbits in digit            */\
1248       __asm__("bfffo %1{#0:#8},%0" : "=d" (_zero_counter) : "dm" ((uint8)(digit)) ); \
1249       size_zuweisung (8-_zero_counter);                                              \
1250     }
1251 #elif defined(__sparc__) && !defined(__sparc64__)
1252   #define integerlength8(digit,size_zuweisung)  \
1253     integerlength32((uint32)(digit),size_zuweisung) // siehe unten
1254 #elif defined(__GNUC__) && defined(__i386__) && !defined(NO_ASM)
1255   #define integerlength8(digit,size_zuweisung)  \
1256     integerlength16((uint16)(digit),size_zuweisung)
1257 #else
1258   #define integerlength8(digit,size_zuweisung)  \
1259     { var uintC _bitsize = 1;                                   \
1260       var uintL _x8 = (uint8)(digit);                           \
1261       /* _x8 hat höchstens 8 Bits.                             */\
1262       if (_x8 >= bit(4)) { _x8 = _x8>>4; _bitsize += 4; }               \
1263       /* _x8 hat höchstens 4 Bits.                             */\
1264       if (_x8 >= bit(2)) { _x8 = _x8>>2; _bitsize += 2; }               \
1265       /* _x8 hat höchstens 2 Bits.                             */\
1266       if (_x8 >= bit(1)) { /* _x8 = _x8>>1; */ _bitsize += 1; } \
1267       /* _x8 hat höchstens 1 Bit. Dieses Bit muß gesetzt sein. */\
1268       size_zuweisung _bitsize;                                  \
1269     }
1270 #endif
1271
1272 // Bits einer 16-Bit-Zahl zählen:
1273 // integerlength16(digit,size=);
1274 // setzt size auf die höchste in digit vorkommende Bitnummer.
1275 // > digit: ein uint16 >0
1276 // < size: >0, <=16, mit 2^(size-1) <= digit < 2^size
1277 #if defined(__GNUC__) && defined(__m68k__) && !defined(NO_ASM)
1278   #define integerlength16(digit,size_zuweisung)  \
1279     { var uintL _zero_counter; /* zählt die führenden Nullbits in digit              */\
1280       __asm__("bfffo %1{#0:#16},%0" : "=d" (_zero_counter) : "dm" ((uint16)(digit)) ); \
1281       size_zuweisung (16-_zero_counter);                                               \
1282     }
1283 #elif defined(__sparc__) && !defined(__sparc64__)
1284   #define integerlength16(digit,size_zuweisung)  \
1285     integerlength32((uint32)(digit),size_zuweisung) // siehe unten
1286 #elif defined(__GNUC__) && defined(__i386__) && !defined(NO_ASM)
1287   #define integerlength16(digit,size_zuweisung)  \
1288     { var uintW _one_position; /* Position der führenden 1                 */\
1289       __asm__("bsrw %1,%0" : "=r" (_one_position) : "r" ((uint16)(digit)) ); \
1290       size_zuweisung (1+_one_position);                                      \
1291     }
1292 // Die weiteren kommen von gcc/longlong.h :
1293 #elif defined(__GNUC__) && defined(__ibm032__) && !defined(NO_ASM) // RT/ROMP
1294   #define integerlength16(digit,size_zuweisung)  \
1295     { var uintL _zero_counter; /* zählt die führenden Nullbits in digit   */\
1296       __asm__("clz %0,%1" : "=r" (_zero_counter) : "r" ((uint32)(digit)) ); \
1297       size_zuweisung (16-_zero_counter);                                    \
1298     }
1299 #else
1300   #define integerlength16(digit,size_zuweisung)  \
1301     { var uintC _bitsize = 1;                                           \
1302       var uintWL _x16 = (uint16)(digit);                                        \
1303       /* _x16 hat höchstens 16 Bits.                                   */\
1304       if (_x16 >= bit(8)) { _x16 = _x16>>8; _bitsize += 8; }            \
1305       /* _x16 hat höchstens 8 Bits.                                    */\
1306       if (_x16 >= bit(4)) { _x16 = _x16>>4; _bitsize += 4; }            \
1307       /* _x16 hat höchstens 4 Bits.                                    */\
1308       if (_x16 >= bit(2)) { _x16 = _x16>>2; _bitsize += 2; }            \
1309       /* _x16 hat höchstens 2 Bits.                                    */\
1310       if (_x16 >= bit(1)) { /* _x16 = _x16>>1; */ _bitsize += 1; }              \
1311       /* _x16 hat höchstens 1 Bit. Dieses Bit muß gesetzt sein.        */\
1312       size_zuweisung _bitsize;                                          \
1313     }
1314 #endif
1315
1316 // Bits einer 32-Bit-Zahl zählen:
1317 // integerlength32(digit,size=);
1318 // setzt size auf die höchste in digit vorkommende Bitnummer.
1319 // > digit: ein uint32 >0
1320 // < size: >0, <=32, mit 2^(size-1) <= digit < 2^size
1321 #if defined(__GNUC__) && defined(__m68k__) && !defined(NO_ASM)
1322   #define integerlength32(digit,size_zuweisung)  \
1323     { var uintL _zero_counter; /* zählt die führenden Nullbits in digit              */\
1324       __asm__("bfffo %1{#0:#32},%0" : "=d" (_zero_counter) : "dm" ((uint32)(digit)) ); \
1325       size_zuweisung (32-_zero_counter);                                               \
1326     }
1327 #elif defined(__sparc__) && !defined(__sparc64__) && defined(FAST_DOUBLE)
1328   #define integerlength32(digit,size_zuweisung)  \
1329     {var union { double f; uint32 i[2]; } __fi;                         \
1330      const int df_mant_len = 52;  /* mantissa bits (excl. hidden bit) */\
1331      const int df_exp_mid = 1022; /* exponent bias */                   \
1332      /* Bilde 2^52 + digit:                                           */\
1333      __fi.i[0] = (uint32)(df_mant_len+1+df_exp_mid) << (df_mant_len-32); /* Vorzeichen 0, Exponent 53 */\
1334      __fi.i[1] = (digit); /* untere 32 Bits setzen (benutzt CL_CPU_BIG_ENDIAN_P !) */\
1335      /* subtrahiere 2^52:                                             */\
1336      __fi.f = __fi.f - (double)(4503599627370496.0L);                   \
1337      /* Hole davon den Exponenten:                                    */\
1338      size_zuweisung ((__fi.i[0] >> (df_mant_len-32)) - df_exp_mid);     \
1339     }
1340 #elif defined(__GNUC__) && defined(__i386__) && !defined(NO_ASM)
1341   #define integerlength32(digit,size_zuweisung)  \
1342     { var uintL _one_position; /* Position der führenden 1                  */\
1343       __asm__("bsrl %1,%0" : "=r" (_one_position) : "rm" ((uint32)(digit)) ); \
1344       size_zuweisung (1+_one_position);                                       \
1345     }
1346 #elif defined(__hppa__) && !defined(NO_ASM)
1347   #define integerlength32(digit,size_zuweisung)  \
1348     size_zuweisung length32(digit);
1349   extern "C" uintL length32 (uintL digit); // extern in Assembler
1350 // Die weiteren kommen von gcc/longlong.h :
1351 #elif defined(__GNUC__) && (defined(__a29k__) || defined(___AM29K__)) && !defined(NO_ASM)
1352   #define integerlength32(digit,size_zuweisung)  \
1353     { var uintL _zero_counter; /* zählt die führenden Nullbits in digit   */\
1354       __asm__("clz %0,%1" : "=r" (_zero_counter) : "r" ((uint32)(digit)) ); \
1355       size_zuweisung (32-_zero_counter);                                    \
1356     }
1357 #elif defined(__GNUC__) && defined(__gmicro__) && !defined(NO_ASM)
1358   #define integerlength32(digit,size_zuweisung)  \
1359     { var uintL _zero_counter; /* zählt die führenden Nullbits in digit      */\
1360       __asm__("bsch/1 %1,%0" : "=g" (_zero_counter) : "g" ((uint32)(digit)) ); \
1361       size_zuweisung (32-_zero_counter);                                       \
1362     }
1363 #elif defined(__GNUC__) && defined(__rs6000__) && !defined(NO_ASM)
1364  #ifdef _AIX
1365   // old assembler syntax
1366   #define integerlength32(digit,size_zuweisung)  \
1367     { var uintL _zero_counter; /* zählt die führenden Nullbits in digit     */\
1368       __asm__("cntlz %0,%1" : "=r" (_zero_counter) : "r" ((uint32)(digit)) ); \
1369       size_zuweisung (32-_zero_counter);                                      \
1370     }
1371  #else
1372   // new assembler syntax
1373   #define integerlength32(digit,size_zuweisung)  \
1374     { var uintL _zero_counter; /* zählt die führenden Nullbits in digit      */\
1375       __asm__("cntlzw %0,%1" : "=r" (_zero_counter) : "r" ((uint32)(digit)) ); \
1376       size_zuweisung (32-_zero_counter);                                       \
1377     }
1378  #endif
1379 #elif defined(__GNUC__) && defined(__m88k__) && !defined(NO_ASM)
1380   #define integerlength32(digit,size_zuweisung)  \
1381     { var uintL _one_position; /* Position der führenden 1                */\
1382       __asm__("ff1 %0,%1" : "=r" (_one_position) : "r" ((uint32)(digit)) ); \
1383       size_zuweisung (1+_one_position);                                     \
1384     }
1385 #elif defined(__GNUC__) && defined(__ibm032__) && !defined(NO_ASM) // RT/ROMP
1386   #define integerlength32(digit,size_zuweisung)  \
1387     { var uintL _x32 = (uint32)(digit);                         \
1388       if (_x32 >= bit(16))                                      \
1389         { integerlength16(_x32>>16,size_zuweisung 16 + ); }     \
1390         else                                                    \
1391         { integerlength16(_x32,size_zuweisung); }               \
1392     }
1393 #else
1394   #define integerlength32(digit,size_zuweisung)  \
1395     { var uintC _bitsize = 1;                                           \
1396       var uintL _x32 = (uint32)(digit);                                 \
1397       /* _x32 hat höchstens 32 Bits.                                   */\
1398       if (_x32 >= bit(16)) { _x32 = _x32>>16; _bitsize += 16; }         \
1399       /* _x32 hat höchstens 16 Bits.                                   */\
1400       if (_x32 >= bit(8)) { _x32 = _x32>>8; _bitsize += 8; }            \
1401       /* _x32 hat höchstens 8 Bits.                                    */\
1402       if (_x32 >= bit(4)) { _x32 = _x32>>4; _bitsize += 4; }            \
1403       /* _x32 hat höchstens 4 Bits.                                    */\
1404       if (_x32 >= bit(2)) { _x32 = _x32>>2; _bitsize += 2; }            \
1405       /* _x32 hat höchstens 2 Bits.                                    */\
1406       if (_x32 >= bit(1)) { /* _x32 = _x32>>1; */ _bitsize += 1; }      \
1407       /* _x32 hat höchstens 1 Bit. Dieses Bit muß gesetzt sein.        */\
1408       size_zuweisung _bitsize;                                          \
1409     }
1410   #define GENERIC_INTEGERLENGTH32
1411 #endif
1412
1413 // Bits einer 64-Bit-Zahl zählen:
1414 // integerlength64(digit,size=);
1415 // setzt size auf die höchste in digit vorkommende Bitnummer.
1416 // > digit: ein uint64 >0
1417 // < size: >0, <=64, mit 2^(size-1) <= digit < 2^size
1418 #ifdef GENERIC_INTEGERLENGTH32
1419   #define integerlength64(digit,size_zuweisung)  \
1420     { var uintC _bitsize = 1;                                           \
1421       var uint64 _x64 = (uint64)(digit);                                \
1422       /* _x64 hat höchstens 64 Bits.                                   */\
1423       if (_x64 >= bit(32)) { _x64 = _x64>>32; _bitsize += 32; }         \
1424       /* _x64 hat höchstens 32 Bits.                                   */\
1425       if (_x64 >= bit(16)) { _x64 = _x64>>16; _bitsize += 16; }         \
1426       /* _x64 hat höchstens 16 Bits.                                   */\
1427       if (_x64 >= bit(8)) { _x64 = _x64>>8; _bitsize += 8; }            \
1428       /* _x64 hat höchstens 8 Bits.                                    */\
1429       if (_x64 >= bit(4)) { _x64 = _x64>>4; _bitsize += 4; }            \
1430       /* _x64 hat höchstens 4 Bits.                                    */\
1431       if (_x64 >= bit(2)) { _x64 = _x64>>2; _bitsize += 2; }            \
1432       /* _x64 hat höchstens 2 Bits.                                    */\
1433       if (_x64 >= bit(1)) { /* _x64 = _x64>>1; */ _bitsize += 1; }      \
1434       /* _x64 hat höchstens 1 Bit. Dieses Bit muß gesetzt sein.        */\
1435       size_zuweisung _bitsize;                                          \
1436     }
1437 #else
1438   #define integerlength64(digit,size_zuweisung)  \
1439     { var uint64 _x64 = (digit);                                        \
1440       var uintC _bitsize64 = 0;                                         \
1441       var uint32 _x32_from_integerlength64;                             \
1442       if (_x64 >= (1ULL << 32)) {                                       \
1443         _x32_from_integerlength64 = _x64>>32; _bitsize64 += 32;         \
1444       } else {                                                          \
1445         _x32_from_integerlength64 = _x64;                               \
1446       }                                                                 \
1447       integerlength32(_x32_from_integerlength64, size_zuweisung _bitsize64 + ); \
1448     }
1449 #endif
1450
1451 // Bits einer uintC-Zahl zählen:
1452 // integerlengthC(digit,size=);
1453 // setzt size auf die höchste in digit vorkommende Bitnummer.
1454 // > digit: ein uintC >0
1455 // < size: >0, <=intCsize, mit 2^(size-1) <= digit < 2^size
1456   #if (intCsize==32)
1457     #define integerlengthC  integerlength32
1458   #endif
1459   #if (intCsize==64)
1460     #define integerlengthC  integerlength64
1461   #endif
1462
1463 // Hintere Nullbits eines 32-Bit-Wortes zählen:
1464 // ord2_32(digit,count=);
1465 // setzt size auf die kleinste in digit vorkommende Bitnummer.
1466 // > digit: ein uint32 >0
1467 // < count: >=0, <32, mit 2^count | digit, digit/2^count ungerade
1468   #if defined(__GNUC__) && defined(__i386__) && !defined(NO_ASM)
1469     #define ord2_32(digit,count_zuweisung)  \
1470       { var uintL _one_position; /* Position der letzten 1                    */\
1471         __asm__("bsfl %1,%0" : "=r" (_one_position) : "rm" ((uint32)(digit)) ); \
1472         count_zuweisung _one_position;                                          \
1473       }
1474     #define FAST_ORD2
1475   #elif defined(__sparc__) && !defined(__sparc64__)
1476     #define ord2_32(digit,count_zuweisung)  \
1477     { var uint32 n = (digit);                                             \
1478       n = n | -n;                                                         \
1479       n = (n<<4) + n;                                                     \
1480       n = (n<<6) + n;                                                     \
1481       n = n - (n<<16); /* or  n = n ^ (n<<16);  or  n = n &~ (n<<16);  */ \
1482       /* static const char ord2_tab [64] = {-1,0,1,12,2,6,-1,13,3,-1,7,-1,-1,-1,-1,14,10,4,-1,-1,8,-1,-1,25,-1,-1,-1,-1,-1,21,27,15,31,11,5,-1,-1,-1,-1,-1,9,-1,-1,24,-1,-1,20,26,30,-1,-1,-1,-1,23,-1,19,29,-1,22,18,28,17,16,-1}; */ \
1483       /* count_zuweisung ord2_tab[n>>26];                              */ \
1484       count_zuweisung "\377\000\001\014\002\006\377\015\003\377\007\377\377\377\377\016\012\004\377\377\010\377\377\031\377\377\377\377\377\025\033\017\037\013\005\377\377\377\377\377\011\377\377\030\377\377\024\032\036\377\377\377\377\027\377\023\035\377\026\022\034\021\020"[n>>26]; \
1485     }
1486     #define FAST_ORD2
1487   #else
1488     // Sei n = ord2(x). Dann ist logxor(x,x-1) = 2^n + (2^n-1) = 2^(n+1)-1.
1489     // Also  (ord2 x) = (1- (integer-length (logxor x (1- x)))) .
1490     #define ord2_32(digit,count_zuweisung)  \
1491       { var uint32 _digit = (digit) ^ ((digit) - 1);    \
1492         integerlength32(_digit,count_zuweisung -1 + )   \
1493       }
1494   #endif
1495
1496 // Hintere Nullbits eines 64-Bit-Wortes zählen:
1497 // ord2_64(digit,count=);
1498 // setzt size auf die kleinste in digit vorkommende Bitnummer.
1499 // > digit: ein uint64 >0
1500 // < count: >=0, <64, mit 2^count | digit, digit/2^count ungerade
1501   // Sei n = ord2(x). Dann ist logxor(x,x-1) = 2^n + (2^n-1) = 2^(n+1)-1.
1502   // Also  (ord2 x) = (1- (integer-length (logxor x (1- x)))) .
1503   #define ord2_64(digit,count_zuweisung)  \
1504     { var uint64 _digit = (digit) ^ ((digit) - 1);      \
1505       integerlength64(_digit,count_zuweisung -1 + )     \
1506     }
1507
1508
1509 // Bits eines Wortes zählen.
1510 // logcount_NN();
1511 // > xNN: ein uintNN
1512 // < xNN: Anzahl der darin gesetzten Bits
1513   // Bits von x8 zählen: (Input x8, Output x8)
1514   #define logcount_8()  \
1515     ( /* x8 besteht aus 8 1-Bit-Zählern (0,1).        */\
1516       x8 = (x8 & 0x55U) + ((x8 & 0xAAU) >> 1),          \
1517       /* x8 besteht aus 4 2-Bit-Zählern (0,1,2).      */\
1518       x8 = (x8 & 0x33U) + ((x8 & 0xCCU) >> 2),          \
1519       /* x8 besteht aus 2 4-Bit-Zählern (0,1,2,3,4).  */\
1520       x8 = (x8 & 0x0FU) + (x8 >> 4)                     \
1521       /* x8 besteht aus 1 8-Bit-Zähler (0,...,8).     */\
1522     )
1523   // Bits von x16 zählen: (Input x16, Output x16)
1524   #define logcount_16()  \
1525     ( /* x16 besteht aus 16 1-Bit-Zählern (0,1).      */\
1526       x16 = (x16 & 0x5555U) + ((x16 & 0xAAAAU) >> 1),   \
1527       /* x16 besteht aus 8 2-Bit-Zählern (0,1,2).     */\
1528       x16 = (x16 & 0x3333U) + ((x16 & 0xCCCCU) >> 2),   \
1529       /* x16 besteht aus 4 4-Bit-Zählern (0,1,2,3,4). */\
1530       x16 = (x16 & 0x0F0FU) + ((x16 & 0xF0F0U) >> 4),   \
1531       /* x16 besteht aus 2 8-Bit-Zählern (0,...,8).   */\
1532       x16 = (x16 & 0x00FFU) + (x16 >> 8)                \
1533       /* x16 besteht aus 1 16-Bit-Zähler (0,...,16).  */\
1534     )
1535   // Bits von x32 zählen: (Input x32, Output x32)
1536   #define logcount_32()  \
1537     ( /* x32 besteht aus 32 1-Bit-Zählern (0,1).              */\
1538       x32 = (x32 & 0x55555555UL) + ((x32 & 0xAAAAAAAAUL) >> 1), \
1539       /* x32 besteht aus 16 2-Bit-Zählern (0,1,2).            */\
1540       x32 = (x32 & 0x33333333UL) + ((x32 & 0xCCCCCCCCUL) >> 2), \
1541       /* x32 besteht aus 8 4-Bit-Zählern (0,1,2,3,4).         */\
1542       x32 = high16(x32)+low16(x32),                             \
1543       /* x32 besteht aus 4 4-Bit-Zählern (0,...,8).           */\
1544       x32 = (x32 & 0x0F0FU) + ((x32 & 0xF0F0U) >> 4),           \
1545       /* x32 besteht aus 2 8-Bit-Zählern (0,...,16).          */\
1546       x32 = (x32 & 0x00FFU) + (x32 >> 8)                        \
1547       /* x32 besteht aus 1 16-Bit-Zähler (0,...,32).          */\
1548     )
1549   // Bits von x64 zählen: (Input x64, Output x64)
1550   #define logcount_64()  \
1551     ( /* x64 besteht aus 64 1-Bit-Zählern (0,1).                             */\
1552       x64 = (x64 & 0x5555555555555555ULL) + ((x64 & 0xAAAAAAAAAAAAAAAAULL) >> 1),\
1553       /* x64 besteht aus 32 2-Bit-Zählern (0,1,2).                           */\
1554       x64 = (x64 & 0x3333333333333333ULL) + ((x64 & 0xCCCCCCCCCCCCCCCCULL) >> 2),\
1555       /* x64 besteht aus 16 4-Bit-Zählern (0,1,2,3,4).                       */\
1556       x64 = (uint32)(x64 + (x64 >> 32)),                                       \
1557       /* x64 besteht aus 8 4-Bit-Zählern (0,...,8).                          */\
1558       x64 = (x64 & 0x0F0F0F0FUL) + ((x64 & 0xF0F0F0F0UL) >> 4),                \
1559       /* x64 besteht aus 4 8-Bit-Zählern (0,...,16).                         */\
1560       x64 = (x64 & 0x00FF00FFU) + ((x64 & 0xFF00FF00U) >> 8),                  \
1561       /* x64 besteht aus 2 16-Bit-Zählern (0,...,32).                        */\
1562       x64 = (x64 & 0x0000FFFFU) + (x64 >> 16)                                  \
1563       /* x64 besteht aus 1 16-Bit-Zähler (0,...,64).                         */\
1564     )
1565
1566 }  // namespace cln
1567
1568 #endif /* _CL_LOW_H */