「 AMD で使うと遅いんだけど」 x86/x64 最適化勉強会 #4 LT

「 AMD で使うと遅いんだけど」x86/x64 最適化勉強会 #4 LT

梅澤威志 (UMEZAWA Takeshi)@umezawa_takeshi

Q: dis ってんの？A: disasm なら少々…

自己紹介• 映像可逆圧縮コーデック

Ut Video Codec Suite の作者 ※ http://umezawa.dyndns.info/wordpress/?cat=28

• ある２ちゃんねらー曰く、UtVideo 唯一の欠点作者がニコ厨

※ http://pc11.2ch.net/test/read.cgi/avi/1205486331/178

– まったくツンデレなんだから…

前置き• 今回話すことは、何人かの人は過去の　

x86/x64 最適化勉強会で雑談などで既に聞いているはずです。• blog を検索しても出てきます。• 知ってる人は寝てていいです。

あるユーザの報告• 「 AMD で ULRG や ULRA を使うとエンコードがすごい遅いんだけど」– ULRG は内部保持形式が RGB 8bpc のもの。

ULRA は同じく RGBA 8bpc のもの。– ULY2 (YUV422 8bpc) や

ULY0 (YUV420 8bpc) は遅くないらしい。• デコードはエンコードほどではないが、やっぱり遅いことは遅いらしい。

実測• 確かに遅い。• ULRG は 24bpp であり、 16bpp である

ULY2 と比較して同じ画像サイズの時 1.5 倍ぐらい遅いことが期待されるが、エンコードの場合は期待されるより 3 倍ぐらい遅い。明らかに何かおかしい

エンコーダの実装• 以下の順序で処理する。– Packed → Planar 変換– フレーム内予測– ハフマン符号化

• フレーム内予測とハフマン符号化は種類によらず全く同じ処理なので、 Planar 変換に問題がありそう。– 本来は全体の 1 割ぐらいの時間なんだけど…

Planar 変換r = VirtualAlloc(NULL, width * height,

MEM_COMMIT|MEM_RESERVE,PAGE_READWRITE);

g = (ditto)b = (ditto)for (p = srcbegin; p < srcend; p += 3) {

*(g++) = p[1];*(b++) = p[0] - p[1] + 0x80;*(r++) = p[2] - p[1] + 0x80;

ちょっと変えてみる…速度変わらずr = VirtualAlloc(NULL, width * height,

*(g++) = p[1];*(b++) = p[0] - p[1]; // + 0x80;*(r++) = p[2] - p[1]; // + 0x80;

さらに変えてみる…やっぱり遅いr = VirtualAlloc(NULL, width * height,

*(g++) = p[1];*(b++) = p[0]; // - p[1] + 0x80;*(r++) = p[2]; // - p[1] + 0x80;

遅くなくなった！？r = VirtualAlloc(NULL, width * height,

*(g++) = p[1];*(b++) = p[0];r++;

対照群：遅いままr = VirtualAlloc(NULL, width * height,

*(g++) = p[1];*(b++) = p[0];*(r++) = 0;

ULY2 の場合（遅くない）y = VirtualAlloc(NULL, width * height,

u = VirtualAlloc(NULL, width * height / 2,MEM_COMMIT|MEM_RESERVE,PAGE_READWRITE);

v = (ditto)for (p = srcbegin; p < srcend; p += 4) {

*(y++) = p[0];*(u++) = p[1];*(y++) = p[2];*(v++) = p[3];

Q: なぜこうなるのでしょう？

A: store で毎回 L1 キャッシュミスするから

VirtualAlloc()

• 呼び出しプロセスのアドレス空間を予約あるいはコミットする。– POSIX の mmap() に似ている。

• 予約あるいはコミットするアドレスは「割り当て粒度 (allocation granularity) 」に丸められる。– ページサイズ (=4KiB) ではない。– 少なくとも Windows XP ～ 7 においては、 Win32 での割り当て粒度は 64KiB である。

AMD の L1 キャッシュ• 長らく命令 64KiB + データ 64KiB の構成• 長らく 2-way セットアソシアティブ• → 32KiB ごとに同じエントリアドレスになる。

両方合わせると…• VirtualAlloc() で割り当てられたバッファは

64KiB 境界に整列しているので、各バッファの先頭アドレスは全て同じエントリアドレスを持つ。• ULRG では g, b, r のポインタが同じ速度で進み「常に」同じエントリアドレスになるため、 1 バイトアクセスするたびにキャッシュミスして猛烈に遅くなる。

解決方法• ポインタが同じ速度で進むのだから、最初からずらしておけば今度は絶対に同じエントリアドレスにはならない。• p は 3 倍速で進むのでエントリアドレスが重なることがあるが、その時でも同じエントリアドレスを使っているのは 2 つだけなのでセーフ。

これで解決r = VirtualAlloc(NULL, width * height,

g = VirtualAlloc(NULL, width * height + 256,MEM_COMMIT|MEM_RESERVE,PAGE_READWRITE) + 256;

b = VirtualAlloc(NULL, width * height + 512,MEM_COMMIT|MEM_RESERVE,PAGE_READWRITE) + 512;

…※ 256 でいいかどうかは議論（というか計測）の余地がある。

当時（あまり）考えなかったこと• L1 キャッシュを共有する複数の物理スレッド– Intel HT とかのことだが、 Intel 系だと 8-way なので、 2 スレッド走っても 1 スレッドあたり 4-way で問題なし。– AMD Bulldozer の場合、 L1 は Bulldozer モジュールごとではなくコアごとに持ってるらしいから、半分にはならない？

まとめ？• キャッシュの連想度にも（たまには）気を付けましょう。• でも 2-way はひどいと思います。– Intel は 8-way なのに。

Q: 結局 x86 関係あんの？A: さあ…？

「 AMD で使うと遅いんだけど」 x86/x64 最適化勉強会 #4 LT

Documents

ESET NOD32 Antivirus...Desteklenen İşlemciler Intel® veya AMD x86-x64 Desteklenen İşletim Sistemleri. 11

Getting Started With Your System - Dell · • Microsoft® Windows Server® 2008, Standard Edition (32-bit x86) • Microsoft Windows Server 2008, Standard Edition (x64) • Microsoft

thcstruongcongthan.edu.vnthcstruongcongthan.edu.vn/.../20200602/Bo_cong_cu_t… · Web view2020/06/02 · : PE Win 10 pro x64, Win 10 pro x86 với đầy đủ các phần mềm

PowerEdge T630 - Delli.dell.com/sites/doccontent/business/smb/product/ja/...† Microsoft Windows Server® 2008/2012 SP2, x86/x64（x64 はHyper-V® 搭載） † Microsoft Windows

Vmware 기반의 x86/x64 솔라리스 최적화 가이드 · 솔라리스의 X86에 대한 지원도 미비하던 시절도 있었으나 현재의 솔라리스 10은 현재 막강

x86/x64 编程基础 - images.china-pub.comimages.china-pub.com/ebook3680001-3685000/3684363/ch02.pdf┃x86/x64 体系探索及编程┃ 26 2.3 Hello world 按照惯例，我们先看看“Hello,

Panduan pencegahan serangan Ransomware WannaCry pada ...€¦ · x86 - 32 bit dan kedua untuk x64 - 64 bit: Download and save the updates that match your system version. First one

Visual Studio 2005 時代の 64 ビットアプリケーション開発Visual J# Visual Basic Visual C# Visual C++ (x86) × × anycpu Itanium anycpu x64 x86 anycpu x64 /clr:safe /clr

瘀 ⸀ - Dell · – Visual C++ 2015 Redistributable Package (x86 et x64) Mise à jour 3 ou ultérieure Visual C++ 2015 nécessite Windows Update KB2999226 s'il est installé sous

cc2000 management software qsg v02...• Red Hat Enterprise Linux V.4 • Novell SUSE Enterprise Server 9 y 10 • Ubuntu 15.10 x64 • Ubuntu 15.10 x86 • Debian 8.2 x64 • Fedora

CARSOFT - M.F.T. - OP- · PDF fileImmobilisier-1 und -2 Systemen bei vielen Fahrzeugen und verbauten ... Windows-Vista, Windows 7 (x86 und x64) Windows 8, Windows 8.1 und Windows 10

ESET Endpoint Antivirus...Microsoft® Windows® 10/8.1/8/7/Vista/XP x86 SP3/XP x64 SP2 Щелкните здесь, чтобы загрузить актуальную версию

Rhino 5 SR2 Full x86 x64 Multiidioma - Identi

ALTIRIS DEPLOYMENT SOLUTION 6 - ネットジャパ … Hat 9.0 ： LinuxRed Hat Enterprise Linux 3 (x86) ： LinuxRed Hat Enterprise Linux 4 (x86,x64) ： ... “PXE 用にIntel UNDI

[2011 CodeEngn Conference 05] StolenByte - x64 아키텍쳐 분석과 x64와 x86 비교 분석

AVG AntiVirus 2014aa-download.avg.com/filedir/doc/AVG_Anti-Virus/avg_avc... · 2014-06-11 · Windows Vista (x86 dan x64, semua edisi) Windows 7 (x 86 dan x64, semua edisi) Windows

InfoCage SiteShell Ver4.0 インストールガイドRedHat Enterprise Linux v.6 (x86, x64) 日本語版 / 英語版 RedHat Enterprise Linux v.7 (x64) 日本語版 / 英語版 CentOS

Gabriele Del Giovine - ITConsult · Introduzione di server Windows 2008 x64 nei ruoli WFE/Search Dismissione dei server Windows x86. 01/06/09 4 Microsoft Office Sharepoint tra presente

(Online Version) - xinics.com · 데스크탑 시청 환경 데스크탑 - 시청 가능 ... 구성 요소 요구 사항 Windows x86 또는 x64(IE만 해당) 1.6GHz 이상의 프로세서

Roger Access Control System - montersi.pl · • System Windows XP (x86 i x64) z dodatkiem Service Pack 3 • System Windows Vista ... Rejestr zdarzeń RCP – chronologiczna lista