2018年9月26日水曜日

X99 マザー + Linux + NV GPU 複数枚刺しで常時運用してはいけない。つまりマイニングには向かない組み合わせなのでご注意!

コメント:マイニングするなら
1枚のマザーボードで、グラフィックボードをコネクターで20枚接続出来る物を使い、中古中古のgeforce1060以上のスペックの物を選ぶ方が効率的です。

リソース:
https://qiita.com/syoyo/items/596355e6f285181038cb

この記事は最終更新日から1年以上が経過しています。
漢なら GPU 複数刺してレイトレーシング/機械学習で 24 時間稼働させたいですよね!
2017/05 時点では対応 CPU の PCI lanes が多く(up to 40 lanes), x16 スロットがフルで刺さるのは X99 マザー一択になります.
(X99-E WS とかは x16 x 7 スロット! あります)
そこで X99 マザー(Asus X99-E WS) + GTX 1070/1080 Ti 複数枚刺しで Ubuntu 16.04 で GPU レイトレーシング/機械学習をしようと思案しまして, まずは耐久性をはかるために仮想通貨のマイニングプログラムを走らせてみたのですが PLX エラーがでてつらい.
どうも X99 のエラッタのせいのようです. マザーボードの BIOS 最新にしても治りませんでした.
  • pci=nommconf にしたら数時間は稼働するがその後カーネルパニック
  • pci=nomsi にしたら PLX エラーは出なくなったが, やはり CUDA プログラムがたまに死にます. たとえば...

となりました.
また, 別のケースでは, 10 時間くらい稼働させたところ hugepage エラー(ECC エラー?) + ATA エラーが出て, 再起動するとマザーボードの温度が高すぎて起動できない, のもありました(これはマザーボードを冷却すれば治るか?)
思い起こせば, 手元の別の Windows 環境も X99 でしたが, 複数 GPU を刺すと BSOD 出たりして不可解な挙動していたので X99 のエラッタが原因だったのかもしれませんね.
途中でプログラムが死んでも再スタートしても OK なプログラムでない場合は, X99 マザーは避けた方がよいです.

0 コメント:

コメントを投稿