CUDA

NVIDIA DockerイメージのGPGキー更新に関する備忘録

R&D チームの徳田(@dakuton)です。 今年のGWあたりにCUDAのGPG更新アナウンス(NVIDIA Technical Blog: Updating the CUDA Linux GPG Repository Key)がありました。記載に従い利用環境の反映作業をしてみたところ、特にDockerイメージ向けの反映については…

姿勢推定モデル MoveNet を TensorRT でベンチマーク

R&D チームの奥村(@izariuo440)です。日本で気温が暖かくなると姿勢推定が盛り上がってくるように見えるのは私だけでしょうか?今年の5月に発表された人物姿勢推定モデルの MoveNet v3 をTensorRT でベンチマークしてみました。CPU でもかなり高速推論が…

PyTorchとTorchScriptでFP16な推論を試してみた

まえがき R&Dチームの宮﨑です。最近Fortnite熱が再燃して毎日練習してますが肝心な時にポンプを外してばかりでへこんでいます。 今回はPyTorch&TorchScriptで推論をFP16で実行し、速度計測やプロファイルしてみました。 まえがき PyTorchとTorchScriptを用…

CUDA で一時領域の確保・破棄を回避して速度低下を防ぐ

R&D チームの奥村(@izariuo440)です。今年も新卒が CUDA プログラミングを嗜んでいたところ、思ったより速度が出ないという話を聞いたので「CUDA で一時領域の確保・破棄を回避して速度低下を防ぐ」という対策をまとめました。Happy CUDing! 関連記事 tech…

顔検出器CenterFaceで高速推論

まえがき R&Dチームの宮﨑です。CenterFaceをTensorRTで実装したところ、かなりの性能が出たので記事にしました。 日々様々なDNNを実装・計測しているオプティムですが、その中でアンカーフリーの顔検出としてピックされたCenterFaceが期待できる結果が出た…

CUDAを一枚の絵にまとめてみた

まえがき 初めまして、R&Dチームの宮﨑です。趣味はFPSをやってます。150時間やってますが未だにドンかつを食べられていません。普段は深層学習のベンチマークを取ったりしています。 実はひと昔前からあった深層学習。近年実用性が増して一大ブームとなって…

TensorRT/Rust/CUDA/thrust... 技術選定 2018

オプティム R&D チームの奥村です。今回は、私がどういう風に技術選定してきたかという振り返りです。2018 年は、動画解析ミドルウェアの開発などに取り組んできましたので、その中で学んだことの一部 (TensorRT/Rust/CUDA/thrust) を振り返る形でお伝えしし…