TensorRT

TensorRT 8.4.0のリリースノート内容メモ

まえがき 相変わらずゲーム好きなR&Dの宮﨑です。VALORANTの世界大会で日本チームの「ZETA DIVISION」が快進撃を続けて盛り上がりましたね! 今回はTensorRT 8.4.0のリリースノートの内容をメモしました。 まえがき 気になった内容 意訳 主要な機能と改善 非…

TensorRT 8.2.4のリリースノート内容メモ

まえがき R&Dの宮﨑です。最近プライベートではGoogle App Scriptを書いて遊んでいます。 今回はTensorRT 8.2.4の内容をメモしました。 まえがき 気になった内容 意訳 非推奨APIのライフタイム 互換性 修正された問題 既知の問題 最後に 気になった内容 Tens…

TensorRT 8.2.2/8.2.3のリリースノート内容メモ

まえがき R&Dの宮﨑です。FORTNITEの入力を弄るツールであるダブルムーブメント(合法)がRustで書かれているのを見て低レイヤはRustで書くのがセオリーになりつつあるのかと実感している次第です。 今回はTensorRT 8.2.2/8.2.3のリリースノートの内容をメモし…

姿勢推定モデル MoveNet を TensorRT でベンチマーク

R&D チームの奥村(@izariuo440)です。日本で気温が暖かくなると姿勢推定が盛り上がってくるように見えるのは私だけでしょうか?今年の5月に発表された人物姿勢推定モデルの MoveNet v3 をTensorRT でベンチマークしてみました。CPU でもかなり高速推論が…

TensorRT 8 でさらに快適な高速推論

オプティムの R&D チームで Deep な画像解析をやっている奥村です。手元に NVIDIA RTX A4000 が届いてわくわくしています(PCIe 3.0 でも動作する模様)。TensorRT 8 の変更点についてメモしました。 はじめに 気になった内容 QAT で訓練されたネットワーク…

TensorRTの演算精度・バージョンのメモ

TensorRT 歴3年となった R&D チームの奥村(@izariuo440)です。今回は、2021/04/12 に発表された Ampere 世代の各種 GPU に対して TensorRT でその性能を十分に引き出すために必要な知識をまとめておきます。FP16/INT8 をうまく使うと、推論速度が2〜4倍…

顔検出器CenterFaceで高速推論

まえがき R&Dチームの宮﨑です。CenterFaceをTensorRTで実装したところ、かなりの性能が出たので記事にしました。 日々様々なDNNを実装・計測しているオプティムですが、その中でアンカーフリーの顔検出としてピックされたCenterFaceが期待できる結果が出た…

深層学習モデルの高速推論を支える TensorRT の概要

GCP の Tesla T4 が安くなったと思ったら元通りの価格にもどっていて、あれは幻だったのか・・・と嘆いている R&D チームの奥村(@izariuo440)です。これまで何度か TensorRT について触れてきましたが、どのように使うのかは触れていませんでした。今回は…

TensorRT 7 でさらに快適な高速推論

オプティムの R&D チームで Deep な画像解析をやっている奥村です。TensorRT 7 の変更点についてメモしました。非推奨機能に関するポリシーの明確化や、NLP、特に BERT に関するサポートの拡充、ありそうでなかった PReLU のサポートが気になった変更点です…

TensorRT 6 でさらに快適な高速推論

はじめに オプティムの R&D チームで Deep な画像解析をやっている奥村です。 2019/09/17 の Tweet で TensorRT 6 のリリースを発見しました。TensorRT 5.1.5 のリリースから約四ヶ月ぶりのリリースとなります。今回は RC がなく、いきなり GA となっていま…

TensorRT/Rust/CUDA/thrust... 技術選定 2018

オプティム R&D チームの奥村です。今回は、私がどういう風に技術選定してきたかという振り返りです。2018 年は、動画解析ミドルウェアの開発などに取り組んできましたので、その中で学んだことの一部 (TensorRT/Rust/CUDA/thrust) を振り返る形でお伝えしし…

TensorRT で物体検出・姿勢推定はどれくらい速くなる?

今回は、TensorRT で物体検出・姿勢推定はどれくらい速くなるのかを紹介します。せっかちな人のために、TensorRT による効果を先にかいつまんで書いておきます。 RefineDet という物体検出モデルでは 38 fps が 68 fps に向上 (x1.8 Faster!) OpenPose とい…