全結合層を畳み込み層へ変換する高速推論生成法

技術の概要

深層学習モデルの推論を高速化する手法です。第一モデルの全結合層を畳み込み層に置き換え、不要な次元変換層を削除します。これにより、精度を損なわず処理速度を向上させ、エッジ環境での実装を容易にします。

ユースケース

  • エッジデバイス上での推論を高速化
  • Transformer系モデルの軽量化と実用化
  • 産業機器・IoTデバイスへの組込み
  • AIモデルの生成ワークフローの合理化
  • 省電力・低遅延のリアルタイム処理

本技術は、第一モデルに含まれる全結合層を畳み込み層へ変換します。これにより、入力情報を三次元から二次元へ整え、全結合層の計算を畳み込み演算に置換します。さらに、前後にある次元変換層(3次元と2次元間の変換を行う部分)を削除し、第二モデルを生成します。第二モデルは第一モデルと等価な機能を持ちながら、層の数が減少して処理が速くなります。推論時には新たな学習を必ずしも伴わず、データの性質に応じた最適化が可能です。入力情報の軸の取り扱いは論文の前提と一致しますが、実装上はチャンネル軸と空間軸を分解して処理します。更に、1×1カーネルを活用した畳み込みへ変換することで、計算量の削減とメモリ使用の均衡を図ります。

本発明は、深層学習モデルの推論を高速化するための情報処理装置および方法を提供します。具体的には、第一モデルに含まれる全結合層を選択し、それらを畳み込み層へ変換します。変換後の第二モデルは、元の第三次元構造を崩さず、入力を二次元表現に集約することで、全結合層の重み演算を畳み込み演算に置換します。同時に、次元変換層および次元逆変換層を削除することで、前後の処理回数を削減します。第二モデルは第一モデルと同等の機能を保持しますが、層数が減少するため推論速度が向上します。なお、推論時に必ずしも新規学習を要せず、必要に応じて既存の学習済みパラメータをコピーする変形も想定されます。さらに、入力データは3次元表現(例:i軸、j軸、Ci軸)から2次元表現へ変換され、チャンネルごとに重みを適用する全結合層と、3次元データを扱える畳み込み層の組み合わせで処理されます。カーネルは基本的に1×1で、入力値の1つのi軸のみが1要素のときにも対応します。これにより、エッジ機器での実用性が高まり、推論の遅延と電力消費を抑えつつ、精度の劣化を回避できます。本手法は、方法論としてはモデル生成フローの一部として、生成された第二モデルに対して追加の機械学習を適用することで、実運用時の推論精度をさらに安定させることが可能です。実装観点では、パラメータのコピーや再学習の要否、対象モデルのモジュール化など、現場の要件に応じた柔軟な適用が想定されます。

この技術について問い合わせる

名前
利用規約とプライバシーポリシーに同意して送信する