ニューラル機械翻訳

機械翻訳(MT)

機械翻訳は、人を介さず自動で翻訳することを目的に開発されました。ニューラル機械翻訳は、機械翻訳の一つの手法です。

機械翻訳種類

大きく3種類の機械翻訳があります。

ルールベース機械翻訳(RBMT):作成した文法ルールと辞書データから翻訳が作成されます。作成に人的リソースがかかります。
統計的機械翻訳(SMT):コーパス(文章データ)を元に作成した統計モデルから、翻訳が作成されます。文法がかけ離れた言語ペアの翻訳は精度が低いと言われています。
ニューラル機械翻訳(NMT):コーパス(文章データ)を元にディープラーニングで作成したニューラルネットワークで予測して翻訳が作成されます。

RBMTとSMTを使うハイブリッド機械翻訳(HMT)もあります。現在は主にNMTが使われています。

ニューラルネットワーク

ニューラルネットワークは、いくつかの処理の集合体です。脳で行う処理をコンピュータで行おうとしています。 

ディープラーニング

機械学習の一つの手法として、ディープラーニングがあり、多層ニューラルネットワークを使った技術です。ディープラーニング技術を使う分析は様々な分野で使われていて、画像認識、音声認識、機械翻訳はその一部です。

NMTを使う

Googleは、ニューラル機械翻訳を元にGoogleニューラル機械翻訳(GNMT)を開発しました。GNMTはGoogle翻訳で使用されています。また、Google翻訳を使用できるAPIを公開しています。MicrosoftはMicrosoft Translator Hubを開発し、ユーザがNMTモデルをカスタマイズして使えるようにしています。また、SYSTRANも同様のサービスSYSTRAN Model Studioを提供しています。

独自システムを開発したい場合は、Googleが開発したオープンソースの機械学習ライブラリであるTensorFlowを使って開発できます。参考チュートリアル

NMTエンジンのトレーニング

Microsoft Translator HubとSYSTRAN Model Studioとも大まかな手順は同じです。

  1. 翻訳ジャンルと言語にあうコーパスを準備
  2. コーパスのデータをクリーニング
  3. トレーニング
  4. BLEUスコア(翻訳品質を評価するためのスコア)と人によるチェックで評価

NMT品質は、コーパスの量と質、トレーニング回数、トレーニングに大きく依存します。

上部へスクロール