読み方 : とうけいてききかいほんやく

統計的機械翻訳【SMT】Statistical Machine Translation

概要

統計的機械翻訳とは、コンピュータによる翻訳の手法の一つで、膨大な対訳集のデータを元に統計モデルに基づいて翻訳文を生成するもの。ニューラル機械翻訳が普及する以前は最有力の方式だった。
統計的機械翻訳のイメージ画像

対になる2つの言語間の対訳(原文と翻訳文のペア)を大量に収録したデータ集(コーパス)を用意し、システムに統計的なパターンを学習させる。原文の中から単語や句、文などのレベルで学習したパターンの中から最も似ているものを選び出し、対応する訳を繋ぎ合わせていく。

これ以前に主流だったルールベース機械翻訳では文法や構文規則を記述してシステムに与える必要があるが、統計的機械翻訳では対訳集があれば翻訳のパターンをコンピュータが自動的に学習できるという利点がある。既存の訳文に似た文を出力するため、流暢で自然な表現になりやすい。

一方、十分な量の対訳コーパスが用意されていない言語ペアの間では精度が低くなり、コーパスを新たに作成する負担も大きい。コーパス全体の統計的な傾向を元に訳文を作るため、特定の誤りのみを修正することも難しい。欧州の言語間など語順や語彙が近い言語間では良好な結果が得られやすいが、日本語と英語など共通点に乏しい言語間では機能しにくい。

大量のテキストデータの利用が可能になった1990~2000年代に活発に研究された手法で、一般向けのソフトウェア製品やネットサービスにも採用された。2010年代になり、ニューラルネットワークによる機械学習を利用する「ニューラル機械翻訳」(NMT:Neural Machine Translation)がディープラーニング深層学習)の応用により飛躍的に進展すると、そちらの方が主流となった。

(2025.9.4更新)

他の用語辞典による「統計的機械翻訳」の解説 (外部サイト)

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。