読み方:とうけいてききかいほんやく
統計的機械翻訳 【SMT】 Statistical Machine Translation
概要
統計的機械翻訳(SMT)とは、コンピュータによる翻訳の手法の一つで、膨大な対訳集のデータを元に統計モデルに基づいて翻訳文を生成するもの。ニューラル機械翻訳が普及する以前は最有力の方式だった。対になる2つの言語間の対訳(原文と翻訳文のペア)を大量に収録したデータ集(コーパス)を用意し、システムに統計的なパターンを学習させる。原文の中から単語や句、文などのレベルで学習したパターンの中から最も似ているものを選び出し、対応する訳を繋ぎ合わせていく。
これ以前に主流だったルールベース機械翻訳では文法や構文規則を記述してシステムに与える必要があるが、統計的機械翻訳では対訳集があれば翻訳のパターンをコンピュータが自動的に学習できるという利点がある。既存の訳文に似た文を出力するため、流暢で自然な表現になりやすい。
一方、十分な量の対訳コーパスが用意されていない言語ペアの間では精度が低くなり、コーパスを新たに作成する負担も大きい。コーパス全体の統計的な傾向を元に訳文を作るため、特定の誤りのみを修正することも難しい。欧州の言語間など語順や語彙が近い言語間では良好な結果が得られやすいが、日本語と英語など共通点に乏しい言語間では機能しにくい。
大量のテキストデータの利用が可能になった1990~2000年代に活発に研究された手法で、一般向けのソフトウェア製品やネットサービスにも採用された。2010年代になり、ニューラルネットワークによる機械学習を利用する「ニューラル機械翻訳」(NMT:Neural Machine Translation)がディープラーニング(深層学習)の応用により飛躍的に進展すると、そちらの方が主流となった。
(2025.9.4更新)