自然言語処理 【NLP】 Natural Language Processing
日本語の書き言葉を対象とした自然言語処理では、文を単語などの最小単位(形態素)に分解する「形態素解析」、文の構造を調べる「構文解析」、単語の意味や語間の修飾関係を調べる「意味解析」、前後の文で得られる知識も用いて文意を確定する「文脈解析」などの段階で進めていく。
言語や表現形態によって必要な処理の内容が異なる場合がある。例えば、英語など単語間に空白を開けて文を記述する「分かち書き」を行う言語では形態素解析は不要となるが、話し言葉を対象に音声認識を行う場合は形態素解析が必要となる。
自然言語処理では処理手順を定めたアルゴリズムだけでなく、その言語の語彙や文法、連語、慣用句などを知るための大量のデータが必要となる。単語の意味や読み、品詞、活用形などを機械可読な形式に整理した「辞書」データや、構文解析済みの大量の文例を集めた「コーパス」などのデータ集合が利用される。近年では機械学習システムで自然言語処理を行うための学習済みデータモデル(言語モデル)の開発も盛んに行われている。
自然言語処理の応用としては、Web検索エンジンや音声アシスタント、かな漢字変換システム、光学文字認識(OCR)、文書編集ソフトのスペルチェッカーや校正ツール、音声認識(音声入力)や音声合成、機械翻訳、自動要約、テキストマイニングなどが挙げられる。
(2021.9.22更新)