読み方 : じどうようやく

自動要約【automatic summarization】テキスト要約

別名  :text summarization/文章要約/文書要約

概要

自動要約とは、コンピュータで長い文章を解析し、重要な情報を抽出または再構成して短い要約文を生成すること。自然言語処理の応用の一つで、人間が大量の文章や文書を効率的に理解する支援を行う。
自動要約のイメージ画像

単に機械的に単語や文章を削減するのではなく、元の文章が持つ主題や要点、事実関係を保ちながら、冗長な表現を削減して短い表現にまとめる必要がある。文章を単なる文字列として扱うのではなく、文や段落の役割、語の重要度、文脈上の関係性を考慮した処理が行われる。

自動要約の手法は、大きく「抽出型」と「生成型」の二つのアプローチに分かれる。抽出型要約では、原文中の文や句を重要度に基づいて選択し、それらを組み合わせて要約文を作成する。原文の表現をそのまま利用するため、内容の齟齬が生じにくいが、単語や文章の繋がりが不自然になる場合がある。

一方、生成型要約では、深層学習を用いた言語モデルを活用し、人間が要約文を書くように原文の意味を再構成した短い文章を新たに書き起こす。異なる語彙へ言い換えたり、複数の文を一つの文にまとめたりすることができ、非常に読みやすく自然な要約が得られる。しかし、学習データに基づき原文にない情報を勝手に作り出してしまう「ハルシネーション」(幻覚)という現象が発生する課題がある。

近年では機械学習を応用した実用的なソフトウェアやネットサービスが登場し、ニュース記事のダイジェスト作成、会議の議事録の作成、学術論文の要旨生成など、ビジネスから学術研究まで幅広い分野で活用が進んでいる。複数のメディアの情報を統合して扱う「マルチモーダル」技術の発展により、テキスト(文字列)だけでなく音声や動画の内容を要約する技術も実用化されている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。