コーパス 【corpus】

概要

コーパス(corpus)とは、自然言語の研究などのため、実際に書かれた文章、話された言葉の用例を大量に収集したデータベース

日本語、英語など人間が記録や意思疎通に用いる自然言語を対象に大量の文例を集め、検索用の索引、品詞や構文の注釈など付加的な情報を与え、検索や分析などに利用しやすいよう一定の構造や形式で集積したデータ集合を指す。

「書き言葉コーパス」「話し言葉コーパス」といったように目的に応じて特定の種類の文例のみを集めたものもある。文字データとして蓄積したものが多いが、話し言葉を実際に朗読、発話して音声として録音し、付加データによって整理した「音声コーパス」も存在する。

言語学の研究のために以前から作られてきたが、近年ではコンピュータによる自然言語処理NLPNatural Language Processing)に用いるために電子化された大規模コーパスも整備されている。これを機械学習システムに学習データとして与え、AI人工知能)が用いる言語モデルを構築する研究も進んでいる。

(2023.10.22更新)

他の辞典による解説 (外部サイト)

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。
ホーム画面への追加方法
1.ブラウザの 共有ボタンのアイコン 共有ボタンをタップ
2.メニューの「ホーム画面に追加」をタップ
閉じる