コーパス 【corpus】
日本語、英語など人間が記録や意思疎通に用いる自然言語を対象に大量の文例を集め、検索用の索引、品詞や構文の注釈など付加的な情報を与え、検索や分析などに利用しやすいよう一定の構造や形式で集積したデータ集合を指す。
「書き言葉コーパス」「話し言葉コーパス」といったように目的に応じて特定の種類の文例のみを集めたものもある。文字データとして蓄積したものが多いが、話し言葉を実際に朗読、発話して音声として録音し、付加データによって整理した「音声コーパス」も存在する。
言語学の研究のために以前から作られてきたが、近年ではコンピュータによる自然言語処理(NLP:Natural Language Processing)に用いるために電子化された大規模コーパスも整備されている。これを機械学習システムに学習データとして与え、AI(人工知能)が用いる言語モデルを構築する研究も進んでいる。
(2023.10.22更新)