コーパス【corpus】

概要

コーパスとは、自然言語の研究などのため、実際に書かれた文章、話された言葉の用例を大量に収集したデータベース。

コーパスのイメージ画像

日本語、英語など人間が記録や意思疎通に用いる自然言語を対象に大量の文例を集め、検索用の索引、品詞や構文の注釈など付加的な情報を与え、検索や分析などに利用しやすいよう一定の構造や形式で集積したデータ集合を指す。

「書き言葉コーパス」「話し言葉コーパス」といったように目的に応じて特定の種類の文例のみを集めたものもある。文字データとして蓄積したものが多いが、話し言葉を実際に朗読、発話して音声として録音し、付加データによって整理した「音声コーパス」も存在する。

言語学の研究のために以前から作られてきたが、近年ではコンピュータによる自然言語処理（NLP：Natural Language Processing）に用いるために電子化された大規模コーパスも整備されている。これを機械学習システムに学習データとして与え、AI（人工知能）が用いる言語モデルを構築する研究も進んでいる。

(2023.10.22更新)

「コーパス」の関連用語

他の用語辞典による「コーパス」の解説（外部サイト）

各種試験対策（一部は会員限定）

ITパスポート

✅ 用語一覧
✅ 単語帳
✅ 一問一答
✅ 過去問模試
✅ 過去問集

基本情報技術者

✅ 用語一覧
✅ 単語帳
✅ 一問一答
✅ 過去問模試
✅ 過去問集

高校情報Ⅰ

✅ 用語一覧
✅ 単語帳
✅ 一問一答
✅ 小テスト作成

この分野の閲覧数ランキング

1位

インテリジェント【intelligent】

2位

汎化【generalization】

3位

Q学習【Q-learning】

4位

プロンプト【prompt】

5位

TOPS 【teraOPS】

6位

人工知能【AI】

7位

二乗平均平方根誤差【RMSE】

8位

マルコフ決定過程【MDP】

9位

GPT 【Generative Pre-trained Transformer】

10位

東ロボくん【Todai Robot Project】

11位

ベイジアンフィルタ【Bayesian filter】

12位

トイプロブレム【toy problem】

13位

平均絶対誤差【MAE】

14位

平均二乗誤差【MSE】

15位

SOTA 【State-of-the-Art】

… 総合ランキングへ