読み方 : メカブ

MeCab

MeCabとは?

日本語の文章を単語単位に分割し、品詞や読み、活用形などの文法情報を付与するオープンソース形態素解析エンジン。日本語を対象とする自然言語処理で広く普及している。
MeCabのイメージ画像

日本語は欧米の言語のように文章中で単語間に空白を入れる「分かち書き」をしない言語であるため、コンピュータがテキストを単語単位で処理するには、どこで区切るかを自動判断する仕組みが必要になる。

MeCabは入力された文章を辞書と照合しながら形態素(言語における意味を持つ最小単位)の候補を列挙したうえで、単語同士の接続しやすさや出現頻度をもとに最も自然な分割パターンを選択する。活用語や複合語を含む文章にも対応できる。

解析結果には品詞の分類、動詞の活用形、読み、原形などの情報が含まれる。開発者はこれを利用して、キーワードの出現頻度の調査や、助詞を除いた特徴語の抽出といった処理を実装できる。奈良先端科学技術大学院大学の工藤拓氏が開発し、2001年に公開された。

辞書には「IPAdic」「UniDic」など複数の選択肢があり、用途に応じて使い分けられる。医療・法律・ITといった専門分野では独自辞書を追加することで、特定領域の語彙にも対応できる。新語や固有名詞に強い外部辞書を組み込めば、SNS投稿やニュース記事の処理精度も向上する。

主な用途は検索エンジンのインデックス生成、機械翻訳の前処理、テキスト分類、感情分析などである。C++言語で実装されており、PythonRubyJavaなど主要言語向けのバインディング(連携プログラム)も整備されている。LinuxやmacOS、Windowsで動作し、研究から商用システムまで幅広い環境で利用されている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。