読み方 : メカブ
MeCab

日本語は欧米の言語のように文章中で単語間に空白を入れる「分かち書き」をしない言語であるため、コンピュータがテキストを単語単位で処理するには、どこで区切るかを自動判断する仕組みが必要になる。
MeCabは入力された文章を辞書と照合しながら形態素(言語における意味を持つ最小単位)の候補を列挙したうえで、単語同士の接続しやすさや出現頻度をもとに最も自然な分割パターンを選択する。活用語や複合語を含む文章にも対応できる。
解析結果には品詞の分類、動詞の活用形、読み、原形などの情報が含まれる。開発者はこれを利用して、キーワードの出現頻度の調査や、助詞を除いた特徴語の抽出といった処理を実装できる。奈良先端科学技術大学院大学の工藤拓氏が開発し、2001年に公開された。
辞書には「IPAdic」「UniDic」など複数の選択肢があり、用途に応じて使い分けられる。医療・法律・ITといった専門分野では独自辞書を追加することで、特定領域の語彙にも対応できる。新語や固有名詞に強い外部辞書を組み込めば、SNS投稿やニュース記事の処理精度も向上する。
主な用途は検索エンジンのインデックス生成、機械翻訳の前処理、テキスト分類、感情分析などである。C++言語で実装されており、Python、Ruby、Javaなど主要言語向けのバインディング(連携プログラム)も整備されている。LinuxやmacOS、Windowsで動作し、研究から商用システムまで幅広い環境で利用されている。