MeCab

形態素解析エンジンであるMeCabは、京都大学情報学研究科日本電信電話株式会社コミュニケーション科学基礎研究所 共同研究ユニットプロジェクトにより開発されたフリーソフトウェアであり、日本語の形態素解析エンジンの中でも多く使用されています。また、日本語データから作成したn-gramデータの公開にも用いられました。

開発者である工藤氏の好物「和布蕪(めかぶ)」から名づけられたというユニークな名称。今回は、そんなMeCabの特徴や使う為に必要となる準備など、詳しく紹介します。

MeCabの特徴

形態素解析が可能

テキストマイニングツールにおける形態素解析とは、自然言語処理の一つで、文書中の単語や形態素を品詞ごとに分割・抽出する技術を指します。

MeCabは形態素解析を行うためのオープンソースエンジンです。

形態素解析とは、意味をもつ要素の最小単位である形態素に分けるというものです。

下記が、形態素です。

形態素解析の活用事例をいくつか挙げてみましょう。

テキストマイニングにおいては、自然言語処理の第一段階として用いられています。

また、MeCabは様々な辞書と連動させることも可能です。

辞書さえあれば他の言語解析も可能という点も特徴と言えます。

解析精度が高く同様のツールと比較しても高速

MeCabは学習モデルにCRF(識別モデル)を用いており、高い解析制度を有しています。また、同じ形態素解析ツールであるChaSenと比較して平均3~4倍の動作が可能という特徴があります。

出力フォーマットが選べる

MeCabの出力フォーマットをいくつか紹介しましょう。

Pythonと連携が可能

MeCabは、オープンソースで運用されているプログラム言語であるPythonと連携させることもできます。

Pythonと連携するためには、Python上でMeCabを動作させるモジュールであるmecab-python3をインストールします。

Pythonだけでなく、以下の言語も使用できます。

MeCabでテキストマイニングするのに必要な準備

MeCabによる形態素解析は、あくまでもテキストマイニングを行うために行う過程の1つです。

形態素解析を行う手順は次の2つです。

  1. 形態素解析のための出力フォーマットを指定
  2. 解析

解析方法

標準入力による解析

MeCabは、一行一分を前提とした解析を行います。

MeCabを起動して標準入力から文章を入力することで解析ができます。

ファイルを対象とした解析

引数にテキストファイルを与えると、そのファイルを対象として解析を行います。

わかち書きをする

わかち書きは、文章の語の区切りに空白を挟んだ記述です。手作業でするのは大変ですが、-O オプションを使うことによりわかち書きが可能となります。

未知語推定機能あり

辞書に単語が登録されていない場合でも、MeCabが適当に品詞を推定する未知語推定機能があります。ただし、精度が高いわけではありません。品詞推定を辞めたい場合は、オプションを使用することで未知語として品詞の出力を行うこともできます。

MeCabはどんな人に向いている?

MeCabは形態素解析を行うためのソフトウェアですから、自然言語処理を必要とする方に向いています。

テキストマイニングを行うためには必要に応じてExcelやPythonなど他のツールと連携・併用する必要があります。

無料ツールと有料ツールの違いは?

Mecabは無料で形態素解析が行えるソフトウェアですが、表記ゆれに対して辞書に依存してしまいます。

形態素解析の有料ツールであるSudachiは、日本語における様々な表記ゆれに対応しているだけでなく、定期的に最新の単語を更新してくれます。さらに、運用保守や障害対応、使い方といった問い合わせにも対応(ヘルプデスクが利用可能)というメリットもあります。

より精度の高い解析を行いたい、表記ゆれに強いソフトウェアを選びたい、形態素解析を利用するにあたって専門のサポートを受けたいということであれば、有料ツールを検討してみましょう。

おすすめの
テキストマイニングツールを
特徴ごとに確認する

MeCabの提供会社

著作権 工藤拓
本社所在地 記載なし
電話番号 記載なし
公式HP URL http://taku910.github.io/mecab/

おすすめの
テキストマイニングツール3

ツールごとに機能やサービス内容が様々あるテキストマイニングツール。トライアル版を出しており、アンケートやリサーチから依頼ができるツール3つを紹介いたします。

「誰でも分析できる」
をコンセプトに設計

YOSHINA

(株式会社レトリバ)
YOSHINA
引用元:https://yoshina.retrieva.jp/
  • 専門知識や面倒な初期設定なしに分析が始められる。
  • 実務経験がない担当者の分析実績あり (※1)

YOSHINAの
無料デモ体験を申し込む

電話で問い合わせてみる

YOSHINAの
詳細を見てみる

自動辞書
テキストマイニング

TextVoice

(マイボイスコム株式会社)
TextVoice
引用元:https://www.textvoice.jp/info/
  • 類義語を自動で辞書に登録ができる
  • 最大6つの言葉をかけあわせて、分析ができる

TextVoiceの
無料デモ体験を申し込む

電話で問い合わせてみる

TextVoiceの
詳細を見てみる

Twitterデータ提供サービス認定
サービスプログラム

見える化エンジン

(株式会社プラスアルファ・
コンサルティング)
見える化エンジン
引用元:https://www.mieruka-engine.com/
  • 15億件 (※2)という膨大なデータを取り込むことが可能
  • Twitter社の認定サービス (※3)
    のため
    Twitterの分析に強い

見える化エンジンの
無料デモ体験を申し込む

電話で問い合わせてみる

見える化エンジンの
詳細を見てみる

※Google検索「テキストマイニングツール」の上位16社(2022年10月時点)の中から選定。