JUMANを使ったテキストマイニング

JUMANは、研究者が共通で使える形態素解析ツールとして京都大学の研究室により開発されました。

今回は、JUMANで何ができるのか、どのような特徴があるのかに加え、テキストマイニングをする際に必要な準備、工程などについて解説します。

JUMANの特徴

テキストマイニングを行うためには他のツールが必要

JUMANはあくまでも、形態素解析ツールであり、形態素解析を行った後に分かりやすく図示・図解するためには別のツールが必要となります。

主な図示・図解の方法としてはランキングやワードクラウド、共起ネットワーク・マッピングなどがあります。

JUMANによって形態素解析したデータは、ExcelやPython、KH-Coderなどのテキストマイニングツールを利用することで視覚的にデータを見ることが出来ます。

Wikipediaから抽出された辞書が使用できる

JUMANは1992年に公開されて以来、開発者である黒橋氏の研究室で改良が行われ続けています。JUMANの特徴としては、次の4点が挙げられます。

自動辞書とWikipedia辞書は定期的に更新されており、最新版はウェブサイトからダウンロードが可能です。また、更新履歴や過去のバージョンについてもウェブサイトで確認することが出来ます。

また、最新版は長音記号による非標準表記に対応。「行きたぁぁい」などの小書き文字についても自動認識できるようになっています。

単語解析の精度が高い

JUMANでは、使用者により文法の定義や単語間の接続関係を変更できるようになっており、単語の意味を細かく分類することができます

そのため、他の形態素解析ツールであるMeCabなどと比較しても精度が高いとも言われています。また、解析した単語はカテゴリごとに集計することもできます。

構文解析ツールセットとしても使用できる

構文解析ツールであるKNPにJUMANの解析結果を入力することで、構文解析が可能となります。

構文解析とは、形態素の間の関連を図式化して解析するものです。KNPはJUMANと同じく京都大学の研究室で開発されており、構文や格・照応解析を行うシステムであり、文節や基本句間の関係を出力します。

構文解析は神経言語プログラミングであるNLPの開発に重要な要素となっており、JUMANとKNPを組み合わせて使用することには大きな意味があると言えます。

JUMANでテキストマイニングするのに必要な準備

JUMANを使用してテキストマイニングを行うための準備や工程は、以下の通りです。

  1. JUMANをインストールする
  2. 解析するテキストを入力する
  3. 形態素解析結果を保存する
  4. テキストマイニングを行う

それぞれの工程について紹介します。

①JUMANをインストールする

JUMANを、京都大学のウェブサイトからダウンロードします。

②解析するテキストを入力する

テキストエディタに解析するテキストを入力し、解析します。

解析結果は次の順に並べられています。

  1. 形態素
  2. 読み
  3. 原型
  4. 品詞
  5. 品詞の細分類

③形態素解析結果を保存する

コマンド「juman -f < exMP.txt >exMPr.txt」を実行することで形態素解析結果が保存されます。

④テキストマイニングを行う

形態素解析された結果について他のツールを用いてテキストマイニングを行います。

JUMANはどんな人に向いている?

JUMANは日本語の解析研究を行う研究者のために多くの研究機関の協力によって開発されたシステムです。学校文法が計算機向けではないと考え、益岡田窪文法と呼ばれる独自の体系を採用しています。

研究者のために作られたツールですので、研究者に向いているのはもちろん、単語の意味分類も細かいため高い精度を求める人、無料の形態素解析ツールを使いたい人に向いています。

無料ツールと有料ツールの違いは?

無料ツールを利用する最大のメリットは、コストを掛けずにテキストマイニングを行えるという点にあります。個人での利用やテキストマイニングを体験してみたい人には、無料ツールは十分利用できるものになるでしょう。

しかし、有料ツールを用いれば導入から利用後までしっかりとサポートしてもらえるメリットがあります。また、無料ツールよりも機能が充実しており、細かい分析を自動で処理してくれる、知識や経験がなくても分析できるのもメリットです。

仕事で使用するのであれば、セキュリティ対策も重要となります。有料ツールであればセキュリティに配慮したものもあり、安心して使用することができるでしょう。有料ツールと無料ツールは、費用対効果や使用目的・頻度などを考慮して決めるようにしましょう。

おすすめの
テキストマイニングツールを
特徴ごとに確認する

JUMANの提供会社

開発者 京都大学黒橋・褚・村脇研究室
本社所在地 記載なし
電話番号 記載なし
公式HP URL https://nlp.ist.i.kyoto-u.ac.jp/?JUMAN

おすすめの
テキストマイニングツール3

ツールごとに機能やサービス内容が様々あるテキストマイニングツール。トライアル版を出しており、アンケートやリサーチから依頼ができるツール3つを紹介いたします。

「誰でも分析できる」
をコンセプトに設計

YOSHINA

(株式会社レトリバ)
YOSHINA
引用元:https://yoshina.retrieva.jp/
  • 専門知識や面倒な初期設定なしに分析が始められる。
  • 実務経験がない担当者の分析実績あり (※1)

YOSHINAの
無料デモ体験を申し込む

電話で問い合わせてみる

YOSHINAの
詳細を見てみる

自動辞書
テキストマイニング

TextVoice

(マイボイスコム株式会社)
TextVoice
引用元:https://www.textvoice.jp/info/
  • 類義語を自動で辞書に登録ができる
  • 最大6つの言葉をかけあわせて、分析ができる

TextVoiceの
無料デモ体験を申し込む

電話で問い合わせてみる

TextVoiceの
詳細を見てみる

Twitterデータ提供サービス認定
サービスプログラム

見える化エンジン

(株式会社プラスアルファ・
コンサルティング)
見える化エンジン
引用元:https://www.mieruka-engine.com/
  • 15億件 (※2)という膨大なデータを取り込むことが可能
  • Twitter社の認定サービス (※3)
    のため
    Twitterの分析に強い

見える化エンジンの
無料デモ体験を申し込む

電話で問い合わせてみる

見える化エンジンの
詳細を見てみる

※Google検索「テキストマイニングツール」の上位16社(2022年10月時点)の中から選定。