JUMANは、研究者が共通で使える形態素解析ツールとして京都大学の研究室により開発されました。
今回は、JUMANで何ができるのか、どのような特徴があるのかに加え、テキストマイニングをする際に必要な準備、工程などについて解説します。
JUMANはあくまでも、形態素解析ツールであり、形態素解析を行った後に分かりやすく図示・図解するためには別のツールが必要となります。
主な図示・図解の方法としてはランキングやワードクラウド、共起ネットワーク・マッピングなどがあります。
JUMANによって形態素解析したデータは、ExcelやPython、KH-Coderなどのテキストマイニングツールを利用することで視覚的にデータを見ることが出来ます。
JUMANは1992年に公開されて以来、開発者である黒橋氏の研究室で改良が行われ続けています。JUMANの特徴としては、次の4点が挙げられます。
自動辞書とWikipedia辞書は定期的に更新されており、最新版はウェブサイトからダウンロードが可能です。また、更新履歴や過去のバージョンについてもウェブサイトで確認することが出来ます。
また、最新版は長音記号による非標準表記に対応。「行きたぁぁい」などの小書き文字についても自動認識できるようになっています。
JUMANでは、使用者により文法の定義や単語間の接続関係を変更できるようになっており、単語の意味を細かく分類することができます。
そのため、他の形態素解析ツールであるMeCabなどと比較しても精度が高いとも言われています。また、解析した単語はカテゴリごとに集計することもできます。
構文解析ツールであるKNPにJUMANの解析結果を入力することで、構文解析が可能となります。
構文解析とは、形態素の間の関連を図式化して解析するものです。KNPはJUMANと同じく京都大学の研究室で開発されており、構文や格・照応解析を行うシステムであり、文節や基本句間の関係を出力します。
構文解析は神経言語プログラミングであるNLPの開発に重要な要素となっており、JUMANとKNPを組み合わせて使用することには大きな意味があると言えます。
JUMANを使用してテキストマイニングを行うための準備や工程は、以下の通りです。
それぞれの工程について紹介します。
JUMANを、京都大学のウェブサイトからダウンロードします。
テキストエディタに解析するテキストを入力し、解析します。
解析結果は次の順に並べられています。
コマンド「juman -f < exMP.txt >exMPr.txt」を実行することで形態素解析結果が保存されます。
形態素解析された結果について他のツールを用いてテキストマイニングを行います。
JUMANは日本語の解析研究を行う研究者のために多くの研究機関の協力によって開発されたシステムです。学校文法が計算機向けではないと考え、益岡田窪文法と呼ばれる独自の体系を採用しています。
研究者のために作られたツールですので、研究者に向いているのはもちろん、単語の意味分類も細かいため高い精度を求める人、無料の形態素解析ツールを使いたい人に向いています。
無料ツールを利用する最大のメリットは、コストを掛けずにテキストマイニングを行えるという点にあります。個人での利用やテキストマイニングを体験してみたい人には、無料ツールは十分利用できるものになるでしょう。
しかし、有料ツールを用いれば導入から利用後までしっかりとサポートしてもらえるメリットがあります。また、無料ツールよりも機能が充実しており、細かい分析を自動で処理してくれる、知識や経験がなくても分析できるのもメリットです。
仕事で使用するのであれば、セキュリティ対策も重要となります。有料ツールであればセキュリティに配慮したものもあり、安心して使用することができるでしょう。有料ツールと無料ツールは、費用対効果や使用目的・頻度などを考慮して決めるようにしましょう。
開発者 | 京都大学黒橋・褚・村脇研究室 |
---|---|
本社所在地 | 記載なし |
電話番号 | 記載なし |
公式HP URL | https://nlp.ist.i.kyoto-u.ac.jp/?JUMAN |
ツールごとに機能やサービス内容が様々あるテキストマイニングツール。トライアル版を出しており、アンケートやリサーチから依頼ができるツール3つを紹介いたします。
※Google検索「テキストマイニングツール」の上位16社(2022年10月時点)の中から選定。