テキストマイニングためのKHコーダーは、立命館大学の先生である樋口氏が作成したフリーのソフトウェアです。各種検索だけでなく文書の分類やグルーピングに用いるクラスター分析。対応分析といった多変量解析にも対応しており、現在も各種分析・可視化に対する改良が行われ続けています。
今回は、KHコーダーの特徴や使い方、使用が向いているケースなどについて解説します。
KHコーダーは、テキストマイニングのために開発されたフリーソフトウェアです。
このようなテキストに対して分析を行うことができます。また、他にもKHコーダーを用いた研究事例が公式サイトに多く掲載されています。
KHコーダーでは、多くの種類の分析を可能としています。
対応分析などをCVS形式で保存することにより、任意のグラフ作成ソフトで調整することも可能です。
また、KHコーダーはカラーユニバーサルデザインに対応しています。これにより、色覚に特性がある場合でも見分けやすくできます。さらに、カラーユニバーサルデザインの考慮が不要の場合は、チェックを外すことで他の色も使用できます。
KHコーダーは、日本語だけでなく多くの言語に対応しています。
分析可能な言語 | 日本語、英語、オランダ語 |
---|---|
より正確に語の基本形を 取り出せるようになった言語 |
イタリア語、スペイン語、ドイツ語、フランス語、ポルトガル語 |
KHコーダー3で 新たに分析可能となった言語 |
カタルーニャ語、スロベニア語、中国語、朝鮮語、ロシア語 |
KHコーダーのテキストマイニングは、2段階に分けて行われます。
分析者が「特定の表現をAとみなす」などのコンセプトを指定することにより、分析をより深めることが出来ます。
KHコーダーによるテキストマイニングには、次の3つの工程が必要となります。
それぞれの工程について紹介します。
KHコーダーで分析できるデータを用意します。
分析対象のファイルが複数ある場合は、すべての文書を1つのファイルにまとめて入力し、KHコーダーに登録します。
重要な言葉で1語として抽出されていない場合は、強制抽出する語を指定することができます。分割が細かすぎる場合の修正にも使用できます。
前処理の実行を選択することにより、分析が可能となります。
頻出後リストや共起ネットワークが作成可能となり、それを基にクラスター分析や対応分析などを行います。
コンセプトを数えるためのコーディングルールを作成することで、単語ではなくコンセプトを数えることもできます。
KHコーダーは無料で様々なテキスト分析に対応できるため、自由記述のあるアンケート集計を行いたい方や単語出現率を用いた分析をしたい方、手軽にテキストデータを可視化したい方に向いているでしょう。
ただし、KHコーダーはマニュアルが存在しない機能やエラーについての説明が不足していると感じる方もいます。機能が多い分、使う頻度が少ないと操作に慣れるのが大変かもしれません。
KHコーダーでテキストマイニングを行う際には、下記のようなメリットが考えられます。
KHコーダーは、フリーソフトであることから無料で使用できる上に、非常に細かい分析まで行える点が大きなメリットとなっています。多彩な分析が行えることに加えて多言語に対応しているため、さまざまな場面での分析において活用ができるでしょう。
さらに、分析や可視化を行う際にインターネットへの接続が不要となっていることから、データ漏洩などのリスクを下げることにもつなげられます。もし企業などで利用するためセキュリティの対策を行っておきたいと考える場合には、有料となるもののセキュリティ対策がプラスされた「KH Coderサポートパッケージ」も用意されています。
加えて、プログラミングが不要である点もHKコーダーの特徴となっているため、コーディングに関する知識を持っていない人でも手軽にテキストデータを分析できるという点もメリットのひとつです。
また、KHコーダーに関して開発者本人の話を聞くことができるオンデマンドセミナーも開催されています(企業主催につき有料)。質問受付なども行っていることから定員が設定されているため、参加を希望する場合には申込みが必要ですが、ツールに関する理解を深めるための機会が提供されている点もメリットのひとつといえるでしょう。
KHコーダーでテキストマイニングを行う際には、下記のようなデメリットが考えられます。
KHコーダーの使い方は難しくはないものの、難しい専門用語もあることからテキストマイニングに慣れていない人の場合には使用する上で戸惑ってしまう可能性もあります。そのため、わからない部分がある場合については、FAQやチュートリアルを参照するなどしながらテキストマイニングについて理解を深めていく、という姿勢も大切になってくるでしょう。
KHコーダーは無料ながら多くの分析方法に対応していることから、無料版で十分満足している方も多く見られます。
一方、有料ツールの利点としては、導入や運用するにあたってサポートを受けられる、データを取り込むだけで分析が出来る、個人でカスタマイズして分析できるといった点が挙げられます。
より高度なテキストマイニングを行いたい場合は、有料ツールが必要となることもあるでしょう。
著作権 | 樋口耕一 |
---|---|
本社所在地 | 記載なし |
電話番号 | 記載なし |
公式HP URL | https://khcoder.net/ |
ツールごとに機能やサービス内容が様々あるテキストマイニングツール。トライアル版を出しており、アンケートやリサーチから依頼ができるツール3つを紹介いたします。
※Google検索「テキストマイニングツール」の上位16社(2022年10月時点)の中から選定。