統計解析やデータ分析を行う際に用いられるプログラム言語「R」。オープンソースとして無料で利用できる統計ソフトRを使うとデータを可視化するワードクラウド描画が可能となり、文書の中で登場する単語の頻度を一目で把握することが出来るようになります。
今回は、統計ソフトRを用いたテキストマイニングの特徴や方法について解説していきます。
テキストマイニングを行うためには、ほかのテキストマイニングツールと組み合わせる必要があります。テキストマイニングをするためには文章を最小単位に区切る形態素処理が必要となりますが、統計R自体にその機能はありません。
形態素処理をするのであれば、MeCab(和布蕪)やRMeCabを用意しましょう。
また、統計ソフトRの総合開発環境であるRStudioを用いればデータの読み込みや保存、プログラムの作成・実行などが可能となりますので、こちらを利用するのもおすすめです。
統計ソフトRを用いたテキストマイニングでは、出現頻度の高い単語を選び出して頻度に応じて文字の大きさで表すワードクラウドが可能です。
頻出語を抽出することにより、文章の特徴を一目で確認することができます。また、文字サイズを減らす、色を変えるなどの設定により見やすい表示に変えることもできます。
Rによるテキストマイニングについては、YouTubeなどで解説する動画が多くアップされています。また、Rによるテキストマイニングの教則本も多く発売されているため、テキストマイニング初心者でも学びやすい環境が整っています。
また、インターネットでは統計ソフトRによるテキストマイニングについて解説しているページも多くあります。基礎的な内容から丁寧に教えているページが無料で確認できるのも魅力です。
統計ソフトRを使用してテキストマイニングを行うための準備や工程は、以下の通りです。。
それぞれの工程について紹介します。
文章を構成する最小の言葉が形態素です。テキストマイニングをするためには、まず対象となる文章を形態素に分割しなければいけません。
統計ソフトRでテキストマイニングを行う際には、MeCab(和布蕪)やRMeCabと呼ばれるツールなどを用います。
取得したデータから動詞や名詞以外の不要な情報を取り除くのが、データクレンジングです。
「に」「は」「と」など1文字の言葉や、「ため」「から」「たち」などの言葉は不要なものとして除外すると、データがキレイになります。
出現頻度でデータを並び替えます。
統計ソフトRで統計グラフ化する方法は、1つだけではありません。
ワードクラウド | 登場する単語の出現頻度を解析し表示する |
---|---|
共起ネットワーク | 登場する単語の関係性を表示する |
ただし、共起ネットワークに関してはデータをグラフ表示用に変換する作業が必要となるため、統計ソフトRよりもKH Coderを用いた方が簡単に作成できるという面もあります。
統計ソフトRはテキストマイニングだけでなく統計解析やヒストグラム、散布図、統計理論の学習など様々な分野で活用されています。元々統計処理言語として開発されているため、コ―ド「hist(date)」だけでヒストグラムを作成できるのも便利でしょう。
また、Excelで処理するデータの多くが統計ソフトRで処理できるため、Excelをよく使用する方にもおすすめです。統計ソフトRは関数の貼り付けミスが起こらないため、より正確に効率よく処理できる可能性があります。
さらに、Excelでデータの内容や形を整える作業を行っている場合、手作業で行うと人によって差が生じることがあります。しかし、統計ソフトRを用いればプログラムの使用によって誰がやっても同じ結果になるため、複雑で細かい処理もやりやすいでしょう。
テキストマイニングにR言語のような無料ツールを用いることは、コストがかからないのが最大のメリットです。特に、R言語は 、データ解析のプログラムが多く準備されているため、パッケージを用いて簡単に統計作業ができる利点もあります。
ただし、R言語はデータ解析に特化しているため、他の機能がありません。有料ツールを用いると辞書機能が充実している、運営時のトラブル時に対してサポートが受けられる、データ分析だけでなく収集ができる、高速化に対応しているなどの特徴もあり、セキュリティ面も考えられています。
業務の上で本格的にテキストマイニングを行うのであれば、有料ツールも検討してみましょう。
開発者 | Ross Ihaka と Robert Clifford Gentleman |
---|---|
本社所在地 | 記載なし |
電話番号 | 記載なし |
公式HP URL | https://www.r-project.org/ |
ツールごとに機能やサービス内容が様々あるテキストマイニングツール。トライアル版を出しており、アンケートやリサーチから依頼ができるツール3つを紹介いたします。
※Google検索「テキストマイニングツール」の上位16社(2022年10月時点)の中から選定。