HOME > 技術レポート > ビックデータ > 日本語形態素解析エンジンを利用した『トレンドキーワード分析システム』

2019年6月3日

日本語形態素解析エンジンを利用した『トレンドキーワード分析システム』

日本語形態素解析エンジンを利用した『トレンドキーワード分析システム』を説明する。

目次

Hadoopインストール手順

  1. 概要
  2. 説明
  3. 開発手順

1.概要

オープンソースの日本語形態素解析エンジンKuromojiと大量データ処理基盤としてHadoop(MapReduce)を利用して『トレンドキーワード分析システム』を開発する。

<概要図>

1-1.jpg

<アウトプットイメージ>

1-2.jpg

2.説明

オープンソースの日本語形態素解析エンジンKuromojiはJavaで実装されており、ライセンス「Apache v2 License」として提供されている。
独自単語の辞書登録も可能であるため、単語分割の精度を上げる事ができる。

案件情報の記載がある大量テキストデータから頻出キーワードと日付をグラフ化し頻出傾向を特定する。
技術キーワードと出現タイミングを「<アウトプットイメージ>」のように出力するもの。

3.開発手順

Eclipseで空のmavenプロジェクトを作成する。

「Create a Maven project」リンク押下

3-1.jpg

「Create a simple project(skip archetype selection)」を選択

3-2.jpg

「Group Id」と「Artifact Id」を入力する

3-3.jpg

pom.xmlファイルを編集する

3-4.jpg

ipadic利用

ipadicも利用可能とする

pom.xmlを編集しkuromoji関連ライブラリダウンロードしipadicも利用可能とする。
※本系サイトの説明通り「kuromoji-ipadic」辞書を利用
3-5.jpg


Mavenを実行

3-6.jpg

ビルド状況を確認

3-7.jpg


ライブラリが生成完了

ライブラリが生成された状態。※コアライブラリとIPADICのライブラリ
3-8.jpg

プログラム実行

プログラムを作成し実行。※Java単体での実行が確認できる
「C://temp/sample.txt」ファイルを読み込み行毎にトークン分解できている様子が分かる
3-9.jpg

<<Hadoopでの処理を実装中>>

大量テキストデータをHadoop(MapReduce)で処理する事で水平負荷分散を可能にするもの。