食べログ口コミ、新宿のラーメン屋さん分析(KH-Coderとdoc2vecの違い)

zuhiro
2019年5月18日
読了時間: 2分

最近doc2vecを使って

食べログの口コミを分析してみていました。

それを通じてdoc2vecの使い方を学べたらと思っていましたが、

今回とりあえずのまとめとして、

特定のキーワードのみを取り出して

モデル・対象のテキストデータをつくり、

表に結果をまとめ、

KH-Coderの結果と比べてみました。

まずは食べログからスクレイピングした

口コミデータから、

分析対象にする単語を抜き出します。

上記で1100語ほどの

単語をピックアップすることができました。

その後、目検で単語一覧を見ていき、

分析対象にふさわしくなさそうな単語をピックアップ、

対象から外します。

外した単語は下記です。

※今回はKH-Coderとの比較のため、

janomeとKH-Coderとの分かち書きルールの違いで

双方に共通してピックアップされないという理由で

排除している単語も含まれます。

上記の単語を除外した上で、

次にピックアップした900語ほどの単語のみを対象にして、

doc2vecでのモデルを作成します。

続いて、先ほど作成したモデルを教師データとして、

今回対象とする新宿のラーメン屋さん20店舗の口コミ同士の

類似度を算出していきます。

上記の結果の表データが下記となりました。

それに対し、KH-Coderの「対応分析」でグラフ化した結果は

下記のようになっていました。

表は少し見にくいのですが、、

KH-Coderのグラフ内で近い

「ほりうち」と「満来」

「凪」と「鈴蘭」と「百日紅」

「龍の家」と「風雲児」と「竹虎」

あたり同士が近いのは共通しているようです。

それに対し、例えば

「広州市場」と近いのは、

KH-Coder上では「八郎商店」ですが

doc2vec上では「麺屋武蔵」や「翔」となっているなど

両者が異なる点も多く見られました。

ここで表れているのは

文章の分析をする際に

文章内の単語をカウントしていく「定量分析」のKH-Coderと

単語ごとのベクトル付けを行い、ベクトルの類似度を分析する

doc2vecの違いとなり、

doc2vecの威力、ということもできる部分かと思います。

ご参考／

■KH-Coderの概要： https://khcoder.net/tutorial.html

■doc2vecの概要： https://deepage.net/machine_learning/2017/01/08/doc2vec.html

食べログ・新宿ラーメン屋さんの口コミ分析は

いったん以上とします。

いろいろ勉強になりました。。

前処理のやり方や

モデルのパラメーター設定、

またjanomeで使うMeCabのユーザー辞書の作成など、

これから試してみたいこともでてきたので、

今後取り組んでみたいです！

食べログ口コミ、新宿のラーメン屋さん分析(KH-Coderとdoc2vecの違い)

最新記事

Comentários

ラジオ、テキスト分析、テキストマイニング、KHCoder、word2vec

text_bunseki