食べログ口コミ、新宿のラーメン屋さん分析(KH-Coderとdoc2vecの違い)
- zuhiro
- 2019年5月18日
- 読了時間: 2分
最近doc2vecを使って
食べログの口コミを分析してみていました。
それを通じてdoc2vecの使い方を学べたらと思っていましたが、
今回とりあえずのまとめとして、
特定のキーワードのみを取り出して
モデル・対象のテキストデータをつくり、
表に結果をまとめ、
KH-Coderの結果と比べてみました。
まずは食べログからスクレイピングした
口コミデータから、
分析対象にする単語を抜き出します。
上記で1100語ほどの
単語をピックアップすることができました。
その後、目検で単語一覧を見ていき、
分析対象にふさわしくなさそうな単語をピックアップ、
対象から外します。
外した単語は下記です。
※今回はKH-Coderとの比較のため、
janomeとKH-Coderとの分かち書きルールの違いで
双方に共通してピックアップされないという理由で
排除している単語も含まれます。

上記の単語を除外した上で、
次にピックアップした900語ほどの単語のみを対象にして、
doc2vecでのモデルを作成します。
続いて、先ほど作成したモデルを教師データとして、
今回対象とする新宿のラーメン屋さん20店舗の口コミ同士の
類似度を算出していきます。
上記の結果の表データが下記となりました。

それに対し、KH-Coderの「対応分析」でグラフ化した結果は
下記のようになっていました。

表は少し見にくいのですが、、
KH-Coderのグラフ内で近い
「ほりうち」と「満来」
「凪」と「鈴蘭」と「百日紅」
「龍の家」と「風雲児」と「竹虎」
あたり同士が近いのは共通しているようです。
それに対し、例えば
「広州市場」と近いのは、
KH-Coder上では「八郎商店」ですが
doc2vec上では「麺屋武蔵」や「翔」となっているなど
両者が異なる点も多く見られました。
ここで表れているのは
文章の分析をする際に
文章内の単語をカウントしていく「定量分析」のKH-Coderと
単語ごとのベクトル付けを行い、ベクトルの類似度を分析する
doc2vecの違いとなり、
doc2vecの威力、ということもできる部分かと思います。
ご参考/
■KH-Coderの概要: https://khcoder.net/tutorial.html
食べログ・新宿ラーメン屋さんの口コミ分析は
いったん以上とします。
いろいろ勉強になりました。。
前処理のやり方や
モデルのパラメーター設定、
またjanomeで使うMeCabのユーザー辞書の作成など、
これから試してみたいこともでてきたので、
今後取り組んでみたいです!
Comments