top of page
検索
  • 執筆者の写真zuhiro

食べログ口コミ、新宿のラーメン屋さん分析(KH-Coderとdoc2vecの違い)

最近doc2vecを使って

食べログの口コミを分析してみていました。

それを通じてdoc2vecの使い方を学べたらと思っていましたが、


今回とりあえずのまとめとして、

特定のキーワードのみを取り出して

モデル・対象のテキストデータをつくり、

表に結果をまとめ、

KH-Coderの結果と比べてみました。


まずは食べログからスクレイピングした

口コミデータから、

分析対象にする単語を抜き出します。


上記で1100語ほどの

単語をピックアップすることができました。

その後、目検で単語一覧を見ていき、

分析対象にふさわしくなさそうな単語をピックアップ、

対象から外します。

外した単語は下記です。


※今回はKH-Coderとの比較のため、

janomeとKH-Coderとの分かち書きルールの違いで

双方に共通してピックアップされないという理由で

排除している単語も含まれます。


上記の単語を除外した上で、

次にピックアップした900語ほどの単語のみを対象にして、

doc2vecでのモデルを作成します。


続いて、先ほど作成したモデルを教師データとして、

今回対象とする新宿のラーメン屋さん20店舗の口コミ同士の

類似度を算出していきます。



上記の結果の表データが下記となりました。


それに対し、KH-Coderの「対応分析」でグラフ化した結果は

下記のようになっていました。


表は少し見にくいのですが、、

KH-Coderのグラフ内で近い

「ほりうち」と「満来」

「凪」と「鈴蘭」と「百日紅」

「龍の家」と「風雲児」と「竹虎」

あたり同士が近いのは共通しているようです。


それに対し、例えば

「広州市場」と近いのは、

KH-Coder上では「八郎商店」ですが

doc2vec上では「麺屋武蔵」や「翔」となっているなど

両者が異なる点も多く見られました。


ここで表れているのは

文章の分析をする際に

文章内の単語をカウントしていく「定量分析」のKH-Coderと

単語ごとのベクトル付けを行い、ベクトルの類似度を分析する

doc2vecの違いとなり、

doc2vecの威力、ということもできる部分かと思います。


ご参考/

■KH-Coderの概要: https://khcoder.net/tutorial.html



食べログ・新宿ラーメン屋さんの口コミ分析は

いったん以上とします。

いろいろ勉強になりました。。


前処理のやり方や

モデルのパラメーター設定、

またjanomeで使うMeCabのユーザー辞書の作成など、

これから試してみたいこともでてきたので、

今後取り組んでみたいです!



閲覧数:216回0件のコメント

最新記事

すべて表示

ラジオ、テキスト分析、テキストマイニング、KHCoder、word2vec

text_bunseki

bottom of page