top of page
検索

乃木坂46ブログのメンバー同士の類似度をテキスト分析

  • 執筆者の写真: zuhiro
    zuhiro
  • 2019年3月7日
  • 読了時間: 2分

今回は、乃木坂46の公式ブログから、

メンバー同士のブログ内容の類似度を分析してみます。

http://blog.nogizaka46.com/smph/


西野さんは卒業後なので、取得できませんでしたが…。

テキスト分析のライブラリ、doc2vecを利用します。

大変シンプルですが、以下の手順で行います。

【1】公式ブログから、可能な限りでブログ内容を取得

【2】メンバーごとに別々のテキストファイルに出力

【3】取得したブログ内容から、pythonでdoc2vecのモデルを生成

【4】上記のモデルを使い、メンバー間のテキスト類似度を算出

 [モデル].docvecs.similarity_unseen_docs

 ([モデル],[メンバー1のブログ],[メンバー2のブログ],alpha=1,min_alpha=0.0001,steps=5)

【5】pandasのDataFrameに格納、Excelに出力


Excelに出力した結果はこうなりました!

※小数点以下3桁まで表示

黄色マーカーが同じデータ同士の数値なのですが、

これが1にならないのがなぜなのか、勉強不足でわかりません…笑


メンバーごとにみていくと、

例えば重めの内容のイメージがある久保史緒里さんと

数値の大きい順に並べたところ。



また、堅めのイメージの鈴木絢音さんとの類似度順に並べると。


逆に、ポップなイメージの斉藤優里さんとの類似度順の場合。

などなど、見てみると少しはそれっぽくなっているのではないでしょうか!

どのメンバーとも類似度が低めな高山一実さん、樋口日奈さん、坂口珠美さんなどは

独自の定型文がブログに入っている、という共通点があるようです。


今回は分析前の前処理をほとんどせずに行いましたが、

正規化表現にする、イレギュラーな記号を削除するなど

前処理を行った上でグラフ化するなどして

またやってみようと思います!

 
 
 

Comments


ラジオ、テキスト分析、テキストマイニング、KHCoder、word2vec

text_bunseki

© 2023 by Make Some Noise.

Proudly created with Wix.com

最新情報をメールでお届けします

メールアドレスを入力してください:

bottom of page