乃木坂46ブログのメンバー同士の類似度をテキスト分析
- zuhiro
- 2019年3月7日
- 読了時間: 2分
今回は、乃木坂46の公式ブログから、
メンバー同士のブログ内容の類似度を分析してみます。
http://blog.nogizaka46.com/smph/
西野さんは卒業後なので、取得できませんでしたが…。
テキスト分析のライブラリ、doc2vecを利用します。

大変シンプルですが、以下の手順で行います。
【1】公式ブログから、可能な限りでブログ内容を取得
【2】メンバーごとに別々のテキストファイルに出力
【3】取得したブログ内容から、pythonでdoc2vecのモデルを生成
【4】上記のモデルを使い、メンバー間のテキスト類似度を算出
[モデル].docvecs.similarity_unseen_docs
([モデル],[メンバー1のブログ],[メンバー2のブログ],alpha=1,min_alpha=0.0001,steps=5)
【5】pandasのDataFrameに格納、Excelに出力
Excelに出力した結果はこうなりました!
※小数点以下3桁まで表示

黄色マーカーが同じデータ同士の数値なのですが、
これが1にならないのがなぜなのか、勉強不足でわかりません…笑
メンバーごとにみていくと、
例えば重めの内容のイメージがある久保史緒里さんと
数値の大きい順に並べたところ。

また、堅めのイメージの鈴木絢音さんとの類似度順に並べると。

逆に、ポップなイメージの斉藤優里さんとの類似度順の場合。

などなど、見てみると少しはそれっぽくなっているのではないでしょうか!
どのメンバーとも類似度が低めな高山一実さん、樋口日奈さん、坂口珠美さんなどは
独自の定型文がブログに入っている、という共通点があるようです。
今回は分析前の前処理をほとんどせずに行いましたが、
正規化表現にする、イレギュラーな記号を削除するなど
前処理を行った上でグラフ化するなどして
またやってみようと思います!
Comments