乃木坂ブログ類似度分析(多次元尺度構成法、livedoorニュースコーパス)
- zuhiro
- 2019年3月21日
- 読了時間: 2分
以前のブログで
乃木坂46メンバー間のブログの類似度分析をするにあたり、
doc2vecを使って試してみました。
その際、
モデル作成のためのコーパスとしても
乃木坂メンバーのブログをスクレイピングしたものを使用しました。
類似度をマトリクスにした際、
同じデータ同士の箇所(中田花奈×中田花奈など)でも
結果が1.0になっていなかったことなどから、
上記コーパスではモデルとしての精度が低いのではないかと感じて
今回、コーパスとしてlivedoorニュースの公開データを
使わせていただくことにしました。
そこで類似度をあらためて
pythonからdoc2vecを使い、pandas→エクセル表にしたところ、
下記のようになりました。

今回は、同じデータ同士の類似度が「1.000」になっているので、
学習をするためのデータ量は集められているかと思います。
結果がみえづらいため、
多次元尺度構成法でグラフ化した結果、
下記のようになっています。
(やり方は全然わからなかったのですが、
こちらのページからほとんどコピペさせていただきました…

…しかしこれだと、めちゃめちゃなグラフになってしまっているので、
・類似度は-1~1の数値で出しているため、すべてに1を足してマイナスを消す
・距離をグラフにするのが多次元尺度構成法のため、類似度の逆数をデータに入れる
という処理をし、
下記のグラフになおしました。

自分がブログをあまり読んでいないこともあり、
正直ちょっとピンときませんが…笑
上記グラフで近いメンバー同士の
・桜井玲香、久保史緒里
・与田祐希、堀未央奈
・白石麻衣、秋元真夏
・大園桃子、伊藤理々杏
・衛藤美彩、齋藤飛鳥
それぞれのブログを見ていると、
まあボキャブラリーが近い感じの気もするな…という印象はしました。
もう一度だけ、
今回は各メンバー30記事程度ずつだった
ブログのスクレイピングの数を増やし、
精度を上げてやってみたいと思います。
また、記事内容同士の類似度も調べてみたいです。
Comentários