top of page
検索

乃木坂ブログ類似度分析(多次元尺度構成法、livedoorニュースコーパス)

  • 執筆者の写真: zuhiro
    zuhiro
  • 2019年3月21日
  • 読了時間: 2分

以前のブログで

乃木坂46メンバー間のブログの類似度分析をするにあたり、

doc2vecを使って試してみました。

その際、

モデル作成のためのコーパスとしても

乃木坂メンバーのブログをスクレイピングしたものを使用しました。


類似度をマトリクスにした際、

同じデータ同士の箇所(中田花奈×中田花奈など)でも

結果が1.0になっていなかったことなどから、

上記コーパスではモデルとしての精度が低いのではないかと感じて

今回、コーパスとしてlivedoorニュースの公開データを

使わせていただくことにしました。


そこで類似度をあらためて

pythonからdoc2vecを使い、pandas→エクセル表にしたところ、

下記のようになりました。

今回は、同じデータ同士の類似度が「1.000」になっているので、

学習をするためのデータ量は集められているかと思います。


結果がみえづらいため、

多次元尺度構成法でグラフ化した結果、

下記のようになっています。

(やり方は全然わからなかったのですが、

こちらのページからほとんどコピペさせていただきました…

…しかしこれだと、めちゃめちゃなグラフになってしまっているので、

・類似度は-1~1の数値で出しているため、すべてに1を足してマイナスを消す

・距離をグラフにするのが多次元尺度構成法のため、類似度の逆数をデータに入れる

という処理をし、

下記のグラフになおしました。

自分がブログをあまり読んでいないこともあり、

正直ちょっとピンときませんが…笑


上記グラフで近いメンバー同士の

・桜井玲香、久保史緒里

・与田祐希、堀未央奈

・白石麻衣、秋元真夏

・大園桃子、伊藤理々杏

・衛藤美彩、齋藤飛鳥

それぞれのブログを見ていると、

まあボキャブラリーが近い感じの気もするな…という印象はしました。


もう一度だけ、

今回は各メンバー30記事程度ずつだった

ブログのスクレイピングの数を増やし、

精度を上げてやってみたいと思います。


また、記事内容同士の類似度も調べてみたいです。

 
 
 

Comentários


ラジオ、テキスト分析、テキストマイニング、KHCoder、word2vec

text_bunseki

© 2023 by Make Some Noise.

Proudly created with Wix.com

最新情報をメールでお届けします

メールアドレスを入力してください:

bottom of page