top of page
検索

乃木坂46ブログの分析、メンバーごとの特徴をグラフ化(KH Coder)

  • 執筆者の写真: zuhiro
    zuhiro
  • 2019年3月9日
  • 読了時間: 2分

前回は乃木坂46のブログをスクレイピングし、

メンバー同士の類似度をdoc2vecで分析しました。


今回は同じスクレイピングしたデータをもとに、

KH Coderでメンバーごとの特徴をグラフ化してみます。

結果を前回のdoc2vecの表とも比べてもみたいと思います。

Excel VBAからseleniumを使い、

乃木坂46の公式サイトからメンバーブログを

スクレイピングしてきたデータを使用します。


母数は、大園桃子さん以外30件、大園桃子さんは11件。

(大園さんはブログ数自体が11件しかなかったため)


csvデータをKH Coderに読み込ませ、

いくつかの語(特定のメンバーに頻出するが、

特に意味的な特徴を表さないような記号など)を排除。

「単語×メンバー名」の対応分析で出力した結果は以下となりました。

左側(高山一実~梅澤美波)

右上(樋口日奈~白石麻衣)

右下(岩本蓮加~和田まあや)

の3グループに大きく分かれたように思います。


単語数が多いことと、

特に品詞を絞ってなどもいないため抽象的になっており、

特徴的な単語はあまり出てきていないようです。


前回の記事で出したdoc2vecの類似度表と比べてみます。

例えば久保史緒里、斉藤優里の類似度はこうなっていました。


結構KHCoderの結果とは異なっていますね。。

特に久保史緒里さんの結果は乖離が大きいです。

内容を見ると、KH Coderのほうが実感と近いように感じることから、

前処理で

・活用形を終止形にまとめている

・表記を正規化している

などの有無で精度が大きく違うのかと思います。

(doc2vecは前処理をしておらず、KH Coderは自動的に上記などの前処理を行う)


次に、結果を感情と結びつきやすい

動詞・形容詞・形容動詞のみの抽出にした結果です。

メンバーごとのブログの特徴が、何となくわかるように思います。

・桜井玲香さん、久保史緒里さんは「嬉しい」出来事を書くタイプ

・阪口珠美さん、樋口日奈さんなどは「大好き」「幸せ」「大切」など幸せ系

・生田さん、高山さん、鈴木さんなどは本・雑誌などを「読む」ことを書くことが多い

・佐々木さん、秋元さん、向井さんなどは「食べる」ことを書くことが多い

・新内さん、斉藤飛鳥さん、吉田綾乃クリスティーさんなどは「可愛い」もの・ことについて書くことが多い

などでしょうか。


メンバー全員のブログを取り出したので

904件の記事数とはいえ、一人30件ほどの記事数なので

そこまで特徴が出にくいものになっていたかなと感じます。


今回のものを踏まえ、特徴が出そうなメンバー数人に絞って

過去の記事から全て抽出したものも今度やってみたいです。

今度はdoc2vecの前に前処理もやってみます。

 
 
 

コメント


ラジオ、テキスト分析、テキストマイニング、KHCoder、word2vec

text_bunseki

© 2023 by Make Some Noise.

Proudly created with Wix.com

最新情報をメールでお届けします

メールアドレスを入力してください:

bottom of page