乃木坂46ブログの分析、メンバーごとの特徴をグラフ化(KH Coder)
- zuhiro
- 2019年3月9日
- 読了時間: 2分
前回は乃木坂46のブログをスクレイピングし、
メンバー同士の類似度をdoc2vecで分析しました。
今回は同じスクレイピングしたデータをもとに、
KH Coderでメンバーごとの特徴をグラフ化してみます。
結果を前回のdoc2vecの表とも比べてもみたいと思います。

Excel VBAからseleniumを使い、
乃木坂46の公式サイトからメンバーブログを
スクレイピングしてきたデータを使用します。
母数は、大園桃子さん以外30件、大園桃子さんは11件。
(大園さんはブログ数自体が11件しかなかったため)
csvデータをKH Coderに読み込ませ、
いくつかの語(特定のメンバーに頻出するが、
特に意味的な特徴を表さないような記号など)を排除。
「単語×メンバー名」の対応分析で出力した結果は以下となりました。

左側(高山一実~梅澤美波)
右上(樋口日奈~白石麻衣)
右下(岩本蓮加~和田まあや)
の3グループに大きく分かれたように思います。
単語数が多いことと、
特に品詞を絞ってなどもいないため抽象的になっており、
特徴的な単語はあまり出てきていないようです。
前回の記事で出したdoc2vecの類似度表と比べてみます。
例えば久保史緒里、斉藤優里の類似度はこうなっていました。


結構KHCoderの結果とは異なっていますね。。
特に久保史緒里さんの結果は乖離が大きいです。
内容を見ると、KH Coderのほうが実感と近いように感じることから、
前処理で
・活用形を終止形にまとめている
・表記を正規化している
などの有無で精度が大きく違うのかと思います。
(doc2vecは前処理をしておらず、KH Coderは自動的に上記などの前処理を行う)
次に、結果を感情と結びつきやすい
動詞・形容詞・形容動詞のみの抽出にした結果です。

メンバーごとのブログの特徴が、何となくわかるように思います。
・桜井玲香さん、久保史緒里さんは「嬉しい」出来事を書くタイプ
・阪口珠美さん、樋口日奈さんなどは「大好き」「幸せ」「大切」など幸せ系
・生田さん、高山さん、鈴木さんなどは本・雑誌などを「読む」ことを書くことが多い
・佐々木さん、秋元さん、向井さんなどは「食べる」ことを書くことが多い
・新内さん、斉藤飛鳥さん、吉田綾乃クリスティーさんなどは「可愛い」もの・ことについて書くことが多い
などでしょうか。
メンバー全員のブログを取り出したので
904件の記事数とはいえ、一人30件ほどの記事数なので
そこまで特徴が出にくいものになっていたかなと感じます。
今回のものを踏まえ、特徴が出そうなメンバー数人に絞って
過去の記事から全て抽出したものも今度やってみたいです。
今度はdoc2vecの前に前処理もやってみます。
コメント