top of page

乃木坂46ブログの分析、メンバーごとの特徴をグラフ化(KH Coder)

  • 執筆者の写真: zuhiro
    zuhiro
  • 2019年3月9日
  • 読了時間: 2分

前回は乃木坂46のブログをスクレイピングし、

メンバー同士の類似度をdoc2vecで分析しました。


今回は同じスクレイピングしたデータをもとに、

KH Coderでメンバーごとの特徴をグラフ化してみます。

結果を前回のdoc2vecの表とも比べてもみたいと思います。

ree

Excel VBAからseleniumを使い、

乃木坂46の公式サイトからメンバーブログを

スクレイピングしてきたデータを使用します。


母数は、大園桃子さん以外30件、大園桃子さんは11件。

(大園さんはブログ数自体が11件しかなかったため)


csvデータをKH Coderに読み込ませ、

いくつかの語(特定のメンバーに頻出するが、

特に意味的な特徴を表さないような記号など)を排除。

「単語×メンバー名」の対応分析で出力した結果は以下となりました。

ree

左側(高山一実~梅澤美波)

右上(樋口日奈~白石麻衣)

右下(岩本蓮加~和田まあや)

の3グループに大きく分かれたように思います。


単語数が多いことと、

特に品詞を絞ってなどもいないため抽象的になっており、

特徴的な単語はあまり出てきていないようです。


前回の記事で出したdoc2vecの類似度表と比べてみます。

例えば久保史緒里、斉藤優里の類似度はこうなっていました。

ree

ree

結構KHCoderの結果とは異なっていますね。。

特に久保史緒里さんの結果は乖離が大きいです。

内容を見ると、KH Coderのほうが実感と近いように感じることから、

前処理で

・活用形を終止形にまとめている

・表記を正規化している

などの有無で精度が大きく違うのかと思います。

(doc2vecは前処理をしておらず、KH Coderは自動的に上記などの前処理を行う)


次に、結果を感情と結びつきやすい

動詞・形容詞・形容動詞のみの抽出にした結果です。

ree

メンバーごとのブログの特徴が、何となくわかるように思います。

・桜井玲香さん、久保史緒里さんは「嬉しい」出来事を書くタイプ

・阪口珠美さん、樋口日奈さんなどは「大好き」「幸せ」「大切」など幸せ系

・生田さん、高山さん、鈴木さんなどは本・雑誌などを「読む」ことを書くことが多い

・佐々木さん、秋元さん、向井さんなどは「食べる」ことを書くことが多い

・新内さん、斉藤飛鳥さん、吉田綾乃クリスティーさんなどは「可愛い」もの・ことについて書くことが多い

などでしょうか。


メンバー全員のブログを取り出したので

904件の記事数とはいえ、一人30件ほどの記事数なので

そこまで特徴が出にくいものになっていたかなと感じます。


今回のものを踏まえ、特徴が出そうなメンバー数人に絞って

過去の記事から全て抽出したものも今度やってみたいです。

今度はdoc2vecの前に前処理もやってみます。

 
 
 

Comentários


ラジオ、テキスト分析、テキストマイニング、KHCoder、word2vec

text_bunseki

© 2023 by Make Some Noise.

Proudly created with Wix.com

最新情報をメールでお届けします

メールアドレスを入力してください:

bottom of page