「オッサン×何か」と関連するワード探し
- zuhiro
- 2019年1月5日
- 読了時間: 3分
以前、「オッサン」の単語が入っているツイートを
KH Coderにかけ、共起ネットワークでグラフ化することを
行いました。
■「オッサン」はTwitterでこう書かれる
https://zuhiroi.wixsite.com/mysite/blank/オッサン-はtwitterでこう書かれる
■「おっさん」はTwitterでこう書かれる
https://zuhiroi.wixsite.com/mysite/blank/おっさん-はtwitterでこう書かれる

そして、オッサン記事第3弾です。
特に「オッサン」にこだわりがあるわけではないのですが、
何かひとつのワードに関していろいろ見てくと
面白いのではないかと思ってます。
今回はword2vecで、
ツイートの中での「オッサン」と
関連するワードについて分析します。
手順は下記です(とても不恰好ですが…)。
【1】TwitterのWebAPIをpythonから使い、過去2週間分の「オッサン」というワードが入ったツイートを取得。まずは.xlsx形式で保存します。
★こちらのページを参考にさせて頂きました!
http://ailaby.com/twitter_api/
※上記では1回に15000件程度ずつしか取得できないため、
何回かに分けて2週間分のツイートを取得しました。
【2】Excelで開き、コピペネタなど、あまりに重複の多いツイートは1個を除いて削除。また非公式RTを削除。この時点で36264件です。
【3】上記ファイルをテキストファイル形式で保存。文字コードをUTF-8に設定します。
【4】テキストファイル形式で保存したツイート群をもとに、word2vecのモデルを作成。
★こちらのページを参考にさせて頂きました!
https://qiita.com/makaishi2/items/63b7986f6da93dc55edd
【5】作成したモデルを元に、ワード分析を行います!
上記の手順で見ていこうと思います。
オッサン×女
まずは、「女」というキーワードと一緒に使われているワードを
調べます。
元々「オッサン」というワードが入っているツイートを取得しているため、
上記は「オッサン」と入っているツイートの中で、
「オッサン」&「女」と同じ文脈や近くの位置などで使われているキーワードを
上位50件取得するコードとなります。
(negative=["??"]を指定しているのは、こうするといわゆる「ネタツイート」が排除され、記号などがあまり入ってこないようなので、このような指定にしています)
上記の結果は以下。
「バカ」「女好き」「金、カネ」「下衆」「差別」など
なんだかあまり良いイメージじゃないですね…笑
上記いくつかの単語について文脈も見てみましたが、
あまり「女の子」と「オッサン」が一緒になると
不穏なツイートになることが多いみたいです。
オッサン×男
次は「男」と一緒に使われているワード、
上記と同様に調べました。
出してみたものの、あんまり「女」のときと変わらないですね。
やっぱりセクシャルな話+「オッサン」というワードの組み合わせなので、
似通ったつぶやきになってるようです。
違いが出た上位のところでいうと、
「ケツ」「敵」「媚びる」とかですかね。
オッサン×会社
次は「会社」と一緒に使われているワード、
上記と同様に調べました。
「部下」「バイト」「産業」「働く」など
やはり、会社やお仕事と結びつくワードが多く出てきました。
オッサン×電車
次は「電車」と一緒に使われているワード、
上記と同様に調べました。
いくつか、元のエクセルデータで文脈も見てみましたが、
愚痴を書くツイートが多いみたいですね。
以上、試しにword2vecを使ってみましたが、
おそらくモデルとなる辞書をつくるのに
ツイッターのような短文・ネタ要素も多いデータは
あまり適してはいないのか、
有効な使い方ができなかった印象です…。
次回はword2vecのことをもう少し学びつつ、
辞書もまとまった文章から取ってこようと思います!
Comments