word2vecで漱石の『それから』を見る
- zuhiro
- 2018年11月11日
- 読了時間: 2分
word2vecを初めて使ってみました。
pythonでこの先使っていけばいろいろできるのではありましょうが、
技術的な知識が全くないため、まずは単語の類似分析だけ行います。
青空文庫でテキストファイルが手に入る、
夏目漱石の『それから』を使って、物語の雰囲気をつかんでみます。
まずは青空文庫より『それから』のテキストファイルを
ダウンロード。
その後、下記のコードで『それから』本文より
単語ベクトルのモデルを作成しました。
次に、モデルのデータを読み込み、
今回調べてみたい単語をmost_similarの引数に指定。
「この小説内ではこの単語はこの単語と近い文脈で登場する」
ということを算出することで、
小説のキーとなる組み合わせを見つけます。
コードは以下となります。
一般に「純文学」と呼ばれる文芸作品は
「人間」のワードがどういう文脈で登場するかで
作品の性質・キーとなる概念がわかることが多いと思います。
上記の結果を見ると。
「堕落」「犯す」「制裁」「殺す」
などの言葉から、犯罪や裏切りなどが主題の重い物語かなと感じます。
また「社会」「現代」というワードも出てきていることから、
明治時代当時の社会に特有の問題を扱う部分も多いと思われます。
次に『それから』は男女の三角関係を描いたことで
知られる作品かと思いますので、
キーワードを「愛」に変えて実行してみます。
結果は以下となりました。
血潮、圧迫、死といった、
穏やかではなさそうなワードがでてきますね…。
愛が生死に関係するような展開になっていることが想像できます。
以上のように、まずはword2vecを使ってみました。
TF-IDF分析など分析にもう少し厳密性をもたせたり、
doc2vecも使って文章単位で分析を行ったりもしてみたいです。
Comments