word2vecで漱石の『それから』を見る

word2vecを初めて使ってみました。

pythonでこの先使っていけばいろいろできるのではありましょうが、

技術的な知識が全くないため、まずは単語の類似分析だけ行います。

青空文庫でテキストファイルが手に入る、

夏目漱石の『それから』を使って、物語の雰囲気をつかんでみます。

まずは青空文庫より『それから』のテキストファイルを

ダウンロード。

その後、下記のコードで『それから』本文より

単語ベクトルのモデルを作成しました。

次に、モデルのデータを読み込み、

今回調べてみたい単語をmost_similarの引数に指定。

「この小説内ではこの単語はこの単語と近い文脈で登場する」

ということを算出することで、

小説のキーとなる組み合わせを見つけます。

コードは以下となります。

一般に「純文学」と呼ばれる文芸作品は

「人間」のワードがどういう文脈で登場するかで

作品の性質・キーとなる概念がわかることが多いと思います。

上記の結果を見ると。

「堕落」「犯す」「制裁」「殺す」

などの言葉から、犯罪や裏切りなどが主題の重い物語かなと感じます。

また「社会」「現代」というワードも出てきていることから、

明治時代当時の社会に特有の問題を扱う部分も多いと思われます。

次に『それから』は男女の三角関係を描いたことで

知られる作品かと思いますので、

キーワードを「愛」に変えて実行してみます。

結果は以下となりました。

血潮、圧迫、死といった、

穏やかではなさそうなワードがでてきますね…。

愛が生死に関係するような展開になっていることが想像できます。

以上のように、まずはword2vecを使ってみました。

TF-IDF分析など分析にもう少し厳密性をもたせたり、

doc2vecも使って文章単位で分析を行ったりもしてみたいです。

最新記事