top of page
検索

word2vecで漱石の『それから』を見る

  • 執筆者の写真: zuhiro
    zuhiro
  • 2018年11月11日
  • 読了時間: 2分

word2vecを初めて使ってみました。

pythonでこの先使っていけばいろいろできるのではありましょうが、

技術的な知識が全くないため、まずは単語の類似分析だけ行います。


青空文庫でテキストファイルが手に入る、

夏目漱石の『それから』を使って、物語の雰囲気をつかんでみます。


まずは青空文庫より『それから』のテキストファイルを

ダウンロード。


その後、下記のコードで『それから』本文より

単語ベクトルのモデルを作成しました。


次に、モデルのデータを読み込み、

今回調べてみたい単語をmost_similarの引数に指定。

「この小説内ではこの単語はこの単語と近い文脈で登場する」

ということを算出することで、

小説のキーとなる組み合わせを見つけます。


コードは以下となります。

一般に「純文学」と呼ばれる文芸作品は

「人間」のワードがどういう文脈で登場するかで

作品の性質・キーとなる概念がわかることが多いと思います。

上記の結果を見ると。


「堕落」「犯す」「制裁」「殺す」

などの言葉から、犯罪や裏切りなどが主題の重い物語かなと感じます。


また「社会」「現代」というワードも出てきていることから、

明治時代当時の社会に特有の問題を扱う部分も多いと思われます。


次に『それから』は男女の三角関係を描いたことで

知られる作品かと思いますので、

キーワードを「愛」に変えて実行してみます。

結果は以下となりました。

血潮、圧迫、死といった、

穏やかではなさそうなワードがでてきますね…。

愛が生死に関係するような展開になっていることが想像できます。


以上のように、まずはword2vecを使ってみました。

TF-IDF分析など分析にもう少し厳密性をもたせたり、

doc2vecも使って文章単位で分析を行ったりもしてみたいです。

 
 
 

Comments


ラジオ、テキスト分析、テキストマイニング、KHCoder、word2vec

text_bunseki

© 2023 by Make Some Noise.

Proudly created with Wix.com

最新情報をメールでお届けします

メールアドレスを入力してください:

bottom of page