薬剤師のプログラミング学習日記

プログラミングやコンピュータに関する記事を書いていきます

2020-07-01から1ヶ月間の記事一覧

Word2Vecを使って特定カテゴリで使われる単語の分散表現を得る

テキストの特徴抽出の手法として文書を単語の集合としてみるBag of Words(BoW)表現について前に書きましたが、今回は単語を数値ベクトルに変換する手法についてです。 単語の分散表現とは Word2Vec CBOWモデル Skip-gramモデル Wikipediaの特定カテゴリの記…

Wikipediaの特定カテゴリの記事のみを取得する

自然言語処理に関する機械学習の手法を試す際には大量のテキストデータが必要になることがあります。そこで、手軽に使えるテキストデータとしてWikipediaの記事データを使うことにしたのですが、全データを対象にしてアルゴリズムを学習させるのは時間がかか…