2020-05-01から1ヶ月間の記事一覧
文書データを数値表現に変換する手法の1つであるBag of Wordsを一からPythonで書いてみました。 Bag of Words(BoW)とは BoWの問題点 nグラムによるBoW sklearnのCountVectorizerのパラメータについて tokenizer preprocessor analyzer stop_words max_dfとm…
自然言語である文書データを機械学習プログラムで扱えるようにするためには、文を構成する要素である単語に分解(分かち書き)する必要があります。今回はPythonで分かち書きをするために必要なソフトのインストールとその設定について書こうと思います。 分…
少し前まで自然言語データを用いた様々な機械学習の手法について勉強していました。しばらくはこれについて書いていこうと思います。今回のプログラムでは、次のような入力された文章に対してあらかじめ作成しておいたカテゴリに分類させる、ということをや…