2017-11-01から1ヶ月間の記事一覧

wikipediaのデータでdoc2vec

doc2vecでWikipediaを学習する - TadaoYamaokaの日記 を参考に、wikipediaのデータをdoc2vecでトレーニングし、類似単語を調べてみました。 総単語数 2,890,010 頻度10以下 2,364,440 残り単語数 525,570 doc2vecは、トレーニングした単語をmodel.wv.vocabで…

collection型のソート(Python)

Pythonでcollection型のソートにはOrderedDicを使う。 >>> from collections import OrderedDict >>> # regular unsorted dictionary >>> d = {'banana': 3, 'apple': 4, 'pear': 1, 'orange': 2} >>> # dictionary sorted by key >>> OrderedDict(sorted(d.…

wikipediaのデータでdoc2vec(UnicodeDecodeError)

doc2vecを使ってとあるコーパスのドキュメント類似度を取得してみましたが、思ったような結果が得られませんでした。 そこで、doc2vecの記事が同じように検証できるのか調べてみました。 まずは、これです。 doc2vecでWikipediaを学習する - TadaoYamaokaの…

Xamarinをアンインストールしました(MacOS X)

ディスクの空き容量が少なくなってきたので、不要なファイルを削除しました。 インストールしたVisual Studio for Macはすぐ削除したのだけれど、残党(Xamarin)が残っていました。 以下のリンクを参考に手動!削除しました。 ディスク空き容量が10GBくらい増…