Yuanzhi Ke
部首単位の言語モデルと文章の自動分類の研究
【内容】 単語の分散表現の学習の計算コストが非常に高く、未知語と低頻度語に対応しにくい。この問題にたいして、英文などに文字単位のSubword手法が有効だが、漢字の種類が多いのため、単語単位の手法のように未知語と低頻度語を学習にくい。部首を用いる手法がありますが、自動分類の性能が低下になります。我々はCNN+LSTMとBiLSTM+LSTM、二段のエンコードを用いる手法2つを提案して、部首単位の自動分類の性能を大幅向上し、単語分散表現より優れた識別特性を達成しました。 【成果】 ジャーナル1件、国際会議1件、国内会議1件、研究会発表2件