外資系OTTサービス運営企業 / 機械学習エンジニア
映画ニュース記事分類精度の向上
映画ニュースメディアの自動タグ付けを目指し、約30000の映画記事を教師データとする、LightGBMとSentence-BERTによるアンサンブルモデルを作成。しかし6つのカテゴリーでf1値が0.02未満と低く、これらカテゴリーがデータ不均衡であることが問題と特定。 対策として、未アノテーションの映画記事から2000件をランダムに抽出しアノテーション、適合率特化型LightGBMモデルとキーワード検索を用いて陽性データの抽出・追加を行った。次にアンサンブル手法を改良しSentence-BERTモデルの誤判定を補正。これによりf1値は平均0.78に向上。 さらに、公開日とアイキャッチ画像を用いて記事の類似度を計算し、同一トピックを持つ記事をグループ化。これにより同一トピックには同じラベルが付与され、精度は再現率90.7%、適合率94.7%に。 さらに、ChatGPTを用いてプロンプトフォーマットを整備し、テキストから31個の記事カテゴリーラベルを判定するタスクを行えるように。再現率・適合率いずれも約80%の精度でラベル付が可能となった。最終的には、各記事カテゴリーラベルの陰性陽性を判定するモデルを統合し、再現率84%、適合率86%の精度を実現。完成したモデルを適用させ、AIアプリとしての精度改善に貢献した。