外資系OTTサービス運営企業 / 機械学習エンジニア
エンタメニュース記事のメディア形態分類
運用が困難だったエンタメニュースのタグ付けを改善するため、GPT-4と機械学習モデルを組み合わせた新システムを実装した。まず、人間によるアノテーションを行い、次にGPT-4を使って効率的なプロンプトを設計。しかし、予算上の問題でGPT-4はアノテーターとして利用し、アノテーションされた記事をLightGBMモデルの教師データとした。記事数を増やし、データの不均衡をRandomOverSamplerで対応。Sentence-BERTモデルとのアンサンブル学習を行い、全ラベル平均の再現率を0.56->0.86へ。適合率を 0.45->0.80へ向上させ、AIアプリとしての性能改善に貢献した。