外資系OTTサービス運営企業 / 機械学習エンジニア
分類AIシステムの改善施策
2023年5月完成の映画ニュース記事分類モデルおよび同年10月完成のエンタメニュース記事分類モデルそれぞれに対し、公開日・記事テキスト&アイキャッチ画像の類似度を根拠に同一トピックと判定された記事同士に、同一ラベルを付与する仕組みを現在のシステムで導入していた。しかし、運用する中で全く関連しない記事が同一トピックとされる事例が発生したためシステム改善を行った。 また、近年の大規模言語モデル(LLM)の進歩から、ニュース記事分類タスクをより高精度かつ低コストに実行できる可能性が将来的に想定されるため、その移行に向けた調査を進めた。 ■同一トピック判定 人名、施設名、地名などの固有名詞が記事テキスト内に共通して出現している場合、記事の類似度が高くなるように調整する事で不具合は解消。 同一トピックを同一と判定できる確率(再現率)は90.7%から94.2%へ、同一と判定したものが正しかった確率(適合率)は94.7%から96.6%へ向上した。 ■大規模言語モデル(LLM)への移行可能性の調査 当時最新のLLM調査結果により、同一トピック判定処理内のアイキャッチ画像の類似度計算部分を、GPT-4 vによる分析へ差し替えた。 また、分類済の記事に2023年12月時点のPaLM2(Google)を用いたフィードバックを設置し、付与されたラベルの間違いを改善する手続きを追加した。 80%のラインであった再現率適合率が、今回の改善で再現率に大きな向上はないものの適合率はいずれも90%以上を達成した。 また、運用コストは改善前の1.14倍まで抑えることができた。