1
/
5

10->100のフェーズ、だから面白い。日本トップレベルの翻訳技術を持つみらい翻訳で『一人目のリサーチャ』として働く魅力とは

Photo by Kid Circus on Unsplash

はじめに

みらい翻訳で事業のコアである機械翻訳技術の研究開発を行なっているエンジニアリング部の責任者をしている森です。みらい翻訳では昨年度から採用に力を入れ始め、職種問わず数多くの仲間にジョイン頂いています。

この記事では最近募集を開始したポジションである自然言語処理リサーチャの活躍ポイントについて弊社の提供している無料翻訳サービスである「お試し翻訳」の機能をベースに事例を交えてお伝えします。

みらい翻訳の事業とお試し翻訳

みらい翻訳では、文書翻訳SaaSであるMirai Translator®️の開発、運用を行なっており、現在はその利用料収入が収益の中心となっています。現時点ではメインターゲットを一定以上の規模の企業とし、企業活動における生産性向上ツールとしてマーケティングを行なっており、個人で気軽にご利用頂くことが難しい状況です。そういった事情もあり、みらい翻訳の技術を気軽に試して頂く場としてお試し翻訳を無料公開しています。

「みらい翻訳」という名前を耳にした時にお試し翻訳を連想する方もいるのではないでしょうか。

なぜリサーチャが必要なのか

自然言語処理を含むいくつかの分野では技術の進歩が非常に速い上に、研究と実用の距離も近くなっています。みらい翻訳ではリサーチという活動を「製品の魅力を向上させるための技術的知見を積み上げる行為」と捉えており、最終的にどのような形で製品にフィードバックされるかはテーマ設定の段階から強く意識しています。現在はリサーチを職務の中心にしているメンバは居らず、製品開発の業務の傍で新手法の検証も行っているという状況です。そのため、どうしてもテーマ設定が直近の開発に寄ってしまいがちです。

そういった背景もあり、難易度の高いテーマに挑戦したり既存機能の改善に止まらない新たな機能やサービスの素となり得る技術開発に取り組むための体制を強化するために、一人目のリサーチャを募集することにしました。

どんな人がマッチするのか?

以下3点、何かご興味をおもちいただける方はポジションにマッチしている方なのではないかと思います!

1. 事業=自然言語処理

自然言語処理技術そのものを自社サービスとして事業化に成功している会社はそう多くはないのではないでしょうか。機械翻訳自体が自然言語処理のタスクの一つですし、かつては自然言語処理の総合格闘技とも言われていました。日々目まぐるしく進化する技術の先端に触れつつ、実用ならではの課題も解決していくというのが大きな魅力の一つです。

また、単純に言語が好きというメンバも在籍しており、技術や言語をテーマにした議論もよく行われています。

2. エンジニアファースト

みらい翻訳自体が元々NTTドコモのR&D部門からのスピンオフで誕生したという経緯もあり、「技術者が事業に深くコミットする」ことを大事にしています。また、カルチャーとして「一人称で考える」、「フラットな組織」といったキーワードが挙げられます。そのため、エンジニアが自らサービスの先の姿を思い描き、形にしていくことを推奨しています自分で作ったものが世の中に出て、期待していた反応が得られるというのは達成感を感じる瞬間でもあります。

3. 10->100フェーズ

「事業化に成功」と書きましたがまだまだチャレンジの余地は多く残されています。裁量を持ってインパクトの大きなことに取り組める、組織をスケールさせていくための仕組み作りに携わることが出来る、といった点はこのフェーズならではの魅力ではないかと思います。具体的なテーマ設定についてのイメージを掴んで頂くために、お試し翻訳で実際に提供している機能をベースにタスク例を挙げていきたいと思います。

お試し翻訳におけるタスク例

1. 翻訳精度

まずは何といってもサービスの核となる翻訳精度は外せません。みらい翻訳では(現在の所)原文の情報を如何に過不足なく訳文を作るかを最も重視しています。そのため、自然言語処理の様々なタスクで主流となっている多言語・大規模モデルという方向性ではなく、言語・分野を特化し、コーパスの質を重視するという方向性を採っています。モデルチューニングや学習データの質・量の向上だけでなく、ニューラルネットワークの得意でない様々な固有表現等を保持するための言語特化の前処理・後処理を作り込んでいます。Web翻訳サービスとの違いについて聞かれる機会も多いですが、この点は大きな違いの一つであると考えています。そういった泥臭い部分の作り込みは今後も続けていきますが、自然言語処理リサーチャには個別事象の改善よりはある程度「面的」な精度向上であったり、新たなユーザ体験を生むようなテーマに取り組んで頂きたいと思っています。

2. 用語集

固有名詞や専門用語等を指定した通りに翻訳させるために10エントリ(Mirai Translator®️では1契約あたり1,000個の辞書、1辞書あたり20,000エントリ)まで対訳辞書のエントリを登録することが出来ます。翻訳サービスにおいて辞書機能は当然のように求められる機能ではありますが、ニューラル機械翻訳で指定した語彙を用いて翻訳させる方法は自明ではなく、今でも論文で新たな手法が提案されています。指定した語彙は出たが全体の訳質が下がってしまった、ということも起こりがちです。

辞書機能含め、カスタマイズ機能はMirai Translator®️の特長としている部分であり、今後も継続的に改善を行なっていきたいポイントでもあります。

3. 訳語編集サポート機能

一部言語ペア(日<>英および日<>中)では、翻訳結果の一部をクリックするとその部分に入る別のフレーズの候補を提示し、修正を文全体に反映させる機能が提供されています。言い回しや文の構成を変更したい際の修正をサポートする機能で、好評頂いている機能の一つです。どちらかというとエンジニアリングに近い領域となりますが、N-Best解をそのまま出すとあまり違いの感じられない候補が並んでしまうことも多く、有用と思える候補を出せるようサーチアルゴリズムも工夫をしています。現在はまだ取り組めていませんが、修正の傾向から特定のユーザに対して予想される修正を予め行なった翻訳結果を始めから提示する、といったことも出来得るのではないかと考えています。

4. スペルチェック機能

お試し翻訳では間違った翻訳結果を報告する誤訳フィードバック機能があり、ありがたいことに日々多くのFBを頂いていますが、中には原文がエラーを含んでいるケースも少なくありません。原文のエラーや表記揺れに頑健な翻訳モデルを作るという方向性ももちろんありますが、機械翻訳をより効果的に使いこなすための補助として出来ることが他にもあるのではないかと考えました。そこで、その第一歩として原文が英語で、かつスペルミスを含む場合にエラー箇所の指摘および修正提案を行う機能をリリースしました。今後も機械翻訳をより有効に活用するための機能開発に取り組んでいきたいと考えています。

最後に

本記事が自然言語処理リサーチャの仕事のイメージを掴む一助になれば幸いです。ニューラル機械翻訳の登場により機械翻訳は大幅な精度向上を遂げ、産業応用も進みました。併せて、自然言語処理リサーチャに期待される役割も定められた指標の改善から、如何にユーザ課題を特定し、解いていくかという方向にシフトしていっているのを感じます。

みらい翻訳では今後も言語バリアフリーの世界の実現に向けたチャレンジを続けていきます
カジュアル面談も行なっていますので、何かご興味をお持ちいただけた方は、是非お話しましょう!

株式会社みらい翻訳では一緒に働く仲間を募集しています
45 いいね!
45 いいね!
同じタグの記事
今週のランキング