「民事判決のオープンデータ化」とは何で、なぜ必要で、なぜ私たちが関わっているのか

こんにちは。Legalscapeの城戸です。

去る3月、日弁連法務研究財団が「民事判決のオープンデータ化検討プロジェクトチーム」を立ち上げました。この取り組みについては、6月8日に日本経済新聞の本紙にて取り上げられました。

民事判決ネット上で提供官民で検討、23年度にも: 日本経済新聞

民事裁判の判決情報を電子データ化し、企業や研究者らが活用しやすくするための検討が官民で始まった。

https://r.nikkei.com/article/DGXMZO60029090V00C20A6000000

判決の公開において、重要なポイントの一つがプライバシーへの配慮です。

日本中で毎年数十万件のオーダーで新たな判決が出る中で、匿名加工の処理をいかに自動化できるかがオープンデータ化を進めるためのカギとなります。

実は私たちLegalscapeはこの検討プロジェクトチームにメンバーとして参画しております。

Legalscapeではこの問題に技術的な側面を含む多方面から検討を加え、また実際に研究開発に取り組んでいます。

今日は、私たちの取り組みや、そもそも「民事裁判の判決情報の電子データ化」と言っても、どういうことなのか、どういう背景があるのかについて、法分野の知識が無い方に向けて少し書いてみようと思います。

判例は実は重要なリサーチ対象

判決というのは、簡単に言えば裁判所で行われる訴訟の結果である、裁判所の判断のことです。判決情報の電子データ化というのは、言い換えれば「日本で行われてきた訴訟の結果をまとめた電子的なデータベース、アーカイブを作る」ということになります。

確かにそのようなデータベースがあるべきだというのは何となく納得できると思います。しかし、よくよく考えると、過去の訴訟の結果を調べるというのは、そんなに大事なことなのでしょうか？　少し例を使って説明してみます。

さて、突然ですが、今私は道路を横断しようとしています。横断歩道を探したのですが、25メートル程度距離があり、わざわざ戻るのも面倒です。ここで横断歩道を使わずに横断してもいいのでしょうか？　……ということが気になったとしましょう。

このようなルールはどこに書かれているのでしょうか。そういえば小学校のころ「道路交通法」という法律があると聞いた気がします。Google検索してみると、なるほど総務省のホームページで道路交通法の条文を読み、関係しそうな場所を発見することができました。

（横断の方法）
第十二条　歩行者は、道路を横断しようとするときは、横断歩道がある場所の附近においては、その横断歩道によつて道路を横断しなければならない。

なるほど！　「横断歩道がある場所の附近」においては横断歩道を使わなければいけないようです。となると、当然次の疑問が浮かんできます。

いや、附近って何？

さて、この疑問に答えるために、ここである交通事故の判決を見てみましょう（平成21年9月1日名古屋地方裁判所平成20年（ワ）3417号）。これはある高齢者が横断歩道を使用せずに道路を横断して事故に遭ったという事案で、この判決文の中に興味深い記述があります。

他方、歩行者は、道路を横断しようとするときは、横断歩道がある場所の附近においては、その横断歩道を横断しなければならない（同法一二条一項）ところ、「横断歩道のある場所の附近」とは横断歩道からおおむね三〇メートル以内の場所であると解される。また、附近にある横断歩道は、横断しようとする道路にある横断歩道を指し、交差する他の道路にある横断歩道は含まれないと解すべきである。

なるほど、この判決では、この被害者に過失があったか判断するために、この第12条の「附近」の解釈をはっきりさせる必要があったわけです。どうやら私は25メートル先の横断歩道を使った方がよさそうです。なぜならこの基準に倣うとするとここは横断歩道の「附近」と解されるのですから（※注1）。

この例のように、法令は異なる解釈ができるような曖昧さのある書き方で書かれており、その解釈を裁判所は個々の事例の判決の中で定める必要があります。そして過去の判決の中で示された解釈は一定の権威性を持ち、その後の法令の条文の解釈のスタンダードになります（※注2）。法令だけではルールの厳密な解釈を導くことができない場合にも、判決がその解釈を示していくことで実際のルールが形成されていくということになります。このような特に先例として参照される判決のことを判例と呼びます。

判例はいわば法令とセットとなって法体系の一部になっている。とすれば判例をリサーチする必要性は言うまでもなく理解されるでしょう。

※注1：ここでは自分のアクセスできる範囲で発見できた判例を示しました。実際には、交通量や道路の広さによってこの境界は臨機応変に判断され、最大で40～50メートル以内まで拡張されるみたいです。ですが、これが何の判例で提示された基準なのか、法曹たる勉強をしたことのない私には調べきれませんでした。自分の所属する社会のルールを自分で調べられないなんて不思議ですね。オンラインのリサーチだけでは限界があったので、次は『別冊判例タイムズ 16 民事交通訴訟における過失相殺率の認定基準』（東京地裁民事交通訴訟研究会編）を探してみようかと思います。

※注2：もし裁判所が過去の判例を全く考慮しないで判決を下すとすると、ある同じ行為をしても、ある裁判では有罪になり、ある裁判では無罪になり、これではどんな行為がしてよくてどんな行為がダメなのか誰も分からなくなってしまいますよね。裁判所が判例をきちんと参考にすることは、司法というシステムが成立するうえで重要なのです（法的安定性と呼ばれます）。

判例データベースから判決データベースへ

そして日経新聞の記事に書かれているように、日本ではまず裁判所がウェブサイトで判決を公開しています。成城大学の町村先生の調査では、2017年の最高裁判決（日本で最も重要な裁判が開かれている最高位の裁判所の判決）に絞ってもわずか1.04%の掲載率となっています。簡易裁判所に至っては0%です。いわば教科書に載るレベルの重要判例しか裁判所のウェブサイトには公開されていないというイメージです。

さすがにこれでは弁護士等（※注3）の実務には堪えないので、民間の商用判例データベースというものが存在しています。要するにSaaSですね。商用の判例データベースを提供している事業者は複数あり、大手の法律事務所ともなるとそれら全部と契約して、実務上必要なカバレッジを確保しています。それでも同じ調査によれば3%前後の掲載率しかないのです。

これまでは先例として引用されそうな厳選された判例だけを収録したデータベースが作られてきました。そんな中で民事判決をオープンデータ化し、判決データベースを作ることは、国民が実効的にアクセスできる判決の数を増やし、日本国憲法にも定められた裁判の公開をより一層確実なものにするという、量的な改善となります。

それだけではありません。1%程度以下の偏った判例しかデータが無い状況から、下級裁判所まで含めてまんべんなく判決のデータがそろった状態への変化は、質的にも異なる改善をもたらすことができます。アメリカをはじめ先進国では、判決のデータがオープンなものであることは前提として、それをどう利活用するかというフィールドでITスタートアップがしのぎを削っていると以前の記事で述べました。日本でも、判決のデータが百倍、千倍のオーダーで量的に増えれば、それらに機械学習の手法等を適用してこれまで人力では不可能だった全く新しい知見が得られるかもしれません。裁判結果の予測精度が高まれば、先述の法的安定性の向上にもつながるかもしれません。

※注3：裁判官も当然過去の判決を参照する必要があります。その用途には当然裁判所のデータベースの収録量では足りず、裁判所も商用の判例データベースを契約しているそうです。

プライバシーという課題に技術で取り組む

こうした背景の中、民事判決のオープンデータ化検討プロジェクトチームは立ち上がりました。そして私たちLegalscapeはその末席に名を連ねております。

民事判決のオープンデータ化と一口に言っても、非常に困難なプロジェクトです。これまで裁判所で行われてきた様々なプロセスを変えなければならないかもしれません。それだけではありません。冒頭に述べたように、大きな課題の一つはプライバシーです。

民事判決のオープンデータ化は国民全体にとって大きなメリットをもたらしますが、個々の裁判の当事者からすると、自分の名前や自分が直面した事案がそのまま公のものになってしまうのは嬉しくないかもしれません。データの公開とはいっても、一定の匿名加工を施さなければ、理解を得られないでしょう。たとえば、人名や地名等は伏せる必要がありそうです。

そこで、私たちLegalscapeは、判決文の自動匿名加工処理について技術的な側面から検討しています。もちろん私たちが一人で頑張っているわけではなく、法務省や日弁連の方々と協力して、どのような処理が必要か、どの精度の水準が必要か、そしてどのような検証をするのか、検討を重ね、社内での研究開発に取り組んでいます。

NLPの知見がある方からすると、この問題はNamed Entity Recognitionの一種とみることができるというのが分かると思います。少しだけ違うのは、単に人名等を黒塗りにすればいいわけではなく、「原告山田一郎の父である山田太郎（以下「太郎」とする）は、……」というように、各entityにunique identifierを割り振り、文中で違う表現で同一entityを指すものが登場したときに同一の置換を施す必要がある点です（※注4）。いわばNERとcoreference resolutionとの複合タスクと言えそうです。トリッキーですが、全く前例がないというわけではなく、例えば2019年にフィンランド法務省がアアルト大学と共同で論文を発表していたり (Oksanen et al., 2019)、NERパートに限ればフランス最高裁も検討を行っています (Barriere and Fouret, 2019)。

過去事例も参考にして技術面の開発を行うのももちろんやらなければならないのですが、実際のデータに適用したときにどの精度を目指すのか、どの類型は絶対に間違えられないのか、どのようなワークフローでデータ処理をし、公開し、利用していくのか……。他にも検討することがたくさんあります。非常に多くのステークホルダーが関わります。やはり時間がかかり、非常に困難なプロジェクトになるのは間違いないでしょう。

このようにLegalscapeは一つの製品を立ち上げて直接法務従事者の働き方を変えようとするだけではなく、そもそもこの国の法と法情報の在り方を変えるところまで挑もうと、微力ながら頑張っています。すごく大変です。時間がかかります。でもやろうと思います。

そしてできれば、あなたにもそこに加わってもらえると嬉しいです。技術自慢で、私たちの野心に共感していただける、あなたの応募をお待ちしています。

※注4：業界の慣習では、このような処理を指して「仮名（かめい）処理」と呼ぶことがあります。

Barriere, V., & Fouret, A. (2019). May I Check Again?--A simple but efficient way to generate and use contextual dictionaries for Named Entity Recognition. Application to French Legal Texts. arXiv preprint arXiv:1909.03453.

Oksanen, A., Tamper, M., Tuominen, J., Hietanen, A., & Hyvönen, E. (2019, September). Anoppi: A Pseudonymization Service for Finnish Court Documents. In Legal Knowledge and Information Systems: JURIX 2019: The Thirty-second Annual Conference (Vol. 322, p. 251). IOS Press.

謝辞：この記事を執筆するうえで徐東輝弁護士の助言をいただきました。ありがとうございます。

株式会社Legalscapeでは一緒に働く仲間を募集しています

「民事判決のオープンデータ化」とは何で、なぜ必要で、なぜ私たちが関わっているのか