2019.7.12 02:00

【超便利】Google、0.01%の人しか読めないと言われる日本古文書などの「くずし字」を自動翻訳してくれるツールを開発！今後いろんな文書の解読に役立つ可能性

Google AIで日本史研究者やマニアが狂喜乱舞する「くずし字」の翻訳ツールが開発
https://pc.watch.impress.co.jp/docs/news/1195499.html
名称未設定 2

記事によると

・Googleは都内のオフィスにおいて、「Solve....with AI」というアジア太平洋地域の記者などを集めたイベントを開催。

・このなかで、日本語の古文書で一般的に使われている「くずし字」を自動で読み取って現代語に翻訳するOCR「KuroNet」を開発し、Webブラウザ上で実行可能な機械学習ライブラリとなるTensorFlow.jsとしてくずし字の文字認識が可能になるようにしたと説明した。

・イベントに登壇した国立情報学研究所のタリン・カラーヌワット氏は「日本では1千年にわたりくずし字という筆記体の文字を使ってきたが、くずし字で書かれた数百万の古文書や古書が現存は人口の0.01%以下の人しか読むことができない」という問題を指摘。

・スマートフォン用のGoogle翻訳アプリと同じように、撮影したくずし字の古文書などにOCRをかけ、現代語に置き換える。1ページの置き換えにかかる時間はわずか2秒と高速だという。

・翻訳の正確性は85%。将来的に学習が進めば正確性も上がっていくと話す。

・また、TensorFlow.jsのかたちで提供されるWebアプリでは、くずし字の1文字1文字の文字認識をオンラインで行なうことができる。こうしたツールはオープンソースモデルで誰に対しても公開されており、今後は在野の研究者であってもこうしたツールを利用してくずし字の書籍が読めるようになる可能性がある。

この記事への反応

・Google がやってくれた

・くずし字が読み取れるのはすげぇな…！！

・これは弓道界隈でも喜ぶ人が多いはず。昔の人だって別に読ませないために崩し字にしてたのではないと思うんですよね。

・スゲエ！昔の登記簿や戸籍読むのにも便利そう！役人も狂喜乱舞☆

・自分ちにある古い本の解読とかさせてみたいわ

・感謝の念しか無い。僕の中では文化勲章レベル。

・眼鏡に仕込んで欲しい　そしたらすぐ読めるじゃーん

・なにこれ素敵すぎる！！！今まで興味はあれど古文どころか昔の文字達筆過ぎて読めねーよ！ってなってたものが読める！！！

・こんなの出来てしまうとは凄い。そろそろ人間が無理なあれやこれが沢山できるようになっていくんだろうな

・版本はある程度高い精度で解読できるんだろうけど、個人の字をどの程度読めるのか興味あるなぁ。と、0.01%以下の人が言ってみる。いや、そんなに読めないけど…

これはすげぇ！
昔の古い文書とか気軽に翻訳できるようになるのは助かる人多そう

【ゴージャス版】ドラゴンクエストXI 過ぎ去りし時を求めて S - Switch
posted with amazlet at 19.07.11
スクウェア・エニックス (2019-09-27)
売り上げランキング: 26
Amazon.co.jpで詳細を見る

ライザのアトリエ ~常闇の女王と秘密の隠れ家~ (パッケージ版封入特典(エクストラサウンドコレクションダウンロードシリアル) 同梱) - PS4
posted with amazlet at 19.07.11
コーエーテクモゲームス (2019-09-26)
売り上げランキング: 48
Amazon.co.jpで詳細を見る

コメント(72件)

1.はちまき名無しさん投稿日：2019年07月12日 02:03▼返信

"含まれない"システムは害悪そのもの

2.はちまき名無しさん投稿日：2019年07月12日 02:08▼返信

勉強万能教の馬鹿がまた駆逐されるのか
素晴らしいな

3.はちまき名無しさん投稿日：2019年07月12日 02:08▼返信

昔ばあちゃんに友達？から来た手紙がこれでびびったの思い出した、しかも普通に読んでて更にびびった記憶www

4.はちまき名無しさん投稿日：2019年07月12日 02:09▼返信

それよりも既存の日本語OCRをまともにしてくれ

5.はちまき名無しさん投稿日：2019年07月12日 02:11▼返信

はちま民（お前ら）は現代語すらまともに読めないから関係ない話だったねｗ

6.はちまき名無しさん投稿日：2019年07月12日 02:11▼返信

昔の戸籍謄本で読めないのが沢山あるんだよね
読めるのはスキルの一種だから、飯のタネになるから教えてくれない人が多くて

7.はちまき名無しさん投稿日：2019年07月12日 02:11▼返信

こういうモノのためにわざと読みずらい文字絵をパスワード入力させたりして人間が読めるかどうかとかテストしてたんだよな

8.はちまき名無しさん投稿日：2019年07月12日 02:12▼返信

すごいけど
いる？

9.はちまき名無しさん投稿日：2019年07月12日 02:13▼返信

古文書なんて10000人に一人読めれば十分じゃね？

10.はちまき名無しさん投稿日：2019年07月12日 02:16▼返信

>>6
それは崩し字ではなく字を書けない人が書いた字を役所の人がなんとなく字っぽい物にしたからだ

11.はちまき名無しさん投稿日：2019年07月12日 02:17▼返信

婆ちゃんの手紙も住所含めてこれの上に誤字だらけだったな
これでよく届いたと郵便局の優秀さに驚いたわ

12.はちまき名無しさん投稿日：2019年07月12日 02:20▼返信

※10
そもそも昭和中頃までは文字を書けない人も多かったんだよ
ばあちゃんとか名前がひらがなの人が多いのは、口頭で役所に伝えた字を役所の人が書き取るシステムだったから
田舎では「シズイ」とか「キイ」とかいう名前の人が多い地域があるが、「シズエ」「キエ」と訛って言ったのを役所の人が間違って聞き取ってしまったから

13.はちまき名無しさん投稿日：2019年07月12日 02:20▼返信

くずし字で残っているのは達筆っぽいのばっかだから、現代人の書く文字よりは認識しやすいのかもね。
しかし、ここにまで手を伸ばしてくるGoogleはすげーな

14.はちまき名無しさん投稿日：2019年07月12日 02:23▼返信

ただの英語翻訳もまともに出来ないのにくずし字とかで遊んでんじゃねぇよ

15.はちまき名無しさん投稿日：2019年07月12日 02:26▼返信

日本でも古文書を調べる場合、例えばその研究員と別に「古文書の文字を読める人」を雇わないといけないともいわれてるからな
それほどまでに難解だったりする。読み取りさえすれば「せをはやみ～」→研究員「あ、それなら分かります」ってなる

16.はちまき名無しさん投稿日：2019年07月12日 02:28▼返信

Early
Ollie
Her very
in My Soul girly

ちぇけら

17.はちまき名無しさん投稿日：2019年07月12日 02:29▼返信

戦前くらいのはがきですでによめんしな

18.はちまき名無しさん投稿日：2019年07月12日 02:31▼返信

これは素晴らしい。
できる様にならんかなと思っていたけどついに来たか。

19.はちまき名無しさん投稿日：2019年07月12日 02:31▼返信

>>5
でたでたはてなチョ.ン民ｗｗｗｗ

20.コイキング投稿日：2019年07月12日 02:45▼返信

必要が無いから廃れたのにこんなもん掘り返して意味あるの

21.はちまき名無しさん投稿日：2019年07月12日 02:47▼返信

国内にいるゴミクズ研究者は今まで何をやっていたの？？？？ねえ？

22.はちまき名無しさん投稿日：2019年07月12日 02:49▼返信

※20
おっしゃる通り　巻物と書は劣った文化なので衰退した。
書籍と横書きに劣っている。ほぼすべての日本文化がそうだよ。
カーペットが作れず畳とか、スニーカーが作れず、足袋とか、滑車やドアが作れず、障子とかね。
極めつけが洋服ね。和服なんて旅行者か売春婦くらいしか着ないでしょ？そういうことだよ。

23.はちまき名無しさん投稿日：2019年07月12日 02:54▼返信

明治に統一されるまで同じ音で字は違うし崩しすぎて原型わからんしむちゃくちゃやでほんま

24.はちまき名無しさん投稿日：2019年07月12日 02:59▼返信

専門家や学者は読めるんだろうけれど、
そういうスキルが無い人でも読めるようになるのが凄いって話なのにな

古代の謎を解くような大問題のときは専門家がやってくれるだろうけれど
相続の時に登記済証とか戦前の戸籍謄本読む必要があるようなときに役立つんでしょ

25.はちまき名無しさん投稿日：2019年07月12日 03:00▼返信

ネット公開されてる東寺の百号文書とか読みたいわ

26.はちまき名無しさん投稿日：2019年07月12日 03:02▼返信

こんなのより英語翻訳の精度上げてくれ

27.はちまき名無しさん投稿日：2019年07月12日 03:16▼返信

※24
学者すら読めないらしいよ。だから、日本史を研究してる人じゃなくても単純に文字が読める一般人を雇わなければならないレベルでもあるらしい
結構前から問題になってた

28.はちまき名無しさん投稿日：2019年07月12日 03:21▼返信

すごいけど、俺には何の関係も無い技術だ

29.はちまき名無しさん投稿日：2019年07月12日 03:23▼返信

俺も大概字は下手くそだがホント字の下手な人って結構いるよな〜
昔いたクソ運送屋で配車してた奴が引田って漢字を31田みたいに書いてたの思い出した

30.はちまき名無しさん投稿日：2019年07月12日 03:52▼返信

技術とはかくあるべき

31.はちまき名無しさん投稿日：2019年07月12日 04:04▼返信

※29
字が下手とかそういう問題じゃねーんだよバカが

32.はちまき名無しさん投稿日：2019年07月12日 04:28▼返信

これで仕事なくなる人多そう
でも正しい進化なのでそれだけに固執したスキルしか磨かなかった人は甘んじずに他の事にも注力しようね

33.はちまき名無しさん投稿日：2019年07月12日 04:38▼返信

Googleがやったわけではないのか

34.はちまき名無しさん投稿日：2019年07月12日 04:42▼返信

しゅげえええええええええええええええええええええ

35.はちまき名無しさん投稿日：2019年07月12日 04:42▼返信

昔の人が書いた戸籍読めそう

36.はちまき名無しさん投稿日：2019年07月12日 04:55▼返信

字が汚い奴はマジでこのレベルで読めん

37.はちまき名無しさん投稿日：2019年07月12日 04:59▼返信

これ確か凸版印刷が先行して成功させてた技術だったと思ったけど、Googleが研究グループに参加してより良い翻刻が出来るようになったって話？
元記事読んだけど訂正ばかりで、何を伝えたいのか微妙にわからなくなってるぞ？

38.はちまき名無しさん投稿日：2019年07月12日 05:46▼返信

くずし字はググればいい

39.はちまき名無しさん投稿日：2019年07月12日 05:54▼返信

遠い昔に書かれた古文書なんて読んでも仕方ないだろ
未来志向に生きろ

40.はちまき名無しさん投稿日：2019年07月12日 06:29▼返信

老害が書く文字も読めねーよ

41.はちまき名無しさん投稿日：2019年07月12日 06:30▼返信

はいゆたぼんの勝利

42.はちまき名無しさん投稿日：2019年07月12日 06:41▼返信

ゆたぼん氏「な？ゆった通りやろw」

43.はちまき名無しさん投稿日：2019年07月12日 06:45▼返信

これ、TensorFlow の JavaScript 版のデモなのでは？
機械学習の例として「くずし文字も認識できるよ」ってだけで、普通の手書き文字を機械学習するのと何も変わらない気がする

44.はちまき名無しさん投稿日：2019年07月12日 07:02▼返信

写真の文書普通に読めるんだが0.01とは？
自分に教養がないのを一般化して話すなよ
こういうのは方言と同じで、1時間も国会図書館のデジタル書籍とにらめっこしてりゃ馬鹿でなきゃ誰でも読める

45.はちまき名無しさん投稿日：2019年07月12日 07:15▼返信

江戸時代の本とか、絵本の横に書いてる文字とかが一般の人にも読めるようになると言う事だな
当時の本のうち、現在実際に出版されてるのなんて一部だろうから凄い劇的な事なんじゃ無いのか？
江戸時代の日本語なんて今の日本語とそんなに変わらないだろうし

※44
変化多すぎるから基本的に草書読めないと解読無理だぞ。嘘松も良い所だろ？ｗ

46.はちまき名無しさん投稿日：2019年07月12日 07:27▼返信

古文書には、変体仮名のくずし字もあるから、現代語に翻訳ってすごいな

47.はちまき名無しさん投稿日：2019年07月12日 07:32▼返信

>>44
匿名の場所ならいくらハッタリかましてもバレないと思ってるイキるバカよくいるよね
嘘じゃないというなら↓の最初のページを３～４行でいいから読んでみ
厳島の御ほん地
請求記号 853-247
国立国会図書館書誌ID 000007276404

48.はちまき名無しさん投稿日：2019年07月12日 07:33▼返信

こんなくそつまんねー記事ゲームカテゴリに混ぜるなよ😃

49.はちまき名無しさん投稿日：2019年07月12日 07:40▼返信

>>47
馬鹿いじめるのはやめたれwww

50.はちまき名無しさん投稿日：2019年07月12日 07:41▼返信

活字でも問と間、貧と貪の区別もつかんくそOCRの間違い探しするぐらいなら最初から手で打ったほうが早いみたいなところあるのに精度８５％の翻刻なんて実際には使い物にならんよ
くずし字読めるやつならどこが読み間違ってるから添削もできるけど、読めないやつにはどこが間違っているかも確かめられない
紛らわしい字が読める程度のやつにはこんなもん要らんし所詮はAIの技術デモの域を出ない

51.はちまき名無しさん投稿日：2019年07月12日 07:41▼返信

崩し文字が読めないんじゃなくて、読めても大半は意味がわからない人がんだよなぁ
これは崩し文字を認識するだけなんだけどな

52.はちまき名無しさん投稿日：2019年07月12日 07:52▼返信

>>47
あきの国さいのこおりとうげのむら
ぱっと見でわかんだろ

53.はちまき名無しさん投稿日：2019年07月12日 07:52▼返信

まずこれ記事書いてるやつがよくわかってないよな
翻刻という言葉を知ってるならそれが翻訳とはまったく違うものだと理解してないといけないのに
現代語に翻訳するとかバカなこと書いて翻訳翻訳と繰り返してる
くずし字を楷書の活字に置き換えたってそれは現代語訳じゃねーんだが

54.はちまき名無しさん投稿日：2019年07月12日 07:59▼返信

>>52
誰でも読めるところだけ抜いて読んだつもりがそれすら読めてないのなｗ
「さい」じゃねえよ
本当に読めるなら冒頭飛ばさずに読めよ

55.はちまき名無しさん投稿日：2019年07月12日 08:04▼返信

機械学習恐るべし、なんだね

学者さん達は仕事奪われるんじゃなくて、研修そのものに時間を割けると考えたらいいと思うよ
近々の食い扶持は確保しないといけないかもだけど

56.はちまき名無しさん投稿日：2019年07月12日 08:26▼返信

>>54
こういうのはさ
「し」の横に点がある。もだな。下は踊って繰り返し記号と
じゃ上の字は「そ」だ。「そもそも」だ
これは厳島神社の縁起か「そもそも厳」っていう風に自然と読めてくるんだよ
よっぽどの馬鹿でなければな。可哀そうに

57.はちまき名無しさん投稿日：2019年07月12日 08:50▼返信

Google様！

58.はちまき名無しさん投稿日：2019年07月12日 09:00▼返信

記事元が訂正入れまくってるのに転載奴が訂正しないから
間違った内容が広まるって言うゴミ現象に名前付けよう

59.はちまき名無しさん投稿日：2019年07月12日 09:22▼返信

古文を自動的に現代語に翻訳するソフトってあるのかな？

60.はちまき名無しさん投稿日：2019年07月12日 09:31▼返信

認識率の85%ってかなり低い方だよな
100文字で15文字違うって事だから結構な頻度

61.はちまき名無しさん投稿日：2019年07月12日 10:34▼返信

これ良いね
博物館においてある書籍とか、何が書いてあるのかちゃんと見たいし

62.はちまき名無しさん投稿日：2019年07月12日 11:33▼返信

なんでGoogleがこれを？ｗ
本当に正しく読めるんだったら素晴らしいな
英語圏の人が作ったんなら日本語に訳して更に現代語に訳すわけでしょ？

63.はちまき名無しさん投稿日：2019年07月12日 11:52▼返信

天才かよ！
それも日本人の発想じゃないところが素晴らしい

64.はちまき名無しさん投稿日：2019年07月12日 12:26▼返信

解読不能とまで言われた俺の書いた字も翻訳してくれ。俺も読めないんだ。

65.はちまき名無しさん投稿日：2019年07月12日 12:52▼返信

眼鏡は面白いな。ARとIoTを活用して、
つるのスイッチを入れたら
Webから適切な文字データを落としてきて
置き換えて表示、みたいな感じか

66.はちまき名無しさん投稿日：2019年07月12日 12:59▼返信

>>41
義務教育の敗北

67.はちまき名無しさん投稿日：2019年07月12日 13:13▼返信

※22
日本人は馬鹿と天才は紙一重を地で行っちゃってる所がある、昔もそして今も
天才の部分はやはり日本人独自の(あくまで物の)工夫だったり、改良する部分で
馬鹿な部分は主にアジア人の馬鹿な部分と同じの様な気がする　全く新しい物は生み出せないのが
発展が遅れた理由(改良するだけだから)あと物じゃないシステムは改良出来ない、昔の非合理的なまま

68.はちまき名無しさん投稿日：2019年07月12日 13:15▼返信

読まんでよくない？

69.はちまき名無しさん投稿日：2019年07月12日 15:22▼返信

>>39
未来志向の賢者こそ過去を知りたがるもの

70.はちまき名無しさん投稿日：2019年07月12日 15:23▼返信

これで古文書読み放題かよ
すげえ！ワクワクが止まらねー

71.はちまき名無しさん投稿日：2019年07月12日 16:53▼返信

日本語の筆記体は読めない。
しかも万葉仮名になればもっともっと読めない。

72.はちまき名無しさん投稿日：2019年07月13日 03:42▼返信

>>71氏の
日本語の筆記体っていう例えがマジで適切だとと思います。大和言葉の音素と似てる漢字を選び出して、漢文のようにささっと縦書きで物事を書き留めるようになって成立したものですから。

この記事への反応

「ゲーム全般」カテゴリの最新記事

コメント(72件)

直近のコメント数ランキング