Google AIで日本史研究者やマニアが狂喜乱舞する「くずし字」の翻訳ツールが開発
https://pc.watch.impress.co.jp/docs/news/1195499.html

記事によると
・Googleは都内のオフィスにおいて、「Solve....with AI」というアジア太平洋地域の記者などを集めたイベントを開催。
・このなかで、日本語の古文書で一般的に使われている「くずし字」を自動で読み取って現代語に翻訳するOCR「KuroNet」を開発し、Webブラウザ上で実行可能な機械学習ライブラリとなるTensorFlow.jsとしてくずし字の文字認識が可能になるようにしたと説明した。
・イベントに登壇した国立情報学研究所のタリン・カラーヌワット氏は「日本では1千年にわたりくずし字という筆記体の文字を使ってきたが、くずし字で書かれた数百万の古文書や古書が現存は人口の0.01%以下の人しか読むことができない」という問題を指摘。
・スマートフォン用のGoogle翻訳アプリと同じように、撮影したくずし字の古文書などにOCRをかけ、現代語に置き換える。1ページの置き換えにかかる時間はわずか2秒と高速だという。
・翻訳の正確性は85%。将来的に学習が進めば正確性も上がっていくと話す。
・また、TensorFlow.jsのかたちで提供されるWebアプリでは、くずし字の1文字1文字の文字認識をオンラインで行なうことができる。こうしたツールはオープンソースモデルで誰に対しても公開されており、今後は在野の研究者であってもこうしたツールを利用してくずし字の書籍が読めるようになる可能性がある。
この記事への反応
・Google がやってくれた
・くずし字が読み取れるのはすげぇな…!!
・これは弓道界隈でも喜ぶ人が多いはず。昔の人だって別に読ませないために崩し字にしてたのではないと思うんですよね。
・スゲエ!昔の登記簿や戸籍読むのにも便利そう!役人も狂喜乱舞☆
・自分ちにある古い本の解読とかさせてみたいわ
・感謝の念しか無い。僕の中では文化勲章レベル。
・眼鏡に仕込んで欲しい そしたらすぐ読めるじゃーん
・なにこれ素敵すぎる!!! 今まで興味はあれど古文どころか昔の文字達筆過ぎて読めねーよ! ってなってたものが読める!!!
・こんなの出来てしまうとは凄い。そろそろ人間が無理なあれやこれが沢山できるようになっていくんだろうな
・版本はある程度高い精度で解読できるんだろうけど、個人の字をどの程度読めるのか興味あるなぁ。 と、0.01%以下の人が言ってみる。いや、そんなに読めないけど…
これはすげぇ!
昔の古い文書とか気軽に翻訳できるようになるのは助かる人多そう
昔の古い文書とか気軽に翻訳できるようになるのは助かる人多そう
【ゴージャス版】ドラゴンクエストXI 過ぎ去りし時を求めて S - Switchposted with amazlet at 19.07.11スクウェア・エニックス (2019-09-27)
売り上げランキング: 26
ライザのアトリエ ~常闇の女王と秘密の隠れ家~ (パッケージ版封入特典(エクストラサウンドコレクション ダウンロードシリアル) 同梱) - PS4posted with amazlet at 19.07.11コーエーテクモゲームス (2019-09-26)
売り上げランキング: 48

素晴らしいな
読めるのはスキルの一種だから、飯のタネになるから教えてくれない人が多くて
いる?
それは崩し字ではなく字を書けない人が書いた字を役所の人がなんとなく字っぽい物にしたからだ
これでよく届いたと郵便局の優秀さに驚いたわ
そもそも昭和中頃までは文字を書けない人も多かったんだよ
ばあちゃんとか名前がひらがなの人が多いのは、口頭で役所に伝えた字を役所の人が書き取るシステムだったから
田舎では「シズイ」とか「キイ」とかいう名前の人が多い地域があるが、「シズエ」「キエ」と訛って言ったのを役所の人が間違って聞き取ってしまったから
しかし、ここにまで手を伸ばしてくるGoogleはすげーな
それほどまでに難解だったりする。読み取りさえすれば「せをはやみ~」→研究員「あ、それなら分かります」ってなる
Ollie
Her very
in My Soul girly
ちぇけら
できる様にならんかなと思っていたけどついに来たか。
でたでた はてなチョ.ン民wwww
おっしゃる通り 巻物と書は劣った文化なので衰退した。
書籍と横書きに劣っている。ほぼすべての日本文化がそうだよ。
カーペットが作れず畳とか、スニーカーが作れず、足袋とか、滑車やドアが作れず、障子とかね。
極めつけが洋服ね。和服なんて旅行者か売春婦くらいしか着ないでしょ?そういうことだよ。
そういうスキルが無い人でも読めるようになるのが凄いって話なのにな
古代の謎を解くような大問題のときは専門家がやってくれるだろうけれど
相続の時に登記済証とか戦前の戸籍謄本読む必要があるようなときに役立つんでしょ
学者すら読めないらしいよ。だから、日本史を研究してる人じゃなくても単純に文字が読める一般人を雇わなければならないレベルでもあるらしい
結構前から問題になってた
昔いたクソ運送屋で配車してた奴が引田って漢字を31田みたいに書いてたの思い出した
字が下手とかそういう問題じゃねーんだよバカが
でも正しい進化なのでそれだけに固執したスキルしか磨かなかった人は甘んじずに他の事にも注力しようね
元記事読んだけど訂正ばかりで、何を伝えたいのか微妙にわからなくなってるぞ?
未来志向に生きろ
機械学習の例として「くずし文字も認識できるよ」ってだけで、普通の手書き文字を機械学習するのと何も変わらない気がする
自分に教養がないのを一般化して話すなよ
こういうのは方言と同じで、1時間も国会図書館のデジタル書籍とにらめっこしてりゃ馬鹿でなきゃ誰でも読める
当時の本のうち、現在実際に出版されてるのなんて一部だろうから凄い劇的な事なんじゃ無いのか?
江戸時代の日本語なんて今の日本語とそんなに変わらないだろうし
※44
変化多すぎるから基本的に草書読めないと解読無理だぞ。嘘松も良い所だろ?w
匿名の場所ならいくらハッタリかましてもバレないと思ってるイキるバカよくいるよね
嘘じゃないというなら↓の最初のページを3~4行でいいから読んでみ
厳島の御ほん地
請求記号 853-247
国立国会図書館書誌ID 000007276404
馬鹿いじめるのはやめたれwww
くずし字読めるやつならどこが読み間違ってるから添削もできるけど、読めないやつにはどこが間違っているかも確かめられない
紛らわしい字が読める程度のやつにはこんなもん要らんし所詮はAIの技術デモの域を出ない
これは崩し文字を認識するだけなんだけどな
あきの国さいのこおりとうげのむら
ぱっと見でわかんだろ
翻刻という言葉を知ってるならそれが翻訳とはまったく違うものだと理解してないといけないのに
現代語に翻訳するとかバカなこと書いて翻訳翻訳と繰り返してる
くずし字を楷書の活字に置き換えたってそれは現代語訳じゃねーんだが
誰でも読めるところだけ抜いて読んだつもりがそれすら読めてないのなw
「さい」じゃねえよ
本当に読めるなら冒頭飛ばさずに読めよ
学者さん達は仕事奪われるんじゃなくて、研修そのものに時間を割けると考えたらいいと思うよ
近々の食い扶持は確保しないといけないかもだけど
こういうのはさ
「し」の横に点がある。もだな。下は踊って繰り返し記号と
じゃ上の字は「そ」だ。「そもそも」だ
これは厳島神社の縁起か「そもそも厳」っていう風に自然と読めてくるんだよ
よっぽどの馬鹿でなければな。可哀そうに
間違った内容が広まるって言うゴミ現象に名前付けよう
100文字で15文字違うって事だから結構な頻度
博物館においてある書籍とか、何が書いてあるのかちゃんと見たいし
本当に正しく読めるんだったら素晴らしいな
英語圏の人が作ったんなら日本語に訳して更に現代語に訳すわけでしょ?
それも日本人の発想じゃないところが素晴らしい
つるのスイッチを入れたら
Webから適切な文字データを落としてきて
置き換えて表示、みたいな感じか
義務教育の敗北
日本人は馬鹿と天才は紙一重を地で行っちゃってる所がある、昔もそして今も
天才の部分はやはり日本人独自の(あくまで物の)工夫だったり、改良する部分で
馬鹿な部分は主にアジア人の馬鹿な部分と同じの様な気がする 全く新しい物は生み出せないのが
発展が遅れた理由(改良するだけだから)あと物じゃないシステムは改良出来ない、昔の非合理的なまま
未来志向の賢者こそ過去を知りたがるもの
すげえ!ワクワクが止まらねー
しかも万葉仮名になればもっともっと読めない。
日本語の筆記体っていう例えがマジで適切だとと思います。大和言葉の音素と似てる漢字を選び出して、漢文のようにささっと縦書きで物事を書き留めるようになって成立したものですから。