2014年10月1日水曜日

reCAPTCHA

皆さま、こんにちは。ねこです。
「本は死なない」という書籍を読んでいたところ、
とてもびっくりしたことがあったので、
今日はそのお話を書きたいと思います。

ネットで何かを入力したり、送信したりする際、
こういった文字列の入力を求められることがありますよね。


入力者が人間かコンピューターかを見分けるために
この作業をさせられていると思っていましたが、
実は、もう1つの目的があるのだそうです。
ご存知でしたか?
それが書籍の電子化です。

紙の書籍を電子化する際、
OCRという文字認識の技術が利用されています。
かなり、精度は上がってきているようですが、
それでも万全ではありません。
例えば、こちらの文字列をOCRで読み取ると
どうなるでしょう?

"niis aged pntkm at society were distinguished frow"

赤で示したところが間違いです。
正解はこちらです。

"This aged portion of society were distinguished from"

機械で読み取れないものも、人間の力を使うと、
かなり読み取ることができます。
しかも、複数の人が解読すれば、
読み取り精度が上がります。

文字認証の画面では、2つの単語が表示されますが、
片方の単語で人間かどうかの判別をし、
もう一方の単語で、書籍の電子化のための
文字解読を行っていたのです!

この話を聞いて、どう感じましたか?
「利用されている」と思って、嫌な気分になりますか?
それとも、「書籍の電子化に協力しているんだ」と
楽しい気分になりますか?
本好きのねことしては、
古い書籍と向き合っているという気分になれるので、
次に文字認証画面を見た時はワクワクしそうです。
日々のストレスを減らすには、
プラス思考がオススメです(笑)

この技術、reCAPTCHAについて、
もっと詳しく知りたい人は、
こちらのTEDの動画(YouTube)をご覧ください。
(※2012年にアップされた動画です。
最近始まったことではないんですね…)

「ルイス・フォン・アーン 「ネットを使った大規模共同作業」


ところで、この動画の後半で、
Web翻訳に関する驚くべきプロジェクトが
紹介されていました。
多数の言語学習者が訳したものを組み合わせると、
プロの翻訳者と同等のクオリティーの翻訳ができるというものです。
こういう話は、翻訳者としては、非常にドキドキします。

人間にしかできないことは何なのかを考え、
生き残りをかけて、精進していかないといけませんね。
字幕翻訳と歌詞対訳なら、自分が生きてる間ぐらいは
大丈夫かなぁ。
大丈夫だといいなぁ…。