Usando CAPTCHAs para Digitalizar Libros

by Andrés Borbón on 16 August, 2007

in Uncategorized

captcha

Todos (o casi todos) hemos entrado alguna vez a una página que nos pide introducir el texto de una imagen, con diversos propósitos, desde suscribirnos a un servicio hasta hacer alguna compra. Bueno, pues esos cuadritos se llaman CAPTCHAs (Completely Automated Public Turing Test to Tell Computers and Humans Apart), y a alguien se le ocurrió que sería buena idea usarlas para algo útil. Debido a que dichos pequeños acertijos son llenados unas 60 millones de veces al día, se trata de una cantidad enorme de trabajo desperdiciado. A algunas personas se les ha ocurrido que podrían servir para digitalizar libros y convertirlos en su contraparte electrónica. Cuando se escanea un texto en papel para convertirlo en texto digital, es frecuente que algunos puntos no sean reconocidos por el sistema de reconocimiento óptico (OCR), sino que requieren el ojo humano para descifrarlos. Esos son los fragmentos que se enviarían a los CAPTCHAs. ¿No es genial? Ello ayudaría al escaneo y digitalización de miles de libros al día, y la persona que resolviera el CAPTCHA ni se enteraría, pero estaría colaborando al crecimiento y a la preservación de la cultura. Aún existen millones de libros sin digitalizar, con los derechos digitales caducados (obras del dominio público) y encerrados en las bibliotecas. Con un mecanismo como éste, podrían estar libres en la red para que cualquiera los leyera.

Para leer más al respecto

 
Suscríbete por: Email | RSS | Twitter     

{ 1 trackback }

Usando CAPTCHAs para ayudar a digitalizar libros « Bloguear por bloguear…
17 October, 2007 at 2:56 pm

{ 5 comments… read them below or add one }

1 DaniFP 15 October, 2007 at 1:18 pm

¡Me parece una idea genial! Es un proyecto realmente interesante.

Reply

2 Andrés Borbón 15 October, 2007 at 4:09 pm

Yo lo creo igual. Todos esos millones de personas resolviendo Captchas cada día podrían hacer en unos lo que las máquinas de OCR no han logrado en todo este tiempo. Seríamos como la mano de obra de la digitalización editorial. Ojalá que de verdad lo implementen.
Saludos.
Andrés.

Reply

3 Angel Sergio 30 April, 2009 at 8:30 pm

Hola Andrés, magnífico blog, es mi primer comentario y decidí hacerlo con respecto a este antiguo tema de usar los captchas para digitalizar. Yo creo que está es realmente una broma que alguien quiso hacer ya que considero que no es posible implementar dicha tecnología y en el caso de que se pudiera, no tendría ninguna utilidad. De hecho esto se sustenta en el hecho de que expusiste esta idea hace casi dos años y nadie la ha implementado.

Te reitero que me gusto mucho tu blog y casi exclusivamente a este hecho me voy a animar a iniciar el mio. En cuanto tenga algo te invito.

Saludos y un abrazo,

Angel Sergio.

Reply

4 Andrés Borbón 1 May, 2009 at 8:55 am

Angel Sergio:

Pues qué bueno que te decidiste a comentar. ¡Bienvenido! Tienes razón con respecto a la entrada. Fue una muy buena idea que por desgracia no ha dado frutos.

Cuando abras tu blog, échame un grito para darlo a conocer. Hacemos una entrada al respecto.

Reply

5 Angel Bravo 30 December, 2009 at 5:07 pm

De hecho, el problema que presenta el método es que, dado que no se tiene una copia digital del contenido del captcha (que es precisamente la labor que está realizando el usuario, digitalizar las letras contenidas en el dibujo), cualquier entrada que el usuario escriba en el recuadro se da por válida. Así, los usuarios que por error o por experimentación se den cuenta, terminan por sabotear el sistema, aunado a los usuarios que se equivocan al escribir, aunque no se den cuenta de ello.

Reply

Leave a Comment

Política de Comentarios

Previous post:

Next post: