Chupones de la web

Muchos de vosotros os preguntareis muchas veces como tal empresa tiene la misma información en su web que la de otra empresa, o los mismos productos que tal mayorista.

Por lo general existe una fuente y otros sites alienos a él que extraen información de forma periódica y totalmente desasistida, ahora bien ¿Cómo lo hacen?

Existen varias formas, entre ellas la más obvia es que la empresa de origen te entregue la información mediante XML, RSS, SQL o otra archivo descargable.

Una vez descargada serás tu mismo el que hagas esa información tuya, la reconstruyas o la dejes tal cual.

Pero el caso que nos ocupa es aquel en que la web de origen no ofrece ningún sistema para “snifarle” los contenidos… o bien los que necesitamos capturar de forma periódica no son ofrecidos en formato descargable, la solución no es otra que un chupón de datos en capa web, un programa que te instalas en tu máquina, le das una URL le describes un proceso, como si grabases una macro y ala, a chupar.

El programa que hemos visto se llama OpenKapow y existen versiones para Windows y Linux. Nosotros no lo hemos podido probar todavía, pues somos más de Mac, tendremos que virtualizar.

Aquí teneis un pantallazo de la web, donde muestra el proceso de tres pasos, bajarse RoboMaker para grabar las macros, crear robots y lanzarlos.

chupones_de_la_web_01

En la web del programa tienes varios ejemplos y tutoriales de uso, por ejemplo hay uno con el que puedes extraer las noticias del diario americano The New York Times pero con las fotografías de los artículos, pues los RSS este tan famoso diario no te ofrecen las fotos, otro extrae imágenes de Flickr

Enlace: http://openkapow.com/

OCR Online

ocr

¡Qué bueno! dije cuando Pedro de Xperiments me pasó este link… por fin tenemos un OCR online

De la mano del todopoderoso y mericordioso (por lo que nos paga por adSense) Google nos llega una actualización de su aplicación web: Google Docs, y esta vez nos han metido un OCR, es decir, tu subes un JPG con un texto y te lo convierte a .DOC editable… la leche!

Aquí los chicos de Google no están haciendo otra cosa que llevar a la web su tecnología comelibros, esa que les está permitiendo escanear todos los libros del planeta, hay… un libro, de aquí a unos años serán tesoros… de las pocas cosas que podremos consultar sin ser espiados por los controladores del planeta.

Otro sector, otro producto que los promotores del todo gratis a cambio de adsense se meriendan… ¿cómo les habrá sentado la noticia a los vendedores de scanners, y programas de OCR?

Noticia original:

http://www.labnol.org/internet/perform-ocr-with-google-docs/10059/

Hello world!

<?

// Todo empezó por un:

echo ‘Hello World’;

//uvedobles.com pretende ser el semiblog semicorporativo de deDavid.com con cosas de aquí y de allá, código, ideas, proyectos, métodos y negocios que iremos anotando conforme vayamos desarrollando, descubriendo, en fin una bitácora de a bordo.

de momento tiramos con WordPress hasta que saque chispas si bien estamos preparando cOOmmunicate.com nuestro propio sistema de blogs, que ya os descubriremos más adelante.

?>