Saltar al contenido.

Crónica de un fin de semana – Analizando Patentes

miningtools

¿Es posible el analizar las patentes que van siendo aprobadas para encontrar patrones y predecir el futuro? Intentar responder esta pregunta me hizo perder alrededor de 30 horas en un fin de semana.

Aunque obviamente no pude encontrar la manera de analizar las patentes (y estoy exageradamente lejos de lograrlo), el intentar responder mi pregunta me hizo descubrir varios servicios muy interesantes que compartiré con ustedes en este post.

¿Cómo crear una araña web?

Una araña web (web crawler en inglés) es un programa que analiza páginas de Internet de manera metódica y automatizada. Google usa arañas web para extraer contenido, indexarlo y proveer resultados de búsqueda. El intentar crear una araña de web para extraer información de la página de patentes de Estados Unidos me hizo descubrir el servicio de 80legs.com. Esta empresa permite a cualquier usuario el crear arañas de manera gratuita sin la necesidad de saber programar. Aquellos que quieran extraer todo el texto de un directorio pueden usar los servicios de esta página. Obviamente antes de hacerlo deben de investigar si es legal hacerlo.

¿Cómo automatizar tareas?

Si bien es cierto que se puede usar 80legs para extraer contenido de la página de patentes, los servicios de esta página no eran lo suficientemente rápidos ni me ofrecían las opciones que yo necesitaba para mi análisis. Por tal motivo decidí investigar alternativas y descubrí un programa llamado irobot (que se puede descargar de http://irobotsoft.com/). Este programa tiene una interface relativamente sencilla y permite automatizar tareas como el llenado de formas, abrir páginas de internet y grabar información en una base de datos. El único problema de este programa es que requiere un poco de conocimiento de HTQL. Afortunadamente, no es tan complicado el aprender HTQL si se tiene conocimiento de HTML. Con irobot pude crear una base de datos que contiene los resúmenes, autores y fecha de publicación de las patentes relacionadas a mercadotecnia que se crearon en los últimos años.

¿Cómo analizar texto?

Tras crear una base de datos con información sobre patentes mi siguiente reto fue el analizar dicha información. Tras hacer una búsqueda en Google y leer varios artículos sobre análisis de textos, encontré los servicios de AlchemiAPI.com. En esta página puedes poner texto y recibir los conceptos claves del texto y relaciones entre palabras. Una vez que identifique los términos relevantes en mi base de datos de patentes, decidí ver cuántas veces aparecía cada concepto en cada patente y usar un algoritmo para crear clústers (k-means) para encontrar patrones. Para mi tristeza no encontré nada interesante.

¿Cómo encontrar patrones?

Mi frustración me hizo buscar empresas que hagan todo el análisis de una base de datos. Buscando en Internet encontré que Google ofrece una herramienta para analizar Big Data. A través de un API que se encuentra en la página https://developers.google.com/prediction/, es posible el analizar bases de datos y hacer predicciones. Lo único que se requiere para lograr este objetivo es una base de datos que contenga datos para generar un modelo (supongo que Google usa neural networks para hacer sus predicciones). Leer esto me hizo acordarme de Mechanical Turk (servicio del cual escribí aquí hace algunos días) para crear el archivo de entrenamiento. No obstante, este proyecto tomaría demasiado esfuerzo y creo que no tengo tiempo suficiente para hacerlo. Fue a esta altura (y tras haber pasado mucho tiempo frente al monitor) cuando decidí rendirme.

¿Malgasté un fin de semana?

Espero que no. Si bien es cierto que uno de mis amigos me preguntó ¿Y qué lograste con todo esto? Y no pude responderle, creo que algún día podré conectar todas estas herramientas que estoy descubriendo.  A final de cuentas vine a la escuela a aprender algo nuevo.

Todavía no hay comentarios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: