Posts etiquetados ‘Visión artificial’

HAL, quiero que seas capaz de reconocer las letras del vocabulario mediante tus sensores visuales. Empecemos por la “a”. Voy a darte un patrón para que reconozcas los diferentes tipos de aes que puedas encontrarte.

De acuerdo Dave. Introduce el patrón.

Su forma se asemeja a un triángulo.

ERROR. La “a” minúscula suele ser redondeada.

Tiene un hueco aproximadamente en el centro.

ERROR. Por ejemplo, en la imagen de arriba, la tercera y la cuarta “a” de la última fila no tienen huecos en el centro. O la última de todas, que es un hueco toda ella, siendo el relleno su fondo.

Una línea horizontal cruza otras dos líneas aproximadamente verticales.

ERROR. La “a” minúscula no tiene línea horizontal. Igualmente, hay un montón de ejemplos de aes sin línea horizontal en la imagen.

¿Cómo es posible? ¿Cómo puede ser que ya desde niños seamos capaces de identificar todo el abecedario sin dificultad alguna, pero que reconocer simplemente la letra “a” sea uno de los  grandes desafíos de la inteligencia artificial? La respuesta es que estamos muy acostumbrados a pensar con ideas claras y distintas tal como nos enseñó Descartes. Queremos un patrón único que defina límpiamente la letra “a”, de modo que el computador la identifique de un modo fácil y 100% seguro.  Queremos algo así como la esencia de la “a”. Pedimos demasiado. Seguramente la forma en la que el ser humano identifica letras es mucho menos precisa, más desordenada y funciona por vagas aproximaciones  y tentativas. ¿Por qué en vez de utilizar una única condición y lógica bivalente, utilizamos más condiciones y en diferentes proporciones? ¿Qué tal si probáramos algo así?:

HAL, sigue estos patrones:

Si su forma se asemeja a un triángulo suma un 60% de probabilidades de estar ante una “a”, si no resta 30%

Si tiene un hueco aproximadamente en el centro suma un 20% de probabilidades, si no resta 40%

Si tiene una línea horizontal curzando otras dos líneas aproximadamente verticales suma otro 50%, si no resta 30%

Si tiene un rabillo al final suma un 30% si no resta un 5%

Incluso podemos intruducir datos contextuales:

Si está entre dos consonantes hay un 90% de que sea vocal.

Si es vocal habrá un 20% de que sea una “a”.

HAL se equivocaría muchas veces (con toda certeza que muchas, ya que los percentiles los he puesto más o menos a bote pronto), pero podríamos ir refinando las condiciones en función de sus aciertos. Sabemos que el cerebro procesa mucha cantidad de información en paralelo y, seguramente, que mucha de esa información será parcial y contradictoria, de modo que, al final, las decisiones sean probabilísticas y, muchas veces, equívocas. ¿No es así como actuamos nosotros en nuestra vida cotidiana? Ya sabemos que nuestro cerebro es un kludge. Pues en esta línea apuntan las investigaciones en visión artificial de las últimas décadas, y quizá sea la forma de afrontar muchos otros problemas dentro de la AI. Señores, si queremos imitar al hombre no hay que construir máquinas perfectas, sino chapuzas que, de modo casi inexplicable, funcionen muy bien.