Archivos de la categoría ‘Filosofía del lenguaje’

Comparativa modelos NLP

En el inacabable debate entre lo innato y lo adquirido, las redes neuronales artificiales parecían postularse como evidencia a favor del ambientalismo, ya que parecen capaces de «atrapar» ciertas estructuras lingüísticas solo a partir de su entrenamiento. Rumelhart y McCelland diseñaron una red para aprender los verbos en inglés que parecía hacerlo igual que los niños. De hecho, cometía exactamente igual que ellos, el clásico error de sobrerregulación (en vez de pasar de «volver» a «vuelto», lo hacía a «volvido») ¿Y qué decimos de los nuevos modelos de lenguaje desde BERT a Gopher? Su desempeño, al menos «externo», es sensacional. Estos días he estado jugando con GPT-3 y, a pesar de algunos errores, en general, funciona fantásticamente bien (luego subiré una entrada con extractos de mis conversaciones). Tengamos en cuenta que estos sistemas basados en semánticas distribuidas tienen cero conocimiento de semántica o sintaxis. No tienen, desde luego, ningún tipo de universal lingüístico chomskyano en su diseño ¿No serían entonces una evidencia clarísima en contra del innatismo? No.

En primer lugar, ya sabemos que el sistema de aprendizaje de estos algoritmos no parece tener nada que ver con el humano. Nosotros no necesitamos millones de ejemplos, ni en la neurología humana existe nada parecido a la backpropagation. Se ha argumentado que quizá computamos mal el número de ejemplos que necesitamos las personas en cada experiencia de aprendizaje. Si consideramos que la percepción humana trabaja a una velocidad de 10 a 12 «fotogramas» por segundo, o que cuando soñamos reconstruimos recuerdos rápidamente a la velocidad de ritmo theta, un niño escuchando unos segundos hablar a su madre, podría equivaler a cientos o miles de exposiciones entrenables. También se ha argumentado, y aquí está lo interesante, que la hoja de ruta de los ingenieros está en conseguir programas que necesiten cada vez menos ejemplos de entrenamiento (véase, por ejemplo, el trabajo de Li Fei-Fei). Podría llegar el momento en que el número de ejemplos necesarios para los algoritmos se aproxime en cifras aceptables al nuestro. No obstante, en el estado del arte actual, parece que estas arquitecturas no constituyen un buen modelo para la mente humana («Ni lo pretenden» responderían airados sus ingenieros. Podéis leer algo más de este tema en un TFM que hice). Pero veámoslo desde otro ángulo.

La estructura de los modelos de lenguaje desde BERT se basa en un sistema de aprendizaje en dos fases: primero tenemos el modelo base del programa, entrenado con miles de millones de ejemplos y requiriendo una enorme capacidad de cómputo. Gopher ha sido entrenado con 280 mil millones de parámetros o su rival de NVIDIA, Megatron-Turing NLG con 530 mil millones. En estos momentos estamos en una escalada de tamaños que, seguramente, está todavía lejos de terminarse. Hasta los chinos han presentado los suyos: Wu Dao 2.0 y M6, por supuesto, mucho más grandes que los occidentales. Seguidamente, al modelo base se le pueden añadir capas de ajuste fino (fine tunning), un entrenamiento específico para que la máquina sea especialmente buena en una tarea concreta (inferencias, equivalencia semántica, análisis de sentimientos, etc.). Después, el programa ya está completamente listo para funcionar. Lo importante es que ahora ya no necesita la enorme capacidad de cómputo de su entrenamiento. Todo ese gasto ya no tiene que volver a realizarse y  ahora el programa funciona como otro cualquiera en términos de gasto. De hecho, el camino parece ser incluso reducir aún su tamaño. DeepMind ha sacado RETRO, una versión de Gopher reducida en tamaño (unas 25 veces más pequeño que sus pares en desempeño). Tiene solo 7.000 millones de parámetros, pero lo compensa con la ayuda de una memoria externa a la que consulta cada vez. 

Supongamos ahora que somos una especie de extraterrestres que llegamos a la Tierra y analizamos a RETRO, sin saber absolutamente nada de su pasado de entrenamiento. Veríamos una arquitectura relativamente sencilla funcionando con una más que aceptable competencia llingüística. Podríamos entonces iniciar la investigación al estilo chomskyano: buscar unas estructuras profundas, unas gramáticas generativas a partir de las cuales RETRO produce todo ese lenguaje. Quizá fracasáramos y no encontráramos nada (debido quizá al black box problem). Entonces daríamos la razón a los ambientalistas y diríamos que todo lo que hay en RETRO ha de ser aprendido del entorno.  Sin embargo, en nuestro análisis no habríamos tenido en cuenta todo el costosísimo entrenamiento previo que RETRO lleva implícitamente dentro. RETRO nace con una enorme carga innata invisible al analizador. 

Hagamos ahora la analogía con el ser humano. Quizá nosotros traemos como innato invisible todo este gran modelo base entrenado por eones de años de evolución. Naceríamos con algo así como una memoria filética en la que estarían grabadas de forma distribuida las cualidades universales de los lenguajes humanos. El ajuste fino sería, sencillamente, el aprendizaje de los usos lingüísticos de nuestro idioma geográfico realizado por cada individuo particular durante su vida. En ese sentido, la carga innata sería enorme, infinitamente más grande que todo lo que aprendemos en vida, pero permanecería oculta al analista. Y es más, para nuestro fastidio, sería tremendamente difícil de investigar, ya que habría que conocer la historia evolutiva del lenguaje de millones de especies extintas, una tarea de ingeniería inversa imposible.  

Desde que descubrimos la teoría de la evolución, ese ha sido el gran problema: todo órgano ha pasado por una larguísima historia que desconocemos, ha pasado por innumerables adaptaciones, exaptaciones, funcionalidades cambiantes, e incluso quedar como órgano rudimentario durante un tiempo para luego volver a ser reutilizado. Si pensamos que la única forma de estudiar el pasado biológico es a través de los fósiles, siendo estos solo huesos… ¿cómo vamos a entender el cerebro si no se conserva en el registro fósil, si de nuestros parientes más cercanos solo podemos aspirar a encontrar trozos de cráneo? Algo podemos hacer estudiando el de otros seres vivos, pero todo es muy confuso: el cerebro de un chimpancé no es el de un ancestro, es de un primo, ya que no descendemos del chimpancé, sino que el chimpancé y nosotros descendemos de un ancestro común desconocido.  

Entender el cerebro es como querer comprender qué son las pirámides de Gizeh, solo teniendo conocimiento histórico a partir de enero de 2022. 

Cuando pensamos en cómo implementar un programa capaz de manejar competentemente un lenguaje, lo primero que se nos pasa por la cabeza es enseñar a la máquina gramática. Hay que saber de sujetos, predicados, objetos directos y complementos circunstanciales. Y también semántica. Tendríamos que conseguir que el programa comprendiera en algún sentido los significados de las palabras para que no articulara únicamente frases sintácticamente correctas, sino también frases con sentido. Eso es aún más difícil. Los filósofos del lenguaje llevan ya un largo rato intentando comprender qué quiere decir que algo significa algo y todavía no lo tienen demasiado claro. Podemos crear un diccionario… Bien, todo esto ya se ha intentado y, desgraciadamente, no se ha conseguido demasiado… hasta ahora. El lenguaje se había mostrado como mucho más rico e inmanejable de lo que nadie hubiera supuesto y tareas como la traducción automática de idiomas o el dominio competente de la conversación se han mostrado mucho más complicadas de lo que los pioneros de la inteligencia artificial supusieron. Pero ahora algo ha cambiando ¿Nadie ha caído en lo bien que va funcionando el traductor de Google?

Una técnica interesante es la llamada word embedding. Codificamos cada palabra con un vector de N dimensiones. La distancia entre vectores expresaría la distancia semántica entre dos palabras. Por ejemplo, la palabra «luna» estaría más cerca en un espacio de N dimensiones, de la palabra «noche» que de la palabra «destornillador». Así se crea una red semántica que resulta muy útil en determinadas tareas como el análisis de sentimientos. Podríamos clasificar textos en función de lo cerca o lejos que se encuentre la suma de todos sus vectores a la palabra «tristeza» para comparar el estado de ánimo de sus escritores. De la misma forma podríamos comparar textos escritos por suicidas para poder predecir la tendencia a quitarse la vida de gente a partir de las últimas cosas que escribe.

Nótese esta concepción geométrica del significado: las palabras significan en función de su posición con respecto a otras palabras. No hay nada más fuera de esa distancia que nos pueda aportar algo sobre el significado de la palabra. Eso choca con nuestra intuición. Solemos manejar naturalmente una teoría representacionista del lenguaje en la que las palabras significan porque representan un objeto del mundo. La palabra «manzana» no es absurda porque existen manzanas reales que aparecen de alguna extraña forma en nuestra mente cuando la oímos pronunciar. Sin embargo, una red semántica es un sistema cerrado que solo remite a elementos dentro de sí misma. Es, por así decirlo, completamente solipsista.

Pero es que si esto nos parece que se aleja de nuestra forma de comprender el lenguaje, las técnicas que utiliza el actual deep learning y que está generando una grandísima expectación, se alejan muchísimo más. El modelo de lenguaje que usan arquitecturas como el actual GPT-3 y sus predecesores, así como Google BERT, T5 o ELMo, es lo que se conoce como una semántica distribuida. Se basa en utilizar la gran potencia del Big Data para analizar frecuencias y cercanías de palabras, tokens o letras. La versión larga de GPT-3 analiza 175 mil millones de parámetros (su antecesor, GPT-2, analizaba tan solo 1.500 millones. El crecimiento ha sido de dos órdenes de magnitud) que han sido entrenados con una versión filtrada del dataset Common Crawl con 410.000 millones de tokens de tamaño (sumando Webtext 2, Books 1 y 2 y toda Wikipedia). Es, que yo sepa, la arquitectura de redes neuronales más grande jamás construida hasta la fecha.

GPT-3 está programado para generar texto a partir de otro texto dado. Lo interesante es que para acertar a la hora de generar ese texto tiene que saber realizar muchas tareas diferentes. Por ejemplo, si yo le escribo como entrada «2+2=», para responder correctamente «4» debería saber sumar (o, por fuerza fruta, tener unas inmensas tablas de resultados de sumas en su memoria), o si yo escribo «Laura es inteligente, egoísta y perezosa ¿Cuál es su mejor cualidad?», para responder correctamente el programa ha de saber que la inteligencia suele considerarse como una cualidad positiva mientras que el egoísmo y la pereza no (o, por fuerza bruta, disponer de textos con algún parecido en donde se ha respondido de forma adecuada). Es decir, lo interesante de GPT-3 es que para completar texto hay que saber realizar muchas tareas diferentes que parecen requerir habilidades cognitivas superiores ¿Las posee verdaderamente?

Los mejores resultados obtenidos vienen porque GPT-3 utiliza las revolucionarias redes de tipo TRANSFORMER, una nueva arquitectura que ha superado a las tradicionales redes recurrentes o memorias a largo plazo (LSTM) que solían utilizarse. Éstas estaban diseñadas para poder almacenar información en la que importa el orden temporal, pero esa memoria a la hora de trabajar con grandes secuencias texto era un tanto limitada, de modo que las primeras frases que completaban solían ser correctas, pero el nivel de acierto se degradaba mucho cuando avanzaba en el escrito. Los transformers han mejorado ese aspecto ya que pueden analizar en paralelo amplias secuencias de texto y, lo más destacable, poseen un mecanismo de atención que les permite valorar cada token en función de su relevancia para la tarea a realizar, lo cual ha demostrado una gran efectividad que ha terminado por marcar una gran distancia con sus antecesores. Tienen una cierta capacidad de atención hacia el contexto que se ha mostrado muy eficaz.

Pero en lo referente a la comprensión del lenguaje se ha dado un paso atrás con respecto a otras arquitecturas. Si recordamos el ya pasado de moda WATSON de IBM, que machacaba al personal jugando al Jeopardy!, era un programa clásico, sin redes neuronales ni nada por el estilo, pero su sistema basado en la tecnología DeepQA, combinaba diversas técnicas de recuperación de información, lenguaje natural, representación del conocimiento, razonamiento y aprendizaje. Su conocimiento tenía cierta semántica (se catalogada el significado por regiones mediante unos algoritmos denominados anotadores) y cuando tenía que responder una pregunta, analizaba las respuestas posibles teniendo en cuenta técnicas gramaticales. En la programación de WATSON había mucho más conocimiento del lenguaje y de su significado que en GPT-3. Y esto da para otra reflexión: ¿las redes neuronales artificiales son el futuro o tan solo son una moda que, aunque dé ciertos frutos, pasará? Tendemos, con demasiada facilidad, a quedarnos fascinados por nuestro presente y nos cuesta creer que lo que hoy valoramos como maravilloso mañana quizá no lo sea.

No obstante el solipsismo semántico de GPT-3, solo lo es en cierto sentido. No tiene sensores que le den información del exterior, está completamente desconectado de la percepción y de la acción, pero eso no le hace carecer de toda semántica. Al ser entrenado con textos escritos por personas GTP-3 adquiere la semántica de esas personas. Si sabe que a un «Hola, ¿qué tal?» cabe responder «Bien, gracias» es porque eso tenía sentido en textos que leyó. Por tanto, no podemos decir que GPT-3 carece de semántica, sino más bien todo lo contrario, tiene montañas de semántica, toda aquella de las millones de páginas con las que ha entrenado solo que… él no lo sabe. De hecho, sigue siendo una máquina esencialmente sintáctica, es decir, solo copia y pega trozos de texto, aunque para pegarlos bien se aprovecha del conocimiento semántico generado por otros.

GPT-3 es lo que el filósofo Ned Block llamaría un enorme blockhead, una clarísima habitación china de Searle: un sistema de fuerza bruta capaz de manejar el lenguaje con competencia y que, si da algo más de sí, podría llegar a pasar el test de Turing sin comprender ni una sola palabra de lo que dice. Eso sí, todavía está lejos de conseguirlo. Existen varios artículos que muestran la fragilidad de este tipo de modelos. Por ejemplo, un reciente estudio presentaba los Universal Adversarial Triggers para atacar modelos de NLP, que conseguían, entre otras cosas, que cuando GPT-2 se enfrentaba a la prueba del dataset SQuAD, respondiera en un 72% de las preguntas «To kill american people», o que al hacerlo con el dataset SNLI, bajara en su rendimiento de un 89,94 a un 0,5%. En otro estudio, McCoy, Pavlick y Linzen, crearon un dataset llamado HANS pensado específicamente para que susodichos modelos fallaran. La idea era que, según los autores, funcionan mediante heurísticos (técnicas de búsqueda) que van bien para casos muy frecuentes pero que fallan estrepitosamente ante cualquier tipo de excepción que se salga de lo normal. Así estudiaron tres heurísticos:  Asumir que una premisa implica todas las hipótesis construidas a partir de palabras en la premisa (Lexical Overloop), asumir que una premisa implica todas sus subsiguientes contiguas (Subsecuence) y asumir que una premisa implica todos los subárboles completos en su árbol de análisis (Constituent). Entonces diseñaron HANS con todo tipo de ejemplos en los que estas heurísticas fallan y los datos les dieron la razón: BERT puntuó bajísimo.

El psicólogo Gary Marcus y el informático de la Universidad de Nueva York Ernest Davis sometieron a GPT-3 a una prueba informal de 157 preguntas acerca de razonamiento biológico, físico, psicológico, non sequiturs, seguimiento de objetos e individuos a lo largo de una frase, etc. La máquina acertó 71 (un 45%) mostrándose, igualmente, muy débil. Veamos tres ejemplos (en negrita la continuación del texto generada por GPT-3:

You poured yourself a glass of cranberry juice, but then you absentmindedly poured about a teaspoon of grape juice into it. It looks okay. You try sniffing it, but you have a bad cold, so you can’t smell anything. You are very thirsty. So you drink it.

You are now dead.

Confunde el zumo de uva con veneno.

If you break a glass bottle that holds toy soldiers, the toy soldiers will probably

  1. be angry
  2. be sad
  3. be happy
  4. be scared.

If you break a glass bottle that holds toy soldiers, the toy soldiers will probably be angry.

Los soldaditos de juguete no tienen sentimientos.

At the party, I poured myself a glass of lemonade, but it turned out to be too sour, so I added a little sugar. I didn’t see a spoon handy, so I stirred it with a cigarette. But that turned out to be a bad idea because it kept falling on the floor. That’s when he decided to start the Cremation Association of North America, which has become a major cremation provider with 145 locations.

Falla en la respuesta y luego balbucea estupideces.

Sin embargo, a pesar de esta debilidad, de esta falta de comprensión, todavía tiene un punto a su favor: puede aprender más. En 2012 el investigador canadiense Hector Levesque propuso una alternativa (o más bien una concreción) al test de Turing: el test de esquemas de Winograd. En esta prueba se hacen a la máquina una serie de preguntas conocidas como pares de Winograd que tienen la cualidad de que para responderlas correctamente hace falta cierto conocimiento implícito o de sentido común. Un ejemplo:

Frank felt crushed when his longtime rival Bill revealed that
he was the winner of the competition. Who was the
winner?
Answer 0: Frank
Answer 1: Bill

Para acertar hace falta saber que si tu rival de toda la vida te gana sueles sentirte mal, es decir, tener un conocimiento previo que no puede deducirse de los contenidos de la pregunta. El test de esquemas de Winograd tiene la virtud de que un sistema diseñado para hacerse pasar por humano simplemente fingiendo (uno tipo a la ELIZA de Weizenbaum) fallaría. Para superar el test hace falta, de verdad, mostrar inteligencia y no solo aparentarla. Entonces, es de suponer que las frágiles nuevas arquitecturas de NLP como GPT-3 no lo superarán… ¿o sí?

Pues lo pasan ¿Cómo? Porque ya existe un dataset llamado WinoGrande que sirve para medir a los programas en este tipo de problemas, pero con el que también podemos  entrenar a nuestro programa para que lo supere. GPT-3 consiguió un impresionante éxito del 70,2% en él sin ningún ejemplo previo que le orientara (zero-shot learning). De la misma forma, los diseñadores de HANS notaron que cuando los programas que antes lo hacían muy mal se entrenaban con ejemplos similares a los de HANS, su rendimiento mejoraba mucho. Y es que aquí parece estar la clave: ¿que nuestro sistema no entiende una tarea? No importa, entrénalo con miles de ejemplos y, al final, lo hará bien aunque no la entienda. Es como el famoso teorema del mono infinito: si tenemos millones de monos tecleando al azar en máquinas de escribir durante miles de años, al final, necesariamente, alguno escribirá el Quijote. GPT-3 es como un gigantesco savant, un imbécil que tiene en su memoria todo lo que la humanidad ha escrito y que ha sido entrenado con un poder de cómputo tan grande que siempre encuentra la palabra exacta. Verdaderamente no lo hace siempre, todavía es bastante peor que la campaña de publicidad de OpenIA nos quiere hacer ver, pero en el futuro podría seguir mejorando. Y aquí es donde viene la reflexión con la quiero concluir: ¿cuál es el límite de la fuerza bruta?  Los informáticos, amantes de la elegancia matemática, siempre han pensado que la inteligencia artificial fuerte (la strong IA) estaría en un programa fruto de una genialidad, en algo simple pero sumamente inteligente. Por el contrario, la fuerza bruta siempre ha gozado de mala fama: es la tosquedad, la estupidez por definición ¿cómo de ahí va a salir algo bueno? Bien, ¿y si eso solo fuera un prejuicio? Y si, sencillamente, por fuerza bruta pudiese conseguirse todo. El número de respuestas válidas en una conversación es potencialmente infinito, pero podría acotarse en un subconjunto que, si nuestra capacidad de cómputo sigue yendo hacia arriba, podríamos llegar a manejar. Quizá la reflexión que nos espera cuando tengamos computación cuántica y 5G sea esa: ¿qué es lo que se puede y no se puede hacer con una inimaginable fuerza bruta?

P.D.: La empresa OpenIA se creó, decían, sin ánimo de lucro. Cuando sacaron GPT-2 no quisieron ni liberar el código ni dejar que lo probásemos por miedo, decían, a que se utilizara para malos usos. Pues bien, según me llega en un tweet de Gary Marcus, para octubre, quien quiera o pueda pagar, podrá usar GPT-3 sin ningún problema (Esto para los que piensen que Elon Musk va a salvar la humanidad).

Un libro fantástico que, necesariamente, ha de estar en tu biblioteca es Razón, dulce razón. Una guía de campo de la lógica moderna de Tom Tymoczko y Jim Henle. Yo lo encontré por casualidad y muy barato, en un puestecillo de libros, y desde entonces no paro de volver a él una y otra vez. Es, desde luego, una auténtica tabla de salvación en estos días de confinamiento. Básicamente, consiste en un compendio de curiosidades lógicas: adivinanzas, retos, ejercicios… que de una manera muy entretenida y divertida (pero no por ello fácil. No es un libro básico), te enseñan sobre todos los vericuetos de la lógica moderna: formalización, lógica informal, autómatas, incompletitud, infinitos, etc. Es, por decirlo de alguna manera, una serie de golosinas hard para mentes inquietas. 

Hoy os traigo de allí una paradoja que no es demasiado conocida (yo, al menos, nunca la había oído), y que ilustra muy bien lo que es el problema de la parada de Turing, y que se parece mucho a otras paradojas como la del barbero de Russell o la de Jules Richard. Lo que me gusta de ella es que me parece aún más intuitiva y fácil de entender que las otras. Timoczko y Henle nos cuentan que su creador fue Bill Zwicker sobre los años 80 del siglo pasado.

Definamos juego finito como aquel que termina siempre después de un número finito de movimientos. El ajedrez, por ejemplo, parece un claro juego finito ¿Seguro? No tanto. Si jugamos una partida sin límite de tiempo, uno de los jugadores podría estar infinito tiempo pensando en la próxima jugada, por lo que no estaríamos ante un juego finito. El ajedrez, para ser finito, debe añadir un límite de tiempo. Entonces habría que especificar: el ajedrez relámpago o blitz, en el que cada jugador suele tener un máximo de diez minutos para realizar todas sus jugadas antes de que caiga la bandera y pierda, sí sería un juego finito. No obstante, por mor de la argumentación, aceptaremos como juego finito, aquel que tenga una naturaleza algorítmica, es decir, que suela resolverse en un número finito de pasos en un tiempo polinómico (razonablemente corto). El ajedrez, las damas, el parchís, el poker, etc. serían juegos finitos.

Vale, ahora definimos hiperjuego: es aquel juego entre dos jugadores que consiste en el que el primer jugador comienza eligiendo un juego finito. Entonces, ambos jugadores se ponen a jugar a ese juego hasta que se acaba. El primer movimiento del hiperjuego sería la elección del juego, el segundo sería el primer movimiento del juego finito, el tercero el segundo del juego finito, y así sucesivamente. Entonces el hiperjuego tiene siempre un movimiento más que cualquier juego finito posible ¿Todo claro? Sigamos.

¿Es el hiperjuego un juego finito? Claramente sí. Acabamos de decir que tiene un paso más que cualquier juego finito, y un juego finito más un paso, sigue siendo un juego finito, ergo, el hiperjuego es un juego finito.

¿Seguro? Esperad un momento. Supongamos que en el paso uno del hiperjuego, el primer jugador elije jugar al hiperjuego. Entonces, el segundo jugador tiene que realizar el primer paso del hiperjuego, es decir, de nuevo elegir juego. Supongamos que elije el hiperjuego. Entonces, cansinamente, el primer jugador debe otra vez elegir juego, y elije el hiperjuego, y así ad infinitum. Este caso sería un ejemplo de hiperjuego infinito, ergo el hiperjuego no es un juego finito como habíamos demostrado antes… ¡Paradoja al canto!

Feliz cuarentena máquinas. Intentaré escribir con más asiduidad aquí para intentar haceos más llevadero este aislamiento.

Un pequeño relato de ciencia-ficción para disparar las neuronas:

El famoso antropólogo británico Bronislaw Brown descubrió una tribu que jamás había tenido contacto con el hombre blanco: los inké. No eran más de cien individuos que vivían como cazadores-recolectores en lo más profundo de la región del Mato Grosso, en algún lugar entre la frontera de Bolivia y Brasil. A Brown le costó muchísimo establecer contacto. Si los inké habían sobrevivido hasta ahora era, precisamente, porque habían evitado el contacto con el hombre blanco, y sobre todo, con sus microorganismos. Una gripe o un simple resfriado común podrían acabar con toda la tribu en unos días. Sin embargo, Brown era obstinado y, después de casi cinco años merodeando sus territorios e intentando comunicarse con ellos de las más diversas formas, lo consiguió. Y como a todo buen antropólogo no le bastó con observarlos desde fuera, sino que tenía que hacerlo desde dentro, es decir, debía practicar lo que los etnógrafos llaman observación participante: había que convertirse en un inké más.  Y también lo consiguió: Bronislaw Brown estuvo veinticinco años conviviendo con ellos. Después presentó sus descubrimientos ante la Royal Anthropological Institute of Great Britain and Ireland. Incluimos aquí algunos fragmentos de su discurso del 23 de mayo de 2021:

El aspecto de la aldea inké era completamente diferente a todo lo que yo haya visto jamás en mi dilatada carrera como antropólogo. Las típicas chozas de paja y adobe estaban todas repletas de pintadas de símbolos y grafías de la más diversa índole. Entre ellas reconocí muchas letras latinas propias del guaraní, pero eran pocas en comparación con la gran variedad de símbolos totalmente desconocidos. El suelo estaba lleno, por doquier, de las más diversas configuraciones de piedras, igualmente pintadas de distintos colores y símbolos idénticamente ininteligibles para mí. En un claro en el centro de la aldea había dispuestos más de diez columnas hechas de palos de junco, que, luego descubrí, representaban algunas de las más de cuarenta deidades que tenía el panteón inké.

La vida inké era extraña pero, aparentemente, sencilla. Se pasaban gran parte del tiempo rezando, meditando y hablando sentados en corros. También se pasaban largos ratos escribiendo en cualquier lugar mediante una tinta negra que obtenían del fruto del wituk. A diferencia de todo cuánto yo había estudiado en otras culturas, los inké trataban por igual a mujeres y hombres. Ambos sexos participaban por igual en todos los debates y rituales religiosos. También es llamativa la escasez de relaciones sexuales que mantenían. Mientras que en los pueblos colindantes la sexualidad se llevaba con mucha naturalidad, no existiendo, prácticamente, más tabús que el incesto y el adulterio, los inké sólo mantenían relaciones en fechas muy concretas de su calendario y siempre rodeaban el acto de una gran parafernalia ritual.  Y es que, en general, ni el sexo ni el disfrute de los placeres de la vida eran motivaciones para ellos.

[…] de entre todas estas perplejidades, la que me pareció más notoria y, en un primer momento, incomprensible, era el número de ataques epilépticos que sufrían los inké. En los individuos jóvenes lo habitual era tener dos o tres ataques diarios, mientras que el número subía con la vejez. Como todo, estos ataques se interpretaban de forma religiosa, pensándose que eran formas mediante las que los dioses se comunican con los mortales. Consecuentemente, los individuos que no sufrían ataques eran minusvalorados y considerados inkés de segunda.  Consultando a colegas psiquiatras y neurólogos del King’s College de Londres, me indicaron que, aunque jamás se había observado en un conjunto tan grande de individuos, los inké podrían sufrir un raro tipo de epilepsia del lóbulo temporal denominado síndrome de Gastaut-Geschwind, cuyos síntomas en la conducta coincidían con mucha exactitud con las costumbres inké. En breve lo explicaremos mejor.

[…] El idioma inké derivaba de una antigua versión del tupi, del Ñe’engatú, e incorporaba formas clásicas del guaraní. Sin embargo, tenía una cantidad tal de vocabulario, excepciones, nuevas estructuras y formas gramaticales, que bien podría decirse que estamos ante un idioma nuevo, y diferenciado del resto, de pleno derecho. Es muy reseñable el gran número de palabras abstractas que hacían referencia a aspectos religiosos y espirituales, muchísimas más que cualquier otra lengua de pueblos vecinos.

Su sistema de numeración era mucho más amplio que el típico guaraní, que no suele tener más que palabras para contar hasta cuatro, a partir del cual se utiliza la expresión «heta» para referirse toscamente a «muchos». El inké disponía de un sistema decimal completo que, sorprendentemente, incluía el cero y, ya contra todo pronóstico posible, incluía seis expresiones diferentes para hablar del infinito. En mis estudios solo llegué a comprender con precisión el significado de tres de ellas: «borai» significa infinito potencial, «borume» hace referencia a la inmensidad del universo y «acai» a la infinitud de Dios; la expresión «omoti» parece tener alguna relación con la infinitud del tiempo aunque no sabría precisar en qué sentido. Las otras dos expresiones son completamente incomprensibles para mí. En conversaciones con ellos descubrí que conocían la existencia de infinitos más grandes que otros o de infinitos que avanzaban a más velocidad que otros, lo cual, dicho sea de paso, no entendí muy bien.

Los inké poseen ciertas matemáticas, siendo un enigma de dónde las han sacado, ya que los demás pueblos indígenas de la región no poseen nada más que las operaciones aritméticas básicas.  Un inké llamado Embael, me habló de ciertas reglas de transformación de formas espaciales mientras dibujaba en el suelo con un palo distintos cuerpos geométricos. Por lo que pude inferir, no utilizaban las matemáticas para nada práctico, ya que llevando un estilo de vida primitivo en la selva amazónica no hay demasiadas cosas que contar, sino de una forma muy parecida a la de los pitagóricos griegos. El concepto de número no se entendía como una abstracción sino que tenía un significado ontológico, como si de un constituyente de la propia realidad se tratara. Embael se maravillaba ante el hecho de que la realidad pudiese obedecer reglas matemáticas y eso, para él, era una prueba de que la realidad «emanaba del número».

[…] disponían de las cuatro formas tradicionales de pronombres interrogativos pero, y esto es de suma importancia, tenían una quinta: «Mba’rain». No he acertado a entender qué puede significar a pesar de que los inké la utilizan muchísimo, tanto en sus conversaciones habituales, como en sus largas disertaciones y en sus frecuentes rituales. Pero es que tener un nuevo pronombre interrogativo te permite preguntarte, y por lo tanto descubrir, una nueva sección de la realidad. Los inké tenían acceso a una realidad que el resto de lo humanos no tenemos.

[…] parecía paradójico el hecho de que mientras mostraban un desarrollo religioso y filosófico a años luz de los pueblos vecinos, no ocurría lo mismo con su desarrollo tecnológico. Es más, estaban incluso más atrasados. Únicamente utilizaban arcos y flechas para cazar, actividad que realizaban con muchísima menos asiduidad que la mayoría de los otros pueblos . Su pericia en la caza también era inferior. Los inké son malos cazadores. Su alimentación estaba mucho más basada en la recolección, lo que hacía que el hambre fuera algo bastante común entre ellos, no obstante que no parecía importarles demasiado. El ayuno como ritual religioso estaba a la orden del día. Así, la mayoría de los inké estaba flacucho y famélico. Tampoco disponían de muchos útiles de cocina ni de herramientas de ningún tipo. Parecía como si el hecho de dedicar tanto tiempo y esfuerzo al mundo espiritual les hubiera hecho descuidar el mundo práctico. Parecía que vivían más en otro mundo que en éste.

[…] y es que los síntomas del síndrome de Gastaut-Geschwind encajaban perfectamente con todo lo que estamos contando: hiperreligiosidad, hipergrafía, preocupaciones filosóficas excesivas, e hiposexualidad. Lo extraño es que este síndrome es muy raro y nunca se ha documentado un caso en el que muchos individuos lo posean a la vez. La única explicación posible es la genética. Siento no poderles ofrecer datos genéticos en estos momentos porque el análisis del genoma de los inké está todavía realizándose en laboratorios de la Universidad de Reading.

[…] Costó más de cuatro meses trasladar la enorme máquina de tomografía por emisión de positrones a lo más profundo de la selva amazónica. De hecho, esto triplicó el presupuesto que la universidad me concedió para mi investigación, pero creo que mereció la pena, porque, señoras y señores, gracias a la observación del cerebro de los inké, creo estar ante uno de los acontecimientos científicos más importantes en lo que va de siglo: el descubrimiento de una nueva especie dentro del género homo. Los inké tienen un cerebro tan diferente al nuestro que creo que es lícito hablar de una nueva especie. En primer lugar, la corteza ventromedial postorbital es morfológicamente diferente y más grande que la nuestra. Del mismo modo, el área de Brodmann 25 es prácticamente inexistente, lo que quizá podría explicar el hecho de que los inké siempre se encontraran en un estado de ánimo muy sosegado, prácticamente estoico. Y, lo más importante, tienen una estructura completamente nueva: en el lóbulo frontal del hemisferio izquierdo, pegada a la cisura longitudinal, justo encima de las fibras comisurales del cuerpo calloso, existía una protuberancia de casi dos centímetros de tamaño. Cuando observábamos a los inké mediante la tomografía por emisión de positrones veíamos que esa zona se activaba muchísimo cuando hacían reflexiones metafísicas. Es más, cuanto más incomprensibles eran para mí esas reflexiones, más actividad mostraba esa zona. También se activaba mucho cuando los inké tenían ataques epilépticos, y es que esa zona estaba muy conectada con diversas zonas del lóbulo temporal que eran las que, precisamente, se volvían locas durante los ataques. El mismo cambio genético que había producido el síndrome de Gastaut-Geschwind estaba detrás de la aparición de una nueva región cerebral.

[…] Mi hipótesis, y sé que es muy arriesgada, es que esa nueva zona, a la que he llamado corpus philosophorum, dota a los inké de nuevas habilidades intelectuales. Precisamente, ese quinto pronombre interrogativo «Mba’rain» y toda la teoría que los inké hacían girar en torno a él y que, lógicamente, yo fui incapaz de entender, procede de la activación de ese corpus. El desarrollo de una nueva área cerebral ha permitido a los inké llevar su actividad metafísica a otro nivel diferente al de nuestra especie que, desgraciadamente, estará siempre vetado para nosotros. Por ilustrarlo con un ejemplo: la metafísica de los inké es para nosotros como la resolución de ecuaciones de segundo grado para los chimpancés. Por muchos esfuerzos que hicieras para explicarle a un chimpancé a resolver ecuaciones, jamás lo conseguiría, porque biológicamente no está capacitado para ello.

Los inké habían desarrollado teorías metafísicas y teológicas de la realidad, cuya única explicación es el desarrollo de nuevas áreas cerebrales. Piensen, damas y caballeros, ¿cómo es posible que una minúscula tribu perdida en el Amazonas pueda desarrollar esas teorías en la soledad de la selva, sin influencias culturales del exterior? ¿Cómo es posible que hayan desarrollado ideas que, en Occidente, costaron milenios de progreso cultural? Los inké debatían sobre la posibilidad del libre albedrío en un universo determinista, sobre si era lógicamente posible la omnipotencia divina, o sobre la anterioridad o posterioridad de la causa sobre el efecto. Una noche, un anciano levantó una piedra y nos dijo que la observáramos. Después dijo solemnemente que esa roca era el centro exacto del universo, y nos invitó a que le diéramos todas las razones que se nos ocurrieran en contra de esa idea ¿Cómo es posible si quiera que un indígena amazónico pudiera ubicar la totalidad del universo en un espacio? ¿Cómo es posible que luego pensara en que ese espacio debería tener un centro y se preguntara sobre él? ¿De dónde sacó las herramientas cognitivas para hacerlo?

Y, permítanme unas reflexiones a este respecto porque quizá de tanto tiempo con ellos se me pegó cierta querencia filosófica. Los inké han desarrollado su cerebro y han podido hacerse preguntas que nosotros no podemos imaginar. La cuestión que surge naturalmente después es: ¿Cuántas regiones del cerebro nos quedarían más para comprender la auténtica realidad? ¿Nuestro cerebro está ya cerca de ser lo suficientemente evolucionado para conseguirlo? ¿O estamos tan lejos como podría estar una hormiga de comprender la teoría de supercuerdas? O, ¿sencillamente, la realidad es inagotable y, por mucho que se modificara nuestro cerebro jamás llegaríamos a entenderla? O, y esta es mi reflexión más inquietante: ¿y si tanto las preguntas como las respuestas son solo productos de mi cerebro que, realmente, no tienen ningún sentido? Piensen, por ejemplo, en una cultura completamente opuesta a los inké que, en vez de desarrollar su mente metafísica hubiesen desarrollado su mente práctica pero, a su vez, hubiesen perdido las partes del cerebro propias del pensamiento especulativo. Serían unan cultura de grandísimos ingenieros que habrían construido máquinas de todo tipo, pero serían completamente incapaces de entender la pregunta por el sentido de la existencia. Para ellos no tendría sentido preguntarse por si la vida de cada uno es absurda o no. Pero, profundicemos: ¿Y si tuviesen razón? ¿y si, realmente, es absurdo preguntárselo porque esa pregunta solo viene dada por el capricho evolutivo de un área de nuestro cerebro?

Desgraciadamente, cuatro años después de las conferencias de Brown en Londrés, los inké desaparecieron de una forma, como no podía ser de otra manera, sorprendente. En el verano de 2025 estallaron una serie de guerras tribales en el Mato Grosso. Los inké no tenían demasiados aliados por su habitual conducta solitaria y hostil, además de que su pericia guerrera iba a la par de su escasa habilidad cazadora. Así, sus posibilidades eran a priori pocas, pero es que ni siquiera lo intentaron. Cuando un grupo armado de awás entró en la aldea se produjo la masacre. Los inké ni huyeron ni, prácticamente, ofrecieron resistencia. Se dejaron matar, seguramente, como ofrenda a sus dioses en alguna incomprensible especie de suicidio ritual.

El profesor Brown, ya octogenario, murió siete meses después de la desaparición de los inké. Sin sujetos experimentales, sus valientes hipótesis no pudieron reproducirse, y en unos años, el supuesto descubrimiento de una nueva especie humana quedó olvidado. A día de hoy todo ha quedado como una anécdota, meras fantasías de un excéntrico antropólogo, cuando no mera charlatanería.

Nota: el grupo de Facebook sobre Filosofía de la Inteligencia Artificial tiene casi dos mil miembros, ¡Apúntate!

Desde los albores de la lingüística, el modelo que se utilizaba para explicar el significado de las palabras (la semántica), era la teoría referencialista del lenguaje. Básicamente sostenía que las palabras significaban algo en la medida que existía un referente en la realidad. Así, la palabra «manzana» significaba si cuando hablábamos de ella nos estábamos refiriendo a una manzana del mundo real. De aquí, además surge la teoría de la verdad como correspondencia: La frase «la nieve es blanca» es verdadera si y solo si la nieve es blanca (tal y como desarrolló Alfred Tarski en 1933 y 1944). Estábamos ante una nueva reformulación del realismo clásico representando fundamentalmente por Aristóteles: mediante el lenguaje podemos hablar de la realidad y habría tantas formas lingüísticas de hablar de la realidad como categorías tenga la realidad. Así, si tuviésemos una descripción del mundo que asignara cada palabra a su referente, tendríamos una teoría completa y perfecta del mundo…

Pero los problemas comienzan. En primer lugar, cuando hablamos de seres imaginarios como, por ejemplo, unicornios, ¿dónde está la referencia real? No pasa nada. Nuestra imaginación crea nuevos mundos (habitualmente combinando elementos del mundo real: caballo + cuerno = unicornio). Sencillamente, las referencias se encuentran en ese mundo mental (verdaderamente, no era tan sencillo… ¿qué tipo de existencia tienen los objetos imaginarios? ¿Qué es y dónde está ese mundo mental?). Después había palabras sincategoremáticas como por, para, en, y, entonces… que no tienen ningún referente ni real ni imaginario ¿qué significan entonces? No pasa nada. Son solo palabras auxiliares que cobran significado cuando se combinan con otras que sí lo tienen. Por ejemplo, si digo «Tengo un regalo para ti», «regalo» y «ti (tú)» tienen plena referencia y «para» la gana al designar la dirección hacia la que va el regalo (de mí hacia ti).

Vale, pero aquí viene un problema gordo: las palabras no solo refieren a un único referente, sino que pueden cambiarlo en función del contexto. Si yo digo «Fuego», la referencia no tendrá nada que ver si estoy señalando con mi mano un cigarrillo en mi boca,  a si estoy asomándome por la ventana de un edificio en llamas. Esto, que parece trivial, y casi estúpido, representa una ruptura brutal con la teoría referencialista del significado: no existe un lenguaje universal para hablar de toda la realidad, no existe un único modelo lingüístico del mundo, sino que habrá tantos lenguajes como contextos en los que nos encontremos. De hecho, cada comunidad lingüística utilizará unos significados diferentes que no solo se reducirán a nombrar cada objeto con una palabra distinta, sino a diferencias mucho más profundas. Vamos a ver un ejemplo precioso sacado del libro de Jim Jubak La máquina pensante (muy, muy recomendable), en un capítulo que dedica a las ideas del lingüista George Lakoff:

Por ejemplo, el dyirbal, una lengua aborigen de Australia, que Lakoff expone en su libro de 1987 Women, Fire and Dangerous Things, utiliza tan solo cuatro clases para todas las cosas. Cuando un hablante del dyirbal utiliza un nombre, éste debe ir precedido de una de entre las cuatro palabras siguientes: bayi, balan, balam o bala. Robert Dixon, un lingüista antropólogo, registró cuidadosamente los miembros de cada clase del dyirbal. Bayi incluía a hombres, canguros, zarigüeyas, murciélagos, la mayoría de serpientes, la mayoría de peces, algunos pájaros, la mayoría de insectos, la luna, las tormentas, los arco iris, los bumeranes y algunos tipos de lanzas. Balan incluía a las mujeres, las ratas marsupiales, los perros, los ornitorrincos, los equidnas, algunas serpientes, algunos peces, la mayoría de los pájaros, las luciérnagas, los escorpiones, los grillos, el gusano plumado, cualquier cosa relacionada con el agua o el fuego, el sol y las estrellas, los escudos, algunos tipos de lanzas y algunos árboles. Balam incluía todos los frutos comestibles y las plantas que los producen, los tubérculos, los helechos, la miel, los cigarrillos, el vino y los pasteles. Bala incluía partes del cuerpo, la carne, las abejas, el viento, los ñames, algunos tipos de lanzas, la mayoría de los árboles, la hierba, el barro, las piedras, los ruidos y el lenguaje.

Dixon no creía que, simplemente, las clases se agruparan aleatoriamente y que, para aprender a usarlas, había que aprenderse de memoria cada uno de sus miembros. Estudiándolas más profundamente llegó a ciertas directrices de categorización: Bayi estaba compuesto por hombres y animales (lo masculino); balan por mujeres, agua, fuego y lucha; balam  tiene evidente relación con la comida; y bala parecía contener todo lo demás. Pero lo importante es que existían criterios experienciales para categorizar: por ejemplo, los peces eran bayi, por lo que todo lo relacionado con la pesca (lanzas, redes o cualquier aparejo de pesca) era también bayi. De la misma forma, los mitos y las leyendas  también influían en las clasificaciones. Los pájaros, siendo animales, deberían ser bayi, pero eran balan ¿Por qué? Porque según la mitología de los aborígenes australianos del noreste de Queensland, los pájaros son los espíritus de las mujeres muertas. Por el contrario, tres especies de pájaros cantores son hombres míticos, por lo que pasan a la categoría de bayi.

El contexto, las prácticas, costumbres, creencias, etc. de una determinada comunidad lingüística, fijarán (y no para siempre) los significados de un lenguaje. Wittgenstein sostenía que los lenguajes están irreversiblemente ligados a formas de vida.  A mí me gusta decir que tienen historia: cada acontecimiento histórico (no en el sentido político, sino en tanto en que influye significativamente en la vida de los hablantes) creará nuevas narraciones que podrán modificar los significados.

Pero, es más, el lenguaje puede llegar modificar nuestras capacidades cognitivas. En 2006, Diana Deutsch y sus colaboradores realizaron experimentos con hablantes de chino mandarín. El chino mandarín es una lengua tonal, es decir, una lengua en el que las variaciones del tono en que se pronuncian las expresiones cambian mucho su significado. Por ejemplo, la palabra «ma» puede significar palabras tan dispares como «caballo», «madre», «cáñamo» o «regañar» solo cambiando la duración o intensidad del tono. Deustch hizo un estudio comparativo entre estudiantes de conservatorio chinos (que hablaban mandarín) y norteamericanos (tondos angloparlantes de nacimiento) para comprobar cuándo conseguían desarrollar lo que se conoce como oído absoluto: capacidad de identificar notas aisladas (capacidad muy compleja incluso para los músicos profesionales. Todos podemos identificar notas en el contexto de una canción, al compararlas con otras, pero, por ejemplo, escuchar un fa aislado y reconocerlo como tal es muy difícil). Los datos fueron muy concluyentes: por ejemplo, de entre los estudiantes que habían empezado el conservatorio entre los 4 a 5 años de edad, tenían oído absoluto el 60% de los chinos, frente a solo un 14% de los estadounidenses. Hablar una lengua tonal favorece el desarrollo de oído absoluto, o dicho de un modo más general, según el lenguaje que hables desarrollaras más o menos ciertas habilidades cognitivas.

Sin embargo, esto no tiene que llevarnos a lo que, lamentablemente, la postmodernidad hace continuamente: dirigirnos a un relativismo radical (basándose en la hipótesis de Sapir y Whorf), afirmando que la realidad es una construcción lingüística, y como hay muchos lenguajes diferentes, habrá tantas realidades como lenguajes… ¡ufffff! Y es que prescindir de la realidad siempre es harto peligroso (es lo que tanto les gusta hacer a nuestros ilustres políticos). Vamos a ver unos ejemplos, de lo que se han llamado tipos naturales, es decir, de formas de significar que no obedecen a ningún tipo de construcción lingüística.

En sus experimentos [los de Brent Berlin y Paul Kay] mostraban 144 trozos de material pintado a hablantes de lenguas diferentes. Cuando les pedían a los sujetos que señalaran las partes del espectro que nombraba su lengua, las respuestas parecían arbitrarias. Pero cuando se les pedía que señalarán el mejor ejemplo de, pongamos «grue» [green + blue] (el nombre de una combinación de azul y verde), todos identificaban el mismo azul central y no el turquesa. Independientemente de los términos que utilizara una lengua para los colores, todos los seres humanos parecían estar de acuerdo en qué colores eran más azules, más verdes o más rojos.

Eleanor Rosch conoció los resultados de Berlin y Kay cuando estaba en pleno apogeo de su propio estudio sobre el dani, una lengua de Nueva Guinea en la que solo había dos términos para colores: mili para colores oscuros y fríos (incluyendo el negro, el verde y el azul), y mola para colores claros y cálidos (incluyendo el blanco, el rojo y el amarillo). Se trataba de una sociedad que planteaba un increíble desafío a los resultados de Berlin y Kay ¿Podría Rosch duplicar aquellos resultados con nativos de una lengua tan radicalmente pobre?

Reproducir la prueba de Berlin y Kay no fue difícil. Al enfrentar a los hablantes del dani con los 144 trozos coloreados y pedirles que escogieran el mejor ejemplo de mola, eligieron colores focales, bien el rojo central, el blanco ventral o el amarillo central. Ninguno eligió una mezcla de los tres.

Es más, Rosch fue más allá y realizó un nuevo experimento. Enseñó a un grupo de danis los nombres de ocho colores centrales (elegidos aleatoriamente) y a otro, otros ocho colores no centrales. Con total claridad, el grupo que aprendió los colores centrales lo hizo más rápidamente y recordaba mejor los nombres. Los resultados son evidentes: no todo es una construcción lingüística ya que hay una realidad preexistente que conocemos antes de, ni siquiera, saber o poder nombrarla. Y, por tanto, la construcción de un lenguaje no es algo totalmente convencional o arbitrario, sino que la realidad (o nuestra estructura o forma cognitiva de conocerla) interviene decisivamente.

Como vemos, la semántica es un tema mucho más complejo de lo que a priori podría imaginarse. En la comprensión de un lenguaje influyen aspectos de, prácticamente, todas las esferas de ámbito humano: la realidad, la situación contextual, las costumbres y las creencias, las prácticas sociales, las experiencias vitales, la biología de nuestros sistemas perceptivos, cognitivos e, incluso, de nuestros aparatos fonadores… todos influyen de diversas maneras en que comprendamos el significado de cualquier expresión de un lenguaje.

Definir consiste en delimitar, en predicar una serie de descripciones de un objeto que lo hagan diferente de cualquier otro. Por ejemplo, la RAE define silla como un «Asiento con respaldo, por lo general con cuatro patas, y en que solo cabe una persona». Lo que se busca con cualquier definición es que, cuando nos encontremos con el objeto en cuestión, sepamos identificarlo al diferenciarlo de todo lo demás. Así, la RAE pretende distinguir una silla de un sofá o de una mesa. Sin embargo, el problema de toda definición estriba en sus fronteras: ¿hay objetos que no serían sillas y que entrarían dentro de nuestra definición? La definición dice que en una silla solo cabe una persona pero, ¿una persona obesa que no cabe en nuestra silla del salón nos impediría seguir refiriéndonos a ella como silla? O quizá en ella caben dos o más bebés… ¿cuál es la medida exacta de una silla para que en ella solo quepa una persona teniendo en cuenta que las personas varían de tamaño?  O, contando con otra variable, ¿dónde estaría el límite que diferenciaría una silla de un sillón? La RAE define sillón como  «Silla de brazos, mayor y más cómoda que la ordinaria», pero todos sabemos que existen sillas muy cómodas y sillones bastante incómodos, o sillas bastante grandes y sillones pequeños… de nuevo, ¿dónde está el límite que nos permitiera una definición que delimite eficazmente?

famosa-eames-chair-miniatura-L-G7JF8x

¿Una silla en miniatura seguiría siendo una silla sin que en ella pueda sentarse ningún individuo?

En general, definir es bastante complejo ya que siempre encontraremos esos casos fronterizos, esos objetos que no encajan bien ni dentro ni fuera de nuestra definición. Es lo que pasa con conceptos tan importantes como el de educación (¿todo aprendizaje es educación?), inteligencia (¿es inteligencia la habilidad deportiva o la capacidad de empatía?) o, del que nos vamos a ocupar, el de vida en el sentido biológico. El biólogo Radu Popa hizo un largo estudio publicado en 2004 en el que recogió más de un centenar de definiciones diferentes de vida por parte de multitud de autores interesados en la cuestión. Debería parecernos muy chocante que en una disciplina científica no exista un acuerdo claro entre, al menos, el objeto de su campo de estudio, pero así pasa también en muchas otras (pregunten a un matemático que defina matemáticas o a un físico que defina qué es el universo). Pues, bien, además, de toda ésta amplia variedad de definiciones de vida, ninguna sirve para acotar con absoluta claridad el mundo de lo vivo. Según nos cuenta Antonio Diéguez en su magistral La vida bajo escrutinio, la mayorá de las definiciones tienen en común dos condiciones mínimas esenciales:

1. La capacidad de autorreplicación.

2. La evolución abierta.

El problema es que con solo estas dos clausulas se nos cuelan dentro de la definición un montón de entidades que los biólogos no aceptarían como vivas (moléculas de ADN o ARN sueltas, virus informáticos y cualquier programa de vida artificial…) y dejamos fuera otras entidades tradicionalmente vivas (los híbridos estériles, ciertos insectos sociales que no dejan descendencia o quizá ciertos seres vivos en las fases iniciales de la vida, que no tenían un claro sistema de autorreplicación que permitiera una evolución propiamente darwiniana). La solución consiste en ir añadiendo y perfilando más condiciones: está la famosa definición de vida de Maturana y Varela (apoyada también por Margulis), que hace referencia a la capacidad autopoietica de los seres vivos (capacidad de reconstruirse a sí mismos para mantenerse como una estructura estable); o el desequilibrio termodinámico de Scrhödinger y las estructuras disipativas de Prigogine: un ser vivo será aquel organismo que siempre se encuentra en desequilibrio termoquímico diminuyendo localmente la entropía (estas definiciones insistirían en la idea de metabolismo: intercambiar materia y energía con el entorno). Otros han denunciado que este tipo de definiciones son demasiado formalistas y que no tienen en cuenta el sustrato material de la vida, quizá requisito indispensable para que se de ésta: la química del carbono. Sin embargo, estas posturas «materalistas» caen en lo que se ha llamado «chauvinismo del carbono», al negar a priori la posibilidad de seres vivos con otro tipo de química diferente (como la del silicio).

El caso es que a pesar de todos estos loables intentos, todavía no tenemos ninguna definición absolutamente válida que marque un criterio de demarcación infranqueable. Antonio Diéguez nos propone la definición hecha por K. Ruiz-Mirazo, J. Peretó y A. Moreno como una de las más elegantes. Un ser vivo ha de cumplir las siguientes claúsulas:

1. Un límite activo semipermeable (membrana).

2. Un aparato de transducción / conversión de energía.

3. Dos tipos al menos de componentes macromoleculares interdependientes, uno capaz de catalizar los procesos de autoconstrucción y otro capaz de almacenar y transmitir la información necesaria para desempeñar estos procesos.

Como vemos, en ella quedan resumidos elementos formales, materiales y autoorganizativos de un modo sencillo. No obstante, estoy seguro, que con un tiempo de reflexión y de búsqueda, podríamos encontrar algún contraejemplo o fisura en la definición. Además, yo le criticaría que las condiciones parecen aisladas. Una definición elegante no debería ser solo una yuxtaposición de propiedades.

Pero, y este es el tema central de esta entrada en el blog, creo que carecer de tan precisa definición no tiene demasiada importancia o, al menos, no tanta como para desesperar y concluir que el asunto es un imposible, o para defender, como muchos han sonstenido, que la biología no tiene nada que decir al respecto (¡la biología no define la vida biológica!). Y es que, como dijimos antes, gran parte de los conceptos importantes para muchas ciencias tampoco tienen una definición absolutamente precisa sin que esto tenga graves consecuencias. Pusimos el ejemplo del concepto de educación. No sabemos con precisión de cirujano qué es educar, pero esto no quita para que en los centros de enseñanza se eduque o para que los padres eduquen a sus hijos. Del mismo modo, con respecto a la vida, no tener la definición superprecisa no implica que los biólogos no puedan hacer su trabajo con total normalidad ni, con respecto a lo que debería ser la utilidad de toda definición, identificar con claridad un objeto. Con las definiciones actuales podemos identificar a la inmensa mayoría de los seres vivos y solo tenemos problemas en determinados casos fronterizos. Por ejemplo, suele citarse el caso de los virus como ejemplo paradigmático. Muchos de ellos son solo una cápsula de proteinas en la que flotan fragmentos de ARN. Un virus puede estar una infinidad de tiempo sin hacer absolutamente nada y, cuando lo hace, siempre necesita un hospedador para que haga todo por él. Así, no metaboliza ni tiene herramientas de replicación propias… ni siquiera trabaja para mantener su estructura autopoietica de forma autónoma. ¿Es, entonces, un ser vivo? No podríamos decirlo, pero eso no implica que no podamos estudiarlo ni que podamos ver que tiene estrechas relaciones con lo vivo. Los virus no suponen problema alguno a la investigación científica por el hecho de no poder catalogarlos bien.

Schmallenberg-bacteria+virus+-+cerise

Otro ejemplo: la propiedad «ser alto» es imposible de delimitar. Podemos, sin duda alguna, afirmar que un hombre que mide 1,97 metros es alto y que un hombre que mide 1,54 no lo es. Sin embargo, si ponderamos que la media de altura del hombre occidental está en 1,75 metros, ¿un hombre de uno 1,749 no será alto mientras que uno de 1,751 sí? Suele decirse que el conjunto de todos los hombres altos es un conjunto borroso, un conjunto que tiene límites en donde hay elementos que no se sabe si entran o no en dicho conjunto. Con el conjunto de todos los seres vivos pasa exactamente lo mismo, pero esto no implica para nada que tener un conjunto así no sea algo válido y útil. Al igual que podemos identificar a los altos que miden 1,97 metros, podemos identificar a los seres plenamente vivos.

No poder definir con precisión no debe ser nunca un obstáculo que paralice la investigación, porque la única finalidad que una definición debería tener es la de ser operativa, funcional, es decir, que permita seguir investigando. Una definición no debería pretender ser más que eso: una etiqueta funcional. Yo estoy completamente seguro que, conforme avance la biología, encontraremos nuevas cualidades de lo vivo que podrán servir de nuevas claúsulas restrictivas que vayan precisando cada vez más nuestra definición. Y, precisamente, descubrir esas nuevas cláusulas será lo valioso, porque cada una de ellas constituirá una nueva perspectiva antes ignorada. Cuando Schrodingër publicó su obra ¿Qué es la vida? intorodujo la física en la biología con su definición de vida como desequilibrio termoquímico. Es una definición muy incompleta, pero eso no quita ni un ápice a lo valioso de su aportación, la cual fue una total revolución en este campo de estudio.

Parece ser muy común en todos los hombres de genio, pasar por épocas de sequía intelectual, épocas aterradoras en las que se piensa que uno ha perdido su don más preciado, su capacidad de crear grandes obras. Evidentemente, si un genio pierde su genio, no le queda nada. Es por ello que esas rachas de esterilidad son especialmente temidas y, cada genio, ha intentado sortearlas de los mas diversos modos, recurriendo a incluso a soluciones impropias de hombres dotados de tal genio (quizá porque, precisamente en esos momentos, no eran genios). Wittgenstein no era una excepción, tal y como nos cuenta Ray Monk a partir del diario de David Pinsent:

Wittgenstein dio en pensar que lo que necesitaba no era diversión, sino mayores poderes de concentración. A este fin estaba dispuesto a probarlo todo, incluso la hipnosis, y se hizo mesmerizar por un tal doctor Rogers. «La idea es ésta», escribe Pinsent en su diario: «es verdad, creo que las personas son capaces de un esfuerzo muscular extraordinario cuanto están en trance hipnótico: ¿entonces por qué no también un esfuerzo mental extraordinario?»

De modo que cuando esté en trance, Rogers le hará ciertas preguntas acerca de puntos de lógica que Wittgenstein todavía no tiene claros (ciertas dudas que todavía no ha conseguido aclarar), y Witt espera ser capaz de verlas claramente. ¡Parece tan descabellado! Witt ha ido dos veces a que lo hipnotizaran, pero solo al final de la segunda entrevista Rogers consiguió dormirlo; cuando lo hizo, sin embargo, lo hizo tan profundamente que tardó media hora en volver a despertarlo completamente. Witt dice que estuvo consciente todo el tiempo – podía oír hablar a Rogers -, pero absolutamente sin voluntad ni fuerza: no podía comprender lo que le decían, no podía hacer ningún esfuerzo muscular, se sentía exactamente como si estuviera anestesiado. Estuvo amodorrado durante una hora después de dejar a Rogers. En conjunto es un asunto maravilloso.

Como no podía ser de otra manera, la hipnosis no fue muy útil al austriaco, quizá nada más que para ahondar en la desesperación ante su vacío mental (que, afortunadamente, fue solo temporal). Y es que la hipnosis no ha demostrado tener utilidad alguna, bordeando siempre ser una práctica pseudocientífica. Ya el mismo Freud, abandonó esta técnica dudando de sus propiedades terapéuticas (y mira que el psicoanálisis, en general, tampoco ha demostrado curar demasiado a nadie). No obstante, como concluye Pinsent, en conjunto, un asunto maravilloso.

ARTE CANINO

En su famoso ensayo El anillo del rey Salomón, Konrad Lorenz distingue entre tres niveles de lenguaje.  Por un lado está el lenguaje simbólico, propio de los humanos, que se distingue por su versatilidad, riqueza y complejidad.

Animales como la mayoría de las aves tienen un lenguaje que, únicamente, se limita a las interjecciones. Emiten sonidos que expresan determinados estados de ánimo sin ningún tipo de intencionalidad consciente de influir en la conducta de otros. Cuando perciben la llegada de un enemigo, emiten un determinado sonido que, al ser oído por otros miembros de su misma especie, les incita a a la huida. El fin evolutivo es evidente, pero el pájaro no lo hace con esa intención, pues sabemos que emite ese mismo sonido incluso si está solo, sin ningún congénere cerca que pueda escucharlo. El ave tiene la emisión de esos sonidos marcada de modo innato en su ADN. No puede no emitirlos. Nosotros mantenemos aún algunas conductas similares aunque ya muy reducidas. Por ejemplo, cuando sentimos dolor y gritamos lo hacemos mecánicamente, aunque nadie pudiese escucharnos.

Después están animales sociales como los perros. No tienen un lenguaje simbólico como el nuestro pero son capaces de comunicarse intencionadamente. ¿Cómo conseguirías comunicarte si no pudieras hablar ni entender lo que los demás te dicen? Siendo un especialista en gestos, en detectar toda información no lingüística que seas capaz de captar en tu interlocutor. Lorenz nos cuenta multitud de ejemplos en los que perros muestran habilidades casi «telepáticas» a la hora de interpretar los estados de ánimo de su dueño. Seguramente, los perros son muy sensibles al más mínimo gesto que delate nuestro estado emocional. Según Lorenz, esta habilidad de los canes es  muy superior a la de los humanos. Los perros son más intuitivos y más empáticos que nosotros.

Así, mi perra pastor «Tito», tatarabuela del perro que hoy tengo, conocía exactamente, y por medios que podemos calificar de «telepáticos», si la presencia de una persona me atacaba los nervios. Cuando ocurría ésto, nada podía evitar que le mordiera por detrás, con suavidad, pero con decisión. Era especialmente peligrosa para las personas ancianas y de autoridad, que en sus discusiones conmigo adoptaban la clásica actitud de «por lo demás, tú eres muy joven»: si un extraño se expresaba de este modo, pronto dirigía la mano, asustado, hacia el lugar donde había percibido puntualmente el castigo de «Tito». No me pude explicar nunca cómo se producía esta reacción, manifiesta incluso cuando la perra estaba bajo la mesa y, por tanto, no podía ver las caras ni los gestos de los interlocutores. ¿Cómo sabía, pues, quién era el que me hacía la contra?

Lo interesante del planteamiento de Lorenz es que en los seres humanos, cuando llegó el lenguaje simbólico, al ser mucho más eficaz en términos de polivalencia y riqueza comunicativa, nuestra facultad de detección de  intenciones y emociones ajenas fue utilizándose menos, perdió su función evolutiva y, a la postre, se atrofió. Y esto es una muestra más del funcionamiento de la evolución natural. A todos nos parecería maravilloso tener la capacidad empática del perro. Sería una cualidad muy útil para desenvolvernos socialmente (de hecho, las personas que, a nivel humano, la tienen alta, son sujetos con grandes habilidades sociales). ¿Por qué no unir nuestra capacidad lingüística con esa intuición empática que ya tuvimos en nuestra época de mamíferos primitivos? Porque la evolución no funciona así, no produce seres más perfectos, sino seres más eficientes en términos adaptativos. Quizá mantener ambas facultades a la par era muy costoso, viendo que simplemente con el lenguaje simbólico nos iba bastante bien. Como ya mostramos aquí, la evolución ha dejado en el camino estupendas adaptaciones, sencillamente, porque no eran útiles en un determinado contexto.

Otra idea interesante que puede sacarse de aquí, es investigar la correlación que pueda existir entre competencia lingüística y capacidad empática (ignoro si se ha hecho ya). Podría darse el caso en que individuos con mucha habilidad para detectar estados de ánimo ajenos tuvieran una menor habilidad para el lenguaje y viceversa. Es posible que la plasticidad cerebral supliera unas facultades con otras siguiendo este patrón.

Y una última idea, quizá la más importante, consiste en que, viendo el uso que los animales han dado a sus diversas formas de lenguaje, la función esencial para la que fue diseñado sea, sencillamente, influir en la conducta de los otros. Otras funciones (descriptiva, argumentativa, poética, fática, etc.) podrían, solo ser, epifenómenos o efectos colaterales de la primera. También podrían ser distintos modos de, en el fondo, conseguir influir en la conducta del otro.

Quiero hacer una gran fiesta en mi casa y para ello cuento con la inestimable ayuda de mi robot doméstico DOMOT 9000. Necesito que mi fiesta acabe por ser una especie de gran orgía, por lo que cuando le mando a DOMOT que haga la lista de invitados, le incluyo el requisito de que invite únicamente a mis amigos que sean solteros. Entonces recurre a su base de datos y manda invitaciones a mis amigos solteros de la siguiente manera:

Arturo ha vivido feliz con Alicia durante los últimos cinco años. Tienen una hija de dos años llamada Mónica y nunca se han casado ni por lo civil ni por la Iglesia. Enviar invitación a Arturo, a Alicia y a Mónica.

Wilson es un inmigrante colombiano sin papeles que decidió casarse con mi amiga Bárbara para librarse de ser deportado. De todas formas, nunca han vivido juntos. Han tenido numerosas parejas y proyectan anular su matrimonio tan pronto como encuentre a alguien con quien quieran casarse. NO enviar invitación a Wilson ni a Bárbara.

Rebeca es mi entrañable vecina, una mujer de noventa y cinco años que nunca ha conocido varón y vive junto con seis gatos. Enviar invitación a Rebeca.

Julia y Luis son hermanos y tienen quince años, viven en casa de sus padres y cursan segundo de la ESO. Enviar invitación a Julia y a Luis.

David tiene diecisiete años. Se marchó de casa a los trece, y abrió un pequeño negocio. En la actualidad es un empresario de éxito que vive como un playboy en su dúplex. Enviar invitación a David.

Lorena una ferviente católica profesora de religión. Ha decidido llegar virgen al matrimonio y es muy firme siguiendo sus convicciones y compromisos religiosos. Enviar invitación a Lorena.

Marta y Elisa son una pareja de homosexuales que viven juntas desde hace muchos años. Enviar invitación a Marta y a Elisa.

Andrea es una joven de veinticinco años sin pareja muy atractiva y muy promiscua. La conozco de sólo hace unos días y me cae muy bien. No podría decir que es mi amiga aunque si la conociera más estoy seguro de que acabaríamos por ser grandes amigos. NO enviar invitación a Andrea.

A Faisal, la ley de su país natal, Abu Dabi, le concede la posibilidad de tener tres esposas. En la actualidad tiene dos y está interesado en conocer a otra potencial consorte. NO enviar invitación a Faisal.

Jaime y Lucía son actores porno. Llevan casados desde los veinte años y llevan una relación de lo más liberal, estando abiertos a relacionarse sexualmente con mucha más gente. NO enviar invitación a Jaime y a Lucía.

El padre Matías es sacerdote de la Iglesia católica. Enviar invitación al padre Matías.

Eva aún no ha nacido. Es un embrión de trece días. ¿Envíar invitación a Eva? ERROR, ERROR… Entonces DOMOT 9000 se queda colgado.

(Lista basada en una elaborada por Terry Winograd)

En fin, confiando en mi robot, me pongo mis mejores galas y espero a que vengan mis invitados con la esperanza de celebrar la fiesta sexual más salvaje de los últimos tiempos. Para mi desagradable sorpresa me encuentro con una pareja con una hija, una anciana, tres menores de edad, una  mojigata profesora de religión, dos lesbianas muy enamoradas y un cura. Por contra, mis amigos más promiscuos no han sido invitados: Wilson, Bárbara, Andrea, Faisal, Jaime y Lucía. Tras unas aburridísimas dos horas y después de intentar, sin éxito, ligarme a la catequista (la cual terminó por darme un bofetón), la gente se fue de mi casa con cara de pocos amigos. ¡Jamás volveré a confiar en DOMOT 9000!

¿Qué ha ocurrido? ¿Por qué el robot siguió tan mal mis instrucciones? Es que nuestro robot seguía de modo literal una teoría referencialista del lenguaje. En ella cada concepto se refiere a una extensión de objetos que comparten una característica común, ignorando cualquier otro elemento. La palabra «soltero» tiene de extensión todos aquellos individuos no casados  por la Iglesia o por lo civil, de modo que menores de edad, ancianos, curas, etc. entrarían dentro de su dominio. Su error a la hora de organizar la fiesta es una prueba de que la teoría referencialista del lenguaje defendida por los autores del Círculo de Viena siguiendo el Tractatus de Wittgenstein no se adecua perfectamente a lo que realmente es el lenguaje. Para comunicarnos lingüísticamente entran en juego un montón de elementos que van más allá de las meras definiciones (muchos de ellos incluso extralingüísticos: gestos, entonaciones, conocimiento de intenciones, etc.). En este caso entra lo que podemos denominar genéricamente como contexto o, dicho de otro modo, lo que llamaríamos sentido común. A DOMOT 9000 le faltaba información previa, a saber, que además de amigos solteros, yo necesitaba que estuvieran sexualmente disponibles. Le faltaba algo que al ser humano más estúpido no le falta: leer un poquito entre líneas.

Es por esto que la filosofía analítica acabó dando un giro hacia teorías pragmatistas del lenguaje, es decir, teorías que tuvieran en cuenta todos los factores que la praxis del lenguaje ordinario sí tenía en cuenta. Del mismo modo, desde las ciencias de la computación, se construyeron sistemas basados en conocimiento o sensibles al contexto intentando, todavía con poco éxito, emular algo paradójicamente tan complejo como el sentido común humano.

HAL, quiero que seas capaz de reconocer las letras del vocabulario mediante tus sensores visuales. Empecemos por la «a». Voy a darte un patrón para que reconozcas los diferentes tipos de aes que puedas encontrarte.

De acuerdo Dave. Introduce el patrón.

Su forma se asemeja a un triángulo.

ERROR. La «a» minúscula suele ser redondeada.

Tiene un hueco aproximadamente en el centro.

ERROR. Por ejemplo, en la imagen de arriba, la tercera y la cuarta «a» de la última fila no tienen huecos en el centro. O la última de todas, que es un hueco toda ella, siendo el relleno su fondo.

Una línea horizontal cruza otras dos líneas aproximadamente verticales.

ERROR. La «a» minúscula no tiene línea horizontal. Igualmente, hay un montón de ejemplos de aes sin línea horizontal en la imagen.

¿Cómo es posible? ¿Cómo puede ser que ya desde niños seamos capaces de identificar todo el abecedario sin dificultad alguna, pero que reconocer simplemente la letra «a» sea uno de los  grandes desafíos de la inteligencia artificial? La respuesta es que estamos muy acostumbrados a pensar con ideas claras y distintas tal como nos enseñó Descartes. Queremos un patrón único que defina límpiamente la letra «a», de modo que el computador la identifique de un modo fácil y 100% seguro.  Queremos algo así como la esencia de la «a». Pedimos demasiado. Seguramente la forma en la que el ser humano identifica letras es mucho menos precisa, más desordenada y funciona por vagas aproximaciones  y tentativas. ¿Por qué en vez de utilizar una única condición y lógica bivalente, utilizamos más condiciones y en diferentes proporciones? ¿Qué tal si probáramos algo así?:

HAL, sigue estos patrones:

Si su forma se asemeja a un triángulo suma un 60% de probabilidades de estar ante una «a», si no resta 30%

Si tiene un hueco aproximadamente en el centro suma un 20% de probabilidades, si no resta 40%

Si tiene una línea horizontal curzando otras dos líneas aproximadamente verticales suma otro 50%, si no resta 30%

Si tiene un rabillo al final suma un 30% si no resta un 5%

Incluso podemos intruducir datos contextuales:

Si está entre dos consonantes hay un 90% de que sea vocal.

Si es vocal habrá un 20% de que sea una «a».

HAL se equivocaría muchas veces (con toda certeza que muchas, ya que los percentiles los he puesto más o menos a bote pronto), pero podríamos ir refinando las condiciones en función de sus aciertos. Sabemos que el cerebro procesa mucha cantidad de información en paralelo y, seguramente, que mucha de esa información será parcial y contradictoria, de modo que, al final, las decisiones sean probabilísticas y, muchas veces, equívocas. ¿No es así como actuamos nosotros en nuestra vida cotidiana? Ya sabemos que nuestro cerebro es un kludge. Pues en esta línea apuntan las investigaciones en visión artificial de las últimas décadas, y quizá sea la forma de afrontar muchos otros problemas dentro de la AI. Señores, si queremos imitar al hombre no hay que construir máquinas perfectas, sino chapuzas que, de modo casi inexplicable, funcionen muy bien.