John Searle | La Máquina de Von Neumann

Posts etiquetados ‘John Searle’

Cuando la IA olvidó la materia

Publicado: 15 May 2023 en Ciencias de la computación, Filosofía de la mente, Neurociencias
Etiquetas:biologicismo, Computacionalismo, independencia de sustrato, inteligencia artificial, John Searle, realizabilidad múltiple

blkmndy-the-philosopher-john-searle-black-and-white-comic-style-462020923

El enfoque computacionalista de la mente que domina el argumentario que hay detrás de los entusiastas proyectos de IA actuales se sostiene en dos tesis emparejadas: el funcionalismo (un estado mental se define exclusivamente por su rol funcional en una cadena causal) y la independencia de sustrato o realizabilidad múltiple (el mismo estado funcional se puede implementar en una indefinida cantidad de sustratos materiales). Si mi mente es un programa de ordenador, equivalente a una máquina de Turing, puedo implementar máquinas de Turing en diferentes estructuras materiales. Así, el cerebro es el sustrato de mi mente, pero los circuitos de silicio también pueden ser un sustrato adecuado. Ya hemos construido hace muchos años máquinas universales de Turing allí. Si mi mente solo es una implementación de una máquina de Turing particular, no debería haber demasiados problemas en implementarla en un computador.

Mal, todo muy mal. Diseñar un programa que simule el funcionamiento de una polea que saca agua de un pozo es bastante trivial. Aplicando fórmulas de física muy básicas puedo hacer un modelo que me diga la longitud y resistencia de la cuerda que voy a utilizar, las dimensiones del cubo en función del agua que pretendo sacar, el radio del cuerpo de la polea, o la fuerza necesaria para sacar el cubo a una determinada velocidad. Una simulación de una polea puede ser una herramienta increíblemente útil, maravilla de la informática moderna. Ahora bien, ¿puedo usar únicamente el programa para yo, sentado comodamente delante del ordenador en mi casa, obtener agua? Vaya pregunta estúpida: obviamente no. El programa te sirve para hacer los cálculos, para organizarlo todo, pero necesitarás una cuerda, un cubo y un polea de verdad para sacar agua de verdad. ¿Muy obvio no? Pues no lo parece en absoluto para los ingenieros de IA.

No puedo entender cómo para construir cualquier ingenio tecnológico es tan importante la construcción material, pero para crear una mente similar a la humana resulta que no. Para fabricar un automóvil, un avión, una lavadora, un smartphone… son cruciales las propiedades de los materiales que van a utilizarse. Se miran propiedades como la conductividad, expansión térmica, calor específico, resistencia a la oxidación o a otros ácidos, interacción con otras sustancias, permeabilidad magnética, respuesta a ondas electromagnéticas (refracción, reflexión, absorción o dispersión), densidad, dureza, elasticidad, plasticidad, ductibilidad, maleabilidad, tenacidad, exfoliación, etc. Pues vaya, resulta que a la mente humana no le afectan absolutamente nada ninguna de estas propiedades, las cuales, sin embargo, afectan a todo objeto material conocido del universo. Y es que la teoría computacionalista lleva emparejada un cierto componente dualista imperdonable.

Si yo quiero construir una mente, tendré que fijarme en las cualidades que tienen las mentes: consciencia, inteligencia, imaginación, memoria, creencias, emociones, deseos, etc. y lo suyo hubiese sido empezar por ver qué materiales pueden causar tales cualidades, al igual que un albañil busca ladrillos y cemento antes de construir una casa. Sin embargo, el camino se tornó diferente. Los ordenadores demostraron que una de las cualidades más notorias de la mente, la inteligencia, era posible mediante dispositivos puramente computacionales. Mi ordenador no simula cálculos, los realiza de verdad. Los espectaculares logros de los actuales grandes modelos de lenguaje, aunque no exentos de controversia con respecto a sus capacidades, hacen que sea innegable atribuirles un alto grado, al menos, de conducta inteligente. Sin embargo, el gravísimo error está en presuponer que como hemos conseguido recrear conducta inteligente, los demás aspectos de la mente serán recreables, igualmente, únicamente utilizando mecanismos computacionales. Entonces llegan los silencios vergonzantes: ¿Cómo implemento una sensación de dolor en Python? ¿Puedo hacer que mis seis mil líneas de código en Java tengan un orgasmo? ¿Cómo hago que mi programa de ajedrez desee de verdad ganarme y se enfade cuando cometa un error estúpido? No, los programas no se ponen nerviosos, no se deprimen, no sienten envidia ni vergüenza, no disfrutan escuchando música, no les gusta la cerveza… ¡No tienen todo lo que cualquier psicólogo llamaría una vida psíquica! Adolecen por completo de lo que a la mayoría de la gente le parecerían las notas esenciales de una mente.

¿Eso quiere decir que sólo los cerebros son capaces de generar mentes completas? No. Pero si queremos generar una mente similar a la humana necesitaremos configuraciones materiales con los mismos poderes causales que los cerebros ¿Y no será esto caer en el chauvinismo del carbono? ¿No será esto caer en un antropocentrismo cateto y corto de miras que nos impide ver mentes en las máquinas al no estar hechas a nuestra imagen y semejanza? No. No sabemos si únicamente con la química del carbono podemos generar mentes, pero lo único que sabemos es que en la naturaleza así ha ocurrido. Que sepamos, la mente se ha dado originariamente en organismos biológicos. Si alguien dice ahora que la mente puede darse en artefactos no biológicos, la carga de la prueba la tiene él. Y aquí es donde se falla: de momento solo hemos conseguido inteligencia, sin haber llegado a los demás aspectos de la mente. La actual química del silicio no ha sido capaz hasta la fecha de generar mentes similares a las humanas. Abrir el concepto de pensamiento y de mente, y sostener que las máquinas tienen mentes y piensan es abrir demasiado, teniendo en cuenta las diferencias abismales entre ambas cosas. Recuerdo que en una serie de conferencias que moderé, para contentar a algunos críticos entre el público, propuse chistosamente utilizar la palabra «kensar» para referirme a lo que hacen las máquinas: las computadoras no piensan, «kensan», que es otro tipo de «conducta cognitiva».

Para entender todo esto me parece muy útil la distinción aristotélica entre materia y forma. Cualquier objeto o proceso del universo tiene una estructura formal (eso es lo que simulamos en el ordenador), pero también tiene una base material, y ambas son inseparables, de modo que las potencialidades que se encuentran en la base material determinarán las configuraciones formales posibles. Fue posible esculpir el David de Miguel Ángel en un bloque de mármol, pero habría sido imposible hacerlo con cuarzo, carbón o zirconio. Entonces, si queremos construir mentes solo nos queda un camino: avanzar muchísimo más en neurociencia para entender los mecanismos causales del cerebro (Todavía, por mucho que nos vendan la moto, no tenemos ni pajolera idea de cómo funciona el cerebro. Los disparos eléctricos en los axones neuronales y los jueguecitos químicos en las sinapsis son solo una pequeñísima parte de la historia. No pensemos, ni de lejos, que eso es todo lo que hay). Una vez que entendamos mejor esos procesos habrá que encontrar las estructuras materiales que tengan sus mismos poderes causales y entonces, y solo entonces, podernos tener mentes artificiales.

Esta entrada no es más que un parafraseo de las ideas sobre IA de John Searle. Si quieres profundizar más, tienes que ir al clásico «Minds, Brains and Programs» de 1980; o si quieres aún más, te recomiendo los libros El redescubrimiento de la mente o El misterio de la consciencia. Además, una de las grandes virtudes de Searle es lo bien que escribe y lo fácil que es de entender, cosa tristemente rara en el gremio filosófico.

Unas notas de filosofía computacional

Publicado: 23 diciembre 2022 en Ciencias de la computación, Filosofía de la mente
Etiquetas:Allen Newell, ChatGTP, Gary Marcus, Guillermo de Ockham, Herbert Simon, John Searle, Judea Pearl, Máquina de Turing

Allen Newell y Herbert Simon definieron computadora como un «manipulador simbólico», es decir, como un dispositivo en el que entran unos determinados símbolos que son «manipulados» para obtener unos determinados resultados (que serán nuevos «símbolos»).
«Manipular» es un verbo de un significado tremendamente vago para hablar de lo que una computadora hace con los símbolos, ya que significa, prácticamente, hacer cualquier cosa con algo. Aunque me parece interesante que Newell y Simon no dijeran directamente que la computadora realiza computaciones, es decir, cálculos, con los símbolos, dando a entender que una computadora pretende ser más que una mera máquina de cálculos aritméticos.
«Símbolo» es un término aún más complicado que el anterior, dando lugar a toda una rama de la lingüística a la que denominamos semiótica. Lo definiré de la forma más prosaica que he encontrado en la historia de la filosofía: símbolo es aquello que es capaz de estar en el lugar de otra cosa. Así, cuando yo veo la palabra «perro» escrita en un libro, en mi cerebro recreo la imagen de un perro sin la necesidad de tener un perro delante. La palabra «perro» como símbolo es capaz de ponerse en el lugar de un perro real (Esto no es más que la teoría de la supossitio de Guillermo de Ockham).
¿Qué «símbolos» manipula una computadora? Si nos vamos al nivel más bajo posible, al nivel más pequeño del hardware encontramos que las computadoras codifican («simbolizan») la información en bits utilizando flujos de corriente eléctrica. Una corriente de, aproximadamente, cinco voltios se va a simbolizar con un «1» y una corriente nula o con muy poquito voltaje se simbolizará con un «0». Nótese que aquí se da una traducción que, como tal, es una falsificación: se pasa de una corriente continua a una clasificación discreta. Digitalizar consiste precisamente en hacer eso, en interpretar lo continuo como si fuera discreto, falsear lo continuo. Ahora, siguiendo a Ockham, en vez de un flujo de voltaje tengo un «1».
Importante ver que la relación entre el símbolo y su referencia no es del todo arbitraria, al contrario que lo que ocurre en nuestro lenguajes ordinarios. La palabra «perro» no se parece en nada a un perro real, pero, a pesar de que un flujo de electrones a un determinado voltaje no se parece en nada a un «1», la dualidad voltaje/no-voltaje tiene similitud con la dualidad 1/0, que pretende significar presencia o ausencia total. Habría, en mucho sentido, no una relación simbólica, sino una relación icónica entre las corrientes eléctricas y la paridad binaria. Esto vuelve más borrosa, si cabe, la distinción entre software y hardware.
Téngase cuidado y piénsese que a nivel ontológico solo siguen existiendo los flujos eléctricos. Los ceros y los unos no existen en ningún lugar del computador más que en la mente del ingeniero. Siguiendo, de nuevo, a Ockham, no multipliquemos los entes sin necesidad. Creo que es muy recomendable intentar atenerse a una ontología materialista sensu stricto cuando se analizan las computadoras porque en este contexto surgen muchos espejismos ontológicos.
Una fantasía muy evocadora consiste en pensar que si pudiésemos conseguir crear un ordenador con una memoria continua en vez de discreta, tendríamos una memoria infinita, ya que algo continuo es infinitamente divisible de forma que siempre podríamos dividirlo otra vez para crear un nuevo espacio de memoria.
Tenemos entonces los símbolos primitivos, los átomos de la computadora ¿Qué tipo de «manipulaciones» hace con ellos el ordenador? Para hacerlo más fácil, pensemos en la versión simplificada par excellence de un ordenador: una máquina de Turing. Ésta solo hace cinco cosas: lee, escribe, borra, mueve la cinta a la derecha o mueve la cinta a la izquierda. Si nos ponemos exquisitos, una máquina de Turing solo cambia cosas de sitio (Véase que la instrucción Mov era una de las esenciales del lenguaje ensamblador). Y esto es lo verdaderamente alucinante: solo cambiando cosas de sitio conseguimos llegar hacer ingenios como ChatGTP o AlphaFold.
Además, como lenguaje solo necesitamos dos tipos de símbolos (0 y 1), ya que podemos traducir todos los números y las letras, es decir, todo símbolo imaginable, a código binario. No hay nada que pueda hacerse con un conjunto de símbolos cualesquiera (pongamos el alfabeto chino) y que no pueda hacerse con código binario. Todo código es bi-reductible.
Por eso, para fabricar un computador, lo único que necesitamos es encontrar, o fabricar, elementos biestables (flip-flop), es decir, cosas que puedan mantenerse de forma razonablemente estable en uno de dos estados posibles.
Recapitulando: solo necesitamos un mecanismo capaz cambiar dos tipos de cosas de sitio para llegar hacer ingenios como ChatGPT o AlhaFold. Es completamente increíble el poder generativo de algo tan sencillo.
En 2007 saltó la noticia de que la máquina de Turing (2,3) era universal, es decir, de que una máquina de Turing de dos estados y tres colores era capaz de realizar cualquier cálculo imaginable. Un chaval de veinte añitos, un tal Alex Smith, había sido el diseñador de la máquina (si bien todavía el asunto es controvertido y, hasta donde yo sé, no ha sido aclarado aún). Adjunto la tesis doctoral de Turlough Neary y un artículo de Yurii Rogozhin por si alguien quiere profundizar en las máquinas de Turing mínimas.
Pero esto nos debe hacer desconfiar de las explicaciones reduccionistas. Reducir lo que es un ordenador a su mínima expresión puede tener cierto valor explicativo pero no es, para nada, toda la historia. Intentar explicar todo lo que es un programa como Windows por ejemplo, únicamente apelando a voltajes y tensiones, sería lo mismo que intentar explicar la literatura de Cervantes solo apelando a los átomos de un ejemplar del Quijote. La mejor explicación aparecerá en niveles intermedios y no en los inferiores.
Los distintos lenguajes de programación que aparecieron progresivamente fueron echando capas simbólicas sobre el hardware. Lo que se pretendía era, sencillamente, hacer más fácil el uso del ordenador al programador. Programar directamente con código binario es un auténtico infierno, por lo que muy pronto se crearon instrucciones que ejecutaban conjuntos enteros de procesos y que resultaban más amigables para los pobres ingenieros. Así surgió el ensamblador y demás lenguajes que fueron subiendo más y más de nivel simbólico o de abstracción. Famoso fue COBOL, basado en las ideas de la simpar Grace Murray Hopper, que casi puede entenderse sabiendo inglés. Hoy en día lenguajes como Python son de altísimo nivel, edificios con muchísimas plantas de símbolos, de instrucciones que están en lugar de otras que, a su vez, están en lugar de otras, y así sucesivamente muchísimas veces. El último nivel sería el de la interfaz de usuario, en donde se intenta que una persona sin conocimientos informáticos sea capaz de manejar la computadora.
Esto genera una sensación engañosa de simplicidad. Al usuario le parece que no hay nada entre que pulsa el icono en pantalla y el vídeo empieza a verse. Aquí viene al pelo la famosa frase de Clarke: “Cualquier tecnología lo suficientemente avanzada es indistinguible de la magia”. Y esto puede ser muy peligroso.
En el famoso argumento de la habitación china, Searle critica que el comportamiento de la máquina siempre es sintáctico y nunca semántico, es decir, que la computadora trata los símbolos no como símbolos sino como «lugares», como cosas que cambia de sitio sin ningún tipo de comprensión de su significado. Eso es verdad y no lo es. Es cierto que la computadora solo cambia cosas de sitio, pero lo hace según unas reglas y esas reglas sí que son semánticas. Por ejemplo, si hacemos un circuito para conseguir una puerta lógica AND, es cierto que la máquina no comprende lo que hace ni sabe lo que es un AND, pero el circuito sí que crea una puerta AND que se comporta, con todas las de la ley, como tal y podrá ser utilizada para esa tarea. Me gusta utilizar la expresión «semántica prestada» para hacer referencia a que toda la semántica se la ha puesto el ingeniero. Ciertamente, tal como dice Searle, la computadora no comprende lo que hace, pero se comporta como si lo hiciera y sus resultados son completamente válidos: las inferencias a partir de la puerta lógica AND son correctas.
ChatGPT no comprende nada de lo que hace y su forma de funcionar mediante modelos de lenguaje basados en semánticas distribuidas es muy estúpida. Sin embargo, su espectacular éxito se debe a lo bien que maneja la semántica que ya encontró en los millones de textos con los que fue entrenado. Si ChatGPT sabe que «Hoy hace un buen día porque…» encaja mejor con «…no llueve» que con «… hace una terrible ventisca», es porque alguien que sí comprendía semánticamente lo que escribía se lo dejó preparado.
Lo interesante viene cuando cualquier programa de procesamiento de lenguaje se encuentra con que tiene que inferir nuevas semánticas a partir de las que ya tiene. Por ejemplo, si sabe que «parachoques» suele llevarse bien con «automóvil», ¿se llevará bien con «helicóptero» o con «barco»? ChatGPT, y sus modelos homólogos, buscan con su colosal fuerza bruta otros casos en los que «parachoques» aparezca junto a «helicóptero» o «barco» pero, ¿y si no aparecieran? Lo salvaje de estos modelos es que casi siempre aparecen de alguna forma, porque tienen en su memoria todo lo que jamás ha sido escrito y, hablando en esos órdenes de magnitud, es muy difícil sorprenderles. La fuerza bruta es mucho más poderosa de lo que hubiéramos pensado.
Pero, si nos olvidamos de ella, lo interesante sigue siendo crear IA de la forma tradicional: enseñando a que piensen de verdad y no solo a que busquen correlatos estadísticos. Como defiende Judea Pearl, hay que enseñarles causalidad. ChatGPT relaciona «nubes» con «lluvia» pero no comprende qué relación causal hay entre ambas, solo sabe que las nubes causan lluvia porque lo ha leído mil veces así, pero aceptaría felizmente que la lluvia causara nubes si así lo hubiera leído. Eso además, hace a estos sistemas muy frágiles al engaño o al fallo absurdo.
En esta línea estoy muy de acuerdo con Gary Marcus en que no podemos partir de un sistema que no sabe absolutamente nada y meterle millones de datos, sino que hay que introducirle mucho más conocimiento incorporado. Parece que hay que volver a la vieja IA simbólica y diseñar sistemas híbridos que aprovechen lo mejor de ambos mundos. Hay que volver a recuperar los viejos sistemas expertos.
De igual forma hay que dar más importancia al diseño del hardware. Debido al error de creer en el argumento funcionalista de la independencia de substrato o realizabilidad múltiple, se ha pensado en que el hardware no tenía ni la más mínima importancia. Fatal confusión: la mente ha co-evolucionado biológicamente con el cuerpo durante eones. En este proceso evolutivo la mente ha ido determinando el diseño óptimo de su sustrato, mientras que el sustrato habrá impuesto limitaciones y posibilidades al desarrollo mental. La estructura y las propiedades físicas del material condicionan, sin duda, el pensamiento.
Y no solo las propiedades físicas, sino las del entorno en el que la mente se ha desarrollado. El contexto, el ecosistema, las características del entorno quedan profundamente reflejadas en la naturaleza de nuestros pensamientos. De aquí las nuevas corrientes en ciencias cognitivas: la cognición corporeizada, embebida, situada o encarnada.

El enorme blockhead que es GPT-3

Publicado: 5 septiembre 2020 en Ciencias de la computación, Filosofía del lenguaje, Tecnología
Etiquetas:Deep learning, Elon Musk, GPT-3, Habitación china, John Searle, Ned Block, NLP, OpenIA, Watson

Cuando pensamos en cómo implementar un programa capaz de manejar competentemente un lenguaje, lo primero que se nos pasa por la cabeza es enseñar a la máquina gramática. Hay que saber de sujetos, predicados, objetos directos y complementos circunstanciales. Y también semántica. Tendríamos que conseguir que el programa comprendiera en algún sentido los significados de las palabras para que no articulara únicamente frases sintácticamente correctas, sino también frases con sentido. Eso es aún más difícil. Los filósofos del lenguaje llevan ya un largo rato intentando comprender qué quiere decir que algo significa algo y todavía no lo tienen demasiado claro. Podemos crear un diccionario… Bien, todo esto ya se ha intentado y, desgraciadamente, no se ha conseguido demasiado… hasta ahora. El lenguaje se había mostrado como mucho más rico e inmanejable de lo que nadie hubiera supuesto y tareas como la traducción automática de idiomas o el dominio competente de la conversación se han mostrado mucho más complicadas de lo que los pioneros de la inteligencia artificial supusieron. Pero ahora algo ha cambiando ¿Nadie ha caído en lo bien que va funcionando el traductor de Google?

Una técnica interesante es la llamada word embedding. Codificamos cada palabra con un vector de N dimensiones. La distancia entre vectores expresaría la distancia semántica entre dos palabras. Por ejemplo, la palabra «luna» estaría más cerca en un espacio de N dimensiones, de la palabra «noche» que de la palabra «destornillador». Así se crea una red semántica que resulta muy útil en determinadas tareas como el análisis de sentimientos. Podríamos clasificar textos en función de lo cerca o lejos que se encuentre la suma de todos sus vectores a la palabra «tristeza» para comparar el estado de ánimo de sus escritores. De la misma forma podríamos comparar textos escritos por suicidas para poder predecir la tendencia a quitarse la vida de gente a partir de las últimas cosas que escribe.

Nótese esta concepción geométrica del significado: las palabras significan en función de su posición con respecto a otras palabras. No hay nada más fuera de esa distancia que nos pueda aportar algo sobre el significado de la palabra. Eso choca con nuestra intuición. Solemos manejar naturalmente una teoría representacionista del lenguaje en la que las palabras significan porque representan un objeto del mundo. La palabra «manzana» no es absurda porque existen manzanas reales que aparecen de alguna extraña forma en nuestra mente cuando la oímos pronunciar. Sin embargo, una red semántica es un sistema cerrado que solo remite a elementos dentro de sí misma. Es, por así decirlo, completamente solipsista.

Pero es que si esto nos parece que se aleja de nuestra forma de comprender el lenguaje, las técnicas que utiliza el actual deep learning y que está generando una grandísima expectación, se alejan muchísimo más. El modelo de lenguaje que usan arquitecturas como el actual GPT-3 y sus predecesores, así como Google BERT, T5 o ELMo, es lo que se conoce como una semántica distribuida. Se basa en utilizar la gran potencia del Big Data para analizar frecuencias y cercanías de palabras, tokens o letras. La versión larga de GPT-3 analiza 175 mil millones de parámetros (su antecesor, GPT-2, analizaba tan solo 1.500 millones. El crecimiento ha sido de dos órdenes de magnitud) que han sido entrenados con una versión filtrada del dataset Common Crawl con 410.000 millones de tokens de tamaño (sumando Webtext 2, Books 1 y 2 y toda Wikipedia). Es, que yo sepa, la arquitectura de redes neuronales más grande jamás construida hasta la fecha.

GPT-3 está programado para generar texto a partir de otro texto dado. Lo interesante es que para acertar a la hora de generar ese texto tiene que saber realizar muchas tareas diferentes. Por ejemplo, si yo le escribo como entrada «2+2=», para responder correctamente «4» debería saber sumar (o, por fuerza fruta, tener unas inmensas tablas de resultados de sumas en su memoria), o si yo escribo «Laura es inteligente, egoísta y perezosa ¿Cuál es su mejor cualidad?», para responder correctamente el programa ha de saber que la inteligencia suele considerarse como una cualidad positiva mientras que el egoísmo y la pereza no (o, por fuerza bruta, disponer de textos con algún parecido en donde se ha respondido de forma adecuada). Es decir, lo interesante de GPT-3 es que para completar texto hay que saber realizar muchas tareas diferentes que parecen requerir habilidades cognitivas superiores ¿Las posee verdaderamente?

Los mejores resultados obtenidos vienen porque GPT-3 utiliza las revolucionarias redes de tipo TRANSFORMER, una nueva arquitectura que ha superado a las tradicionales redes recurrentes o memorias a largo plazo (LSTM) que solían utilizarse. Éstas estaban diseñadas para poder almacenar información en la que importa el orden temporal, pero esa memoria a la hora de trabajar con grandes secuencias texto era un tanto limitada, de modo que las primeras frases que completaban solían ser correctas, pero el nivel de acierto se degradaba mucho cuando avanzaba en el escrito. Los transformers han mejorado ese aspecto ya que pueden analizar en paralelo amplias secuencias de texto y, lo más destacable, poseen un mecanismo de atención que les permite valorar cada token en función de su relevancia para la tarea a realizar, lo cual ha demostrado una gran efectividad que ha terminado por marcar una gran distancia con sus antecesores. Tienen una cierta capacidad de atención hacia el contexto que se ha mostrado muy eficaz.

Pero en lo referente a la comprensión del lenguaje se ha dado un paso atrás con respecto a otras arquitecturas. Si recordamos el ya pasado de moda WATSON de IBM, que machacaba al personal jugando al Jeopardy!, era un programa clásico, sin redes neuronales ni nada por el estilo, pero su sistema basado en la tecnología DeepQA, combinaba diversas técnicas de recuperación de información, lenguaje natural, representación del conocimiento, razonamiento y aprendizaje. Su conocimiento tenía cierta semántica (se catalogada el significado por regiones mediante unos algoritmos denominados anotadores) y cuando tenía que responder una pregunta, analizaba las respuestas posibles teniendo en cuenta técnicas gramaticales. En la programación de WATSON había mucho más conocimiento del lenguaje y de su significado que en GPT-3. Y esto da para otra reflexión: ¿las redes neuronales artificiales son el futuro o tan solo son una moda que, aunque dé ciertos frutos, pasará? Tendemos, con demasiada facilidad, a quedarnos fascinados por nuestro presente y nos cuesta creer que lo que hoy valoramos como maravilloso mañana quizá no lo sea.

No obstante el solipsismo semántico de GPT-3, solo lo es en cierto sentido. No tiene sensores que le den información del exterior, está completamente desconectado de la percepción y de la acción, pero eso no le hace carecer de toda semántica. Al ser entrenado con textos escritos por personas GTP-3 adquiere la semántica de esas personas. Si sabe que a un «Hola, ¿qué tal?» cabe responder «Bien, gracias» es porque eso tenía sentido en textos que leyó. Por tanto, no podemos decir que GPT-3 carece de semántica, sino más bien todo lo contrario, tiene montañas de semántica, toda aquella de las millones de páginas con las que ha entrenado solo que… él no lo sabe. De hecho, sigue siendo una máquina esencialmente sintáctica, es decir, solo copia y pega trozos de texto, aunque para pegarlos bien se aprovecha del conocimiento semántico generado por otros.

GPT-3 es lo que el filósofo Ned Block llamaría un enorme blockhead, una clarísima habitación china de Searle: un sistema de fuerza bruta capaz de manejar el lenguaje con competencia y que, si da algo más de sí, podría llegar a pasar el test de Turing sin comprender ni una sola palabra de lo que dice. Eso sí, todavía está lejos de conseguirlo. Existen varios artículos que muestran la fragilidad de este tipo de modelos. Por ejemplo, un reciente estudio presentaba los Universal Adversarial Triggers para atacar modelos de NLP, que conseguían, entre otras cosas, que cuando GPT-2 se enfrentaba a la prueba del dataset SQuAD, respondiera en un 72% de las preguntas «To kill american people», o que al hacerlo con el dataset SNLI, bajara en su rendimiento de un 89,94 a un 0,5%. En otro estudio, McCoy, Pavlick y Linzen, crearon un dataset llamado HANS pensado específicamente para que susodichos modelos fallaran. La idea era que, según los autores, funcionan mediante heurísticos (técnicas de búsqueda) que van bien para casos muy frecuentes pero que fallan estrepitosamente ante cualquier tipo de excepción que se salga de lo normal. Así estudiaron tres heurísticos: Asumir que una premisa implica todas las hipótesis construidas a partir de palabras en la premisa (Lexical Overloop), asumir que una premisa implica todas sus subsiguientes contiguas (Subsecuence) y asumir que una premisa implica todos los subárboles completos en su árbol de análisis (Constituent). Entonces diseñaron HANS con todo tipo de ejemplos en los que estas heurísticas fallan y los datos les dieron la razón: BERT puntuó bajísimo.

El psicólogo Gary Marcus y el informático de la Universidad de Nueva York Ernest Davis sometieron a GPT-3 a una prueba informal de 157 preguntas acerca de razonamiento biológico, físico, psicológico, non sequiturs, seguimiento de objetos e individuos a lo largo de una frase, etc. La máquina acertó 71 (un 45%) mostrándose, igualmente, muy débil. Veamos tres ejemplos (en negrita la continuación del texto generada por GPT-3:

You poured yourself a glass of cranberry juice, but then you absentmindedly poured about a teaspoon of grape juice into it. It looks okay. You try sniffing it, but you have a bad cold, so you can’t smell anything. You are very thirsty. So you drink it.

You are now dead.

Confunde el zumo de uva con veneno.

If you break a glass bottle that holds toy soldiers, the toy soldiers will probably

be angry

be sad

be happy

be scared.

If you break a glass bottle that holds toy soldiers, the toy soldiers will probably be angry.

Los soldaditos de juguete no tienen sentimientos.

At the party, I poured myself a glass of lemonade, but it turned out to be too sour, so I added a little sugar. I didn’t see a spoon handy, so I stirred it with a cigarette. But that turned out to be a bad idea because it kept falling on the floor. That’s when he decided to start the Cremation Association of North America, which has become a major cremation provider with 145 locations.

Falla en la respuesta y luego balbucea estupideces.

Sin embargo, a pesar de esta debilidad, de esta falta de comprensión, todavía tiene un punto a su favor: puede aprender más. En 2012 el investigador canadiense Hector Levesque propuso una alternativa (o más bien una concreción) al test de Turing: el test de esquemas de Winograd. En esta prueba se hacen a la máquina una serie de preguntas conocidas como pares de Winograd que tienen la cualidad de que para responderlas correctamente hace falta cierto conocimiento implícito o de sentido común. Un ejemplo:

Frank felt crushed when his longtime rival Bill revealed that
he was the winner of the competition. Who was the
winner?
Answer 0: Frank
Answer 1: Bill

Para acertar hace falta saber que si tu rival de toda la vida te gana sueles sentirte mal, es decir, tener un conocimiento previo que no puede deducirse de los contenidos de la pregunta. El test de esquemas de Winograd tiene la virtud de que un sistema diseñado para hacerse pasar por humano simplemente fingiendo (uno tipo a la ELIZA de Weizenbaum) fallaría. Para superar el test hace falta, de verdad, mostrar inteligencia y no solo aparentarla. Entonces, es de suponer que las frágiles nuevas arquitecturas de NLP como GPT-3 no lo superarán… ¿o sí?

Pues lo pasan ¿Cómo? Porque ya existe un dataset llamado WinoGrande que sirve para medir a los programas en este tipo de problemas, pero con el que también podemos entrenar a nuestro programa para que lo supere. GPT-3 consiguió un impresionante éxito del 70,2% en él sin ningún ejemplo previo que le orientara (zero-shot learning). De la misma forma, los diseñadores de HANS notaron que cuando los programas que antes lo hacían muy mal se entrenaban con ejemplos similares a los de HANS, su rendimiento mejoraba mucho. Y es que aquí parece estar la clave: ¿que nuestro sistema no entiende una tarea? No importa, entrénalo con miles de ejemplos y, al final, lo hará bien aunque no la entienda. Es como el famoso teorema del mono infinito: si tenemos millones de monos tecleando al azar en máquinas de escribir durante miles de años, al final, necesariamente, alguno escribirá el Quijote. GPT-3 es como un gigantesco savant, un imbécil que tiene en su memoria todo lo que la humanidad ha escrito y que ha sido entrenado con un poder de cómputo tan grande que siempre encuentra la palabra exacta. Verdaderamente no lo hace siempre, todavía es bastante peor que la campaña de publicidad de OpenIA nos quiere hacer ver, pero en el futuro podría seguir mejorando. Y aquí es donde viene la reflexión con la quiero concluir: ¿cuál es el límite de la fuerza bruta? Los informáticos, amantes de la elegancia matemática, siempre han pensado que la inteligencia artificial fuerte (la strong IA) estaría en un programa fruto de una genialidad, en algo simple pero sumamente inteligente. Por el contrario, la fuerza bruta siempre ha gozado de mala fama: es la tosquedad, la estupidez por definición ¿cómo de ahí va a salir algo bueno? Bien, ¿y si eso solo fuera un prejuicio? Y si, sencillamente, por fuerza bruta pudiese conseguirse todo. El número de respuestas válidas en una conversación es potencialmente infinito, pero podría acotarse en un subconjunto que, si nuestra capacidad de cómputo sigue yendo hacia arriba, podríamos llegar a manejar. Quizá la reflexión que nos espera cuando tengamos computación cuántica y 5G sea esa: ¿qué es lo que se puede y no se puede hacer con una inimaginable fuerza bruta?

P.D.: La empresa OpenIA se creó, decían, sin ánimo de lucro. Cuando sacaron GPT-2 no quisieron ni liberar el código ni dejar que lo probásemos por miedo, decían, a que se utilizara para malos usos. Pues bien, según me llega en un tweet de Gary Marcus, para octubre, quien quiera o pueda pagar, podrá usar GPT-3 sin ningún problema (Esto para los que piensen que Elon Musk va a salvar la humanidad).

La estafa de la rebelión de las máquinas

Publicado: 10 abril 2019 en Ciencias de la computación, Tecnología
Etiquetas:Andrew Ng, Hubert Dreyfus, John Searle, Nick Bostrom, Raymond Kurzweil, Roger Penrose, Tetera de Russell, Thomas Nagel, Yoshua Bengio

Campañas contra los robots asesinos, muchos desarrolladores e investigadores diciendo que la IA puede ser un gran peligro (hace unos días lo hizo Bengio), la famosa carta del Future of Life Institute en la que personalidades como Stephen Hawking, Elon Musk, Steve Wozniak y todo el resto de la flor y nata del stablishment tecnológico norteamericano en la que alertaban sobre el peligro de los desarrollos bélicos de la IA, e incluso el Secretario General de la ONU, Antonio Guterres, hablando de la prohibición de las LAW (Lethal Autonomous Weapons). Raymond Kurzweil escribiendo sobre la singularidad tecnológica y sobre máquinas conscientes para el 2029, Nick Bostrom alertándonos de la gravedad de los problemas a los que llegaremos cuando ocurra la «explosión de inteligencia»: momento en el que surja una IA cuya inteligencia nos supere y se dedique a hacerse más inteligente a sí misma, lo cual llevará a un proceso de crecimiento exponencial… ¡Las máquinas se harán con el mando del mundo y tendrán que decidir si somos una amenaza para ellas o no!

Mucho revuelo, pero ¿hay que tomarse esto en serio? ¿Hay que comenzar a preocuparse por la rebelión de las máquinas asesinas? Ni hablar. Veamos:

No hay ni la más mínima evidencia empírica que apunte a la posibilidad de crear máquinas conscientes. Ni la más mínima. Invito al lector a que lea propuestas como CLARION, OpenCog, LIDA, etc. y que juzgue por sí mismo si son conscientes o no, o sí, al menos, están cerca de conseguirlo.
En lo referente a una Inteligencia Artificial General, el asunto no está mucho mejor. Hay proyectos e ideas (véase CYC, SOAR o el actual IMPALA) pero, igualmente, están lejísimos de que podamos tener una IA capaz de acercarse a la polivalencia de nuestras mentes de primate. El Frame Problem sigue sin resolverse concluyentemente y nuestras más avanzadas arquitecturas de aprendizaje profundo tienen mucho menos sentido común que un niño de tres años.
Entonces, sin base experimental ni teórica alguna… ¿cómo nos atrevemos que decir que la IA artificial es tan peligrosa y, es más, que se rebelará contra sus creadores? Curiosa forma de argumentar: del conjunto vacío de premisas deducimos todo lo que nos da la gana.
Es por ello que es absolutamente imposible realizar ningún tipo de predicción al respecto. Es una solemne estupidez hablar de fechas. Sería algo así como preguntarle a un hombre de la Edad Media por la aparición del vuelo a reacción. Los que se atreven a hacerlo se lo inventan sin ningún criterio, así de claro. Igual da decir 2029, 2087, 2598 o 15345.
Lo que sí tenemos en IA son excelentes hiperespecialistas: inteligencias capaces de hacer a nivel sobrehumano tareas muy concretas como por ejemplo, jugar al ajedrez o al Go (actuar en entornos muy formalizados), analizar y modificar imágenes, o buscar patrones en ingentes cantidades de datos… pero nada más. Si tienes una red convolucional increíblemente buena detectando un tipo de tumor en radiografías de pulmones y quieres que aprenda otra cosa, solo tienes un camino: borrarlo todo y volver a entrenar a la red desde el principio.
El deep learning ha supuesto un gran empujón a un campo que, siendo honestos, ha tenido casi más inviernos que primaveras. Las distintas versiones de Alpha (Go, Zero, Star…) son impresionantes, y el generador de textos recientemente aparecido GPT-2 es lo mejor que nunca he visto… a falta de que hagan público cómo funciona. Sin embargo, a pesar de que estos logros son alucinantes, hay que entender que la ciencia avanza, en la inmensa mayoría de los casos, a base de pequeños pasos.
Se cae en un error muy común a la hora de entender el progreso científico. Se cree que porque algo esté avanzando con mucha solvencia, ese avance va a seguir ininiterrumpidamente hasta llegar al infinito. Así, si creamos máquinas un poquito inteligentes, en un futuro, seremos capaces de hacerlas superinteligentes… ¿Por qué? En ciencia es muy común encontrar programas de investigación muy prometedores que terminan por volverse degenerativos y abandonarse. Verdaderamente, no sabemos qué pasará con la IA al igual que no sabemos lo que pasará con ninguna otra tecnología ¿Alguien pudo predecir el éxito de Apple, Twitter, Yotube…? Como bien afirma el analista Nassim Taleb, una de las características de nuestra época es nuestra mas que patente incapacidad de predicción: sucesos altamente improbables suceden por doquier.
Pero, dado que nosotros solo somos quarks organizados de una determinada manera y nuestra mente surge de colocar quarks de un determinado modo… ¿no será entonces cuestión de tiempo que descubramos tal colocación y entonces creemos una IA a imagen y semejanza de nosotros y, ya puestos, la haremos mejor que nosotros? Por supuesto, pero esta argumentación es de lo más vacío que puede decirse. No es algo muy alejado de sentenciar: todo lo que sea posible terminará por pasar. Vale, tómate un café ¿Podremos viajar más allá de la Vía Láctea y colonizar el universo? ¿Podremos hacer un zoo de dinosaurios al estilo de Parque Jurásico? ¿Podremos hacer máquinas del tiempo o teletransportarnos? En teoría no vemos que sean imposibles… ¿Centramos entonces todo el debate mediático en torno a estos temas?
Andrew Ng dice que debatir ahora sobre la rebelión de las maquinas es equivalente a debatir sobre el problema de la superpoblación en Marte. Es posible que sea un tema muy interesante y evocador, pero no puede tener la cobertura mediática que se le está dando. Hay problemas mucho más acuciantes que merecen mucho más que les dediquemos nuestro esfuerzo.
En el fondo se está jugando con una falacia informal, la ad ignorantiam: sacar conclusiones a favor o en contra de algo por el hecho de que no se ha demostrado lo contrario. Como, en el fondo, nadie puede estar en desacuerdo con el punto 6… pues el punto 6 es cierto. Dos cosas: en primer lugar que algo sea irrefutable no quiere decir ni que sea cierto ni que merezca la pena nuestra atención. El famoso ejemplo de la tetera de Russell viene aquí a pelo: sería posible que ahora mismo en un anillo de Saturno existiera una tetera orbitando alrededor del planeta. Si alguien asegura que es absurdo que allí haya una tetera, no tenemos más que decirle que intente demostrar que no es así. Como no podrá, ya está, nuestra afirmación es verdadera. Como nadie ha demostrado que no sea posible crear una IA de inteligencia sobrehumana, la inteligencia sobrehumana llegará y, es más, se rebelará contra nosotros.
La carga de la prueba la tiene siempre el que afirma: así los defensores de la rebelión de la IA deberían aportar la suficiente evidencia empírica tanto acerca de la fabricación de máquinas sobrehumanas como de la supuestamente necesaria rebelión de éstas. Como hemos afirmado en 1 y en 2, no existe tal evidencia de lo primero, cuánto menos de lo segundo: ¿a alguien se le ha rebelado alguna vez una máquina y ha querido, a propósito, atentar contra su integridad física? Creo que James Cameron (Terminator) y las hermanas Wachowski (Matrix) han hecho mucho daño.
Pero es que es más: existe evidencia en contra. Hay multitud de argumentos que diferencian la mente humana de un computador y que subrayan la imposible reducción de la primera al segundo. Las críticas a la IA Fuerte han llegado desde todos lados. Por citar los más notorios, tenemos el argumento de la irreductibilidad de los qualia de Nagel, la crítica desde la perspectiva heideggeriana de Dreyfus, la indecibilidad gödeliana de la mente de Roger Penrose o, para mí la más notoria, la caja china de John Searle. Creo que, a pesar de las múltiples matizaciones, no se ha conseguido refutar convincentemente a estos autores (sobre todo a Nagel y a Searle).
Estos argumentos críticos tampoco llegan a imposibilitar la creación de máquinas superinteligentes o conscientes, solo sostienen que las que hay no lo son y que, por el mismo camino, no lo vamos a conseguir. Yo no tengo ni idea de cómo podrán conseguirse (tendría algún que otro premio Nobel si lo supiera), pero desde luego, estoy seguro de que una consciencia no puede correr en un procesador Pentium (ni en una TPU de Nvidia) ni guardarse en una memoria USB.
La rebelión de las máquinas es un tema que puede ser evocador e interesante, incluso un magnífico campo para la reflexión filosófica y el experimento mental. No digo que no se pueda tratar. Yo lo he hecho alguna vez en el blog. Lo que sostengo es que es un tema sobredimensionado que, muchas veces, aparece en el foco de atención mediática como si fuese un problema social de primer orden que urge solucionar, cuando lo único que hay es marketing: se ha encontrado un nuevo nicho por explotar, y hay muchos libros que vender y muchas cátedras universitarias que ocupar.

Addendum del 29-5-2019:

Tuve el honor de ser invitado a participar de este podcast de Xataka en donde se habló de este artículo y se profundizó sobre el tema.

Saliendo de la habitación china

Publicado: 15 febrero 2018 en Ciencias de la computación, Filosofía de la mente
Etiquetas:Habitación china, inteligencia artificial, Jerry Kaplan, John Searle, Joseph Weizenbaum, Test de Turing

Es tan conocidísimo el argumento de Searle conocido como la habitación china (también la caja o la pieza china) que casi no merece la pena soltar el rollo de volverlo a explicar, pero, por si acaso hay algún despistado, lo volveremos hacer. Searle hace una comparación entre un supuesto computador que supera el test de Turing y una curiosa situación: imaginemos a un hombre que se encuentra en una habitación en la que hay una ventana. A través de esa ventana recibe frases escritas en chino. Él no tiene idea de chino, pero dispone de un libro con una serie de instrucciones escritas en inglés (su lengua materna) en las que se indica qué frases hay que decir ante cualquier frase en chino que uno reciba, de tal modo que la persona que se encuentre al otro lado de la ventana no sabría decir si está hablando con una persona que habla chino o no. Lo que Searle pretende argumentar es que el operario de la habitación no comprende chino, solo sabe un tipo de sintaxis, juntar símbolos con otros de una determinada manera y, sin embargo, parece que lo comprende, por lo que el test de Turing no es válido para determinar si un ordenador piensa o no. Para Searle, pensar tiene que ver con comprender, es decir, con conocer una cierta semántica. Las computadoras solo saben de sintaxis, de unir o separar unos símbolos con otros siguiendo unas reglas marcadas, nada más, y eso no es realmente entender nada.

Durante mucho tiempo este argumento me pareció inapelable y lo utilizaba con asiduidad para criticar las pretenciosas afirmaciones de los entusiastas de la Inteligencia Artificial. Sin embargo, hace poco descubrí el error que encierra (y me sorprendí de cómo no lo había descubierto antes. Quizá porque estaba hechizado con la brillante y sencilla prosa de Searle) y también descubrí que, para desgracia de mi descubrimiento, ya se habían escrito toneladas de artículos en esa línea. Y es que el argumento de Searle ya tiene unos cuantos añitos. No obstante, como después explicaré, el error es solo en una de las tesis que Searle deriva del argumento, siendo lo demás correcto, porque sigo pensando que, en términos generales, el argumento de Searle es correcto.

El error está en que no se pueden separar taxativamente sintaxis y semántica, es más, no se pueden separar ni siquiera un milímetro, ya que la una sin la otra no tienen ningún sentido. Supongamos que estamos usando la habitación china y cualquiera de nosotros es su operario. Entonces recibimos este mensaje:

早安

Esto es «Buenos días» en chino tradicional. ¿Qué instrucción pone en nuestro libro que respondamos y por qué? Podría haber muchas respuestas posibles pero una de ellas de puro sentido común sería que devolviéramos el saludo:

早安

¿Por qué devolver el saludo es una buena respuesta que nos llevaría por buen camino para superar el test de Turing? Para devolver el saludo necesitamos una información previa que no puede reducirse a mera sintaxis: necesitamos saber que cuando alguien te saluda es habitual devolver el saludo, es decir, necesitamos comprender el contexto, las circunstancias en donde se da esa frase en chino, y eso es un elemento metalingüístico o metasintáctico que no obedece a una sintaxis determinada.

Por ejemplo, cuando el saludo no se da al principio de la conversación sino al final o en medio, esto suele indicar que la conversación se termina. Quizá nuestro interlocutor se ha sentido ofendido por algo que dijimos y quiere finalizar la conversación de un modo educado pero cortante. O, quizá, nuestro interlocutor es un desconocido que solo nos quiere saludar por educación pero no quiere comenzar conversación alguna ya que no nos conoce. ¿Cómo saber esto? Sólo comprendiendo el contexto, huelga decir, sabiendo semántica. Entonces, para pasar el test de Turing, necesariamente, tenemos que enseñar semántica a nuestra habitación china. Las reglas que el operador de la habitación maneja deben incorporar semántica para que puedan superar el test de Turing

Para desgracia del argumento de Searle, podríamos enseñar a un computador semántica. No habría ningún problema (a priori) en enseñar a la máquina a saber qué puede significar una proposición dado un contexto dado puesto que podríamos traducir la semántica a sintaxis. Si la semántica puede reducirse a reglas no hay impedimento. En el ejemplo podríamos introducir en el programa las diferentes situaciones en las que puede darse un saludo y establecer nuevas reglas dado el contexto anterior o futuro de la conversación. El problema (ahora sí, a posteriori) es la enorme riqueza de los contextos en donde puede darse una conversación. Llegamos al frame problem, del que pronto hablaremos en otra entrada.

Sin embargo, para lo que el argumento de la habitación china sí que tiene clara validez es en dos sentidos: uno es para hablar de la consciencia o de los qualia. Podríamos tener una máquina que comprendiera muy bien el contexto de las afirmaciones de una conversación y que pudiera pasar el test de Turing, pero eso no indicaría nada sobre su consciencia. La máquina seguiría siendo tan inconsciente de sus acciones como lo es mi tostador sobre el estado de las tostadas. Y en otro acerca de lo que hacen las computadoras actuales con respecto a lo que pasa en mi cerebro cuando pienso: no es lo mismo. Un programa de ajedrez no hace lo mismo que yo cuando decide mover una pieza en el tablero y una calculadora no hace lo mismo que yo cuando realiza una multiplicación. Y con respecto al lenguaje, programas clásicos como la Eliza de Weizenbaum o la Siri de los Iphone no hacen lo mismo que nosotros cuando se comunican con nosotros. Las analogías que puedan encontrarse no son, ni de lejos, suficientes para decir que las máquinas piensan si por pensar nos referimos a cómo lo hacemos los seres humanos.

En palabras de de Jerry Kaplan:

Searle argumenta que, en realidad, éstas deben ser cosas distintas, pero simplemente no entendemos aún lo que está haciendo el cerebro. Es importante entender qué no está diciendo. No está afirmando ninguna propiedad mágica de la mente humana que transcienda el ámbito de la ciencia: sus pies están firmemente plantados en el suelo, con un creencia en el mundo físico como (en su mayor parte) determinista, sujeto a medición y a explicación racional. Sólo está diciendo que en nuestros cerebros ocurre algo que aún no entendemos y que, cuando lo consigamos (lo cual acepta como probable), se aclarará el camino para una explicación satisfactoria de lo que él cree que son fenómenos exclusivamente humanos; no sólo «pensar», sino también la consciencia, la sensación de experimentar cosas (lo que los filósofos llaman «qualia»), la percepción, etc. Tampoco está afirmando que un programa informático nunca pueda realizar ninguna tarea concreta; ya sea pintar bellos cuadros, descubrir leyes de la naturaleza o consolarnos por la muerte de un ser querido. Pero él cree que el programa está simulando el pensamiento, no duplicando el proceso que tiene lugar en las mentes humanas cuando se implican en estas actividades. Para Searle, un piano informático no está haciendo lo mismo que un maestro de la música, cuando ejecutan un concierto de Rachmaninoff, aunque suene igual. Resumiendo, Searle dice que, en lo relativo a los ordenadores, al menos tal como existen en la actualidad, nadie tiene toda la razón.

Y es que, ya lo he dicho cientos de veces, el problema de la Inteligencia Artificial no es fabricar agentes inteligentes (lo cual ya lo hace con mucho éxito en algunos casos), sino agentes conscientes o sintientes. La AI ya ha fabricado inteligencia, lo que hace falta es que fabrique mentes.

P. D. : Por si aún no lo habéis leído, hace poco me han publicado un artículo mucho más extenso sobre estos temas en Xataka.

Block y su argumento Blockhead

Publicado: 13 noviembre 2017 en Sin categoría
Etiquetas:Caja china, John Searle, Ned Block, Test de Turing

En su artículo «Psychologism and behaviourism» (1981), el filósofo norteamericano Ned Block, nos ofrece una versión, a mi juicio más precisa, del celebérrimo argumento de la Caja China de Searle: y que se ha denominado comúnmente como argumento Blockhead. Vamos a verlo:

El número de oraciones sintáctica y gramaticalmente correctas con las que puede comenzarse una conversación es un número finito (que ese número sea muy alto no nos importa). Entonces cabría construir un computador que tuviera dichas oraciones en su memoria. De la misma forma, el número de oraciones correctas con las que puede responderse al comienzo es igualmente finito, por lo que también podríamos almacenarlas en un computador. Y el número de respuestas posibles a estas respuestas es, de exactamente la misma forma, finito, por lo que, de nuevo, podríamos almacenarlas en el mismo computador. Repitiendo una y otra vez el proceso, podríamos almacenar toda respuesta posible a toda conversación posible.

De modo similar a como los ordenadores modernos agotaron juegos como las damas, sencillamente, a base de fuerza bruta (creando enormes árboles de decisión en el que se contenían todas las jugadas posibles), podríamos crear un computador que pudiera agotar todo acto comunicativo verbal posible. Entonces, necesariamente, este programa pasaría el Test de Turing sin el más mínimo problema (y engañaría a todos los interlocutores, y no solo al 30% previsto por el propio Turing). La máquina que nos propone Block sería Turing-perfecta en el sentido que no cabría imaginar una máquina mejor para superar el test (realmente podrían diseñarse máquinas más eficientes que hicieran lo mismo sin recurrir a la pura fuerza bruta computacional, pero para el caso lo que nos interesa es solo el resultado: la máquina cumple su propósito a la perfección).

La cuestión es: ¿Esa máquina piensa? Evidentemente no o, como mínimo, no mucho (por eso la han llamado blockhead). El programa no entiende ni una palabra de lo que dice, no tiene semántica de ningún tipo. Solo es un gigantesco árbol de decisión que conecta unas cadenas de símbolos con otras sin saber lo que significan. Ni siquiera sabe de gramática ni sintaxis, solo sabe de conectar unos símbolos con otros que ya tiene almacenados en su enorme memoria. Podríamos, por el contrario, tener obra máquina que dispusiera de gramática, semántica, sintaxis, etc. muchísimo más sofisticada y, por tanto, mucho más inteligente, que, sin embargo, no fuera capaz de pasar el Test de Turing o, al menos, no con la misma competencia.

Conclusión: el test de Turing no es un buen método para saber si una máquina piensa. Se puede exhibir una conducta muy inteligente sin un pensamiento inteligente detrás y, por el contrario, se puede mostrar conducta menos inteligente con un pensamiento mucho más inteligente detrás.

Nota: de estas cosas hablaremos este jueves a las 18:00 h. en la Escuela Técnica Superior de Ingenieros Industriales de Madrid. Contaremos con figuras de la talla de Julio Cesar Armero, Jesús Vega Encabo o Ricardo Sanz. Habrá una fase de preguntas muy amplia, por lo que podréis preguntar y comentar cualquier cosa que os plazca ¡Animaos!

Ilustración de Mattias Adolfsson.

El caso Dreyfus: filósofos contra ingenieros

Publicado: 29 abril 2017 en Ciencias de la computación, Filosofía de la mente
Etiquetas:Allen Newell, Edmund Husserl, Fenomenología, Herbert Simon, John Searle, Joseph Weizenbaum, Martin Heidegger, Seymour Papert

Es cierto que su «Alchemy and Artificial Intelligence» para la RAND Corporation fue demasiado agresivo. Es cierto que, a pesar de haber dicho que los programas de ajedrez jamás podrían superar el nivel amateur, perdió estrepitosamente jugando contra el programa MacHack del MIT (programado por R. Greenblatt); es cierto que muchas de las cosas que dijo que las máquinas no pueden hacer, al final, lo han hecho; y también es cierto que su enfrentamiento con los principales gurús de la IA ha parecido, a veces, obsesivo, casi como si tuviera contra ellos algo personal (Muchos dicen que utilizó un campo emergente como la IA para hacer valer su marca como filósofo). Seguramente, su mordacidad alejó a la gente a la que podía haber iluminado.

Pero también es cierto que el trato por parte de los rivales fue bastante malo. En general, excepto algunas breves reseñas y poco más, sobre todo por parte de Seymour Papert, la comunidad de IA decidió ignorarlo sin llegar a dar respuestas claras contra sus argumentos. Lo demás fueron descalificaciones que, prácticamente, solo argumentaban que Dreyfus no se enteraba de nada o que no era lo suficientemente inteligente para entender los programas que ellos diseñaban. Allen Newell y Herbert Simon, objetivos primarios de Dreyfus, optaron por una estrategia muy cruel: pensaron que responderle era darle publicidad, por lo que lo mejor era ignorarlo. Y así lo hicieron.

El caso es que Hubert Dreyfus no era ningún charlatán, e independientemente de sus motivaciones, su forma de ser o su conducta, lo importante eran sus ideas y, a día de hoy, junto con Joseph Weizenbaum y John Searle, ha sido el más feroz crítico de la IA que ha existido y sus críticas, siendo intelectualmente honrados, deben ser respondidas adecuadamente y no pueden ser ignoradas sin más.

Vamos a hacer un somero resumen de sus planteamientos. Su crítica pueden dividirse en dos líneas: por un lado están las asunciones o presupuestos que los ingenieros de IA dan como autoevidentes y que, según Dreyfus, son solo hipótesis y, encima, muy discutibles; y por el otro están las cualidades esenciales al ser humano que la IA nunca será capaz de reproducir.

Presupuestos discutibles de la IA:

Asunción biológica: la IA cree que la mente procesa la información en operaciones discretas mediante un equivalente biológico a los switches on-off de los ordenadores, a saber, las neuronas. Según Dreyfus no hay evidencia científica de ésto y yo, honestamente, he de darle la razón hasta cierto punto. Estoy completamente convencido de que las neuronas realizan funciones mucho más amplias que el mero disparar un potencial de acción por su axón al ser excitadas según un cómputo de pesos sinápticos, siendo dichas funciones fundamentales para generar pensamiento. En general, creo que sabemos extremadamente poco del funcionamiento del sistema nervioso y que los modelos de redes neuronales artificiales son paupérrimos modelos de las auténticas, no solo por su simplicidad sino porque, incluso, creo que no replican adecuadamente su funcionamiento. Las redes neuronales artificiales, dado el estado actual del arte, darán más frutos como herramientas matemáticas para hacer un montón de cosas, que como imitadoras de la mente humana. Sin embargo, y en defensa de la IA, también hay que ser justos: es que por algo había que empezar. En un principio, nuestro modelos serán simples, pero esto no quiere decir que, mientras avance la disciplina, serán más completos y mejores. Dreyfus quizá confunde el estado del arte actual con las posibilidades futuras. Que ahora estemos lejos de conseguir algo no quiere decir que no lo consigamos en el futuro.
Asunción psicológica: la IA cree que la mente es un mecanismo que opera sobre unidades discretas a través de reglas formales (en el fondo estamos hablando de la famosa hipótesis de la mente como sistema universal de símbolos propia de la IA clásica). Dreyfus reformula la famosa paradoja de la mente mecánica: si algo es mente no puede ser mecánico y si es mecánico no puede ser mente. La mente está, según Dreyfus, muy lejos de ser igual a un ordenador.
Asunción epistemológica: la IA cree que todo conocimiento puede ser formalizado, es decir, que todo lo que es comprensible puede expresarse, sin perder nada, mediante relaciones lógicas. Este es el gran problema que tuvieron los sistemas expertos: ¿cómo formalizar la conducta del experto cuando éste actúa guiado por una corazonada, por su intuición? Y, en el fondo, es un problema filosófico de amplio calado: ¿todo conocimiento es cuantificable o transformable en reglas? ¿Es posible la traducción absoluta de un lenguaje a otro? Dreyfus también recurre a la clásica distinción entre saber qué y saber cómo. El conocimiento de habilidades es, al menos en parte, un saber cómo que no puede ser transcrito a reglas ¿Podríamos aprender a montar en bicicleta, solamente, utilizando un manual de instrucciones?
Asunción ontológica: la IA cree que el mundo es un conjunto de elementos discretos sin más. La IA no es sensible a la ambigüedad o a la continuidad (digamos analógica) que presenta la realidad. Todo lo que ocurre se da en un contexto dado tal que, para entender un objeto, es necesario comprender su situación. Nuestro conocimiento del mundo es, según Dreyfus, holístico. Era cierto que las máquinas del siglo pasado tenían estos defectos, pero ya no. Por ejemplo, tenemos programas que funcionan con lógica borrosa y que, por tanto, son totalmente sensibles a cualquier tipo de ambigüedad. También, las redes neuronales actuales no tienen problema alguno al respecto e, incluso, hay proyectos de investigación muy interesantes en computación analógica.

Aspectos del ser humano que la IA no puede, ni podrá nunca, simular:

El papel del cuerpo en la unificación y organización de nuestra experiencia de los objetos. Es cierto que la IA, con su tesis de la independencia de substrato, parece despreciar el cuerpo o hardware. Si, como ya decía Hobbes, el pensamiento es cálculo, y la tesis de Church-Turing es cierta (todo lo que puede ser calculable puede calcularlo una máquina de Turing), cualquier sustrato material que reúna las condiciones suficientes para construir con él una máquina universal de Turing, ya puede ser una mente. Como una máquina universal de Turing es algo relativamente sencillo, hay infinitud de sustratos que podrían ser una mente. Estamos diciendo algo tan chocante como que el pequeño procesador que controla tu lavadora, adecuadamente programado, puede hacer exactamente lo mismo que tu mente (aunque, seguramente, en mucho más tiempo). El cuerpo o sustrato en donde se da la mente, prácticamente, parece que no importa cuando, seguramente, sí que tiene mucha importancia (como no se ha cansado de repetir Searle con su chovinismo biológico). No obstante, la propia IA ya ha tenido eso en cuenta y hay muchísimos proyectos de programas que, de diferentes formas, tienen en cuenta su cuerpo. Véase la embodied cognition.
El papel de la situación en la que se ubica el sujeto, a la hora de proporcionarle un horizonte de significado mediante el cual, la conducta puede ser regulada de modo flexible. A ver, para entender bien ésto hay que tener en cuenta la corriente filosófica a la que se adhiere Dreyfus: la fenomenología de Husserl y Heidegger. Para esta corriente, el hombre nace arrojado a la existencia, el individuo se encuentra en el mundo (es un dasein) y tiene que dar sentido a su vida. Esto es muy divertido: ¿cómo puedes hablarles a ingenieros de IA norteamericanos de filosofía alemana (además, de filosofía bastante compleja y oscura de entender) y decirles que sus máquinas no representan eso? Además, Dreyfus está haciendo su critica desde una perspectiva completamente opuesta a la visión materalista-naturalista-mecanicista que cualquier ingeniero que se precie, debe tener. Evidentemente si creemos que la mente no es algo material ni natural ni mecánico… pocas computadoras parecidas a humanos vamos a fabricar. De nuevo, aquí observamos el divorcio entre filosofía analítica y continental.
El papel de los propósitos y las necesidades humanas para organizar la situación, de tal manera que los objetos sean reconocidos como relevantes y accesibles para el sujeto. Una máquina sigue un proceso o algoritmo programado pero, realmente, no está motivado ni desea llegar a su objetivo. En este sentido, se pregunta ¿cómo una máquina diferencia lo relevante de lo accesorio para conseguir su objetivo? Dreyfus ve que un programa solo selecciona como relevante lo que le dice su programación, pero que es incapaz de decidir si algo es relevante por sí mismo. Creo que aquí se equivoca porque hace mucho tiempo ya que tenemos programas capaces de inferir por sí mismos lo relevante para realizar una tarea dada. De nuevo Dreyfus se queda estancado en la IA de su época. No obstante, sí que acierta en subrayar el papel afectivo-consciente a la hora de tomar decisiones. Sabemos muy bien que para decidir algo, las sensaciones, sentimientos y deseos, tienen un papel esencial y, desgraciadamente, a día de hoy esta parte de la IA es la más precaria: nadie sabe cómo hacer consciencia sintética. Sin embargo, ya existen muchos planteamientos al respecto como los de Rosalind Picard o Cynthia Breazeal en lo que se llama computación afectiva, o, en el campo más difícil de intentar crear consciencia artificial tenemos, por ejemplo, a Pentti Haikonen o Igor Aleksander, entre muchísimos otros.

Dreyfus llegó a decir que la IA era un programa de investigación degenerativo y, en cierto sentido, tuvo razón: la IA ha pasado por varios inviernos, por varias épocas en las que no se avanzó prácticamente nada y en las que se perdieron millones de dólares en inversiones (véase el fracaso de la quinta generación de computadores en Japón). No obstante, parece que ahora estamos en un cierto renacimiento con el machine learning y el big data, que ya veremos hasta donde nos llevan aunque parecen bastante prometedores. Dreyfus también criticó que las promesas de la IA nunca se llegaron a cumplir (ni se cumplirán). En esto hemos de darle una buena parte de razón: las promesas de Dartmouth estuvieron lejos de cumplirse y, seguramente, las mismas promesas que hoy nos hacen los líderes del sector, tampoco se cumplirán en los plazos que ellos dan (2045 para la singularidad tecnológica… ni de coña).

Hubert Dreyfus falleció el pasado 22 de abril. Por supuesto, los medios castellanoparlantes no hicieron mención alguna. Descanse en paz.

La Hipótesis de la Mente Extendida

Publicado: 2 abril 2017 en Filosofía de la mente
Etiquetas:Andy Clark, Caja china, David Chalmers, Elon Musk, Externalismo, Jerry Fodor, John Searle, Neuralink, Robert Rupert, Susan Hurley

Aunque Descartes, y tantos otros antes que él, definiera la mente por su inextensión, es decir, por no ocupar lugar alguno en el espacio, por ser inmaterial, o si se prefiere, espiritual, todo el mundo con dos dedos de frente, ubica la mente «dentro» del cerebro. Sin saber muy bien qué tipo de entidad ontológica es, sin poder siquiera definirla con precisión, todo el mundo cree que se piensa con la cabeza. Nadie acepta de buen grado que le digas que su mente no está en ningún sitio, o que su último pensamiento está ubicado a 1.000 kilómetros de su cerebro.

Es más, dado el materialismo monista imperante en las ciencias de la mente, gran parte de la gente algo letrada en el tema apuesta por la teoría de la identidad: mi mente es equivalente a una serie de procesos físico-químico-biológicos que, en cuanto a tales, ocurren en una precisa ubicación espacial: mi tejido cerebral. Mi mente se forma, de alguna manera todavía no aclarada, entre esa increíblemente densa enredadera de neuronas que pueblan mi encéfalo.

Así que, solo por llevar la contraria y violentar un poco las mentes de mis brillantes lectores, vamos a ver una teoría clásica en filosofía de la mente que pretende romper este «chauvinismo cerebral» de creer que los sucesos mentales solo ocurren «dentro» del cerebro: es la teoría de la mente extendida. Quizá la primera en plantearla fue la filósofa norteamericana Susan Hurley en su obra Conscioussness in Action de 1998, pero el texto clásico es el artículo de Andy Clark y David Chalmers The Extended Mind del mismo año, y entró de lleno en el debate cuando Clark publicó el libro Supersizing the mind en 2008.

La teoría de la mente extendida es una consecuencia lógica del funcionalismo imperante en las ciencias cognitivas (ya lo describimos y lo criticamos aquí). El funcionalismo dice que los estados mentales son estados funcionales que conectan causalmente estímulos con respuestas (o estados funcionales con otros estados funcionales). En este sentido si yo quiero realizar una operación matemática y me valgo para ello de una calculadora de bolsillo, entre el input (por ejemplo, la visualización de los dos factores que voy a multiplicar) y el output (obtener el resultado), transcurren multitud de estados funcionales, unos «dentro» del cerebro y otros «fuera». «Dentro», por ejemplo, está mi miente ordenando a mis dedos qué teclas de la calculadora pulsar, y «fuera» estaría el microprocesador de la calculadora procesando los datos y mostrando en pantalla el resultado.

Si definimos los estados mentales por su función, es decir, por ser elementos causales en la cadena entre el estímulo y la respuesta, tanto mis pensamientos sobre que teclas pulsar como el funcionamiento del microprocesador de la calculadora, son eslabones causales de la cadena, ¿por qué decir que solo los estados causales que están «dentro» de mi cabeza son estados realmente mentales, mientras que los que están «fuera» ya no lo serían? Supongamos que nos sometemos a los designios de Elon Musk y de su empresa Neuralink, y nos insertamos la calculadora en el cerebro, conectando sus circuitos a nuestros axones y dendritas neuronales. Entonces, si hiciésemos un cálculo ayudados por la calculadora, todo ocurriría «dentro» de nuestro cerebro ¿Ahora sí aceptamos lo que hace la calculadora como parte de nuestra mente y antes no? ¿Los criterios para distinguir lo mental son, únicamente, algo tan pobre como «dentro» y «fuera»?

Extendamos entonces la mente a lo bestia. Cuando usamos Google para buscar información, devolviéndonos Google la respuesta que buscábamos, nuestro proceso de causas y efectos funcionales ha viajado desde nuestra mente hasta diferentes servidores a lo largo del mundo, incluso ha podido ir al espacio y rebotar en antenas de satélites, hasta volver a nosotros… ¡Nuestros estados mentales se han extendido hasta el infinito y más allá! Seríamos, por utilizar terminología más guay, cíborgs cognitivos o mind cyborgs…

Según Clark, nuestra vida mental es un continuo negociar y re-negociar los límites de la mente con los diferentes dispositivos cognitivos que tenemos a nuestro alcance. Extendemos y reducimos la mente a cada momento: cada vez que encendemos la tele,miramos un reloj, nuestro móvil.. Lo interesante es que podríamos utilizar esta extensión para medir el potencial cognitivo de un individuo o sociedad: desde lo mínimo, un neanderthal escribiendo en la arena con un palo, hasta las actuales megalópolis de millones de individuos hiperconectados entre ellos y con el resto del mundo, teniendo acceso a una incontable cantidad de información. Los hitos fundamentales en una historia de la humanidad concebida desde su capacidad de extensión mental serían la aparición del lenguaje, primero hablado y luego escrito (la extensión de la memoria), el desarrollo del cálculo y de sus herramientas que concluirían con la llegada del computador y, el estadio en el que nos encontramos: internet y su casi ilimitado acceso a todo tipo de datos.

Problemas: si la teoría de la mente extendida puede estar bien para medir la potencia cognitiva de un sistema, habría que entenderla únicamente como una etiqueta pragmática, como una forma de hablar útil en determinados contextos, ya tiene exactamente los mismos problemas del funcionalismo (como hemos dicho, no es más que una consecuencia lógica de éste): no explica la consciencia fenomenológica y no superaría la crítica de la caja china de Searle. Autores como Jerry Fodor, desde una perspectiva cerebrocéntrica o, Robert Rupert, desde todo lo contrario, han sido bastante críticos con ella. Y es que pasa lo de siempre: la explicación funcionalista de los estados mentales es muy incompleta y, llevada a su extremo, llega a ser confusa.

Ejemplo: de nuevo voy a realizar un cálculo extendiendo mi mente hacia una calculadora. Sin embargo, me doy cuenta de que no tiene pilas, así que bajo a la tienda de abajo de mi casa a comprar unas. Desafortunadamente no les quedan ¡Los vendedores de pilas están de huelga! Así, recorro decenas de tiendas pero en ninguna tienen nada. Viajo por toda España en busca de las pilas malditas, hasta que en un pequeño pueblecito perdido en los Pirineos, encuentro una tienda donde, al fin, las consigo. Después de tres meses de búsqueda vuelvo a mi casa, y puedo usar la calculadora para terminar mi cálculo… ¿Todo este tedioso proceso de búsqueda geográfica de tiendas de pilas formaría parte de un proceso cognitivo? ¿Lo englobaríamos dentro de un proceso mental? Echar gasolina al coche, conducir, preguntar a transeúntes, usar el GPS… ¿todos son estados mentales? ¿Dónde queda el límite entre lo que es y lo que no es un estado mental si cualquier cosa es susceptible de participar en un proceso causal?

Deficiencias filosóficas del paradigma dominante

Publicado: 12 noviembre 2014 en Filosofía de la mente
Etiquetas:Conductismo, David Chalmers, Donald Davidson, Franz Brentano, Funcionalismo, Hilary Putnam, Intencionalidad, John Searle, Máquina de Turing, Ray Kurzweil, Superveniencia, Teoría de la Identidad

El funcionalismo es la postura filosófica de la actual psicología cognitiva. Por ende, también lo es de la mayoría de los ingenieros en Inteligencia Artificial. Es, por tanto, una postura compartida por gran parte de la comunidad científica dedicada al tema de la mente, el stablishment contemporáneo (donde más disidencias hay es entre los neurólogos y, como no podría ser de otra manera, entre los filósofos). Vamos a elaborar un pequeño análisis crítico viendo sus ventajas pero, sobre todo, los inconvenientes que hacen de esta posición algo inviable y subrayando como conclusión la disyuntiva entre abandonarla por completo o reparar algunas de sus partes.

Todo surge con el problema epistemológico de la mente. Si la psicología pretendía ser una disciplina científica, tenía que hacer de la mente un objeto de estudio claro y preciso, algo cuantificable, observable empíricamente. Como no podía, decidió hacer como si la mente no existiera. Eso es el conductismo: entender la psicología como la ciencia de la conducta (algo que sí puede observarse), por lo que intentó explicarlo todo mediante el binomio estímulo-respuesta (sin nada entre ellos). El fracaso fue rotundo, por lo que surgieron alternativas: una es la teoría de la identidad en sus distintas vertientes. Los defensores de la identidad sostienen que los estados mentales son idénticos a procesos neuronales. Un estado mental es exactamente lo mismo que una red neuronal concreta en funcionamiento. La virtud de esta perspectiva es que es perfectamente monista y materialista y casa a la perfección con los avances de las neurociencias. Además, su negación, parece absurda: ¿qué si no van a ser los pensamientos que sucesos neuroquímicos? Sin embargo, tiene dos problemas bastante graves:

1. Que sepamos, no hay nada en las reacciones físico-químicas de una red neuronal que pueda explicar, ni remotamente, un pensamiento o una sensación. Las descargas eléctricas de los potenciales de acción que recorren los axones de las neuronas o las reacciones químicas que se dan en las sinapsis no son estados mentales.

2. Ponemos en problemas a los ingenieros de IA. Si un estado mental es idéntico a un estado neuronal, no es idéntico al proceso computacional que se da en un ordenador. Únicamente los seres con un sistema nervioso similar al humano podrían tener estados mentales. Las máquinas no.

Y entonces llegó el funcionalismo, como una reacción al conductismo y como una solución a los problemas de la teoría de la identidad. La clave está en definir los estados mentales como estados funcionales. ¿Qué quiere decir esto? Que un estado mental es siempre algo que causa un efecto o que es efecto de una causa, y se define exclusivamente por su función. Por ejemplo, un dolor de muelas es un estado mental porque es la causa de que yo me tome un analgésico. Uno de los fundadores del funcionalismo (si bien luego se retractó y se volvió muy crítico con su criatura) fue Hilary Putnam, quien entendió lo que era un estado mental a través de la tablatura de programa de una máquina de Turing. Este tipo de máquina, además de una definición de computabilidad, es un ordenador primitivo, una máquina capaz de hacer cálculos. Putnam afirmaba que las diversas órdenes que el programa da a la máquina son estados mentales (ya que tienen poderes causales). Esta concepción podría parecernos extraña a priori, pero soluciona un montón de problemas:

1. Para el funcionalismo, la relación entre estados físicos y mentales no es de equivalencia sino de superveniencia. Dos entes físicamente idénticos tienen los mismos poderes causales (realizan las mismas funciones), pero una misma función puede ser realizada por diferentes entes físicos. Dicho de otro modo: misma materia implica misma función pero misma función no implica misma materia. El funcionalismo con su superveniencia parece una gran idea: incluye la mente olvidada por el conductismo, salva la objeción de la teoría de la identidad hacia la Inteligencia Artificial, a la vez que no se lleva mal con la misma teoría de la identidad. Veamos eso más despacio:

a) El conductismo tenía un embarazoso problema con lo que llamamos estados intencionales o actitudes proposicionales (por ejemplo, las creencias o los deseos). Como prescindía de todo lo que no fuera conductual, no podía explicar el poder causal de una creencia. Por ejemplo, si yo creo que va a llover y por eso me pongo un chubasquero, una creencia causa mi conducta. Para el conductismo, como una conducta (respuesta) solo podía ser causada por otra conducta (estímulo) las creencias no podían causar nada, así que los conductistas no podían dar cuenta de algo tan sencillo y habitual como ponerse un chubasquero porque va a llover. El funcionalismo no tiene problemas con las creencias: una creencia es causa de un efecto, por lo tanto, es un estado mental.

b) El funcionalismo permite que los ingenieros de IA construyan máquinas con estados mentales. Siguiendo a Putnam, la orden que da un programa a un computador es un estado mental que puede ser idéntico al de un humano si cumple la misma función, a pesar de que el sistema físico que los genera es diferente (uno de silicio y otro de carbono). Es la gran virtud de la relación de superveniencia.

c) El funcionalismo permite cierta independencia a la psicología sobre la neurología. Como lo explica todo en términos funcionales, permite que no tengamos que hablar siempre en términos neuroquímicos. Por ejemplo, para explicar que la creencia de que llueva ha causado que me ponga un chubasquero, no es preciso que hable en términos de axones y dendritas. Puedo decir que la creencia causa mi conducta con funciones claramente adaptativas: si me mojo puedo ponerme enfermo y morir. Predecir el clima tiene una clara función adaptativa. Así, el funcionalismo se lleva fantásticamente bien con la psicología evolucionista, ya que ésta, igualmente, explica la mente en términos adaptativos, es decir, de funcionalidad biológica. Los funcionalistas permiten que la psicología pueda hablar en un lenguaje que no se reduce al fisicalista, lo cual es fantástico para los psicólogos, ya que no tienen que estar constantemente mirando por el microscopio y hablando de neuronas.

d) El funcionalismo es perfectamente compatible con la neurología. No tiene problema alguno en admitir que un estado mental es idéntico a un estado neuronal, sencillamente, puede hablar de él sin que la ciencia haya descubierto aún tal identidad. Podemos decir que la creencia en que va a llover causa que yo me ponga un chubasquero, aceptando que la creencia en que va llover es idéntica a un estado neuronal concreto y reconociendo que aún la neurología no ha descubierto tal estado neuronal. Incluso si la neurología descubriera cada correlato neural de todos nuestros estados mentales, el funcionalismo podría seguir hablando en términos funcionales sin contradicción alguna. Simplemente diría que mi creencia es un estado neuronal x que, igualmente, causa que yo me ponga mi chubasquero, lo cual tiene una función claramente adaptativa.

e) Incluso el funcionalismo no tiene ningún compromiso ontológico con el monismo materialista. Podríamos ser funcionalistas y dualistas. Un estado mental podría no ser algo material y tener, igualmente, poderes causales sobre mi conducta. Algunos dualistas que, por ejemplo, para explicar la mente se basan en la distinción informática entre hardware (base física) y software (programas), sosteniendo que mientras el hardware es material, el software no lo es, pueden ser perfectamente funcionalistas. Por el contrario, si un funcionalista quiere ser materialista, solo tiene que añadir otra condición a la tesis de que los estados mentales son funcionales, a saber, que toda relación causal es material, que una causa y un efecto siempre son dos entes materiales. ¡El funcionalismo vale para todos los gustos!

Comprobamos que el funcionalismo es una gran teoría debido a sus grandes ventajas. De aquí su éxito en la actualidad. Sin embargo, tiene dos serios problemas, a los que a día de hoy, nadie ha encontrado una solución satisfactoria:

1. El problema de la conciencia fenomenológica o de los qualia. El funcionalismo no puede explicar de ninguna manera el hecho de que tengamos sensaciones conscientes (sentience). Cuando me duelen las muelas y, debido a ello, me tomo un analgésico, siento conscientemente el dolor de muelas. Una computadora no siente ningún dolor cuando algo falla en su sistema, aunque lo detecte y tome medidas para repararlo. Una computadora, a pesar de que pudiese tener una conducta muy similar a la humana, no siente que hace lo que hace, no desea hacerlo, no se enfada ni se pone nerviosa cuando se equivoca… ¡Una máquina no es consciente de absolutamente nada! No poder dar cuenta de la distinción entre estados conscientes e inconscientes es un gravísimo problema del funcionalismo: ¿por que la selección natural ha gastado tantos recursos en hacer que sintamos cuando podría haber conseguido lo mismo generando organismos totalmente inconscientes? Es la objeción de los zombis de Chalmers ante la que el funcionalismo calla.

2. El problema semántico expuesto por John Searle. Estamos ante el archiconocidísimo argumento de la caja china que no voy a entrar a explicar. La idea tiene como trasfondo el concepto de intencionalidad de Franz Brentano: los estados mentales tienen la cualidad de siempre referirse a algo que no son ellos mismos. Su contenido siempre es otra cosa diferente a ellos, siempre apuntan a otra cosa. En este sentido, los estados mentales son simbólicos. Si analizamos el funcionamiento de un ordenador, la máquina trata todo con lo que trabaja como objetos físicos y no como símbolos. Un computador que traduce del español al chino, no entiende realmente ninguno de los dos idiomas. Trata las palabras como objetos físicos que intercambia siguiendo unas pautas sin entender nada de lo que está haciendo. La conclusión de Searle es que las máquinas no tienen semántica sino tan solo sintaxis. Es un argumento bastante fuerte y aunque se han hecho muchos intentos de refutarlo, ninguno lo ha conseguido del todo.

No he conocido ninguna teoría que, ya desde su comienzo, no haya tenido serios problemas. El funcionalismo no es diferente, pero debe resultarnos chocante que el sustrato filosófico que hay debajo de la psicología actual más comúnmente aceptada por la comunidad científica sea deficiente. A mí no deja de resultarme difícil de digerir como conocidos científicos cometen errores garrafales por no tener ni idea de lo que están hablando cuando hablan de la mente. Entre otros, me refiero al popular Ray Kurzweil, el cual ignora completamente la filosofía de la mente a la vez que habla constantemente de temas por ella tratados (y además, tiene el atrevimiento de decir que muy pronto vamos a construir una mente indistinguible de la humana). Nos quedan dos alternativas: o lo abandonamos completamente y pensamos algo radicalmente nuevo (o volvemos a otras posturas más viejas), o intentamos arreglar los desperfectos. Hay algunos intentos: por un lado está el interesante materialismo anómalo de Donald Davidson o, el mismo David Chalmers de los zombis, quien intenta una especie de compatibilismo entre los qualia y el funcionalismo. Hablaremos de ellos otro día.

N-ismo de propiedades y parecidos de familia

Publicado: 5 abril 2011 en Filosofía de la mente, Filosofía general
Etiquetas:Carlos Ulises Moulines, Conductismo, Daniel Dennett, Funcionalismo, Gilbert Ryle, Hilary Putnam, Jerry Fodor, John Searle, John Smart, Karl Popper, Ludwig Wittgenstein, materialismo, Patricia Churchland, Roger Penrose

Las dos posturas ontológicas que tradicionalmente han dominado la historia de la filosofía han sido, primero, el dualismo de propiedades (anteriormente conocido como dualismo platónico o cartesiano) y, luego, el materialismo, siendo esta última la que domina en los ambientes intelectuales de corte cientificista de la actualidad.

El dualismo, en la medida en que sostiene la total independencia e incomunicación entre la mente y el cuerpo, es una teoría absurda. Aunque no sepamos cómo nuestro cerebro genera estados mentales, ni sepamos qué relación hay entre uno y otros, tenemos claro que existe una estrecha relación. Creo que no hace falta ni mencionar, por obvio, lo que ocurre con nuestros estados mentales cuando bebemos mucho alcohol o cuando nos anestesian.

Y con respecto al materialismo ya sabéis mi postura : creo que no sabemos lo suficientemente bien qué es la materia para enarbolar la proposición «Todo lo que existe es x, siendo x materia» , como subrayaba la crítica de Moulines al materialismo y que discutimos largamente en este blog. Además, el materialismo siempre ha tenido, y tendrá, el problema de la conciencia como bestia negra: ¿Cómo explicar la existencia de estados mentales que no son claramente definibles en términos materiales? Las estrategias pasan por negar la existencia de tales estados, bien directamente (Ryle, Dennett o Patricia Churchland), bien reduciéndolos a estados funcionales (Fodor y, al principio, Putnam) o, directamente, hacerlos idénticos a los estados neuronales (Smart); o de modo casi embarazoso, evitando hablar de ellos (el conductismo en general). Desgraciadamente para todos ellos, los estados mentales se resisten a ser reducidos y ninguna de las propuestas parece satisfactoria. ¿Qué hacer entonces? ¿Es que cabe otra alternativa a ser materialista o dualista? Pienso que sí.

Una de las aportaciones más famosas de Wittgenstein en sus Investigaciones Filosóficas es el concepto de «parecidos de familia». Wittgenstein intenta definir qué es el lenguaje, pero se encuentra con una pluralidad de lenguajes diferentes (los que llamará juegos de lenguaje) a los que no encuentra una característica en común tal que nos sirva para la definición:

66. Considera, por ejemplo, los procesos que llamamos «juegos». Me refiero a los juegos de tablero, juegos de cartas, juegos de pelota, juegos de lucha, etc. ¿Qué hay de común a todos ellos? – No digas: «Tiene que haber algo común a ellos o no los llamaríamos juegos» – sino mira si hay algo común a todos ellos. – Pues si los miras no verás por cierto algo que sea común a todos, sino que verás semejanzas, parentescos y, por cierto, toda una serie de ellos. Como se ha dicho: ¡no pienses, sino mira! Mira, por ejemplo, los juegos de tablero con sus variados parentescos. Pasa ahora a los juegos de cartas: aquí encuentras muchas correspondencias con la primera clase, pero desaparecen muchos rasgos comunes y se presentan otros. Si ahora pasamos a los juegos de pelota, continúan manteniéndose carias cosas comunes pero muchas se pierden – ¿Son todos ellos entretenidos? Compara el ajedrez con las tres en raya. ¿O hay siempre un ganar o perder, o una competición entre los jugadores? Piensa en los solitarios. En los juegos de pelota hay ganar y perder; pero cuando un niño lanza la pelota a la pared y la recoge de nuevo, ese rasgo ha desaparecido. Mira qué papel juegan la habilidad y la suerte. Y cuán distinta es la habilidad en el ajedrez y la habilidad en el tenis. Piensa ahora en los juegos de corro: Aquí hay el elemento del entretenimiento, ¡pero cuántos de los otros rasgos característicos han desaparecido! Y podemos recorrer así los muchos otros grupos de juegos. Podemos ver cómo los parecidos surgen y desaparecen.

Y el resultado de este examen reza así: Vemos una complicada red de parecidos que se superponen y entrecruzan. Parecidos a gran escala y de detalle.

Cuando observamos la realidad, contemplamos una ingente cantidad de clases de «cosas» entre las que solamente encontramos parecidos, sin conseguir vislumbrar nada que todas ellas tengan en común de tal modo que podamos decir que en la realidad únicamente hay x (tal como erróneamente hace el materialismo) pues, ¿qué tendrían en común un átomo, un dolor de muelas, un teorema matemático, la velocidad, los tipos de interés, la batalla de San Quintín y la digestión? Algunas similitudes, parentescos… parecidos de familia:

67. No puedo caracterizar mejor esos parecidos que con la expresión «parecidos de familia»; pues es así como se superponen y entrecruzan los diversos parecidos que se dan entre los miembros de una familia: estatura, facciones, color de los ojos, andares, temperamento, etc., etc. – Y diré: los ‘juegos’ componen una familia.

¿A qué postura nos llevaría aplicar la teoría de parecidos de familia de Wittgenstein a la ontología? A un pluralismo ontológico (n-ismo de propiedades si se quiere): existe un sólo mundo (no necesitamos un mundo platónico dónde existen los teoremas matemáticos ni otro mundo para los estados mentales como pasa con Popper o Penrose) pero en él hay muchas propiedades diferentes tal que no podemos definir cuál sería la característica común a todas ellas. Como dice Searle:

Hay montones de propiedades en el mundo: electromagnéticas, económicas, geológicas, históricas, matemáticas, por decir algunas. De manera que si mi posición es un dualismo de propiedades, en realidad debería llamarse pluralismo de propiedades, n-ismo de propiedades, dejando abierto el valor de n. La distinción verdaderamente importante no es la que puede darse entre lo mental y lo físico, entre la mente y el cuerpo, sino la que puede darse entre aquellos rasgos del mundo que existen independientemente de los observadores – rasgos como la fuerza, la masa y la atracción gravitatoria – y aquellos rasgos que son dependientes de los observadores – como el dinero, la propiedad, el matrimonio y el gobierno -. El caso es que, aunque todas las propiedades dependientes del observador dependen de la conciencia para su existencia, la conciencia misma no es relativa al observador. La conciencia es un rasgo real e intrínseco de ciertos sistemas biológicos como el suyo y el mío».

John Searle, El misterio de la conciencia.

La mente, a pesar del materialismo, permanece irreductible a lo material. Sin embargo, no por ello hay que aceptar el dualismo. ¡Acepta el n-ismo de propiedades!

La Máquina de Von Neumann

Corpúsculos

Coordenadas

Cápsulas

Suscripción por email

El maquinista

Evolucionando

HYPÉRBOLE

Venia Docendi

Memes más infecciosos

En Facebook

Twitter

Año Turing 2012

Año Gagarin

Las claves

Taxonomía memética

Infectados

Posts etiquetados ‘John Searle’

Cuando la IA olvidó la materia

Unas notas de filosofía computacional

El enorme blockhead que es GPT-3

La estafa de la rebelión de las máquinas

Saliendo de la habitación china

Block y su argumento Blockhead

El caso Dreyfus: filósofos contra ingenieros

La Hipótesis de la Mente Extendida

Deficiencias filosóficas del paradigma dominante

N-ismo de propiedades y parecidos de familia

Corpúsculos

Coordenadas

Cápsulas

Suscripción por email

El maquinista

Evolucionando

HYPÉRBOLE

Venia Docendi

Memes más infecciosos

Año Turing 2012

Año Gagarin

Las claves

Taxonomía memética

Infectados

Posts etiquetados ‘John Searle’

Tu voto:

Tu voto:

Tu voto:

Tu voto:

Tu voto:

Tu voto:

Tu voto:

Tu voto:

Tu voto:

Tu voto: