88
Universidad de Buenos Aires Facultad de Ciencias Exactas y Naturales Departamento de Computaci´ on Dise˜ no ´optimo de experimentos para un an´ alisis racional de la selecci´on de preguntas en humanos Tesis presentada para optar al t´ ıtulo de Licenciado en Ciencias de la Computaci´on CarlosIguar´an Director: Dr. Alejo Salles - Instituto de C´ alculo, Universidad de Buenos Aires Codirectora: Dra. Azzurra Ruggeri - Max Planck Institute For Human Development Buenos Aires, Junio 2017

Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

  • Upload
    buidang

  • View
    220

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

Universidad de Buenos AiresFacultad de Ciencias Exactas y Naturales

Departamento de Computacion

Diseno optimo de experimentos para unanalisis racional de la seleccion de

preguntas en humanos

Tesis presentada para optar al tıtulo deLicenciado en Ciencias de la Computacion

Carlos Iguaran

Director: Dr. Alejo Salles - Instituto de Calculo, Universidad de Buenos Aires

Codirectora: Dra. Azzurra Ruggeri - Max Planck Institute For Human Development

Buenos Aires, Junio 2017

Page 2: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

OPTIMAL EXPERIMENTAL DESIGN FOR A RATIONALANALYSIS OF QUESTION SELECTION IN HUMANS

Computational Cognitive Science poses a framework for the study of human cognitionas an information processing problem, combining formal methods from Computer Sciencewith empirical methods such as behavioural experiments on human beings.

To understand the world that surrounds us it is necessary to gather information, forexample, by choosing the most informative question in a given situation. In this thesis,we study the way in which human beings select questions in a causal inference task,that is, when we try to understand the cause-effect relations between events. In orderto contrast theories originated in literature and extend them, we formalize the notion ofexperiments and utility metrics over them. This allows us to apply Optimal ExperimentalDesign techniques, which aim to automatically generate the best stimuli to distinguishthe theory that better describes human behaviour. This work answers two questions:which theory better describes human behaviour and with which degree of precision. Wedesign and carry out an experiment on human beings. To analyze the results, we considerprobabilistic models based on Bayesian Inference which might be used by participants tomodel their environment.

Our results show that Information Gain better models human choices, regardless ofpotential variations in utilities according to Probability Gain. Besides, we present a quan-tification of the degree of sensitiveness of humans to variations in Information Gain. Fi-nally, we discovered that the compliance of subject’s choices to this criterion correlateswith subject’s knowledge of probability, which links a trained, conscious ability with itsuse in decision making.

We conclude this work by presenting an alternative model based on trees that considersthe structure of the causal inference task in terms of the relations between possible causesand discussing future lines of research.

Keywords: bayesian models of cognition, rational analysis, optimal experimental design,question selection, causal inference, information gathering.

2

Page 3: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

DISENO OPTIMO DE EXPERIMENTOS PARA UN ANALISISRACIONAL DE LA SELECCION DE PREGUNTAS EN HUMANOS

La Ciencia Cognitiva Computacional propone un marco para el estudio de la cognicion hu-mana como un problema de procesamiento de informacion, combinando metodos formalesprovenientes de la Ciencia de la Computacion con metodos empıricos como la realizacionde experimentos conductuales con personas.

Para entender el mundo que nos rodea es necesario recabar informacion, por ejemplo,eligiendo la pregunta mas informativa en una situacion. En la presente tesis, nos pro-ponemos estudiar la manera en que los seres humanos seleccionamos preguntas en unatarea de inferencia causal, es decir, al intentar entender las relaciones de causa y efectoentre sucesos de la realidad. Para poder contrastar las teorıas provenientes de la literaturay extenderlas, formalizamos la nocion de experimentos y metricas de utilidad sobre losmismos. Esto nos permite utilizar tecnicas de Diseno Optimo de Experimentos, las cualestienen por objetivo generar computacionalmente los mejores estımulos a fin de distinguir,entre las teorıas consideradas, aquella que mejor describe el comportamiento humano. Queteorıa describe el comportamiento humano y con que grado de precision son dos pregun-tas que se responden en este trabajo. Disenamos y llevamos a cabo un experimento enhumanos. Para analizar los resultados consideramos distintos modelos probabilısticos ba-sados en Inferencia Bayesiana con los que los participantes podrıan estar representando elentorno.

Nuestros resultados demuestran que el criterio de Information Gain modela las elec-ciones humanas independientemente de las potenciales variaciones de la utilidad segunProbability Gain. Ademas, presentamos una cuantificacion del grado de sensibilidad de loshumanos a variaciones en la diferencia de Information Gain entre las preguntas. Final-mente, descubrimos que la conformidad de las elecciones de un sujeto con este criteriocorrelaciona positivamente con los conocimientos de probabilidad del mismo, vinculandode esta manera una habilidad entrenada con su uso inconsciente en la toma de decisiones.

Concluimos la tesis presentando un modelo alternativo basado en arboles que considerala estructura de la tarea de inferencia causal en terminos de las relaciones entre las causasy discutiendo lineas para investigacion futura.

Palabras clave: modelos bayesianos de la cognicion, analisis racional, diseno optimo deexperimentos, seleccion de preguntas, inferencia causal, recoleccion de informacion.

3

Page 4: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

VISTA GENERAL DEL DOCUMENTO

Los Capıtulos 1 y 2 son las bases de este trabajo. En el Capıtulo 1 describimos losfundamentos de la Ciencia Cognitiva Computacional y del problema de recoleccion de in-formacion y revisamos el estado del arte. En el Capıtulo 2 nos enfocamos en los conceptoscentrales de la Inferencia Bayesiana e incluimos notacion, algoritmos de muestreo a uti-lizar y algunas distribuciones de probabilidad utiles. Ademas, describimos brevemente elprograma de la Ciencia Cognitiva Bayesiana, es decir, la aplicacion de metodos Bayesianospara entender la cognicion.

Los Capıtulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Capıtulo 3 contie-ne el modelado matematico del problema y una descripcion de las herramientas de DisenoOptimo de Experimentos a utilizar. Allı tambien presentamos los criterios de utilidad con-siderados, dos modelos de estimacion de probabilidad y detalles de la implementacion yrepresentacion de las distribuciones de probabilidad. En el Capıtulo 4, hacemos uso de lasherramientas desarrolladas para disenar un experimento y explicamos las decisiones to-madas en el proceso. Ademas, definimos metricas para analizar el comportamiento de lossujetos experimentales. El Capıtulo 5 contiene los resultados del experimento y su analisis.En el Capıtulo 6 proponemos un modelo Bayesiano alternativo y bases para su implemen-tacion computacional. Finalmente, en el Capıtulo 7 pueden encontrarse las conclusionesde esta tesis y propuestas de nuevas lıneas de investigacion para el futuro.

4

Page 5: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

INDICE

1.. Ciencia Cognitiva Computacional y el problema de recoleccion de informacion . . 11.1. Inteligencia Artificial, Ciencia Cognitiva e Inferencia Bayesiana . . . . . . . 31.2. El problema de la recoleccion de informacion . . . . . . . . . . . . . . . . . 41.3. La recoleccion de informacion durante el desarrollo . . . . . . . . . . . . . . 61.4. Diseno Optimo de Experimentos para estudiar la recoleccion de informacion 71.5. Algunos comentarios finales . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.. Inferencia Bayesiana y el enfoque bayesiano en ciencia cognitiva . . . . . . . . . . 122.1. Bases de la Inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . 122.2. Algunos puntos a destacar sobre la seleccion de la prior . . . . . . . . . . . 142.3. Modelos jerarquicos y presentacion grafica. . . . . . . . . . . . . . . . . . . 142.4. Algoritmos de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.4.1. Utilizando algoritmos MCMC en la practica . . . . . . . . . . . . . . 172.5. Algunas distribuciones de probabilidad utiles. . . . . . . . . . . . . . . . . . 182.6. Estimacion no bayesiana mediante Maxima Verosimilitud. . . . . . . . . . . 192.7. El Enfoque Bayesiano en Ciencia Cognitiva . . . . . . . . . . . . . . . . . . 19

2.7.1. El Principio General de Racionalidad . . . . . . . . . . . . . . . . . 192.7.2. Caracterısticas del enfoque . . . . . . . . . . . . . . . . . . . . . . . 21

3.. Diseno Optimo de Experimentos y modelos de estimacion de probabilidad . . . . 233.1. Marco formal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.2. El problema de busqueda . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.3. Componentes del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.4. Modelos de estimacion de probabilidad . . . . . . . . . . . . . . . . . . . . . 27

3.4.1. Modelo Multinomial. . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.4.2. Modelo Dirichlet-Multinomial . . . . . . . . . . . . . . . . . . . . . . 28

3.5. Notas sobre la implementacion . . . . . . . . . . . . . . . . . . . . . . . . . 303.5.1. Implementacion de los modelos . . . . . . . . . . . . . . . . . . . . . 303.5.2. Implementacion de la busqueda . . . . . . . . . . . . . . . . . . . . . 30

4.. Diseno e implementacion de un experimento . . . . . . . . . . . . . . . . . . . . . 324.1. Diseno Experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.2. Realizacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.3. Colaboracion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.4. Metricas para el analisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.5. Disenando para el futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.6. Ejemplo de historia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

5.. Resultados y analisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375.1. Pregunta de comparacion para el modelo Multinomial . . . . . . . . . . . . 385.2. Pregunta de calibracion para el modelo Multinomial . . . . . . . . . . . . . 425.3. Pregunta de comparacion para el modelo Dirichlet-Multinomial . . . . . . . 445.4. Pregunta de calibracion para el modelo Dirichlet-Multinomial . . . . . . . . 49

5

Page 6: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

Indice 6

5.5. Analisis de correlacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515.6. Comparacion de modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525.7. Analisis de priors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

6.. Un modelo bayesiano alternativo basado en teorıas . . . . . . . . . . . . . . . . . 546.1. Aspectos matematicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

6.1.1. P (τ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 566.1.2. P (θ|τ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 576.1.3. P (π|τ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 586.1.4. Derivacion de las probabilidades del modelo . . . . . . . . . . . . . . 60

6.2. Aspectos computacionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 606.2.1. Algoritmo para muestrear τ . . . . . . . . . . . . . . . . . . . . . . . 616.2.2. Algoritmo para generar arboles candidatos . . . . . . . . . . . . . . 616.2.3. Calculo de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . 63

6.3. Validacion del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 656.4. Interpretacion complementaria de la semantica arborea . . . . . . . . . . . . 66

7.. Conclusiones y trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

Apendice 71

A.. Apendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72A.1. Problemas de probabilidad y estadıstica . . . . . . . . . . . . . . . . . . . . 72A.2. Demostracion de formulaciones equivalentes para el caso Multinomial . . . . 72A.3. Derivacion para el modelo arboreo . . . . . . . . . . . . . . . . . . . . . . . 73A.4. Documentos sobre aspectos eticos . . . . . . . . . . . . . . . . . . . . . . . . 74

Page 7: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

1. CIENCIA COGNITIVA COMPUTACIONAL Y EL PROBLEMADE RECOLECCION DE INFORMACION

La Ciencia Cognitiva Computacional (CCC) es un campo interdisciplinario que buscaentender la cognicion humana como un problema de procesamiento de informacion. Laspersonas recibimos informacion sobre el mundo a partir de nuestros sentidos, la proce-samos, tomamos decisiones en base a ella y eventualmente actuamos de acuerdo a losresultados del procesamiento. La informacion que vamos recibiendo desde nuestro naci-miento de manera constante a partir de nuestras interacciones con el mundo forma yenriquece un modelo que explica la realidad. Inicialmente, no tenemos nocion de que esun auto, una silla o un libro, ni de la manera en que tıpicamente se utilizan. Ademas,desconocemos como estos objetos se relacionan entre sı, por ejemplo, que un libro puedeusarse para aprender como funciona un auto. Las representaciones de los objetos que nosrodean, sus funciones y relaciones, son pequenas piezas de un modelo del mundo que guıala cognicion. De esta manera, constantemente resolvemos problemas para cumplir objeti-vos y como consecuencia, enriquecemos y expandimos el modelo gracias a la experiencia.En esto consiste precisamente el aprendizaje.

Pensar a los humanos como maquinas de procesamiento de informacion posibilita ladescripcion de su comportamiento mediante tecnicas matematico-computacionales, per-mitiendo a los investigadores la utilizacion de un abanico de herramientas provenientes deuna variedad de disciplinas. Estadısticas, Inteligencia Artificial, Probabilidad, LinguısticaFormal, Logica y la Teorıa de Lenguajes de Programacion son campos del conocimiento conentidad propia y no fueron desarrollados deliberadamente con el objetivo de ser aplicadosen CCC. Sin embargo, sı proveen los medios necesarios para construir descripciones cuan-titativas en ella. Estas descripciones son validadas mediante experimentos en humanos.Esta es una caracterıstica fundamental de la CCC: la combinacion de metodos formales yrigurosos, basados en ciencias exactas como la matematica, con tecnicas experimentales.

La investigacion de Marr y Poggio [Mar82] es un trabajo fundacional en este campo,ya que establecio un nuevo enfoque epistemologico para entender la cognicion. En la epocaen que fue publicado [Mar82], se creıa que la cognicion se podıa explicar en terminos ex-clusivamente biologicos: es decir, por medio de la interaccion de las neuronas, su desarrolloy cambios. Esto derivo en un reduccionismo psicologico que en un principio llevo a buenosresultados en ciertas areas como la electrofisiologıa y la psicofısica. La primera estudialas propiedades electricas de las celulas y los tejidos mientras que la segunda se enfocaen la relacion entre estımulos fısicos y sus consecuentes reacciones. Este abordaje resultoacotado, dado que usando un enfoque exclusivamente fısico, las respuestas que se puedenobtener son de esa naturaleza unicamente. De acuerdo a Marr, la falta de una explicacionpara la funcion que cumplen esas celulas, tejidos y sus interacciones era lo que impedıaobtener conclusiones mas abarcativas. Se describıa la funcion, pero no se la explicaba.Faltaba entender el objetivo que ese comportamiento perseguıa y por que.

El abordaje de Marr primero establece que, dada la complejidad del ser humano, concapas psicologicas y biologicas, su analisis debe ser dividido en niveles complementariosdotados de diferentes grados de abstraccion. De esta manera, las preguntas pueden serformuladas en un nivel dado, y, hasta cierto punto, se las puede aislar de los detallespertenecientes a otros niveles. El nivel define el grado de abstraccion y por tanto, el

1

Page 8: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

1. Ciencia Cognitiva Computacional y el problema de recoleccion de informacion 2

tipo de preguntas, hipotesis, y respuestas que se pueden obtener. Marr define tres niveles,denominados Computacional, Algorıtmico y de Implementacion. Hay un grado decrecientede abstraccion de un nivel al siguiente.

Como expresamos anteriormente, vamos a pensar los problemas que enfrentamos losseres humanos en nuestra interaccion diaria con el mundo como problemas computaciona-les. Los niveles de Marr siguen esta idea, generando un paralelismo entre la manera en queen Ciencia de la Computacion se divide tradicionalmente un problema con la manera enque deberıa dividirse en Ciencia Cognitiva. Un problema resoluble por una computadorase puede pensar tambien en diferentes niveles. Imaginemos un sistema computacional queresuelve el siguiente problema:

Dada una lista de numeros enteros sin repeticiones, ordenarla de menor a mayor.

La frase anterior constituye una descripcion, en lenguaje natural, del problema que elsistema resuelve. La misma podrıa haber sido expresada como:

Entrada: X : Lista[Z]

Salida: X ′ : Lista[Z]

Precondicion: ¬∃i, j ∈ [1, |X|]/Xi = Xj ∧ i 6= j

Postcondicion: X ′i <= X ′i+1∀i ∈ [1, |X ′| − 1] ∧ ∀x ∈ X,x ∈ X ′

La anterior es una descripcion en un lenguaje formal, donde se define un tipo parala entrada del programa, un tipo para salida, una precondicion y una postcondicion, esdecir, propiedades que deben cumplir la entrada y la salida respectivamente. A este tipode descripcion del comportamiento de un programa se la conoce como Especificacion.La misma es independiente de la manera en que posteriormente se ordena la lista. Alconjunto de pasos ordenados que se utilizan para realizar dicho ordenamiento se lo conocecomo Algoritmo y hay varios algoritmos distintos que resuelven el mismo problema. Porejemplo, Insertion Sort, Selection Sort y Quick Sort son diferentes soluciones conocidaspara el problema de ordenamiento. Finalmente, el algoritmo podrıa ser implementado endistintas maquinas fısicas, que pueden describirse usando conceptos de electronica. Estostres niveles, especificacion, algoritmia e implementacion fısica, son similares a lo que Marrplantea para explicar la cognicion.

El nivel Computacional es el mas abstracto y describe que problemas estan siendoresueltos y por que. Este nivel busca entender el problema sin preocuparse en la forma enque las personas lo resuelven. Es entender que problema se resuelve pero no como se loresuelve. Los analisis en este nivel implican realizar una especificacion en algun lenguajeconveniente. Notar que en el ejemplo del ordenamiento, dimos dos especificaciones con gra-dos distintos de formalidad. Esto genera ademas que, a partir de ellas, se puedan extraerdiferentes conclusiones. El problema descripto en el nivel computacional, se resuelve dealguna manera en nuestro cerebro. Para poder resolverlo, es necesario representar la infor-macion de alguna manera en nuestras mentes y manipularla. Este es el objeto de interes enel nivel Algorıtmico. Finalmente, las manipulaciones de informacion y la representacion seimplementan de alguna manera en el cerebro. A diferencia de las computadoras que tıpi-camente usan electronica, en el cerebro vamos a pensar en neuronas y sus interconexiones,las cuales conforman el nivel de Implementacion.

Page 9: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

1. Ciencia Cognitiva Computacional y el problema de recoleccion de informacion 3

Desde un punto de vista metodologico, el nivel Computacional parece ser cualitati-vamente mejor como punto de partida que el nivel de Implementacion. Una vez que elproblema ha sido establecido, los algoritmos y la representacion son mas faciles de enten-der y sus propiedades pueden ser mejor analizadas en terminos del objetivo que persiguen.Por ejemplo, convergencia de algun algoritmo solo puede ser definida en terminos de unadescripcion del problema. Empezar por el nivel de Implementacion es mas difıcil. Usandolas palabras de Marr, es como tratar de entender el vuelo de las aves simplemente mirandosus plumas.

Un ejemplo interesante respecto de como la problematica planteada en [Mar82] siguevigente puede encontrarse en [JK16]. Los microprocesadores, dado que fueron construi-dos por humanos, son un ejemplo de sistemas complejos que son entendidos en todos susniveles de abstraccion. Ademas, consiste en un conjunto de modulos con algun grado deespecializacion y organizados jerarquicamente, al igual que el cerebro. En este trabajo, seplantea si analisis tıpicos de la neurociencia pueden ser aplicados para entender la funciona-lidad de un procesador. Por ejemplo, lesionar un transistor y observar el comportamientodel sistema ante esa falta o bien observar la activacion de transistores ante determina-do comportamiento, de la misma manera que tıpicamente se analiza con neuronas. Estosestudios no fueron capaces de producir un entendimiento de la jerarquıa, complejidad yfuncionamiento del procesador. Puesto que solo se focalizan en simulaciones de ındole fısi-ca, es difıcil entender las abstracciones que se ven reflejadas en los agrupamientos de lostransistores en los chips, que estan relacionados con las funciones logicas del mismo. Devuelta, y en concordancia con lo propuesto por Marr, la complementariedad de los nivelesde abstraccion es lo que permite un entendimiento cabal de los sistemas complejos, comopueden ser el cerebro o el procesador.

1.1. Inteligencia Artificial, Ciencia Cognitiva e Inferencia Bayesiana

Llegados a este punto, el lector que esta al tanto de los enormes logros alcanzados porla Inteligencia Artificial (IA) puede preguntarse por que no aplicamos esas ideas para en-tender la inteligencia humana. La IA busca construir maquinas inteligentes. Sin embargo,dichas maquinas no tienen forzosamente que emplear los mismos mecanismos de proce-samiento de informacion que utilizan los humanos. La Ciencia Cognitiva Computacional,por otro lado, como es una rama de la ciencia cognitiva, intenta ganar comprension decomo piensan los humanos. Aunque enarbolan metas distintas, tienen en comun el estudiode la inteligencia.

Dentro de la IA hay, en lıneas generales, dos abordajes distintos para tratar la inteli-gencia. Uno orientado a los datos (data-based) y otro orientado a modelos (model-based).El primero piensa la inteligencia como una tarea de reconocimiento de patrones. Los da-tos son clasificados, reconocidos, organizados, etc. Las maquinas pueden ser programadaspara tomar este enfoque, especialmente cuando hay una enorme cantidad de datos dispo-nibles. Por ejemplo, cuando un celular reconoce una cara, aplica alguna tecnica basada enimagenes previas, entendidas como patrones que se extraen de las mismas. En el segundoabordaje, los conceptos clave consisten en construir un modelo de un subconjunto de larealidad para luego utilizarlo. Este enfoque tiene una naturaleza composicional: los mode-los pueden ser combinados para construir otros mas ricos y flexibles. Como quedara claroen el proximo capıtulo, la Inferencia Bayesiana es un caso particular de enfoques model-based, donde es necesario modelar el proceso que genera los datos para luego utilizar dicho

Page 10: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

1. Ciencia Cognitiva Computacional y el problema de recoleccion de informacion 4

modelo.Los humanos nos desempenamos bien con datos ralos y ruidosos, y no necesitamos un

gran entrenamiento para tener buen rendimiento en una amplia variedad de tareas. Somossumamente flexibles ante los cambios en el ambiente y somos capaces de utilizar en unarea el conocimiento aprendido en otra. Por ejemplo, un jugador de poquer con practicaen una variante del mismo, puede adaptarse con facilidad a otra version del juego. En estodiferimos sustancialmente de las computadoras que estan programadas para funcionar bienen una tarea con suma especificidad, y no se adaptan con facilidad. Estas caracterısticasdel pensamiento humano pueden ser explicadas en terminos de ricas representaciones enun tipo de inteligencia basada en un modelo. Resumiendo, dado que queremos entendera los humanos como sistemas de procesamiento de informacion, los enfoques orientados amodelos son mas adecuados, tanto por ser plausibles explicaciones algorıtmicas como porel entendimiento superior que producen del funcionamiento de dichos sistemas.

De la misma manera que algunos formalismos usados para construir IA pueden serusados para modelar inteligencia humana, el conocimiento que se obtiene la CCC median-te la ingenierıa reversa de la manera en que los seres humanos funcionan, puede luegoaplicarse en IA. Esto cobra especial importancia en tareas donde todavıa somos mejoresque las maquinas, como por ejemplo el Procesamiento del Lenguaje Natural, la Vision, o lacreatividad. Un artıculo interesante sobre las relaciones entre esos campos y prometedoraslıneas de interaccion puede encontrarse en [LUTG16].

1.2. El problema de la recoleccion de informacion

La recoleccion de informacion es un componente crucial de toda tarea cognitiva. Estocobra especial notoriedad cuando tratamos la cognicion como un problema de procesa-miento de informacion. Cualquier sistema requiere un input para producir un output.Muchos problemas como la categorizacion, el pensamiento cientıfico y los diagnosticosmedicos dependen fuertemente de la recoleccion de informacion. Los humanos desde lainfancia buscan hacer esto de muchas maneras, a traves de sus interacciones con el mundo(ver [CRG14]). Durante la infancia, la informacion de base de la que disponemos es muyreducida, por lo tanto, la busqueda de informacıon es muy intensa. Esta busqueda de in-formacion se ve motivada por la necesidad de hacer crecer el modelo del mundo con quelos ninos cuentan.

Un metodo sumamente utilizado por los ninos para recabar informacion es la formula-cion de preguntas. Esta tiene dos componentes: el generativo, que se refiere a la habilidadde construir preguntas desde cero y el selectivo, que consiste en la habilidad de elegir lapregunta mas util entre las que se construyeron. Precisamente, como las personas identi-fican las preguntas utiles de las que no lo son, y que significa que una pregunta sea util,son problemas centrales de las teorıas de cognicion humana [Nel05]. De la misma maneraque un cientıfico puede generar una hipotesis sobre un problema cognitivo, los seres huma-nos generamos hipotesis sobre el mundo de manera regular. Las mismas son potencialesexplicaciones de los fenomenos percibidos. En lo que resta de la presente seccion nos re-feriremos a las hipotesis generadas por humanos de manera cotidiana. En lo que respectaa la utilidad de las preguntas en el componente selectivo, historicamente en la literaturase las clasifico como pertenecientes a dos clases: hypothesis-scanning y constraint-seeking.De acuerdo a [RSLX, RL14] las preguntas constraint-seeking son aquellas que apuntana alguna caracterıstica compartida por multiples hipotesis. Como consecuencia, una vez

Page 11: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

1. Ciencia Cognitiva Computacional y el problema de recoleccion de informacion 5

realizada la pregunta, el espacio de hipotesis se reduce. Por el contrario, las preguntashypothesis-scanning apuntan a individuar una hipotesis. Imaginemos una situacion ficti-cia. Un nino llega tarde al colegio en reiteradas oportunidades. Muchas veces se enferma,otras se olvida cosas en su casa y debe volver. Otro companero, consciente de estas cau-sas, al observar que vuelve a llegar tarde, desea conocer el motivo de esa tardanza. En elcontexto del conjunto de hipotesis que el companero baraja en base a la historia previa,una pregunta constraint-seeking es “¿Llegaste tarde porque te olvidaste algo en tu casay tuviste que volver?”mientras que una pregunta hypothesis-scanning es “¿Llegaste tardeporque te olvidaste la mochila en tu casa y tuviste que volver?”.

Notese que la clasificacion entre hypothesis-scanning y constraint-seeking no esta de-finida matematicamente. Es una nocion binaria, donde no hay concepto de una preguntamas constraint-seeking que otra, es decir, una pregunta mas general que otra. En el ejem-plo del nino que llega tarde al colegio, la pregunta “¿Llegaste tarde porque te sucedioalgo?” ademas de ser constraint-seeking es mas general que la previamente mencionada.

Por otro lado, hay varios criterios con definicion matematica, precisa y por tanto deinterpretacion unica que han sido propuestos para tratar el tema de la utilidad de lainformacion. Dichos criterios asumen que al preguntar por determinado hecho, el modeloque las personas utilizan se sustenta en una distribucion de probabilidad sobre las hipotesisque explican dicho suceso. Al obtener la respuesta, se asume una actualizacion de ladistribucion de probabilidad ante la nueva informacion recibida. Ademas, se asume que elespacio de hipotesis es finito, y que solo una explica el fenomeno percibido.

Probability Gain, Information Gain, Kullback-Leibler Distance e Impact son criteriospara definir la utilidad de conocer un dato nuevo [Nel05], como puede ser la respuestade una pregunta realizada. Luego, estos criterios se generalizan para medir la utilidad depreguntas. Para un estudio de sus propiedades teoricas, ver [Nel08] y para su aplicacional problema de seleccion de caracterısticas a observar en clasificacion ver [Nel05].

Para expresar las definiciones es necesario fijar una notacion. Sea Q una pregunta, auna respuesta y h una hipotesis. Ademas, notaremos µc(Q, a) a la utilidad de a comorespuesta de Q para el criterio de utilidad c y P (.) como la probabilidad de un evento.

Asumiendo que si el sujeto tuviera que adivinar la hipotesis correcta elegirıa la masprobable, Probability Gain define la utilidad de una respuesta como el incremento en laprobabilidad de adivinar correctamente:

µPG(Q, a) = maxiP (hi|Q, a)−max

iP (hi). (1.1)

Otra eleccion razonable, es tomar la utilidad como el grado de reduccion de la incer-tidumbre sobre la verdadera hipotesis. Una manera de medir la incertidumbre asociada auna distribucion de probabilidad es la entropıa de Shannon. A la diferencia de la entropıase la conoce como Information Gain:

µIG(Q, a) = H[P (h)]−H[P (h|Q, a)], (1.2)

donde H es la entropıa de Shannon (ver [Sha01]) para la variable aleatoria h:

H[P (h)] =∑i

P (hi) log

(1

P (hi)

), (1.3)

con la expresion correspondiente para H[P (h|Q, a)].

Page 12: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

1. Ciencia Cognitiva Computacional y el problema de recoleccion de informacion 6

Tambien podrıamos medir el nivel de cambio entre creencias previas y posteriores.Impact (Ecuacion (1.4)) se define como tomar el cambio absoluto mientras que Kullback-Leibler distance (Ecuacion (1.5)) como tomar el valor esperado de la diferencia logarıtmicaentre las probabilidades:

µImp(Q, a) =∑i

|P (hi)− P (hi|Q, a)|, (1.4)

µKL(Q, a) =∑i

P (hi|Q, a) log

(P (hi|Q, a)

P (hi)

). (1.5)

Como no conocemos la respuesta a una pregunta hasta que efectivamente es respondida,una manera de medir su utilidad es teniendo en cuenta todas las posibles respuestas,pesadas por su probabilidad. Esta idea es la intuicion detras de la Utilidad esperada deuna pregunta:

EP (c)(µ(Q)) =∑j

P (aj |Q)µ(Q, aj). (1.6)

1.3. La recoleccion de informacion durante el desarrollo

La formulacion de preguntas es una poderosa herramienta para recolectar informacion,desde la mas temprana infancia. Los ninos la usan para resolver inconsistencias en lo queven y comprenden, buscar explicaciones y ganar mayor comprension del mundo que losrodea. En [RSLX] se enfocan en el componente selectivo de la formulacion de preguntascuando los ninos se enfrentan a una tarea de inferencia causal. Podemos definir inferenciacausal como la tarea de identificar dependencias entre distintos eventos de la realidad.

A los efectos de experimentar en ciencia cognitiva, en general se utilizan situacionescontroladas donde la relacion entre hipotesis y variables observadas sea directa [MP09].En el caso particular de [RSLX], a los sujetos se les dice que un efecto O ha ocurridodurante varios dıas. Durante un aprendizaje de la evidencia, presentada en la Figura 1.1,se les muestran mas y mas imagenes representando la causa de O cada dıa, junto con unadescripcion verbal de dicha causa. La misma causa puede ocurrir en mas de un dıa. Porejemplo, se les dice que Toma, un monstruo del planeta Apres, llega tarde a la escuela, y seles presentan las razones por las cuales esto sucedio los dıas anteriores. Como se muestraen la Figura 1.2, el primer dıa Toma no pudo encontrar su campera.

Fig. 1.1: Fase de entrenamiento para los experimentos de [RSLX]. Se muestran numero de dıa,explicacion de la causa e imagen asociada.

Page 13: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

1. Ciencia Cognitiva Computacional y el problema de recoleccion de informacion 7

Luego de la fase de aprendizaje se les dice que el efecto (llegar tarde a la escuela) haocurrido de nuevo, y que los amigos de Toma, Dax y Wug, estan tratando de averiguar sucausa haciendo una pregunta cada uno. Las dos preguntas se despliegan al mismo tiempoa los sujetos, y se les pide que elijan cual de los dos personajes descubrira primero queha causado el efecto (ver Figura 1.2). Las causas de los dıas anteriores son presentadas(la campera el primer dıa, romper la bicicleta en el segundo, olvidarse los libros y tenerque volver a buscarlos en el tercero, etc) y tambien lo son las preguntas de los personajes(“¿Tu bicicleta se rompio?” y “¿Hubo algo que no pudiste encontrar para venir a laescuela?”). Las preguntas son presentadas como subconjuntos de las imagenes mostradasdurante el aprendizaje, y como texto. La descripcion verbal enfatiza la semantica “o”de las preguntas y la naturaleza binaria (sı o no) de las respuestas. Esto significa que siuna pregunta muestra las imagenes 1, 2, 3 deberıa ser interpretada como “¿Fue el efectocausado por alguna entre 1, 2, y 3?” y que la respuesta puede ser “si” o “no”.

Fig. 1.2: Seleccion de preguntas posterior a la fase de entrenamiento para los sujetos experimentalesen [RSLX]. La evidencia esta ordenada de la misma manera que fue mostrada a los sujetosy las dos preguntas se muestran como texto e imagen.

Experimentos de este tipo son llevados a cabo con ninos de cinco anos de edad. Enel primer experimento se presentan dos preguntas, siendo una constraint-seeking y laotra de hypothesis-scanning y teniendo la constraint-seeking mayor Expected InformationGain. En un segundo experimento nuevamente se presenta una pregunta de cada tipo,teniendo la pregunta hypothesis-scanning mayor Expected Information Gain. En amboscasos, los sujetos eligen la pregunta con mayor Expected Information Gain. Se incluyenademas experimentos para descartar heurısticas tales como elegir la pregunta con mayorprobabilidad de confirmacion o la que contiene la hipotesis mas frecuente de acuerdo a loaprendido en la etapa de evidencia. Para computar Expected Information Gain se asumeP (hi) como la frecuencia de aparicion de hi en la evidencia.

1.4. Diseno Optimo de Experimentos para estudiar la recoleccion deinformacion

En [RSLX] y en la ciencia en general, se utilizan experimentos para distinguir entreteorıas rivales para explicar determinado fenomeno. En psicologıa particularmente, losmodelos son difıciles de discriminar experimentalmente, dado que es difıcil determinar elvalor crıtico de las variables del diseno [MP09] y encontrar un experimento que permita

Page 14: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

1. Ciencia Cognitiva Computacional y el problema de recoleccion de informacion 8

diferenciar dichas teorıas lleva tiempo, recursos y esfuerzo humano. Asimismo, en generalhay un gran conjunto de experimentos que podrıan realizarse. En el caso de [RSLX] elespacio de posibles experimentos es muy grande, dado que se le pueden proveer a los sujetosdistintas combinaciones de causas en la fase de entrenamiento y se les puede mostrardistintas combinaciones de preguntas. Diseno Optimo de Experimentos (DOE), es unconjunto de tecnicas que pretenden automatizar la seleccion de experimentos informativos,asistiendo al trabajo del experimentador. Las mismas cobran especial importancia cuandola distincion que se quiere hacer es cuantitativa. Para poder elegir de manera automaticaexperimentos que actualizan al maximo nuestras creencias sobre una pregunta cientıfica,es necesario formalizar el conjunto de hipotesis que pretendemos comparar. Tambien esimprescindible describir formalmente que es un experimento y la medida de utilidad quenos permite distinguir los experimentos mas utiles de los menos utiles.

Para poder comparar hipotesis rivales, es necesario que las mismas sean opuestas enel experimento. Visto de otra forma, si dos teorıas que pretendemos comparar producenel mismo resultado en el experimento, una vez realizado, el mismo no aporta suficienteevidencia para poder obtener una conclusion. Por lo tanto, en general las metricas de uti-lidad van a tener en cuenta que un experimento util o informativo es aquel que obliga a lashipotesis a comparar a generar resultados contrapuestos. Cabe destacar que el DOE cobraespecial importancia en situaciones donde es difıcil encontrar diferencias entre hipotesis ri-vales y no es trivial encontrar configuraciones que produzcan distintos resultados. Ademasllevar adelante experimentos puede ser costoso, por lo que hay que tomar recaudos extrapara extraer tanta informacion como sea posible con el menor dispendio de recursos.

A diferencia de [RSLX], donde los experimentos no son generados sistematicamente, en[NMCS10], se presenta y utiliza un marco general para Diseno Optimo de Experimentos(ver Tabla 1.1). Este fue el primer trabajo en aplicar este tipo de marco para un problemade recoleccion de informacion. Como se ha afirmado antes, la recoleccion de informaciones crucial para muchas tareas, como por ejemplo clasificar. En [NMCS10] se presenta unexperimento con el objetivo de dilucidar la manera en que los humanos elegimos accedera informacion en una tarea de clasificacion. Para ello, se genera un conjunto de imagenesficticias de dos especies de plancton, a y b. A que especie pertenece un individuo enparticular es una funcion probabilıstica de dos atributos F y G, especıficamente el colordel ojo y la opacidad de la garra. Para ejemplos de la evidencia presentada a los sujetosver Figura 1.3.

Durante la fase de aprendizaje, y de acuerdo con probabilidades previas, los especıme-nes de plancton son muestreados y mostrados al sujeto, el cual adivina la especie y recibecorrecciones de inmediato. La duracion de la fase de aprendizaje continua hasta que alguncriterio sea alcanzado (99 % de las respuestas optimas en los ultimos 200 juicios o 95 % derespuestas optimas sobre los ultimos 20 juicios por cada 4 combinaciones de garra/ojo).Despues de eso, los sujetos atraviesan una fase de evaluacion, en la cual se les muestranimagenes de plancton con los dos atributos oscurecidos, y tienen que elegir cual quierenver.

Dos medidas fueron definidas para computar que tan informativo es un experimento:Preference Strength de un modelo (estrategia) dado un rasgo y Pairwise Disagreement entredos estrategias. Asumiendo que los sujetos usan determinada estrategia para seleccionarla informacion que desean adquirir, el primero mide que tanto una estrategia (como porejemplo Information Gain) prefiere mirar un rasgo determinado (por ejemplo la garra) porsobre el otro (el ojo). Sea m una estrategia, F y G atributos, f y g realizaciones de F y

Page 15: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

1. Ciencia Cognitiva Computacional y el problema de recoleccion de informacion 9

Fig. 1.3: Resumen de la evidencia presentada a los sujetos en [NMCS10]: especımenes de las especiesa (izquierda) y b (derecha).

G respectivamente y µm(F, f) la utilidad F = f para la estrategia m. Tomar la diferenciaentre E(µ(F, f))− E(µ(G, g)) captura esta idea 1:

PStrm(F ) = E(µ(F, f))− E(µ(G, g)). (1.7)

El Pairwise Disagreement (PD) entre dos estrategias, mide el grado de desacuerdoentre ambas (como por ejemplo Information Gain y Probability Gain) sobre que rasgoprefieren y formalmente lo definimos como:

PD(µ1, µ2) =

{(|PStrµ1(F )|.|PStrµ2(F )|)0,5 si PStrµ1(F ).PStrµ2(F ) ≤ 00 si PStrµ1(F ).PStrµ2(F ) > 0.

(1.8)

La idea central es que un experimento util es aquel para el cual hipotesis rivales van adar resultados diferentes. Por ejemplo, nos gustarıa que un sujeto que elige de acuerdo aInformation Gain seleccione el rasgo F con alta probabilidad (dado que el rasgo G proveebaja informacion segun el criterio de Expected Information Gain) y al mismo tiempo que unsujeto que se comporta de acuerdo a Probability Gain elija el rasgo G con alta probabilidad.Esto generarıa una configuracion perfecta para diferenciar cada tipo de sujeto (ver Figura1.4).

1 la formulacion de [NMCS10] incluye un escalado del Pairwise Disagreement, puesto que dicho escaladono es de utilidad para nuestro trabajo, no lo incluiremos en la formalizacion.

Page 16: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

1. Ciencia Cognitiva Computacional y el problema de recoleccion de informacion 10

Fig. 1.4: Cuatro escenarios de [NMCS10]: el objetivo es optimizar PD. Esto significa que las prefe-rencias de la estrategia 1 y 2 sobre los atributos F y G deberıan ser tan opuestas como seaposible. (a) Muestra contraposicion, pero muy baja. La estrategia 1 prefiere F levementepor sobre G y la estrategia 2 prefiere G levemente por sobre F , lo cual resulta en un PDbajo. (b) Es el caso ideal, dado que ambas tienen una fuerte preferencia por atributosopuestos. (c) No es bueno para nada, dado que solo la estrategia 2 tiene una preferenciafuerte por algun rasgo. La estrategia 1 prefiere F levemente, con lo cual hay una probabi-lidad no despreciable de que un sujeto que siga la estrategia 1 elija el rasgo G. (d) es mejorque (c), dado que aunque las preferencias de la estrategia 2 son moderadas y menores queen el caso (c), ambas estrategias tienen preferencias moderadas pero opuestas.

Experimento Tarea Sujetos DOEEstimacionde probabi-lidad

[RSLX]Seleccion de preguntasen inferencia causal

Ninos de 5 anosde edad

No Frecuencia

[NMCS10]Seleccion de atributosen clasificacion

Adultos Sı Frecuencia

Tab. 1.1: Vista comparativa de disenos experimentales.

1.5. Algunos comentarios finales

Llegado este punto, resulta importante hacer algunos comentarios sobre el impacto de[RSLX] y [NMCS10]. Como se establece en [RSLX] su resultado brindo evidencia sugestivaa favor de Information Gain como estrategia usada por los humanos en el dominio de infe-rencia causal. Sin embargo, queda abierto el problema de dilucidar si esa estrategia modelala conducta humana en un abanico mas grande de situaciones. A medida que la diferenciaen Expected Information Gain entre las dos preguntas de las situaciones decrece, vale lapena preguntarse hasta que punto este criterio sigue modelando correctamente el compor-tamiento de los sujetos. Tanto [RSLX] como [NMCS10] buscan encontrar la estrategia que

Page 17: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

1. Ciencia Cognitiva Computacional y el problema de recoleccion de informacion 11

mejor modela el comportamiento humano, pero no hacen un analisis cuantitativo sobre elgrado de conformidad con esta estrategia en distintas situaciones.

Por otro lado, en [RSLX] las nociones de constraint-seeking y hypothesis-scanning seaplican directamente de la definicion, en terminos del numero de hipotesis alcanzadas.Comparar estos dos tipos de preguntas es en realidad comparar preguntas generales yabstractas con aquellas que son concretas y particulares. Estas ideas informales admitenmultiples formulaciones rigurosas, que podrıan ser de utilidad para entender mejor lapreferencia humana. En el Capıtulo 6 exploramos esta direccion en profundidad.

Otro punto a tener en cuenta es que en [RSLX] y [NMCS10] no hay un analisis discri-minado por sujeto a lo largo de multiples preguntas. Todas las medidas de comparacionpara entender que criterio mejor modela al ser humano se toman en base a la agregacionde resultados individuales. Analizar a los sujetos individuales a lo largo de multiples si-tuaciones puede brindar mayor certeza respecto a su comportamiento. En los Capıtulos 4y 5 propondremos maneras de hacer este tipo de analisis y lo llevaremos a cabo.

En lo que se refiere a la estimacion de probabilidad, necesaria para calcular cualquierade los criterios definidos en la Seccion 1.2, en ambos casos se utiliza la frecuencia. Estosignifica pensar que los seres humanos no tienen ninguna consideracion de incertidumbre apartir de la informacion que conocen, es decir, que los sujetos analizan informacion comosi fuera una descripcion absoluta de la situacion en cuestion. Volviendo al ejemplo delnino que llega tarde al colegio, motivado en las situaciones de [RSLX], si la informacioncon la que cuenta su companero es que llego tarde cuatro veces, tres debido a olvidarsela campera y una vez debido a olvidarse un cuaderno, en ese trabajo se presume que elsujeto modela las probabilidades asignando 3/4 a olvidarse la campera y 1/4 a olvidarseel cuaderno. El sujeto no tiene en cuenta que estas proporciones podrıan ser producto delazar. En el Capıtulo 3, proponemos variantes para esta idea.

Un punto interesante a notar es que las estrategias presentadas en la Seccion 1.2 paramedir la utilidad de un dato y generalizadas para medir la utilidad de una pregunta puedentambien ser utilizadas para DOE. Un experimento no es otra cosa que una pregunta paradistinguir teorıas sobre la realidad. Por ejemplo, podrıamos querer el experimento que ma-ximiza Information Gain respecto a las potenciales explicaciones del problema cientıficoque queremos resolver. Analizando este fenomeno desde otra perspectiva, el proceso deseleccion de preguntas de los humanos es una manera de hacer DOE. Las personas inten-tamos diariamente encontrar la mejor pregunta para ganar informacion, o el mejor rasgopara poder clasificar. De igual modo, un cientıfico busca generar los mejores experimentospara poder obtener la informacıon que necesita y contrastar las hipotesis que tiene sobreel mundo.

Page 18: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

2. INFERENCIA BAYESIANA Y EL ENFOQUE BAYESIANO ENCIENCIA COGNITIVA

Presentamos en este capıtulo los conceptos fundamentales de la Inferencia Bayesianay la Probabilidad necesarios para este trabajo. Para un tratamiento mas profundo de laInferencia Bayesiana ver [GCSR14] y de Probabilidad ver [Ros09].

2.1. Bases de la Inferencia Bayesiana

La Estadıstica es una rama de la matematica aplicada que busca extraer conclusionesa partir de datos observados. La estadıstica Bayesiana en particular, se basa en un usoexplıcito de la probabilidad para medir la incertidumbre y para expresar las conclusionesestadısticas. Los Bayesianos interpretan la probabilidad como grados de creencia. Estopermite cuantificar las suposiciones del modelo de manera probabilıstica. Por ejemplo,supongamos que encontramos una moneda en la calle y nos preguntamos si esta cargadao no. Tendrıamos entonces dos hipotesis rivales: la moneda no esta cargada y muestracara aproximadamente la mitad de las veces, o bien lo esta y la probabilidad de caraes distinta a un medio. Como sabemos, las monedas se producen de manera masiva, nocargadas. El hecho de encontrar una moneda cargada implica que dicha moneda no fueproducida por las autoridades oficiales. Esta asuncion es clave para la inferencia, y podemoscodificarla en un modelo atribuyendo una baja probabilidad al hecho de que la monedaeste cargada. Por otra parte, ademas de codificar las asunciones de manera probabilıstica,la interpretacion subjetiva que se le da a la probabilidad permite que el resultado de unanalisis de datos bayesiano pueda ser una distribucion de probabilidad sobre parametros,variables aleatorias o incluso una distribucion sobre distribuciones.

El primer paso para hacer un analisis Bayesiano es construir un modelo probabilısti-co, sobre las variables observadas y no observadas (latentes). Esto significa entender ycuantificar la estructura probabilıstica del problema. Asumiendo determinadas hipotesis,modelamos los datos de la realidad. Una vez que tenemos el modelo, podemos calcular laposterior de las hipotesis, condicional a los datos observados. Otro punto de interes es lamanera en que dichas hipotesis afectan la sensibilidad de las conclusiones. Llamamos a estofitting analysis. Por otro lado, si dos modelos son explicaciones razonables de los datos delproblema que estamos analizando, vamos a estar interesados en hacer una comparacion ydecidir, si es que alguno lo hace, cual de ellos explica mejor la realidad.

Notemos H al conjunto de hipotesis, (que pueden ser parametros, hechos, etc), D alos datos observales p(.) a una distribucion de probabilidad. Un modelo de probabilidadconjunto puede ser expresado como:

p(H,D) = p(H)p(D|H) (2.1)

donde p(.|.) expresa la probabilidad condicional.Usando el Teorema de Bayes, podemos obtener una posterior condicional de la distri-

bucion conjunta:

p(H|D) =p(H,D)

p(D)=p(H)p(D|H)

p(D). (2.2)

12

Page 19: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

2. Inferencia Bayesiana y el enfoque bayesiano en ciencia cognitiva 13

Los factores del lado derecho de la Ecuacion (2.2) tienen nombres propios. p(H) esla prior distribution, ya que modela el grado de creencia en cada hipotesis, dado que nose observaron datos. Se la puede ver como el grado de incertidumbre sobre el espacio dehipotesis: si estamos seguros de que cierta hipotesis debe ser correcta le vamos a dar unamayor probabilidad a priori 1. Por otro lado, como D es una variable observable, se lapuede pensar como fija, y p(D|H) como una funcion de H. Se la conoce como likelihoodfunction y codifica el grado de ajuste, de compatibilidad, entre los datos observados y lashipotesis. p(D) es un factor de normalizacion, de manera que p(H|D) integre a 1 (o sume,dependiendo de si la variable puede adquirir valores de un conjunto finito, numerable, ono numerable). Como p(D) no depende de H, se la omite cuando se comparan hipotesisrivales y se opera con:

p(H|D) ∝ p(H)p(D|H). (2.3)

La Ecuacion (2.3) contiene uno de los conceptos centrales de la Inferencia Bayesiana.La probabilidad de una hipotesis dados los datos es proporcional tanto a la probabilidada priori como al grado en que explica los datos observados. Si una hipotesis no explicamuy bien los datos pero tenemos una creencia previa muy fuerte en ella se va a necesitaruna cantidad considerable de datos para descartarla. Sin embargo, esto eventualmentesucedera. La idea central aquı es que aunque el prior afecta las inferencias a posteriori, losdatos pueden tener una fuerte influencia, y contradecir al prior, dictando de esta manerala inferencia.

Siendo A, B y C eventos, una variante del teorema de Bayes que utilizaremos en estatesis es la siguiente:

P (A|B,C) =P (B|A,C)P (A|C)

P (B|C). (2.4)

Hay otras dos distribuciones de probabilidad distinguidas de uso extendido para pre-diccion: la posterior predictive y la prior predictive. La prior predictive nos permite inferirel valor de una variable observable antes de llevar a cabo una observacion:

p(D) =

∫p(D,H)dH =

∫p(H)p(D|H)dH. (2.5)

Mientras que la posterior predictive hace el mismo trabajo, una vez que tenemos ciertarealizacion (D) de la variable a tomar en consideracion:

p(D|D) =

∫p(D,H|D)dH =

∫p(D|H, D)p(H|D)dH =

∫p(D|H)p(H|D)dH, (2.6)

donde la ultima igualdad vale porque D y D son condicionalmente independientes dadoH.

Una vez que la posterior condicional o la posterior predictive son computadas, variastecnicas pueden ser aplicadas para resumir su informacion, desde graficar o marginalizar,hasta tomar estimadores puntuales tales como la media, la mediana, la moda, etc.

1 Notese que cualquier distribucion de probabilidad puede ser pensada en terminos de incertidumbre ygrados de creencia. La distribucion prior es un caso particular que modela esto sobre las hipotesis sin teneren cuenta ningun dato.

Page 20: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

2. Inferencia Bayesiana y el enfoque bayesiano en ciencia cognitiva 14

2.2. Algunos puntos a destacar sobre la seleccion de la prior

Seleccionar la prior y el likelihood correctos son pasos fundamentales para construirun modelo. El likelihood es generalmente menos controversial, ya que codifica el procesogenerativo que produce los datos. La prior es en cambio pensada como una eleccion massubjetiva, ya que codifica la creencia previa a la observacion de datos. Esto puede llevar amayores discrepancias a la hora de escoger, por lo menos en comparacion el modelado delproceso generativo.

Una propiedad a tener en cuenta es la de conjugacy. Una prior se dice conjugada aun likelihood si la posterior resultante tiene la misma forma parametrica que la prior.Es matematicamente conveniente tener una prior conjugada ya que sabemos la formafuncional de la posterior y esto lleva a un calculo mas sencillo de estimadores puntuales ya una interpretacion mas accesible.

Debemos realizar una eleccion entre priors informativas, no informativas y debilmenteinformativas. No son conceptos formales, pero se dice que una prior es informativa cuandocaptura el conocimiento cientıfico del problema que modela con gran detalle. Esto llevaa hipotesis previas fuertes y a que se requiera de una cantidad grande de datos contra-dictorios a la prior para que la posterior brinde una conclusion diferente a la misma. Lasprior no informativas, en cambio, tienden a no acotar demasiado el espacio de hipotesis.Se las usa para eliminar aquellas hipotesis que son imposibles (las que tienen probabilidadcero de ser verdaderas). Esto conduce a que el likelihood, y por lo tanto los datos, con-dicionen a la posterior en un grado mayor que la prior. Se las usa en general cuando nohay informacion o creencia previa, lo que puede parecer contradictorio con la idea de unmodelo de probabilidad conjunta y un modelado del conocimiento. No obstante, cuandotratemos el tema de modelos jerarquicos en la Seccion 2.3 quedara claro que las priors noinformativas se usan preponderantemente sobre los hiperparametros, donde hay todavıamenos intuicion para modelar. Tambien podrıamos usar priors debilmente informativas,las cuales regularizan la posterior y capturan una version ligera del conocimiento a priori.Hacen el modelo mas facil de interpretar y en ocasiones tambien simplifican calculos. Suuso se justifica en el hecho de que el modelo final no cambia mucho en relacion con el quese hubiera obtenido usando una prior informativa.

2.3. Modelos jerarquicos y presentacion grafica.

Hasta ahora, hemos establecido los conceptos y la notacion en terminos de hipotesisy datos con el objetivo de dar al lector un panorama claro de las bases de la InferenciaBayesiana. Sin embargo, los modelos se establecen en general en terminos de variablesaleatorias genericas y sus dependencias probabilısticas. Los problemas interesantes en lapractica no pueden ser modelados como un simple producto entre likelihood y prior. Enlos hechos, hay relaciones que involucran variables observadas y latentes que pueden serexpresados probabilısticamente y su inclusion resulta en modelos mas ricos y expresivos.La idea central es que que las variables observables dependen de los parametros de unadistribucion generativa. Dichos parametros a su vez, podrıan depender de otro conjunto,llamado hiperparametros. Una dependencia analoga podrıa ser aplicada sobre los hiper-parametros, dando lugar a modelos mas complejos aun.

Los Modelos Graficos se han convertido en un marco general para notar modelos pro-babilısticos. Nos vamos a enfocar en un tipo particular llamados Redes Bayesianas o

Page 21: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

2. Inferencia Bayesiana y el enfoque bayesiano en ciencia cognitiva 15

Directed Graphical Models. Los mismos fueron propuestos en [Pea88]. Se puede encontraruna introduccion en [Bis06] de la cual extraemos algunos puntos. Las Redes Bayesianasson grafos dirigidos acıclicos donde los nodos representan variables aleatorias y las aristasrepresentan dependencia probabilıstica entre variables. Lo que estos modelos codifican esla distribucion conjunta de las variables y una factorizacion por uso repetido de la regladel producto (Ecuacion (2.1)).

La dependencia entre variables guıa las tecnicas computacionales usadas para aproxi-mar la posterior. En el marco de un modelo grafico, la condicion de Markov se cumple:condicionalmente a sus padres, todo nodo es independiente de aquellos que no son susdescendientes. Esto implica que la distribucion conjunta se puede factorizar como:

p(x1, ..., xn) =∏i

p(xi|Parents(xi)) (2.7)

A lo largo de esta tesis, vamos a seguir la siguiente convencion para los nodos:

Blanco: variable no observable.

Gris: variable observable.

Nodo redondo: variable continua.

Nodo cuadrado: variable discreta.

La utilidad de las Redes Bayesianas reside en que son una representacion compactade un modelo probabilıstico y que algunas propiedades como la independencia condicionalpuede ser analizadas inspeccionando el grafico.

2.4. Algoritmos de muestreo

Hasta ahora, hemos establecido que la Estadıstica Bayesiana tiene por objetivo funda-mental computar la posterior o posterior predictive con el objeto de analizar y comparar lashipotesis (potenciales explicaciones) sobre el fenomeno estudiado. Si el espacio de hipotesises pequeno, podemos calcular la probabilidad en cada una de las hipotesis y comparar losresultados. Esto rara vez sucede en la practica, donde los espacios son intratables o infini-tos y es imposible evaluar la distribucion en cada punto. Un primer enfoque para resolvereste problema en el caso de espacios infinitos es utilizar una grilla, es decir, un conjunto depuntos equiespaciados sobre el espacio de hipotesis, y evaluar la distribucion en esos pun-tos, a modo de aproximacion. Supongamos que la grilla se extiende sobre el hipercubo delado 1 correspondiente al espacio de hipotesis. Para que la distancia entre puntos en cadadimension sea 0,001, se necesitan 10002 si el hipercubo pertenece a R2, 10003 si pertenecea R3 y, en general 1000n para Rn. A este fenomeno se lo conoce como la Maldicion de ladimensionalidad (Curse of dimensionality) y tiene una consecuencia clara: para determi-nado n el tiempo de computo convierte al problema en intratable computacionalmente.Lo mismo sucede en casos de muchas variables discretas en donde el tamano del problemacrece exponencialmente con el numero de variables.

Aunque evaluemos la distribucion en muchos puntos, es complicado encontrar el con-junto de puntos donde la probabilidad es alta; muchos puntos de la grilla podrıan tenerbaja probabilidad, no siendo utiles para aproximar la posterior o posterior predictive. Al

Page 22: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

2. Inferencia Bayesiana y el enfoque bayesiano en ciencia cognitiva 16

comparar hipotesis, nos gustarıa encontrar las mas probables, sin tener que analizar todoel espacio.

Una manera de comparar hipotesis es mediante un conjunto de muestras: una muestrade una distribucion P (x) es una realizacion x cuya distribucion de probabilidad es P (x)[Mac02]. Cuando las muestras son elegidas con un componente aleatorio, se dice que elmetodo es un algoritmo de muestreo. Para una introduccion a sus usos ver [GCSR14,Mac02, Bis06]. Las dos tareas para las cuales se pueden utilizar algoritmos de muestreoson:

I generar un conjunto de muestras {Xr}Rr=1 de P (x)

II computar el valor esperado de una funcion f(.) sobre P (x)

Notese que resolver I implica resolver II, puesto que podemos usar las muestras paracomputar el estimador:

f(x) =1

R

∑r

f(Xr) (2.8)

Si la distribucion de probabilidad es simple, existen tecnicas para muestrear directa-mente de ella. Sin embargo, este no es el caso de las distribuciones que se usan tıpicamenteen la practica de la Inferencia Bayesiana. Llamaremos distribucion objetivo aquella de lacual queremos muestrear pero no podemos hacerlo directamente. Esto motiva la utilizacionde algoritmos especıficos. Entre los mas sencillos podemos encontrar Importance Samplingo Rejection Sampling (ver [Mac02]). Si bien estos metodos son utiles en casos sencillos,no escalan bien con la dimensionalidad y requieren una distribucion auxiliar de la que sepueda muestrear de manera directa y que sea similar a la distribucion objetivo.

El crecimiento del uso de la Inferencia Bayesiana se ha visto motivado por la eficienciade los algoritmos Markov Chain Monte Carlo (MCMC). Estos metodos escalan bien conla dimensionalidad y no requieren una distribucion parecida a la objetivo para funcionar,puesto que, como quedara claro mas adelante, el uso que hacen de una distribucion auxiliaresta relacionado con explorar un espacio de soluciones y no con aproximar a la distribucionobjetivo.

La idea principal detras de los algoritmos MCMC es que la n−esima muestra es compu-tada probabilısticamente a partir de la (n−1)−esima construyendo ası una estructura ma-tematica llamada Cadena de Markov. Una Cadena de Markov es una sucesion de variablesaleatorias θ0, θ1, ... para las cuales se cumple Propiedad de Markov :

P (θn|θ1, ..., θn−1) = p(θn|θn−1). (2.9)

Se las especifica con una distribucion inicial p(θ0) y una distribucion de transicionQt(θt|θt−1). Se generan muestras de θ de una distribucion aproximada y en cada pasose va ajustando la distribucion de manera tal de aproximar mejor la posterior objetivo.Vamos a requerir que la cadena tenga una distribucion invariante igual a la objetivo, locual quiere decir que, una vez realizadas suficientes iteraciones, la distribucion de la cadenase parece a la objetivo, esto es, produce muestras similares a las que producirıa la misma.

En este trabajo daremos uso a un caso particular de algoritmo MCMC llamado Metropolis-Hastings. Notando P (.) a la distribucion objetivo y Q(.) a una distribucion auxiliar de

Page 23: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

2. Inferencia Bayesiana y el enfoque bayesiano en ciencia cognitiva 17

la cual sı podemos muestrear directamente, la estructura del algoritmo es la siguiente:

Algoritmo 1: Metropolis-Hastings

1 Elegir un punto de inicio θ0 tal que p(θ0|D) > 02 for t=1,...: do3 Muestrear θ∗ de la distribucion auxiliar en tiempo t: Qt(θ

t|θt−1)

4 Calcular r = p(θ∗|D)/Qt(θ∗|θt−1)p(θt−1|D)/Qt(θt−1|θ∗)

5 Seleccionar θt = θ∗ con probabilidad min(r, 1). Si la seleccion no es exitosa,elegir θt = θt−1

6 end

Se puede demostrar que este algoritmo converge para la mayorıa de las distribucionesde interes practico [GCSR14]. Es importante notar que para poder aplicarlo es necesariopoder computar el cociente r y muestrear de la distribucion auxiliar.

2.4.1. Utilizando algoritmos MCMC en la practica

Idealmente nos gustarıa poder asegurar que las muestras generadas por una corridade un algoritmo MCMC son muestras independientes de la distribucion objetivo. En lapractica, esto no va a ser cierto si consideramos la corrida del algoritmo directamente.Al ser un proceso iterativo, las primeras muestras van a ser aproximaciones pobres de ladistribucion objetivo. Por otro lado, como la muestra n−esima depende de la (n−1)−esima,las mismas no son independientes. Para resolver el primero de estos problemas, tıpicamentese descartan las primeras muestras, llamando a esta etapa de burn-in o precalentamientode la cadena. Para resolver el segundo problema, una tecnica que se utiliza en la practicaes tomar una de cada k muestras, a los efectos de evitar la correlacion entre las mismas.Se conoce a este metodo como thinning de la cadena.

En lo que a la convergencia respecta, si bien es necesario poseer una garantıa teoricade que las muestras de una corrida suficientemente larga del algoritmo se pareceran a lasque obtendrıamos muestreando de la distribucion objetivo, tambien debemos asegurarnosque la corrida finita que utilizamos en la practica alcanzo un estado estacionario en dichadistribucion. Para poder precisar esto, utilizamos el metodo Gelman-Rubin, originalmentepublicado en [GR92] y que se describe en [GCSR14]. El mismo propone realizar simula-ciones paralelas y analizar la varianza para cada cadena particular y entre cadenas. Loque se pretende observar es que la varianza intra y entre cadenas se parezcan. El motivopara este tipo de analisis puede apreciarse en la Figura 2.1, que presenta cinco cadenasindependientes de una distribucion normal bivariada, con distintos puntos de inicio. Semuestra el estado luego de 50 y 1000 iteraciones y, como se podra observar, en el caso delas 50 iteraciones la varianza intra-cadena es mucho mas pequena que la varianza entre ca-denas. En el segundo caso, con 1000 iteraciones, ambas varianzas tienen valores similares,habiendo llegado a un estado estacionario.

El metodo propone un estimador RG,R que converge a 1 cuando n→∞. En la practica,

se considera aceptable un RG,R menor que 1,1.

Page 24: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

2. Inferencia Bayesiana y el enfoque bayesiano en ciencia cognitiva 18

Fig. 2.1: Etapas de las iteraciones de cadenas generadas vıa algoritmos MCMC, extraıdo de[GCSR14]. Son cinco cadenas independientes de una distribucion normal bivariada, condistintos puntos de inicio. Izquierda: estado de las cadenas despues de 50 iteraciones.Derecha: estado de las cadenas despues de 1000 iteraciones.

2.5. Algunas distribuciones de probabilidad utiles.

Presentamos aquı algunas distribuciones de probabilidad que son necesarias para estetrabajo. Una explicacion mas profunda de todas ellas y sus propiedades se puede encontraren [Bis06].

Dado un evento con dos posibles resultados, por ejemplo exito y fracaso, donde µ esla probabilidad de exito, la distribucion Binomial nos da la probabilidad de m exitos enN intentos. Consideremos m una variable aleatoria con distribucion Binomial, notaremosm ∼ Bin(µ,N). La funcion de masa de probabilidad es:

P (m) =

(N

m

)µN (1− µ)N−m. (2.10)

La distribucion Multinomial por su parte, es una generalizacion de la Binomial aespacios de resultados de tamano arbitrario K. Si la probabilidad del resultado i es µientonces

∑µi = 1. DadosN intentos, la probabilidad de tenermi ocurrencias del resultado

i es:

P (m1, ...mk) =

(N

m1...mk

) K∏i=1

µmii (2.11)

y lo notaremos ~m ∼ Multinomial(~µ). Al caso particular de la Multinomial cuandoN = 1 se lo conoce como distribucion Categorica.

La distribucion Normal Multivariada es una generalizacion de la distribucion Gaussia-na a vectores N−dimensionales. Se la especifica con la media µ y matriz de covarianza Σ(la cual debe ser simetrica y definida positiva). Sea ~x un vector continuo con distribucionNormal Multivariada, lo notamos ~x ∼ N(µ,Σ) y expresamos su densidad como

N(x|µ,Σ) =1

(2π)D/21

|Σ|1/2exp[−1

2(x− µ)TΣ−1(x− µ)]. (2.12)

Antes de presentar la distribucion de Dirichlet, es conveniente introducir el concepto desimplex. El N-simplex es un subespacio de Rn+1 tal que todos los vectores en el contenidoscumplen dos propiedades: la suma de sus coordenadas es 1 y cada una es mayor o igual

Page 25: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

2. Inferencia Bayesiana y el enfoque bayesiano en ciencia cognitiva 19

a cero. Esos vectores son los que pueden codificar distribuciones de probabilidad sobreun conjunto de eventos. La razon por la cual el N − simplex vive en Rn+1 es porquela coordenada n + 1-esima puede ser deducida de las otras gracias a la normalizacion.Notaremos a la distribucion Dirichlet : ~θ ∼ Dirichlet(~α) y su densidad viene dada por:

f(θ|α) =1

B(α)

k∏j=1

θαj−1j ,

donde B(.) es la Funcion Beta.Para que la distribucion este normalizada debe cumplirse, αk > 0 ∀k. La distribucion

Dirichlet es el prior conjugado de la Multinomial y asigna probabilidad positiva solo avectores en el N − simplex, motivo por el cual se la considera una distribucion sobredistribuciones.

2.6. Estimacion no bayesiana mediante Maxima Verosimilitud.

El metodo de Maxima Verosimilitud es una tecnica para estimar, dado un datasety una distribucion que se cree produjo esos datos, los parametros de dicha distribucionque mejor explican los datos. Visto de otra manera, se asume que los datos son muestrasindependientes e identicamente distribuidas procedentes de la distribucion elegida. Estetipo de estimacion, en la que nos interesa un unico punto en el espacio de los parametros,es conocida como estimacion puntual y es considerada como un metodo frecuentista. Esfilosoficamente opuesta al enfoque bayesiano, donde el resultado de la inferencia es unadistribucion de probabilidad sobre el espacio de parametros. Un estimador puntual θ sedice de Maxima Verosimilitud si cumple:

θ = arg maxθ∈Θ

p(D|θ) (2.13)

Intuitivamente, θ genera el mejor ajuste a los datos sin tener en cuenta ninguna prior.

2.7. El Enfoque Bayesiano en Ciencia Cognitiva

En lo que resta del Capıtulo vincularemos la Inferencia Bayesiana con la Ciencia Cog-nitiva Computacional. Para ello, introduciremos los conceptos de Principio General deRacionalidad y su consecuencia en el Analisis Racional. Luego, describiremos como laaplicacion de la Inferencia Bayesiana para entender la cognicion cuadra con estos concep-tos.

2.7.1. El Principio General de Racionalidad

Desde los inicios de la historia hemos intentado entender la mente y naturaleza huma-na. Aristoteles fue el primero en calificar a los seres humanos como animales racionales.Esto marco el comienzo de una larga tradicion extendida en la cultura occidental donde laracionalidad se definio como razonamiento logico. Segun esta nocion una persona racionales aquella que aplica sistematicamente reglas de inferencia, para obtener conclusiones apartir de premisas. La utilizacion de la logica asegura que dadas premisas verdaderas y laaplicacion correcta de las reglas de inferencia, se pueden concluir proposiciones verdaderas.Hace mas de medio siglo que la psicologıa ha demostrado reiteradas veces que los seres

Page 26: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

2. Inferencia Bayesiana y el enfoque bayesiano en ciencia cognitiva 20

humanos somos irracionales bajo esta definicion de racionalidad. No operamos en concor-dancia con la logica. Un detalle que explica esto es que la logica sirve para razonar sobre unmundo con plena informacion y los seres humanos lidiamos a diario con la incertidumbre,es decir, la falta de informacion sobre determinados aspectos de la realidad.

En [And90] se plantea una nueva idea de racionalidad, postulando el Principio generalde racionalidad (PGR):

Un sistema cognitivo opera en todo momento para optimizar la adaptaciondel comportamiento del organismo.

Al pensar en esta nueva nocion, debemos entender la estructura del problema desdela perspectiva del sistema cognitivo. Ya no son mas la logica o la teorıa de decision lasque dictan la definicion de racionalidad, sino que son los propios intereses del sistema enterminos de adaptacion al ambiente.

La aplicacion del PGR como hipotesis marco para entender sistemas cognitivos y cons-truir nuevas teorıas es lo que se conoce como Analisis Racional. En [And90] se planteanlos pasos necesarios para ello:

1. Especificar precisamente los objetivos del sistema.

2. Modelar formalmente el entorno al cual el sistema se esta adaptando.

3. Hacer las asunciones minimales sobre las limitaciones del computo.

4. Derivar la funcion de comportamiento optima de acuerdo a los primeros tres pasos.

5. Validar experimentalmente.

6. Iterar.

Los primeros tres ıtems son el marco para entender la cognicion como un problema deprocesamiento de informacion. Allı se plantean las hipotesis para el problema en particulary luego se aplican las herramientas matematicas pertinentes para derivar la funcion decomportamiento en el paso 4.

Como se plantea en [And90], analizar un sistema cognitivo en terminos del PGR tienemultiples ventajas. La teorıa se desprende del modelado del ambiente y no de hipotesissobre las representaciones en las mentes de los sujetos. Ademas, da una explicacion ala manera en que computamos, dado que los algoritmos se explican en terminos de losobjetivos de la mente, lo cual esta alineado con los postulados de Marr sobre el nivelComputacional.

Aunque el Analisis Racional no especifica que lenguaje utilizar, el que ha probadoser mas explicativo es la probabilidad y en particular la interpretacion bayesiana de laprobabilidad. Esto quiere decir que la probabilidad no es un calculo para resolver problemasmatematicos sobre el mundo, sino que es una forma de actualizar creencias sobre el mismo.Un problema que se ve logico para un experimentador, es probabilıstico desde el punto devista del sistema cognitivo. Esto se desprende de que la probabilidad es el lenguaje idealpara cuantificar la incertidumbre, que es propia de la realidad y debe ser tenida en cuentapara adaptar el comportamiento del organismo. De acuerdo a [OC09], problemas que seutilizaron para demostrar que el ser humano no opera con logica, fueron revisados enterminos bayesianos y resulto que las personas operaban optimamente segun este segundoenfoque.

Page 27: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

2. Inferencia Bayesiana y el enfoque bayesiano en ciencia cognitiva 21

2.7.2. Caracterısticas del enfoque

El Enfoque Bayesiano cuadra perfectamente con los puntos presentados en [And90], yaque permite modelar los objetivos del sistema y el entorno y es un calculo para derivar lasfunciones de procesamiento. Ademas, luego puede ser validado experimentalmente. Estoha permitido modelar multiples problemas cognitivos con buenos resultados [GKT08],como por ejemplo: induccion causal [GSTG11], teorıa de la mente [BST11], aprendizaje,razonamiento, descubrir la estructura de datos [KT08], aprendizaje de palabras [XT07], einduccion. La pregunta central detras de todas estas tareas es ¿Como la mente humanaopera con poca informacion? [GKT08]. En muchas situaciones, somos capaces deconstruir modelos ricos, con representaciones abstractas a partir de datos ruidosos, ralos yambiguos. Como el conocimiento abstracto guıa el aprendizaje y la inferencia, que formatiene este conocimiento abstracto y como se lo aprende son todas preguntas que surgen deeste proceso. Estas preguntas son susceptibles de ser respondidas en terminos de InferenciaBayesiana.

Utilizar la probabilidad bayesiana para entender la cognicion tiene por ventaja mo-delar no solo vectores en Rn sino, ademas, estructuras de uso comun en Ciencia de laComputacion, como pueden ser grafos, arboles, ordenes, gramaticas formales, programasetc [TKGG11, TGK06]. La inferencia rapida es posible mediante el uso de este tipo deestructuras para codificar conocimiento. Ademas, los modelos jerarquicos permiten que lasmismas sean aprendidas, y hacer inferencia en multiples niveles. Por ejemplo, en [KT08] sepropone un enfoque jerarquico para encontrar el mejor ajuste para los datos dada una es-tructura (como un anillo, arbol u ordenamiento) y simultaneamente que tipo de estructuramejor describe los datos (y por tanto que teorıa explica la realidad). La Figura 2.2 presentauna vista de como los diferentes niveles de inferencia encajan en el marco bayesiano.

background theoryT. Hypotheses are scored by computingposterior probabilities via Bayes’ rule:

Pðhjx;TÞZ Pðxjh;TÞPðhjTÞPh02HT

Pðxjh0;TÞPðh0jTÞ (1)

The likelihood P(xjh,T) measures how well eachhypothesis predicts the data, and the prior probabilityP(hjT) expresses the plausibility of the hypothesis giventhe learner’s background knowledge. Posterior probabil-ities P(hjx,T) are proportional to the product of these twoterms, representing the learner’s degree of belief in eachhypothesis given both the constraints of the backgroundtheory T and the observed data x (see the TechnicalIntroduction to this special issue by Griffiths and Yuille forfurther background: Supplementary material online)Adopting this Bayesian framework is just the startingpoint for our cognitive models. The challenge comes inspecifying hypothesis spaces and probability distributionsthat support Bayesian inference for a given task anddomain. In theory-based Bayesian models, the domaintheory plays this crucial role.

More formally, the domain theory T generates a spaceHT of candidate hypotheses, such as all possible meaningsfor a word, along with the priors P(hjT) and likelihoodsP(xjh,T). Prior probabilities and likelihoods are thus notsimply statistical records of the learner’s previousobservations, as in some Bayesian analyses of perceptionand motor control [27,28], or previous Bayesian analysesof inductive reasoning [29]. Neither are they assumed toshare a single universal structure across all domains, as inShepard’s pioneering Bayesian analysis of generalization[30]. Rather, they are products of abstract systems ofknowledge that go substantially beyond the learner’sdirect experience of the world, and can take qualitativelydifferent forms in different domains.

We will distinguish at least two different levels ofknowledge in a theory (Figure 1). Although intuitivetheories may well be much richer than this picturesuggests, we focus on the minimal aspects of theoriesneeded to support inductive generalization. The base levelof a theory is a structured probabilistic model that definesa probability distribution over possible observables –entities, properties, variables, events. This model istypically built on some kind of graph structure capturingrelations between observables, such as a taxonomichierarchy or a causal network, together with a set ofnumerical parameters. The graph structure determinesqualitative aspects of the probabilistic model; the numeri-cal parameters determine more fine-grained quantitativedetails. At a higher level of knowledge are abstractprinciples that generate the class of structured models alearner may consider, such as the specification that agiven domain is organized taxonomically or causally.Inference at all levels of this theory hierarchy (Figure 1)– using theories to infer unobserved aspects of the data,learning structured models given the abstract domainprinciples of a theory, and learning the abstract domainprinciples themselves – can be carried out in a unified andtractable way with hierarchical Bayesian models [24].

The following sections describe theory-based Bayesianmodels for several important inductive tasks, contrastingthem with alternative approaches emphasizing eitherstatistical learning or structured knowledge alone. Webegin with the task of learning words or category labels,and focus on the lowest level of inference: theory-basedgeneralization. Then we illustrate the full hierarchicalapproach in two other domains, property induction andcausal inference.

Learning names for thingsBehavioral studies of human inductive generalizationarguably began with the study of category learning [31].The basic experimental task presents learners with a setof objects or visual stimuli, and a verbal label (e.g. ‘blicket’)that applies to a subset of the objects. Learners observeseveral examples of blickets, and perhaps negativeexamples (non-blickets), and must then infer whichother objects the label applies to.

These artificial category-learning tasks abstract theessence of the problem children face in learning words forkinds of things, and formal models of category-learningand word-learning have developed in parallel. Theytypically rely on bottom-up general-purpose statisticalmechanisms, either explicitly probabilistic [1,32] orframed in terms of similarity or association [12,13,8].These models assume relatively simple notions ofcategories and how labels relate to categories: for instance[32], each object belongs to a single category, and eachlabel picks out a unique category, so each object receivesexactly one label. However, people’s representations ofcategories and word meanings are considerably more

Abstract domain principles

Structured probabilistic model

Observable data

Intu

itive

theo

ry

P(Data | Structure)

P(Structure | Principles)

P(Principles | . . . )

. . .

TRENDS in Cognitive Sciences

Figure 1. A hierarchical Bayesian framework for theory-based induction. Thelearner observes data about the world (e.g. examples of objects that a word refersto) and must predict other unobserved data (e.g. which other objects the word canrefer to). The learner’s intuitive theory generates hypotheses that can explain theobserved data and that support the desired predictions. The theory representsknowledge on at least two levels of abstraction: a structured probabilistic modelgenerates expectations about the probability of possible data sets, while moreabstract domain principles generate the space of possible structures that thelearner may consider. Each level generates the hypotheses and probabilitydistributions that support learning at the level below. Priors for abstract domainprinciples can come from multiple sources, including higher-level domainknowledge or domain-general conceptual resources.

Opinion TRENDS in Cognitive Sciences Vol.10 No.7 July 2006310

www.sciencedirect.com

Fig. 2.2: Marco Bayesiano para aprendizaje de teorıas tomado de [TGK06], donde las teorıas abs-tractas determinan la estructura del mundo, que a su vez determina a los datos. Estose puede ver de la manera inversa, donde a partir de los datos se pueden aprender lasestructuras.

Todos estos modelos se definen en el nivel Computacional de Marr, focalizandose en lascapacidades funcionales de la inferencia humana en lugar de los mecanismos subyacentesque las implementan. Como nota final, cabe destacar que, a pesar de sus multiples ventajas,los metodos bayesianos no constituyen un comodın para resolver todos los problemas de

Page 28: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

2. Inferencia Bayesiana y el enfoque bayesiano en ciencia cognitiva 22

la CCC. El nivel de abstraccion limita los tipos de hipotesis que pueden ser formuladasen terminos de Modelos Bayesianos y por tanto los resultados que se pueden obtener[GKT08]. Por ejemplo, que una reaccion toma determinado tiempo a las personas, o ladiferencia entre adquirir informacion de manera visual o verbal son problemas que debenser formulados en otros niveles. A pesar de este ultimo comentario, no podemos dejar deresaltar que han constituido un gran aporte a esta disciplina.

Page 29: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

3. DISENO OPTIMO DE EXPERIMENTOS Y MODELOS DEESTIMACION DE PROBABILIDAD

En lo que sigue, buscaremos entender la manera en que los seres humanos seleccionamospreguntas en inferencia causal como un problema de procesamiento de informacion. Paraello, formalizaremos el problema y generaremos experimentos optimos para responder alas preguntas que se expondran a continuacion.

La primera pregunta que queremos dilucidar es si efectivamente existe un criterio deutilidad que modele adecuadamente la preferencia humana sobre las preguntas en el domi-nio de inferencia causal. Llamaremos a esta Pregunta de Comparacion. Supongamosque tanto Information Gain como Probability Gain son tenidas en cuenta por los sujetosa la hora de elegir la pregunta mas informativa. El tipo de comparacion que realizaremos,buscara entender si existen situaciones donde un criterio domina al otro. Por ejemplo,cuando la diferencia de Information Gain es pequena, ¿es este el factor determinanteen la eleccion o cobra mas importancia Probability Gain? Debido a que compararemoscriterios en multiples situaciones, con distintos grados de utilidad para los criterios a com-parar, nuestro enfoque es superador respecto al estado del arte de problemas similares.Llamaremos a la segunda pregunta Pregunta de Calibracion. Asumiendo que hay unapreferencia marcada por algun criterio, podemos pensar que cuando dicho criterio es apli-cado hay un grado de ruido en cada eleccion, que va en aumento a medida que la diferenciaen la utilidad entre las potenciales informaciones a adquirir va disminuyendo. Dicho deotra manera, para un sujeto que utiliza determinado criterio, cuando las diferencias deutilidad entre las potenciales piezas de informacion van disminuyendo, es menos obvio queeleccion tomar. Dependiendo del grado de ajuste del modelado, dicho ruido sera menorexperimentalmente. La Pregunta de Calibracion busca cuantificar el nivel de detalle o laexactitud con que un criterio es aplicado ante situaciones de mas a menos obvias.

Las teorıas existentes en la literatura respecto a la utilidad de los datos son difıcilesde comparar, puesto que en muchos casos producen predicciones similares. De este hechosurge la necesidad de utilizar DOE (cuyo uso en CCC fue introducido en la Seccion 1.4).Encontrar configuraciones donde las teorıas produzcan resultados contrapuestos, y portanto, se las pueda diferenciar, no es una tarea facil de hacer sin la ayuda de un programade computadora. Para poder hacer esto, es necesario formalizar la idea de un experimento,a efectos de poder compararlos y dilucidar cual es mas util. Cabe recordar la importanciaen ciencia cognitiva de realizar experimentos con situaciones controladas, donde la relacionentre el comportamiento de los sujetos y su correlato con un modelo cognitivo sea directa[MP09]. Con esto en mente, formalizaremos la semantica de los experimentos realizadosen [RSLX], los cuales fueron explicados en detalle en la Seccion 1.3.

Recordemos la estructura de dichos experimentos: a los sujetos experimentales se lescuenta que un suceso ha acaecido en n dıas debido a distintas causas que se muestranincrementalmente. Luego, se les dice que el hecho volvio a suceder en el dıa n + 1 y seles muestran dos potenciales preguntas para hacer, a los efectos de conocer la causa eneste nuevo dıa. Por pregunta, entendemos en este esquema un subconjunto de las causasen dıas previos, que deben ser interpretadas con semantica disyuntiva. Esto significa quesi una pregunta exhibe las causas 1, 2, 3 deberıa ser interpretada como ¿Fue el efectocausado por alguna entre 1, 2, y 3? Los sujetos deben elegir cual de las dos preguntas les

23

Page 30: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

3. Diseno Optimo de Experimentos y modelos de estimacion de probabilidad 24

parece mas util. Se asume que la causa del dıa n + 1 ya sucedio en un dıa previo y quelas respuestas son binarias. Por respuestas binarias entendemos aquellas que pueden serunicamente “sı” o “no”. De ahora en adelante llamaremos ensayo a la exposicion de unsujeto experimental a la historia (causas en los primeros n dıas) junto a la subsecuenteeleccion entre dos preguntas.

3.1. Marco formal

Presentaremos inicialmente la notacion y algunas definiciones. Tenemos un espacio dehipotesis finito H que representa al conjunto de potenciales explicaciones del fenomenosobre el cual se quiere hacer inferencia causal. Un ensayo E es entonces una 5-upla(dold, Q1, Q2, µ1, µ2) donde:

QA y QB son subconjuntos de H que representan preguntas.

µ1 y µ2 son criterios de utilidad.

dold es la evidencia, es decir, los datos que se le muestran a los sujetos antes depedirles que hagan una eleccion y determinen que pregunta les parece mas util. Lamotivacion para el superındice old es que representa la informacion presentada a lossujetos antes de que estos puedan elegir que nueva informacion quieren adquirir. dold

es una lista con elementos de H, lo que permite repeticiones y representa las causasdel suceso en los dıas 1 a n.

dnext es una variable aleatoria que representa la causa del incidente en el dıa n+ 1. Elvalor de la misma es desconocido por los sujetos. Al igual que todos los elementos en dold,dnext tambien pertenece a H.

Como se explico con anterioridad, las respuestas a las preguntas pueden ser “sı” o“no” y las notaremos a. Una vez que se muestra el valor de dold se asume que dnext estaincluido en dold. Esto significa que la causa del suceso en el dıa n+ 1 es alguna de las quelo provocaron en dıas previos.

3.2. El problema de busqueda

Ya formalizada la idea de ensayo, podemos avanzar en definir formalmente el problemade optimizacion a resolver. Para responder a las preguntas de Comparacion y de Calibra-cion, vamos a necesitar exponer a los sujetos a distintas situaciones. En particular, nosvan a interesar situaciones con pares de Preference Strength (definido en la Seccion 1.4)especıficos. Por pares, entendemos a la consideracion de manera conjunta de PStrµ1(QA)y PStrµ2(QB). Esto significa que especificaremos que tanto µ1 prefiere QA respecto a QBy viceversa para µ2.

Los ensayos tienen naturaleza combinatoria. Debido a que las preguntas son subcon-juntos de la evidencia, su tamano se ve acotado por el de la evidencia. En la practica,vamos a buscar los mejores ensayos para un tamano fijo o acotado de evidencia. Como losPreference Strengths dependen de las preguntas y la evidencia, hay una cantidad finita depares para una cota en el tamano de la evidencia, motivo por el cual buscaremos los ensa-yos cuyos Preference Strengths sean mas cercanos a nuestro objetivo. Sea (PA, PB) un parde Preference Strengths, el problema de buscar un ensayo para ese par se ve formalizadoentonces por la siguiente formula:

Page 31: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

3. Diseno Optimo de Experimentos y modelos de estimacion de probabilidad 25

arg minE

||(PstrEµ1 (EQA), PstrEµ2 (EQB ))− (PA, PB)||2, (3.1)

donde ||.||2 es la 2−Norma vectorial.Cabe destacar que nos van a interesar p con Pairwise Disagreement (ver la Seccion

1.4) positivo y que nuestra implementacion de la optimizacion podrıa ser utilizada parabuscar los ensayos con Pairwise Disagreement alto, es decir, que distingan maximalmentelos criterios a comparar (este es el enfoque utilizado para la optimizacion en [Nel05]).

3.3. Componentes del problema

Para poder resolver el problema planteado por la ecuacion (3.1), debemos calcular losPreference Strenghts y por tanto el valor esperado de los criterios de utilidad. Recordemosde la Seccion 1.2 y redefinamos Information Gain en terminos de la notacion establecidaen este capıtulo:

µIG(Q, a, dold) = H[P (dnext|dold, Q, a)]−H[P (dnext|dold)]. (3.2)

Si tomamos en cuenta esta notacion y el hecho de que las respuestas validas son “sı”y “no”, el valor esperado va a ser:

E(µIG(Q, a, dold)) =∑

a∈{sı,no}

P (a|Q, dold).µIG(Q, a, dold). (3.3)

De las Ecuaciones (3.2) y (3.3) queda claro que debemos definir:

P (a|Q, dold), (3.4)

P (dnext|dold) (3.5)

y

P (dnext|dold, Q, a). (3.6)

Esto se condice con la intuicion, dado que las tres ecuaciones son piezas para forma-lizar el problema. La Ecuacion (3.4) codifica la probabilidad de una respuesta tomandoen cuenta la pregunta y la evidencia previa. La Ecuacion (3.5) es la probabilidad de unacausa dada la evidencia, antes de preguntar nada; esto significa, antes de obtener masinformacion. Finalmente, la Ecuacion (3.6) es la probabilidad de la causa una vez que elsujeto pregunto y obtuvo una respuesta, es decir, una vez que se incorporo la nueva infor-macion. Recordemos que la inferencia bayesiana modela las distintas etapas del procesode adquisicion de informacion. Tıpicamente comienza por la prior, cuando solo tenemosuna creencia previa y ningun dato para validarla o refutarla. Luego, la posterior incor-pora nuevo conocimiento a la creencia previa. Como paso ulterior, la posterior predictivenos sirve para utilizar el conocimiento actualizado de la posterior para predecir nuevoshechos. Cabe destacar que la Ecuacion (3.5) no es otra cosa que la posterior predictive(ver Ecuacion (2.6)). En lo que respecta a la Ecuacion (3.6), la misma agrega un paso masal proceso tıpico. El par (Q, a) brinda nueva informacion, diferente a la que brindarıa elconocer el valor de dnext. Este segundo caso permitirıa actualizar nuevamente la creencia

Page 32: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

3. Diseno Optimo de Experimentos y modelos de estimacion de probabilidad 26

mediante la posterior puesto que dnext como las realizaciones que componen dold provienende la misma distribucion. Dicho de otra forma, el segundo caso es extender dold a un nuevodıa. En cambio, (Q, a) provee un tipo de informacion parcial sobre el verdadero valor dednext. Dicho valor nunca se conoce, debido a que la variable aleatoria no se realiza. Sinembargo, terminaremos calculando su probabilidad al calcular la utilidad de las preguntasdel ensayo. Un ejemplo de este calculo se encuentra en la Ecuacion (3.7).

Se puede expresar la Ecuacion (3.4) en terminos de (3.5) sin asumir hipotesis adicio-nales. Esto es ası debido a la semantica disyuntiva de las preguntas:

P (a = sı|Q, dold) = P (dnext ∈ Q|dold) =∑c∈Q

P (dnext = c|dold). (3.7)

Esto significa que la probabilidad de una respuesta positiva a una pregunta disyuntivaes la suma de las probabilidades de los componentes de la disyuncion. Por ejemplo, enla Figura 1.2 la probabilidad de una respuesta positiva a “¿Hubo algo que no pudisteencontrar antes de venir al colegio?”, puesto que la pregunta se compone de la campera,los libros y los zapatos, es la suma de las probabilidades de no encontrar cada una deesas cosas. Notese que la probabilidad es analoga cuando a = no, reemplazando Q con sucomplemento dado dold, el cual se compone de todos los elementos de dold que no estanen Q. De ahora en adelante todas las definiciones que involucran un valor de respuesta lasdaremos para el caso a = si. Los casos a = no son analogos para el complemento de lapregunta salvo que se indique lo contrario.

En lo que respecta a las Ecuaciones (3.5) y (3.6), la manera en que se calculan es unaasuncion fuerte de esta tesis, porque describe la forma en que los humanos aproximanprobabilidades a partir de la evidencia y actualizan dichas probabilidades ante nuevainformacion. La especificacion de estas probabilidades es lo que de ahora en adelantellamaremos modelo y en la siguiente seccion describiremos dos de ellos. Una estrategia(por ejemplo, Information Gain) depende de un modelo para especificar las probabilidadesy por tanto el Preference Strength tambien. Esto quiere decir que un ensayo para comparardos criterios es optimo o no, condicionado a asumir la utilizacion de un modelo especıfico1.

Como cierre de la presente seccion, nos queda enfatizar que el experimentador eventual-mente va a tener que traducir las listas y conjuntos en un ensayo realizable por humanos.Para poner un ejemplo, supongamos que el ensayo de la Figura 1.2 es optimo para lacomparacion entre Information Gain y Probability Gain. La salida del optimizador va aser entonces (1, 2, 3, 4, 5, 6) como evidencia y (2) y (1, 3, 4) como preguntas, que debenser luego transformadas por el experimentador en historias que los sujetos puedan inter-pretar. No hay restriccion respecto a la semantica con la que se asignan dichas causas.Esta formalizacion no captura ningun tipo de relacion entre las causas. Una historia enla que las causas 3 y 4 tienen alguna caracterıstica en comun es valida para este ensayo,de la misma manera que lo es una historia donde 3 y 4 no tienen nada en comun. En elCapıtulo 6 proponemos ideas para reducir el grado de responsabilidad del experimentadoren el pasaje del diseno a la historia que sera presentada a los sujetos experimentales.

1 Nuestro marco es mas general aun, permitiendo generar ensayos para comparar dos criterios condiferentes modelos. Por ejemplo, podrıamos comparar Information Gain calculado con un modelo M1 conProbability Gain calculado con un modelo M2.

Page 33: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

3. Diseno Optimo de Experimentos y modelos de estimacion de probabilidad 27

3.4. Modelos de estimacion de probabilidad

Todos los modelos considerados en el presente capıtulo son generativos para dnext. Estoquiere decir que son especificaciones, descripciones probabilısticas de la idea mental quetienen las personas respecto a como se generan las causas del efecto. Como la evidenciaque se les muestra a los sujetos durante la fase de entrenamiento es un conjunto de causasdel efecto, se asume es generada por estos modelos. Puesto que nuestro interes esta encalcular las utilidades segun los criterios definidos en la Seccion 1.2, vamos a utilizar estosmodelos para calcular los valores de las Ecuaciones (3.5) y (3.6).

3.4.1. Modelo Multinomial.

El Modelo Multinomial es el mas simple de todos los considerados y consiste en tomarla frecuencia de aparicion de una causa en la evidencia como su probabilidad. Este coincidecon el enfoque frecuentista utilizado en [RSLX] y [NMCS10], descripto en las Secciones1.3 y 1.4. La simplicidad del mismo se ve reflejado en la Figura 3.1, donde es evidente laausencia de una prior. Asumimos:

dnext ∼Multinomial(θ), (3.8)

y que θ se infiere de dold mediante el Metodo de Maxima Verosimilitud (ver la Seccion2.6). Debido a que dnext tiene distribucion Multinomial, el estimador θi(d

old) para θi es

θi(dold) =

ocurrencias de di en dold

|dold|. (3.9)

Notese que 1 ≤ i ≤ n donde n es la cantidad de causas diferentes en dold. Como unacausa podrıa darse en mas de un dıa, n podrıa ser mucho mas pequena que el tamanoefectivo de dold.

Esto lleva a deducir un algoritmo simple para computar θi(dold). Sea θ(dold) el vec-

tor que agrupa todos los θi(dold). Se cumple P (dnext|dold) = P (dnext|θ(dold)), definiendo

entonces la Ecuacion (3.5).

dnext

Fig. 3.1: Modelo grafico para el Modelo Multinomial.

Por otro lado, se puede reescribir la Ecuacion (3.6) usando la variante del Teorema deBayes expresada por la Ecuacion (2.4):

P (dnext|dold, Q, a = yes) =P (a = yes|dold, Q, dnext)P (dnext|Q, dold)

P (a = yes|Q, dold)

=P (a = yes|Q, dnext)P (dnext|dold)

P (a = yes|Q, dold).

(3.10)

P (dnext|dold) es la posterior predictive y ya esta definida. P (a = yes|Q, dold) puede sercalculada usando la Ecuacion (3.7). Por otra parte, una vez que dnext esta fijo, P (a =yes|dold, Q, dnext) es 1 si dnext ∈ Q y 0 en caso contrario. Entonces, la Ecuacion (3.10)

Page 34: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

3. Diseno Optimo de Experimentos y modelos de estimacion de probabilidad 28

puede ser pensada como sumar nuevo conocimiento sobre que causas tienen probabilidad0 de haber causado el suceso en el dıa n + 1 y renomarlizar la distribucion. En otraspalabras, la respuesta permite al sujeto ignorar causas que ahora sabe no son las quehicieron ocurrir el suceso. Por este motivo podemos reescribir la Ecuacion (3.10) como:

P (dnext|dold, Q, a = yes) =

{0 si dnext 6∈ Q

ocurrencias de dnext en dold∑d∈Q ocurrencias de d en dold

si dnext ∈ Q . (3.11)

Aunque (3.10) se desprende de la formulacion probabilıstica del problema, la segundaes una formulacion mas intuitiva. La demostracion de su equivalencia puede encontrarseen la Seccion A.2 del Apendice.

El modelo Multinomial, a pesar de ser el mas sencillo, a priori no es el ideal pa-ra modelar el razonamiento humano. El problema fundamental es que no tiene ningunaconsideracion respecto a la incertidumbre. Tiene por premisa que la evidencia es absolu-ta y explica completamente la realidad incluso siendo acotada. Como desarrollamos en elCapıtulo 1 la probabilidad es el lenguaje para modelar racionalidad frente a incertidumbrey este modelo en particular es incapaz de cuantificarla. Al no tener prior, no aprovecha to-do el potencial del modelado probabilıstico. En la proxima seccion proponemos un modeloque sı tiene en cuenta este fenomeno.

3.4.2. Modelo Dirichlet-Multinomial

Recordemos de la Seccion 2.5 que la distribucion de Dirichlet es el prior conjugadode la Multinomial. Esto significa que, cuando apliquemos Inferencia Bayesiana, la formafuncional de la posterior va a ser Dirichlet. Podemos agregar que el soporte de la Dirichletn-dimensional (los puntos con probabilidad positiva) conforman el (n− 1)− simplex, queson los valores que θ como parametro de la Multinomial puede tomar. Esto convierte a laDirichlet en una gran candidata para ser tomada como prior en el modelo Multinomial.La vamos a pensar como una distribucion sobre distribuciones Multinomiales que nos va apermitir modelar la incertidumbre. Ante nueva informacion, se va a actualizar la distribu-cion de probabilidad, potencialmente cambiando los pesos respecto a que Multinomialesson probables explicaciones de la realidad. En particular, se va a cumplir que:

θ ∼ Dirichlet(α), (3.12)

y

dnext ∼Multinomial(θ), (3.13)

lo que se ve reflejado en la Figura 3.2.

θ dnext

Fig. 3.2: Modelo Dirichlet-Multinomial

Recordemos que el modelo debe especificar las Ecuaciones (3.5) y (3.6). De las Ecua-ciones (3.12) y (3.13) se desprende que (3.5) se puede expresar como:

Page 35: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

3. Diseno Optimo de Experimentos y modelos de estimacion de probabilidad 29

P (dnext|dold) =P (dnext, dold)

P (dold)=

∫θ

P (dnext, dold|θ)P (θ)

P (dold)dθ =

∫θ

P (dnext|θ)P (dold|θ)P (θ)

P (dold)dθ,

(3.14)donde la primera igualdad de (3.14) es valida por marginalizacion y la segunda por

independencia entre dnext y dold condicional a θ. P (dnext|θ) y P (dold|θ) son, respectivamen-te, los likelihoods de las distribuciones Categorica y Multinomial y P (dnext, dold) puedeser expresado como P (dnext|θ)P (dold|θ)P (θ) usando la Condicion de Markov para mode-los Graficos (Ecuacion (2.7)). Recordemos que esta distribucion es la posterior predictiveasociada al modelo grafico de la Figura 3.2.

La segunda ecuacion que el modelo debe definir es la (3.6) que actualiza la posteriorpredictive cuando se realizo una pregunta y se obtuvo la respuesta. La misma se puedecomputar marginalizando la Ecuacion (3.6) sobre θ:

P (dnext|dold, Q, a = sı) =

∫θP (dnext|dold, Q, a = sı, θ)P (θ|dold, Q, a = sı)dθ. (3.15)

La Ecuacion (3.15) tiene dos factores. El primero se puede reescribir usando la variantedel Teorema de Bayes definida en la Ecuacion (2.4), lo que nos da:

P (dnext|dold, Q, a = sı, θ) =P (a = sı|dnext, Q, θ)P (dnext|θ)

P (a = sı|Q, θ). (3.16)

Notar que P (a = sı|dnext, Q, θ) = P (a = sı|dnext, Q) y se comporta de la mismamanera que en el modelo Multinomial. Tambien la probabilidad de una respuesta dadauna pregunta se puede expresar en terminos de θ:

P (a = sı|θ,Q) = P (dnext ∈ Q|θ) =∑c∈Q

P (dnext = c|θ). (3.17)

El segundo factor dentro de la integral de la Ecuacion (3.15) se puede manipular de lasiguiente manera:

P (θ|dold, Q, a = sı) =P (dold, a = sı|θ,Q)P (θ|Q)

P (dold, a = sı|Q)=P (dold, a = sı|θ,Q)P (θ)

P (dold, a = sı|Q)

=P (dold|θ)P (a = sı|θ,Q)P (θ)

P (dold, a = sı|Q). (3.18)

Todos los factores del numerador ya estan definidos y el denominador se puede calcularpor Ley de Probabilidad Total sobre todos los posibles θ:

P (dold, a = sı|Q) =

∫θP (dold, a = sı|Q, θ)P (θ|Q)dθ =

∫θP (dold|θ)P (a = sı|Q, θ)P (θ)dθ.

(3.19)Combinando las ecuaciones (3.16), (3.17), (3.18) y (3.19) en (3.15) podemos obtener

una formulacion para (3.6) en terminos de distribuciones conocidas, por tanto calculables:

P (dnext|dold, Q, a = sı) =

∫θ P (a = sı|dnext, Q)P (dnext|θ)P (dold|θ)P (θ)∫

θ P (dold|θ)[∑

q∈Q P (Q|θ)]P (θ). (3.20)

Page 36: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

3. Diseno Optimo de Experimentos y modelos de estimacion de probabilidad 30

3.5. Notas sobre la implementacion

En la presente seccion daremos detalles respecto a como implementamos computacio-nalmente los modelos y la busqueda de ensayos optimos.

3.5.1. Implementacion de los modelos

La implementacion del modelo Multinomial es directa mediante el estimador definidoen particular para calcular la Ecuacion (3.5). Esencialmente el estimador se computatomando la frecuencia de aparicion de las causas en la evidencia. En lo que respecta a laEcuacion (3.6) gracias a la prueba que realizamos en la Seccion A.2, se lo puede calcularmediante la utilizacion del mismo estimador sobre una evidencia actualizada: si la preguntase responde de manera afirmativa, se extrae de la evidencia las causas que no son partede la pregunta. Por el contrario, si la pregunta se responde por la negativa, se extraen lascausas que efectivamente componen la pregunta.

En lo que al modelo Dirichlet respecta, utilizamos el algoritmo Metropolis-Hastingspara calcular las Ecuaciones (3.5) y (3.6). En ambos casos se tuvo en cuenta la utilizaciony posterior mezcla de cuatro cadenas. Ademas, se utilizaron tanto las tecnicas de burn-in(descartando la primera mitad de todas las cadenas) como las de thinning (consideran-do una de cada tres muestras de cada cadena). Todas estas tecnicas, como se explico enel Capıtulo 2 tienen por objetivo asegurar que las muestras son independientes e identi-camente distribuidas, pertenecen a la distribucion objetivo y no se ven afectadas por laeleccion del punto de inicio de la cadena. Utilizamos como distribucion de salto una nor-mal, con desvıo standard 1. Ademas, en concordancia con [GCSR14] a los efectos de evitarunderflows y overflows, los calculos son realizados utilizando las log-likelihoods en lugar delos likelihoods siendo estas ultimas calculadas lo mas tarde posible. Debido a la necesidadde calcular (3.6) y la complejidad de calcular esta ecuacion en terminos de la posterior,decidimos muestrear de la prior. Notese que de esta manera las muestras son reutilizablestanto para la Ecuacion (3.5) como (3.6).

3.5.2. Implementacion de la busqueda

La busqueda de los mejores ensayos consiste en encontrar la evidencia (codificada comouna lista) y las preguntas (codificadas como conjuntos) que minimizan la distancia a unpar de Preference Strength objetivo. Resolvemos este problema de optimizacion combina-toria, que se ve formalizado en la Ecuacion (3.1), mediante un algoritmo de busqueda enel espacio de soluciones. Como el lector podra haber deducido, el espacio de solucionescrece exponencialmente con el tamano de la evidencia. Como los sujetos, por cuestionesde atencion, no pueden ser expuestos a grandes tamanos de evidencia, este enfoque re-sulto suficiente para los tamanos de evidencia considerados. Para mejorar los tiempos debusqueda, se implementaron podas que describiremos a continuacion.

Puesto que buscaremos en el espacio de soluciones, si dos ensayos son equivalentes enterminos de sus pares de Preference Strengths, nos gustarıa analizar solo uno de ellos poreficiencia. Por este motivo, analizaremos equivalencias entre ensayos. Asumimos de ahoraen adelante que buscamos ensayos optimos con los modelos y criterios de utilidad fijos.Por este motivo, los factores a tener en cuenta son las preguntas (QA y QB) y la evidenciadold. Computacionalmente, representamos preguntas y evidencias como listas, pudiendo laevidencia tener repetidos y las preguntas no.

Page 37: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

3. Diseno Optimo de Experimentos y modelos de estimacion de probabilidad 31

Recordemos de la Seccion 1.2 que los criterios allı propuestos definen la utilidad de undato y que la utilidad de una pregunta es el valor esperado de la utilidad de su respuesta.Por este motivo, y porque consideramos preguntas binarias, es equivalente preguntar porQ o el complemento de Q con respecto a la evidencia ev (todos los elementos de ev queno estan en Q). De esta manera, generamos las potenciales preguntas de una evidenciateniendo cuidado de no evaluar su complemento.

Dadas dos preguntas fijas, hay multiples evidencias que generan los mismos Preferen-ce Strength. La intuicion es que podrıamos renombrar y/o mezclar los elementos de laevidencia y obtener una evidencia equivalente. El renombre puede ser ademas justifica-do por el Exchangeability principle (ver [GCSR14]). Para controlar las evidencias que seconsideraban en el espacio de busqueda teniendo en cuenta esto, impusimos un invariantede representacion. Consideramos listas ordenadas de numeros naturales consecutivos quecomienzan en 1, donde las etiquetas fueron asignadas en base al numero de apariciones delmismo objeto. Esto significa que asignamos numeros a las causas que aparecen solo unavez en la evidencia, luego a las que aparecen dos veces y ası sucesivamente. Por ejemplo, laevidencia que exhibe una causa repetida dos veces y otra repetida tres veces se representacomo (1, 1, 2, 2, 2). Esto hace que la representacion para una evidencia sea unica y que, alhacer la optimizacion, no analicemos evidencias equivalentes.

Cuando se analizan muchos ensayos, hay calculos que se ejecutan mas de una vez. Sidos ensayos comparten una pregunta, vamos a calcular la utilidad de dicha pregunta dosveces, una por cada ensayo, para luego calcular los pares de Preference Strength. Usamostablas de hash para guardar en memoria los primeros resultados de computos intermedios,a efectos de reutilizarlos.

Page 38: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

4. DISENO E IMPLEMENTACION DE UN EXPERIMENTO

Ya hemos explicado las bases del problema investigado en esta tesis y, junto con ellas,herramientas teoricas para resolverlo. En este capıtulo se utilizaran dichas herramientaspara producir un diseno experimental. Con el objeto de exponer a los sujetos a distintassituaciones, incluiremos multiples ensayos que compondran el diseno final. Los mismosseran generados usando las herramientas de Diseno Optimo de Experimentos desarrolladasen el capıtulo anterior. En esta seccion abordaremos las decisiones de diseno que tomamos,siendo las mismas palpable evidencia de que si bien las tecnicas de DOE son utiles, nopueden sustituir al factor humano.

Recordemos del capıtulo anterior que hay dos preguntas de importancia, que hemosllamado preguntas de Comparacion y de Calibracion. La primera, pretende dilucidar cualde los criterios explica el comportamiento de las personas a la hora de seleccionar preguntasy cuantificar la importancia de dicho criterio en el juicio de las personas ante distintassituaciones. Un criterio que explica mejor que otro la eleccion ante una situacion extrema,de alto PD, podrıa no seguir explicando el comportamiento en una situacion donde unode los dos tiene preferencia marcada y el otro no. Esto es una reinterpretacion de losescenarios planteados en [Nel05] e incluidos en la Figura 1.4, donde el PD es una metrica atener en cuenta, pero donde tambien manipulamos los pares de Preference Strengths. Porotro lado, La pregunta de Calibracion, asumiendo que los sujetos tienen una preferencia,por ejemplo, Information Gain, busca cuantificar el nivel detalle o la exactitud con que uncriterio es aplicado ante situaciones de mas a menos obvias. A medida que el PreferenceStrength para un criterio decrece, se requiere un alto grado de sensibilidad en la aplicacionde dicho criterio para poder seguir distinguiendo la pregunta con mayor utilidad.

Para responder a la primera pregunta, nos propusimos realizar comparaciones entredos criterios. Generamos ensayos para distintas combinaciones de Preference Strength a losefectos de cubrir de manera equiespaciada el plano donde cada eje representa el PreferenceStrength para cada uno de los dos criterios. En particular, nos interesa el cuadrante de dichoplano donde el Pairwise Disagreement es positivo (es decir, donde los criterios difieren en laeleccion respecto a que pregunta es la mas util). Consideramos ademas aquellos casos dondeel PD es cero, pero porque alguno de los criterios es indiferente (ambas preguntas tienenla misma utilidad bajo su optica) pero el otro tiene una preferencia marcada. LlamaremosEnsayos de Comparacion a los disenados para responder a la pregunta homonima.

Para responder a la segunda pregunta, consideramos conjuntos de ensayos que cubrie-ran la recta de posibles Preference Strength para un criterio. Esto implico dejar comovariable libre el Preference Strength de otros criterios. Ademas de utilizar los ensayos decomparacion tambien para este analisis, agregamos nuevos ensayos a los efectos de lograrmayor cobertura del segmento de valores de interes. Recordando el problema de optimi-zacion planteado en la Ecuacion (3.1), los ensayos complementarios de calibracion puedenser generados fijando µ1 = µ2. Llamaremos Ensayos de Calibracion a aquellos disenadospara esta pregunta, como complemento de los de Comparacion.

Lo primero que hay que determinar es el tamano de la evidencia. Cuanto mas grande seala evidencia, mas grande va a ser el espacio de experimentos y la posibilidad de encontrar

32

Page 39: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

4. Diseno e implementacion de un experimento 33

mas grandes Pairwise Disagreements1 y mas pares de Preference Strengths. Por otro lado,esto significa tambien que los sujetos deben mantener la atencion por un perıodo de tiempomas prolongado. Sopesando todo esto, decidimos utilizar tamano de evidencia 10.

En el Capıtulo 1 presentamos criterios de utilidad comunmente usados en la litera-tura (Information Gain, Probability Gain, KL-Distance e Impact). Se puede demostrarque Expected KL-Distance es equivalente a Expected Information Gain [Nel05]. Como ennuestro problema la utilidad de una pregunta se calcula usando los valores esperados de lasutilidades de las respuestas, Information Gain y KL-Distance son equivalentes, es decir,ambos criterios asignan la misma utilidad a cada pregunta. En el caso de Expected Impact,numericamente no pudimos generar ensayos donde sus predicciones difirieran de ExpectedInformation Gain, incluso hasta un tamano de evidencia 12, que consideramos demasiadolargo para los sujetos experimentales. Esto, sumado a que Information Gain es conside-rada mas importante en la literatura (es parte de los resultados de [OC94, NDG+14]) yes el criterio resultante del analisis de [RSLX] sobre el mismo problema estudiado en estatesis, llevo a descartar Impact y quedarnos con Information Gain.

En todos los ensayos, aplicamos Diseno Optimo de Experimentos usando el ModeloMultinomial. Los ensayos ası generados sirvieron tambien para hacer comparaciones conel Modelo Dirichlet-Multinomial, debido a la correlacion en las predicciones de ambosmodelos.

Por razones de practicidad, otro punto a definir es un numero de ensayos que unsujeto pueda tomar uno despues del otro sin pausa, y que a la vez nos brinde suficienteinformacion para responder a las preguntas antes propuestas. Sopesando las dos preguntasa responder y la idea de no agotar a los sujetos, realizamos siete Ensayos de Comparacion(numerados 1 a 7 en la Tabla 4.1), cuatro Ensayos de Calibracion (numerados 8 a 11) paraInformation Gain y cuatro Ensayos de Calibracion para Probability Gain (numerados 12a 15).

4.1. Diseno Experimental

Incluimos en la Tabla 4.1 los ensayos que fueron realizados con los sujetos experimen-tales. Recordemos que notamos QA y QB a las preguntas y dold a la evidencia presentadaa los sujetos.

Cabe destacar que aunque se reutilizaron los ensayos para el modelo Dirichlet-Multinomial,los Preference Strength no son iguales para este modelo. Por este motivo seleccionamosdistintos ensayos a los efectos de responder a la pregunta de comparacion. Estas diferenciasse ven reflejadas en la Tabla 4.2, donde la primer seccion presenta los ensayos seleccio-nados para realizar la comparacion, mientras que la segunda incluye al resto, que fueronincorporados para la calibracion.

1 Comprobamos numericamente que el numero de ensayos con Pairwise Disagreement positivo, crececon el tamano de la evidencia.

Page 40: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

4. Diseno e implementacion de un experimento 34

Ensayo QA QB dold PStr(A)IG,Mul PStr(A)PG,Mul

1 (7) (1, 2) (1, 2, 3, 4, 5, 6, 7, 7, 8, 8) 0 0.12 (5) (5, 6) (1, 2, 3, 4, 5, 5, 5, 6, 6, 6) 0.0896597 0.23 (5) (1, 2, 3) (1, 2, 3, 4, 5, 5, 6, 6, 6, 6) 0.159363 0.14 (1) (1, 2, 8) (1, 2, 3, 4, 5, 6, 7, 8, 8, 8) 0.531004 05 (4) (4, 5) (1, 2, 3, 4, 4, 4, 5, 5, 5, 5) 0 0.26 (7) (1, 7, 8) (1, 2, 3, 4, 5, 6, 7, 7, 8, 8) 0.278072 0.17 (1, 2) (1, 2, 3) (1, 2, 3, 4, 5, 6, 7, 8, 9, 10) 0.159363 0

8 (1, 2, 7) (5) (1, 2, 3, 4, 5, 6, 7, 7, 8, 8) 0.501955 0.19 (2, 6, 7) (3, 4) (1, 2, 3, 4, 5, 5, 6, 6, 7, 7) 0.278072 0.110 (1, 2, 5, 6, 8) (7, 9, 10) (1, 2, 3, 4, 5, 6, 7, 8, 9, 10) 0.118709 011 (1, 2, 6) (1, 6) (1, 2, 3, 4, 5, 6, 6, 7, 7, 7) 0.0896597 0

12 (3) (1) (1, 2, 2, 2, 2, 3, 3, 3, 3, 3) 0.531004 0.313 (2) (1) (1, 1, 2, 2, 2, 2, 3, 3, 3, 3) 0.249022 0.214 (2) (1) (1, 2, 2, 3, 3, 4, 4, 5, 5, 5) 0.252933 0.115 (3) (4) (1, 1, 2, 2, 3, 3, 3, 4, 4, 4) 0 0

Tab. 4.1: Diseno experimental optimo: la primer seccion de la tabla presenta los ensayos de compa-racion, la segunda los de calibracion para Information Gain y la tercera los de calibracionpara Probability Gain.

Ensayo QA QB dold PStr(A)IG,Dir PStr(A)PG,Dir

1 (7) (1, 2) (1, 2, 3, 4, 5, 6, 7, 7, 8, 8) -0.110 0.0472 (5) (5, 6) (1, 2, 3, 4, 5, 5, 5, 6, 6, 6) -0.182 0.1103 (5) (1, 2, 3) (1, 2, 3, 4, 5, 5, 6, 6, 6, 6) -0.257 0.0565 (4) (4, 5) (1, 2, 3, 4, 4, 4, 5, 5, 5, 5) -0.134 0.1226 (7) (1, 7, 8) (1, 2, 3, 4, 5, 6, 7, 7, 8, 8) -0.341 0.0457 (1, 2) (1, 2, 3) (1, 2, 3, 4, 5, 6, 7, 8, 9, 10) -0.155 010 (1, 2, 5, 6, 8) (7, 9, 10) (1, 2, 3, 4, 5, 6, 7, 8, 9, 10) 0.116 011 (1, 2, 6) (1, 6) (1, 2, 3, 4, 5, 6, 6, 7, 7, 7) 0.101 015 (3) (4) (1, 1, 2, 2, 3, 3, 3, 4, 4, 4) -0.025 0

8 (1, 2, 7) (5) (1, 2, 3, 4, 5, 6, 7, 7, 8, 8) 0.440 0.0459 (2, 6, 7) (3, 4) (1, 2, 3, 4, 5, 5, 6, 6, 7, 7) 0.217 0.0614 (1) (1, 2, 8) (1, 2, 3, 4, 5, 6, 7, 8, 8, 8) -0.473 -0.00112 (3) (1) (1, 2, 2, 2, 2, 3, 3, 3, 3, 3) 0.390 0.24513 (2) (1) (1, 1, 2, 2, 2, 2, 3, 3, 3, 3) 0.193 0.15714 (2) (1) (1, 2, 2, 3, 3, 4, 4, 5, 5, 5) 0.185 0.080

Tab. 4.2: Diseno experimental para el modelo Dirichlet Multinomial: Ambos Preference Strengthson aproximados, siendo utilizando un modelo Dirichlet Multinomial de cuatro cadenascon prior planas, con 500 muestras por cadena y 3000 iteraciones. Se descarta la primermitad por burn-in y dos tercios de las restantes debido al thinning. La primera seccionde la tabla presenta los ensayos seleccionados para la comparacion. Los de la segundafueron incluidos en la calibracion, pero no en la comparacion.

Page 41: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

4. Diseno e implementacion de un experimento 35

4.2. Realizacion

El experimento fue realizado usando la plataforma Qualtrics (www.qualtrics.com),que permite a los investigadores construir encuestas y analizar los resultados. El orden delos ensayos y de las preguntas intra-ensayo fue aleatorio.

Ademas de las selecciones de preguntas, se tomaron datos demograficos de los sujetoscomo edad, genero y estudios realizados y se midio el tiempo que les tomo completartodos los ensayos. Agregamos tambien cuatro problemas de probabilidad y estadısticacon creciente grado de dificultad para medir la competencia de los sujetos en estas areas.Incluimos dichos problemas en la Seccion A.1 del Apendice. A los efectos de verificar si lossujetos estaban prestando atencion, en dos de los ensayos incluimos una pregunta extrade control, que apuntaba a alguna caracterıstica de la historia relatada.

4.3. Colaboracion

El experimento fue realizado en colaboracion con el grupo iSearch - InformationSearch, Ecological and Active Learning Research with Children pertenecienteal Max Plank Institute for Human Development, dirigido por la Dra. Azzurra Ruggeri.Ellos fueron los encargados de, a partir de nuestro diseno, escribir las historias que lossujetos leyeran (un ejemplo se halla en la Seccion 4.6). Por otro lado, el experimento fuefinanciado por el instituto y evaluado por su Comite de Etica. En la Seccion A.4 incluimostres documentos: “Abstract”, “Declaration of Consent for Majority-Aged Participants” y“Questionnaire for Research Involving Human Participants”, que fueron elevados a dichocomite y aprobados por el mismo. La Declaracion de Consentimiento fue aceptada portodos los participantes antes de completar el cuestionario.

4.4. Metricas para el analisis

Dado un criterio, podemos imaginar a un sujeto teorico ideal, que de manera mecanicaelige siempre de acuerdo con dicho criterio. Para analizar a los sujetos experimentales, esinteresante pensar en la comparacion con el sujeto ideal. Con este objetivo definimos lasiguiente metrica:

Zµ,M(S, T1, .., Tn) =

n∑i=1

I[Pstr(Ti,Si)>0]Pstr(Ti, Si), (4.1)

donde S es un sujeto, Si la eleccion del sujeto S en el ensayo i, µ un criterio de utilidad,I[.] la funcion indicadora y T1, ..Tn los ensayos que componen el experimento. Llamaremosa esta medida puntaje del sujeto S para el criterio µ y el modelo M. Intuitivamente, elsujeto teorico que siempre elige de acuerdo con (µ,M) va a tener el puntaje mas altocoincidente con la suma de los valores absolutos de los Preference Strengths de los ensayosrealizados. Por el contrario, aquel que siempre elije en desacuerdo con el criterio va a tenerpuntaje 0. Para aquellos que estan en el medio el puntaje penaliza en proporcion a quetan poco informativa fue la pregunta elegida por el sujeto para el criterio dado. Cuantomenos informativa, y por tanto mas lejana de la eleccion ideal, mayor la penalizacion. Unavariante de esta metrica que nos va a interesar utilizar es su normalizacion:

Page 42: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

4. Diseno e implementacion de un experimento 36

Zµ,M(S, T1, .., Tn) =Zµ,M(S, T1, .., Tn)

maxZµ,M(T1, .., Tn), (4.2)

donde maxZµ,M(T1, .., Tn) es el maximo puntaje posible para T1, ..., Tn para el criterioµ y el modelo M.

4.5. Disenando para el futuro

Aunque el experimento fue realizado con adultos, fue disenado teniendo en cuenta sufutura aplicacion en ninos, con la idea de comparar los resultados de ninos y adultos.Para que esto fuera posible, a partir de los ensayos generados, se redactaron historias decaracter infantil, que tanto ninos como adultos pueden entender. Esto se ve reflejado enal Figura 4.1.

4.6. Ejemplo de historia

Por simplicidad, incluiremos en la Figura 4.1 solamente la historia correspondiente ael Ensayo 1 de la Tabla 4.1.

A Kota le encanta jugar al aire libre, pero no juega en el exterior todos los dıas. En losultimos 10 dıas, Kota no jugo en el exterior por las siguientes razones:

En el dıa 1, Kota no jugo al aire libre porque la plaza estaba cerrada.

En el dıa 2, Kota no jugo al aire libre porque se quedo viendo television.

En el dıa 3, Kota no jugo al aire libre porque la plaza estaba cerrada.

En el dıa 4, Kota no jugo al aire libre porque fue a visitar a sus abuelos.

En el dıa 5, Kota no jugo al aire libre porque hacıa mucho calor.

En el dıa 6, Kota no jugo al aire libre porque estaba lloviendo.

En el dıa 7, Kota no jugo al aire libre porque su bicicleta estaba rota.

En el dıa 8, Kota no jugo al aire libre porque su bicicleta estaba rota.

En el dıa 9, Kota no jugo al aire libre porque se lastimo la pierna.

En el dıa 10, Kota no jugo al aire libre porque tenıa clases.

Hoy, Kota no jugo al aire libre.Queres saber por que, realizando la menor cantidad de preguntas posible.Como primer pregunta, podes elegir entre las siguientes dos:

1. ¿Kota, no jugaste en el exterior por el mal clima?

2. ¿Kota, no jugaste en el exterior porque tu bicicleta estaba rota?

Fig. 4.1: Escritura del primer ensayo como historia.

Page 43: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

5. RESULTADOS Y ANALISIS

Presentamos en este capıtulo los resultados de la realizacion en humanos del experimen-to disenado en el capıtulo anterior. Recordemos que buscamos responder dos preguntas:comparacion y calibracion. La primera tiene por objetivo dilucidar si algun criterio deutilidad modela efectivamente el comportamiento de los seres humanos cuando eligen pre-guntas en el dominio de inferencia causal. Ademas, entre los dos criterios considerados,queremos entender si existen situaciones, es decir, combinaciones de evidencias y pre-guntas, donde uno u otro son preponderantes en la eleccion. Por ejemplo, consideremossituaciones donde la utilidad de las dos preguntas a las que se enfrentan los sujetos esigual para Information Gain; Probability Gain podrıa ser un factor determinante paraelegir en estos casos. En lo que respecta a la pregunta de calibracion, nos gustarıa en-tender, asumiendo la utilizacion de algun criterio, si dicha utilizacion se mantiene antediferentes magnitudes de la diferencia de utilidad esperada entre las preguntas. Dicho deotra forma, si la diferencia de Preference Strength con el criterio µ entre las preguntas esmuy grande, esta claro que un sujeto que utiliza µ va a saber elegir correctamente confacilidad. Ahora, si la diferencia es pequena, la decision puede no ser tan clara e inclusootro criterio podrıa interferir en ella. Buscamos entonces cuantificar que tanto afecta laselecciones de los sujetos la diferencia de utilidad entre las preguntas.

Realizamos el experimento disenado en el Capıtulo 4 con 82 participantes. Recordemosdel capıtulo anterior que incluimos dos preguntas de control para verificar que los sujetosestuvieran atentos. El 47 % respondieron ambas preguntas correctamente. Descartamoslas respuestas de todos los que respondieron alguna pregunta de atencion mal, quedando-nos solo con los que respondieron correctamente. Este porcentaje alto de desatencion eraprevisible antes de realizar el experimento. El mismo se compone de varios ensayos, cadauno de los cuales requiere la lectura de la historia correspondiente, donde ademas la es-tructura de las mismas no varıa demasiado. Sumado a esto, debieron responder preguntasde probabilidad y estadıstica. Todos estos factores generaron un experimento largo parahacer, pudiendo generar faltas de atencion en los participantes. Esta es una caracterısticatıpica de la realizacion de experimentos vıa Internet, donde es muy facil reunir una grancantidad de datos, pero es necesario tomar medidas para asegurar la calidad de los mis-mos. En nuestro caso, la medida utilizada fue la realizacion de preguntas de control. Porel contrario, cuando los experimentos se realizan en el laboratorio, es mas facil enfocar alos sujetos experimentales, pero mas difıcil reunir una gran cantidad de ellos.

Recordemos del Capıtulo 3 que para calcular los criterios de utilidad definidos en laSeccion 1.2 es necesario contar con algun modelo de estimacion de probabilidades a partirde la informacion del entorno. Definimos dos modelos para hacerlo: el modelo Multinomialen la Seccion 3.4.1 y el modelo Dirichlet-Multinomial en la Seccion 3.4.2. Teniendo esto encuenta, estructuramos lo que resta del capıtulo en cuatro secciones principales: las primerasdos describen los resultados relacionados a las preguntas de comparacion y calibracionpara el modelo Multinomial, mientras que las ultimas dos son analogas para el modeloDirichlet-Multinomial.

37

Page 44: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

5. Resultados y analisis 38

5.1. Pregunta de comparacion para el modelo Multinomial

Al presentar el diseno experimental de la Seccion 4.1 incluimos ensayos especıficos paracomparar Information Gain con Probability Gain, los cuales llamamos ensayos de com-paracion. Estos tienen la particularidad de generar elecciones contrapuestas para los doscriterios en cuestion (Pairwise Disagreement positivo) o bien que uno de los criterios seaindiferente (ambas preguntas tienen igual utilidad esperada) y el otro tenga una preferen-cia marcada (caso particular de Pairwise Disagreement 0). Presentamos la proporcion desujetos que eligieron en concordancia con Expected Information Gain en la Figura 5.11.Cabe destacar que, aunque el Preference Strength es una resta entre utilidades, como lasescalas de las mismas no son comparables entre criterios, tampoco lo son los PreferenceStrength. Otro punto a destacar es que, tanto Information Gain como Probability Gaintienen cotas superiores por lo que los Preference Strength asociados a estos criterios deutilidad tambien las tienen. Sin embargo, dichas cotas no son alcanzables en los ejes dela Figura 5.1. Esto se debe a los ensayos que logramos generar con el optimizador y queen alguna medida son proporcionales a las dificultades intrınsecas al problema de compa-racion entre los criterios y a la imposibilidad de enfrentar a los sujetos a tamanos masgrandes de evidencia.

La figura revela una preponderancia de Information Gain por sobre Probability Gain,debido a dos factores: la direccion de las curvas de nivel y las proporciones de sujetos entodos los puntos. En lo que respecta a las curvas de nivel, las mismas son aproximadamentehorizontales, lo que quiere decir que la dimension que hace aumentar las proporciones enfavor de EIG es el Preference Strength para ese criterio y que EPG tiene poca influencia.Por otro lado, en lo que a las proporciones respecta, en los unicos ensayos donde Infor-mation Gain modela un porcentaje menor al 76 % de las elecciones de los sujetos es enaquellos dos puntos donde el Preference Strength para este criterio es 0. Aunque en unode esos ensayos Probability Gain domina la eleccion, lo hace en menor medida que en elotro ensayo en la misma situacion, donde el Preference Strength para Probability Gain esmayor, lo cual deberıa llevar a mayor preponderancia de este criterio.

Mientras que la Figura 5.1 presenta un analisis agregado de la poblacion de sujetos,es tambien interesante observar el comportamiento de cada sujeto ante cada ensayo delexperimento. Recordemos que en la Seccion 4.4 definimos un puntaje a fin de comparar eldesempeno de los sujetos a lo largo de distintos ensayos, y en particular poder compararloscon un sujeto teorico que responde siempre en concordancia con un criterio dado. Primeroque nada, cabe resaltar que el puntaje definido en las ecuaciones (4.4) y (4.2) depende delconjunto de ensayos elegidos para calcularlo. Para poder hacer comparaciones robustas,tiene sentido que el puntaje asociado a Expected Information Gain correlacione negati-vamente con el puntaje asociado a Expected Probability Gain. Dicho de otra manera, unsujeto con alto puntaje de Expected Information Gain deberıa tener asociado un puntajebajo de Expected Probability Gain. Debido a la naturaleza de la construccion de los pun-tajes, donde se utilizan los Preference Strength de las elecciones realizadas por los sujetosel conjunto de ensayos deberıa ser uno donde haya la menor cantidad de coincidenciasentre los criterios y por tanto no haya elecciones que sumen para ambos puntajes. Esteconjunto de ensayos no es otro que los ensayos de comparacion (ver la tabla 4.1). Los pun-tajes normalizados de cada sujeto experimental se muestran en la Figura 5.2. La misma

1 Por simplicidad, no incluimos el grafico analogo para Expected Probability Gain, pero el mismo esexactamente igual con las proporciones invertidas.

Page 45: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

5. Resultados y analisis 39

0.00 0.05 0.10 0.15 0.20 0.25Preference Strength Expected Probability Gain

0.0

0.1

0.2

0.3

0.4

0.5

0.6

Pre

fere

nce 

Str

engt

h E

xpec

ted 

Info

rmat

ion 

Gai

nProporción de sujetos que eligieron de acuerdo a EIG basado en ensayos de comparación

0.36

0.44

0.52

0.60

0.68

0.76

0.84

0.92

Fig. 5.1: Proporcion de sujetos eligiendo en concordancia con Expected Information Gain (EIG).Se muestra una interpolacion de la distribucion sobre los siete ensayos disenados para lacomparacion, los cuales se representan con los puntos negros. Si un criterio tiene PreferenceStrength 0 en un ensayo, se asume que un sujeto concuerda con dicho criterio solo cuandoesta en desacuerdo con la eleccion del otro criterio.

muestra como 26 sujetos tienen el puntaje maximo para Expected Information Gain, loque significa que utilizan este criterio consistentemente a la hora de elegir. En terminosde la analogıa con el sujeto teorico que se comporta de acuerdo con Expected InformationGain, todos esos sujetos se comportan exactamente igual a como lo harıa el teorico. Por elcontrario, solo un sujeto se comporto de manera tal de obtener un puntaje maximo paraExpected Probability Gain.

Dado que los sujetos disponen de dos opciones a la hora de elegir, incluso si estuvierancontestando al azar tendrıan un puntaje para alguno de los dos criterios. Para poder ana-lizar este fenomeno, simulamos 10000 veces a un sujeto que elije la pregunta etiquetadacomo “A” con probabilidad 1/2. Tomamos la mediana de dichos puntajes. La misma fueincluida en la Figura 5.2. Para entender que tan significativos son nuestros resultados,calculamos un p valor por sujeto, donde el p valor es la probabilidad de obtener un pun-taje mas alto o igual eligiendo al azar. El histograma de dichos p valores para ExpectedInformation Gain se presenta en la Figura 5.3. La mediana de los p valores es 0,0323y un 66 % de los mismos son estadısticamente significativos (menores que 0,05). Por su-puesto, un analisis del mismo tipo para Expected Probability Gain no produce resultadossignificativos, dado que no es el criterio utilizado por las personas. Sin embargo, no tene-mos evidencia estadısticamente significativa sobre la no utilizacion de Expected ProbabilityGain.

Page 46: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

5. Resultados y analisis 40

0.0 0.2 0.4 0.6 0.8 1.0Puntaje

S13S16S18S21S26S27S28S38S5S7S0

S12S15S17S19S22S23S25

S3S30S34

S4S8

S10S20S24S29S33S37S14S31S32S1S9

S11S35

S6S36

S2

Suj

etos

Análisis de puntajes para EPG multinomial en ensayos de comparación

Fig. 5.2: Puntajes normalizados para Expected Information Gain (arriba) y Expected ProbabilityGain (abajo) cuando se utiliza el Modelo Multinomial. Se tienen en cuenta solo ensayosde comparacion. Se muestra ademas la mediana del puntaje para un sujeto que elige alazar sobre una base de 10000 permutaciones.

La conclusion expresada anteriormente respecto a que Information Gain modela co-rrectamente las estrategias individuales de las personas y no Probability Gain se ve ademasen la Figura 5.4, donde presentamos la distribucion de combinaciones entre puntajes deExpected Information Gain y Expected Probability Gain. Cabe destacar que la anticorrela-cion entre los puntajes exhibida en dicha figura es propia del diseno experimental realizadoy de la seleccion de ensayos para calcular los puntajes. Sin embargo, lo que es determinadopor el comportamiento de los sujetos es la ubicacion de la mayor masa de puntos en lazona donde el puntaje para Expected Information Gain es alto y el puntaje para ExpectedProbability Gain es bajo.

Page 47: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

5. Resultados y analisis 41

0.0 0.2 0.4 0.6 0.8 1.0P valor

0

5

10

15

20

25

30C

antid

ad d

e su

jeto

sDistribución de p valores para EIG

Fig. 5.3: Histograma de p valores para la utilizacion de EIG por parte de los sujetos experimentales.

0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2Puntaje Expected Information Gain

0.2

0.0

0.2

0.4

0.6

0.8

1.0

Pun

taje

 Exp

ecte

d P

roba

bilit

y G

ain

Fig. 5.4: Vista comparativa de puntajes para EIG y EPG. Se agrego un jitter Uniforme de ancho0.1 para mejorar la visualizacion.

Page 48: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

5. Resultados y analisis 42

5.2. Pregunta de calibracion para el modelo Multinomial

Habiendo analizado la pregunta de comparacion entre Information Gain y ProbabilityGain, nos enfocamos en este punto en la pregunta de calibracion. Recordemos que lamisma apuntaba a entender, dado un criterio, el grado de ruido asociado con su aplicacionante diferentes situaciones. En particular, por situaciones diferentes entendemos aquellascon distintos grados de Preference Strength. Cuanto mayor es el Preference Strength de unensayo, mayor el grado de preferencia de un criterio por alguna de las preguntas y por tantomenor el ruido asociado a la eleccion. Cuando la diferencia es pequena, el ruido asociadodeberıa tender a ser mayor. En la Figura 5.5, donde presentamos la proporcion de sujetoseligiendo acorde a un criterio dado un Preference Strength, se puede apreciar este fenomeno.Utilizamos los ensayos de comparacion ası como tambien de calibracion, orientados a darmayor densidad al eje horizontal. Un detalle que vale la pena destacar y justificar respecto aestos graficos y a los analogos para el modelo Dirichlet-Multinomial es el reflejado artificialsobre el eje vertical en el punto donde el horizontal es 0 de todos los puntos. Esto se debea que el Preference Strength (PstrA(µ)) se define como la preferencia de un criterio porla pregunta A sobre la pregunta B. Por supuesto, PstrA(µ) = −PstrB(µ), con lo cualal exponer a un sujeto a un ensayo con PstrA(µ), lo estamos exponiendo a un ensayo−PstrB(µ) lo que genera el reflejo en el grafico con las proporciones invertidas. Ademasdel reflejo de los puntos, todos los graficos cuentan con un ajuste sigmoideo. Para lograrlo,usamos cuadrados mınimos no lineales sobre

f(x) =1

1 + e−gx, (5.1)

donde g es el parametro de ganancia (gain). La motivacion para usar este tipo de ajustees que muchos procesos naturales relacionados con el aprendizaje tienen esta tendencia.Los mismos exhiben un crecimiento que eventualmente alcanza un estado de saturacion.El gain no es otra cosa que la velocidad de crecimiento de esta funcion. En nuestro caso, elgain va a representar el grado de sensibilidad de la poblacion de sujetos ante variacionesen los valores de Preference Strength, cuantificando como un cambio en las diferencias deInformation Gain modifica la proporcion de sujetos eligiendo de acuerdo a ese criterio.Para las curvas de la Figura 5.5 calculamos ademas los p valores para gain positivo, puestoque la hipotesis que queremos comprobar es el comportamiento sigmoideo de dichas curvas.Para ello asumimos que el parametro gain tiene distribucion gaussiana, obteniendo en elcaso de EIG un gain 8,64 con p < 10−6 y para EPG un gain 2,39 con p valor 0,1. Comose puede apreciar, el p valor para EIG es absolutamente significativo, mientras que paraEPG no lo es. Notese que los valores de los gains no son comparables de una curva ala otra, puesto que las escalas de los criterios son completamente diferentes y no estanrelacionadas entre sı.

Page 49: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

5. Resultados y analisis 43

0.6 0.4 0.2 0.0 0.2 0.4 0.6Preference Strength 

0.0

0.2

0.4

0.6

0.8

1.0

Pro

porc

ión 

de s

ujet

os q

ue r

espo

ndie

ron 

en c

onco

rdan

cia 

con 

Exp

ecte

d In

form

atio

n G

ain

Análisis de calibración para Expected Information Gain

0.4 0.3 0.2 0.1 0.0 0.1 0.2 0.3 0.4Preference Strength 

0.0

0.2

0.4

0.6

0.8

1.0

Pro

porc

ión 

de s

ujet

os q

ue r

espo

ndie

ron 

en c

onco

rdan

cia 

con 

Exp

ecte

d P

roba

bilit

y G

ain

Análisis de calibración para Expected Probability Gain

Fig. 5.5: Analisis de calibracion: (rojo) Probabilidad de EIG (arriba) y EPG (abajo) como funcio-nes de los valores de Preference Strength (rojo). Ademas, se incluye el ajuste sigmoideo(verde).

Page 50: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

5. Resultados y analisis 44

5.3. Pregunta de comparacion para el modelo Dirichlet-Multinomial

Habiendo analizado el caso Multinomial en las dos secciones anteriores, focalizamosnuestra atencion en el modelo Dirichlet-Multinomial. Recordemos de la Seccion 3.4.2 queeste modelo, a diferencia del Multinomial, requiere de la utilizacion de algun algoritmode muestreo, para calcular los valores de las Ecuaciones (3.4), (3.5) y (3.6). Estas tres seutilizan para calcular las utilidades y por tanto los Preference Strength. Para hacer estoscalculos utilizamos el algoritmo Metropolis-Hastings, que describimos en la Seccion 2.4.Como se explico en la Seccion 3.5.1 se utilizaron cuatro cadenas en paralelo y se aplicotanto thinning como burn-in. Para calcular la cantidad de iteraciones necesarias, utilizamosel metodo Gelman-Rubin, explicado en la Seccion 2.4.1. Recordemos que el mismo tieneen cuenta la varianza entre cadenas e intra cadenas y produce un estimador RG,R. En la

practica, se considera que RG,R < 1,1 es un indicador aceptable de la convergencia de lascadenas.

Incluimos en la Figura 5.6 el valor del estimador RG,R para diferentes largos decadena, en una corrida de prueba para una Distribucion de Dirichlet con parametroα = (1, 1, 1, 1, 1, 1). Como puede observarse para la primera componente, las cadenasrapidamente se mezclan, lo que se ve reflejado en la media y desvıo (Figuras 5.6b y 5.6c).Un comportamiento analogo se observo para otras componentes y otras priors. Con elobjeto ademas de reducir la varianza de los coeficientes que utilizaremos mas adelante enel analisis, definimos entonces la cantidad de muestras como 500, lo que genera la necesi-dad de realizar 3000 iteraciones por cadena dado que tenemos un burn-in que descarta laprimera mitad y un thinning que se queda con un tercio de las muestras restantes. En loque a la eleccion de la prior respecta, utilizamos un α plano (αi = 1∀ i) en las proximassecciones, lo que en una distribucion Dirichlet se puede interpretar como una distribucionuniforme sobre todos las potenciales distribuciones multinomiales.

Page 51: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

5. Resultados y analisis 45

0 500 1000 1500 2000Cantidad de iteraciones

0.90

0.95

1.00

1.05

1.10

1.15

1.20

Gel

man

­Rub

in

(a) Gelman-Rubin

0 500 1000 1500 2000Cantidad de iteraciones

0.10

0.12

0.14

0.16

0.18

0.20

0.22

0.24

0.26

Med

ia

Cadena 1Cadena 2Cadena 3Cadena 4

(b) Media en funcion de cantidad de iteraciones

0 500 1000 1500 2000Cantidad de iteraciones

0.06

0.08

0.10

0.12

0.14

0.16

0.18

0.20

0.22

Des

vío 

stan

dard

Cadena 1Cadena 2Cadena 3Cadena 4

(c) Desvıo en funcion de la cantidad de iteracio-nes

Fig. 5.6: 5.6a Estadıstico Gelman Rubin por cada componente en funcion de la longitud de lascadenas. 5.6b Convergencia de la media para la primer componente 5.6c Convergencia deldesvıo standard para la primer componente.

Con el objeto de realizar el mismo tipo de analisis que previamente hicimos para elmodelo Multinomial, seleccionamos de los ensayos generados aquellos que son utiles pa-ra la pregunta de comparacion de acuerdo con sus Preference Strengths para el modeloDirichlet-Multinomial. Los mismos se encuentran en la Tabla 4.2. Presentamos en la Fi-gura 5.7 las proporciones de sujetos eligiendo acorde a Expected Information Gain paradistintas combinaciones de Preference Strenghts. Esta Figura es analoga a la Figura 5.1para el modelo Dirichlet-Multinomial y las conclusiones que de ella se desprenden tambien.Information Gain es preponderante en las elecciones de los sujetos tanto en terminos de

Page 52: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

5. Resultados y analisis 46

las proporciones, como tambien de las curvas de nivel aproximadamente horizontales. Porotro lado, sobre la recta donde el Preference Strength para Expected Probability Gain es0, las proporciones crecen en la misma direccion que lo hace el Preference Strength paraExpected Information Gain.

0.00 0.02 0.04 0.06 0.08 0.10 0.12Preference Strength Expected Probability Gain

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

Pre

fere

nce 

Str

engt

h E

xpec

ted 

Info

rmat

ion 

Gai

n

Proporción de sujetos que eligieron de acuerdo a EIG basado en ensayos de comparación

0.32

0.40

0.48

0.56

0.64

0.72

0.80

0.88

Fig. 5.7: Proporcion de sujetos eligiendo en concordancia con Expected Information Gain (EIG).Se muestra una interpolacion de la distribucion sobre los siete ensayos disenados para lacomparacion. Si un criterio tiene Preference Strength 0 en un ensayo, se asume que unsujeto concuerda con dicho criterio solo cuando esta en desacuerdo con la eleccion del otrocriterio.

A continuacion, realizamos un analisis discriminado por sujeto, teniendo en cuentapuntajes analogos a los del caso Multinomial y el conjunto de ensayos de comparacionseleccionados para este modelo. Presentamos los puntajes en la Figura 5.8 donde, al igualque para el caso Multinomial, incluimos la mediana del puntaje de un sujeto que elige alazar, calculada de la misma manera. Los mismos muestran una preponderancia de ExpectedInformation Gain. Para entender el grado de significancia estadıstica de estos puntajes,incluimos en la Figura 5.9. La mediana de los p valores es 0.0174 y un 61 % es menorque 0,05. No encontramos, nuevamente, informacion significativa como para asegurar lano utilizacion de Expected Probability Gain como criterio de seleccion.

Finalmente, podemos analizar la preponderancia antes mencionada de Expected In-formation Gain en terminos de una vista comparativa de los puntajes. Como se puedeobservar en la Figura 5.10 la mayor aglomeracion de sujetos se encuentra en la zona dondelos puntajes para Expected Information Gain son altos y los de Expected Probability Gainbajos.

Page 53: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

5. Resultados y analisis 47

0.0 0.2 0.4 0.6 0.8 1.0Puntaje

S2S35S11S36

S6S9S1

S10S20S29S14S37S31S24S32S12S34

S8S15S19S22S25

S3S30S33S26S0

S17S23S4S7

S13S16S18S21S27S28S38S5

Suj

etos

Análisis de puntajes para EIG dirichlet en ensayos de comparación

0.0 0.2 0.4 0.6 0.8 1.0Puntaje

S13S16S18S21S26S27S28S38S5S7S0

S12S15S17S19S22S23S25

S3S30S34

S4S8

S10S24S20S29S37S33S14S31S32S1S9

S35S6

S11S36

S2

Suj

etos

Análisis de puntajes para EPG dirichlet en ensayos de comparación

Fig. 5.8: Puntajes normalizados para Expected Information Gain (arriba) y Expected ProbabilityGain (abajo) Se tienen en cuenta los ensayos de comparacion seleccionados para estemodelo. Se incluye tambien la mediana de los puntajes para un sujeto que elige al azarsobre 10000 permutaciones.

Page 54: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

5. Resultados y analisis 48

0.0 0.2 0.4 0.6 0.8 1.0P valor

0

5

10

15

20

25C

antid

ad d

e su

jeto

sDistribución de p valores para EIG

Fig. 5.9: Histograma de p valores sobre la utilizacion de EIG como criterio de seleccion de pregun-tas.

0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2Puntaje Expected Information Gain

0.2

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Pun

taje

 Exp

ecte

d P

roba

bilit

y G

ain

Fig. 5.10: Vista comparativa de puntajes para EIG y EPG. Se agrego un jitter Uniforme de ancho0.1 para mejorar la visualizacion.

Page 55: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

5. Resultados y analisis 49

5.4. Pregunta de calibracion para el modelo Dirichlet-Multinomial

Habiendo analizado la pregunta de comparacion, nos resta desarrollar la respuesta ala de calibracion. Presentamos graficos analogos a los realizados para el caso Multinomialen la Figura 5.11. Obtuvimos un buen ajuste sigmoideo para EIG con un gain de 7,0477 yp < 10−6. Para EPG, el ajuste no fue tan bueno, lo cual es consistente con los resultadospreviamente expresados, obteniendo un gain de 4,48 y p = 0,077.

Page 56: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

5. Resultados y analisis 50

0.6 0.4 0.2 0.0 0.2 0.4 0.6Preference Strength 

0.0

0.2

0.4

0.6

0.8

1.0

Pro

porc

ión 

de s

ujet

os q

ue r

espo

ndie

ron 

en c

onco

rdan

cia 

con 

EIG

Análisis de calibración para Expected Information Gain

0.6 0.4 0.2 0.0 0.2 0.4 0.6Preference Strength 

0.0

0.2

0.4

0.6

0.8

1.0

Pro

porc

ión 

de s

ujet

os q

ue r

espo

ndie

ron 

en c

onco

rdan

cia 

con 

EP

G

Análisis de calibración para Expected Probability Gain

Fig. 5.11: Analisis de calibracion: (rojo) Probabilidad de EIG (arriba) y EPG (abajo) como funcio-nes de los valores de Preference Strength (rojo). Ademas, se incluye el ajuste sigmoideo(verde).

Page 57: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

5. Resultados y analisis 51

5.5. Analisis de correlacion

Utilizamos el Test de Pearson para realizar un analisis de correlacion entre la cantidadde preguntas de probabilidad y estadıstica correctamente contestadas, y el puntaje de lossujetos en el experimento. Los resultados se encuentran en la Tabla 5.1. Esto demuestra queexiste una correlacion moderada y estadısticamente significativa entre los conocimientos deprobabilidad y estadıstica y la utilizacion de Information Gain como criterio de utilidad.Esto es altamente interesante y sorprendente a la vez: mientras que la utilizacion dedeterminado criterio de utilidad es una accion completamente inconsciente, la capacidado no de responder problemas matematicos es una habilidad consciente y entrenada. Cabedestacar que la anticorrelacion entre las habilidades de probabilidad y estadıstica y lospuntajes para Probability Gain es esperada, dada la anticorrelacion entre estos puntajes ylos de Information Gain. Realizamos un analisis analogo teniendo en cuenta las edades delos sujetos, sin encontrar una correlacion significativa. Algo interesante que puede verseen la Figura 5.12 es que hay sujetos con puntaje EIG maximo en todas las franjas etariasabarcadas por nuestro experimento2.

Modelo Criterio de utilidad Coeficiente de Pearson P valor

Multinomial Information Gain 0.383 0.016Multinomial Probability Gain -0.394 0.013Dirichlet-Multinomial Information Gain 0.403 0.011Dirichlet-Multinomial Probability Gain -0.381 0.016

Tab. 5.1: Correlacion entre conocimientos de probabilidad y estadıstica con puntajes asociados ala utilizacion de criterios de utilidad.

2 Incluimos solo el grafico para el caso Multinomial. Al utilizar el modelo Dirichlet-Multinomial losresultados son similares

Page 58: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

5. Resultados y analisis 52

20 30 40 50 60 70Edad (años)

0.0

0.2

0.4

0.6

0.8

1.0P

unta

je E

IG

Fig. 5.12: Modelo Multinomial: Puntaje para EIG en ensayos de comparacion en funcion de la edadde los participantes.

5.6. Comparacion de modelos

Los resultados hasta ahora presentados muestran que Expected Information Gain mo-dela correctamente la manera en que los seres humanos seleccionamos preguntas en eldominio de inferencia causal. Esto puede apreciarse tanto en las comparaciones realizadasasumiendo que las probabilidades son estimadas a partir de la evidencia usando el ModeloMultinomial como en las que asumen el Modelo Dirichlet-Multinomial. Si bien nuestroexperimento no fue disenado con el objetivo de comparar estos modelos, es interesantepreguntarnos si alguno explica mejor nuestros datos. Para responder a este interrogante,calculamos dos estimadores. Por un lado, usamos el coeficiente de determinacion R2 queexplica la proporcion de la varianza en los datos que es explicada por un ajuste, en parti-cular aplicado sobre los ajustes sigmoideos presentados en las Secciones 5.2 y 5.4. Por otrolado, calculamos el coeficiente de correlacion de Pearson entre el Preference Strength parael criterio y la proporcion de sujetos cuyo comportamiento se ve modelado por el criterioen cada ensayo. Los resultados obtenidos se presentan en la Tabla 5.2.

Modelo R2 Coeficiente de Pearson P valor del coeficiente de Pearson

Multinomial 0.890 0.892 p < 10−6

Dirichlet-Multinomial 0.870 0.90 p < 10−6

Tab. 5.2: Coeficientes para comparar Expected Information Gain cuando se asumen los modelosMultinomial o Dirichlet-Multinomial.

Los resultados obtenidos no permiten inclinarnos por alguno de los dos modelos, ambos

Page 59: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

5. Resultados y analisis 53

explican un porcentaje significativo de la varianza de los datos y ademas las diferencias dePreference Strength en los ensayos correlacionan positivamente (y de manera estadıstica-mente significativa) con la proporcion de sujetos que eligen en concordancia con el criterioen cuestion. El no poder inclinarnos por uno en particular no quita que ambos modelansatisfactoriamente el comportamiento exhibido por los sujetos.

5.7. Analisis de priors

Si bien hasta ahora hemos considerado en el analisis que ~αi = 1 ∀i, vale la pena evaluardiferentes valores para ~α. A estos efectos, tendremos en cuenta vectores ~α con todas lascomponentes iguales, lo que permite una inmediata interpretacion. Sea φ ∈ R y ~αi = φ ∀i,a φ se lo conoce como parametro de concentracion. Cuando φ = 1, podemos interpretarla distribucion resultante como una uniforme sobre todos los vectores del simplex, portanto sobre las distribuciones de probabilidad que estos codifican. Cuando φ → ∞, sele asigna mayor probabilidad a distribuciones cercanas a la uniforme. Por el contrario,al tender φ a 0, se le da mayor probabilidad a distribuciones que le dan peso a unaunica componente. En lo que al ajuste sigmoideo respecta, incluimos en la Figura 5.13 elcoeficiente de determinacion para diferentes valores del parametro de concentracion. Comose puede apreciar, el mejor ajuste se da con φ menores que 1, lo cual es consistente conun entendimiento por parte de los sujetos de la estructura del problema. Al explicarles laconsigna, se les recalco que solo una de las potenciales causas es la que genera el efecto en eldıa en cuestion, lo cual los lleva a favorecer distribuciones con peso sobre una componente.Por otro lado, el hecho de que haya un rango de valores razonable donde el ajuste es buenoes un indicador de la sanidad del modelo en terminos de su sensibilidad a variaciones enla prior.

0.1

0.2

0.3

0.4

0.5

0.6

0.75 0.

9 1

1.5 2 3 5

Parámetro de concentración del modelo Dirichlet­Multinomial

0.70

0.75

0.80

0.85

0.90

0.95

R2

Fig. 5.13: Analisis del ajuste sigmoideo para distintos valores del parametro de concentracion enel modelo Dirichlet-Multinomial.

Page 60: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

6. UN MODELO BAYESIANO ALTERNATIVO BASADO ENTEORIAS

A lo largo de esta tesis hemos considerado la definicion de ensayos incluida en laSeccion 3.1, donde la evidencia presentada a los sujetos tiene forma de lista. Aunque esteenfoque resulto exitoso, requiere de una intervencion humana para transformar esas listasen historias que los seres humanos puedan comprender. Un ejemplo de como pasamos delistas a historias en nuestro experimento puede encontrarse en la Seccion 4.6. Como seexplico previamente, varias posibles historias son validas para una lista.

El objetivo de este capıtulo es proponer mecanismos que permitan automatizar elpasaje de diseno en historia y ademas, brindar herramientas que permitan incluir de unamanera mas natural la dicotomıa entre preguntas hypothesis-scanning y constraint-seekingque fue explicada en la Seccion 1.2. Para ello, proponemos un modelo bayesiano alternativoa los previamente planteados en esta tesis. Aunque el modelo Dirichlet-Multinomial modelala incertidumbre a la que se enfrentan los sujetos cuando infieren probabilidades a partir dela evidencia, no codifica las potenciales teorıas que los seres humanos podrıan considerarrespecto a la estructura de las causas en inferencia causal. Recordemos el ejemplo deensayo presentado en al Seccion 1.3, donde un alumno llego tarde a la escuela en multiplesdıas debido a no encontrar la campera el primer dıa, romper la bicicleta en el segundo, noencontrar los libros en el tercero, no encontrar las zapatillas en el cuarto, etc. Dado quela evidencia consta de seis causas distintas, la hipotetica salida de un optimizador que esconsistente con esta historia es:

(1, 2, 3, 4, 5, 6).

Sin bien es cierto que el analisis de la evidencia se va a ver condicionado por la frecuen-cia con la que suceden estos eventos, tambien lo es que existe una caracterıstica comunentre varias causas (ser un objeto que el sujeto no pudo encontrar) que podrıa ser tenido encuenta por los sujetos. Ademas, este tipo de caracterısticas en comun que agrupan multi-ples causas son candidatas inmediatas para componer una pregunta constraint-seeking. Lainferencia causal requiere la categorizacion de objetos y una determinacion del nivel enuna relacion causal aplica y resultados como los de [RLGX15] apuntan a que la inferenciase ve condicionada por el entendimiento de la jerarquıa en que las causas se agrupan. Elmodelo que presentamos en este capıtulo busca ser una formalizacion probabilıstica deestas ideas.

Los arboles han sido usados en la literatura para codificar teorıas sobre dominios dondela similaridad es crucial, como por ejemplo al analizar animales u objetos [XT07, KT09],lo que nos lleva a querer modelar las teorıas humanas sobre la estructura de las causascomo arboles, a los efectos de cuantificar la similaridad entre las mismas. En particular,proponemos una semantica donde las hojas de los arboles son las causas expresadas en laevidencia, y cada nodo interno es una caracterıstica comun entre las hojas del subarbolpor el definido. Cabe destacar ademas que siempre la raız de estos arboles va a ser lacaracterıstica comun trivial entre todas las causas: ser causas del efecto en cuestion en dıasprevios y por tanto susceptibles de ser agrupadas en una potencial pregunta. Presentamosen la Figura 6.1 un ejemplo de arbol para el ensayo de la Seccion 1.3 donde las causas 1,

54

Page 61: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

6. Un modelo bayesiano alternativo basado en teorıas 55

3 y 4 tienen una caracterıstica en comun agrupada en el nodo interno I1, que representaser un objeto que el sujeto no pudo encontrar:

R

I1

1 3 4

2 5 6

Fig. 6.1: Ejemplo de potencial evidencia arborea para el ensayo de la Figura 1.2

Este tipo de semantica es util no solamente para modelar las teorıas del ser humanoen este tipo de dominios, sino que ademas puede ser utilizada para generar los ensayoscomputacionalmente. Si a la salida del optimizador hasta este punto (evidencia y las dospreguntas) se le agrega una estructura arborea asociada, podemos generar experimentosoptimos que tengan en cuenta la semantica arborea y de esta manera automatizar elpasaje de diseno a historia experimental. La semantica arborea es mas restrictiva que lahasta ahora considerada en este trabajo, puesto que fuerza la inclusion (o no inclusion) decaracterısticas comunes entre las causas intervinientes en la historia.

En lo que resta del capıtulo, presentamos los fundamentos matematicos de un nuevomodelo basado en arboles en la Seccion 6.1 para luego desarrollar lo relacionado a suimplementacion computacional en la Seccion 6.2. Finalmente, concluimos el capıtulo con6.3 donde planteamos el trabajo necesario para llevar a la practica las ideas desarrolladasen las secciones previas.

6.1. Aspectos matematicos

Mantendremos el modelado hasta ahora propuesto donde dnext y por tanto dold estandistribuidos de manera Multinomial. Es necesario tambien incluir una variable aleatoriaπ que modela la estructura arborea asociada a la evidencia. Esta deberıa ser, ademas,parte de la salida del optimizador. Por otro lado, incluimos tambien la variable aleatoriaτ que modela la interpretacion de los seres humanos respecto del arbol generado por eloptimizador. De alguna manera, dos nociones de arboles surgen en este punto: por un lado,el arbol que surge del optimizador (π) y que podemos considerar modela correctamentelas relaciones entre las causas y por otro el arbol que interpretan las personas a partir dela informacion brindada (τ).

Todas las dependencias entre estas variables se ven reflejadas en la Figura 6.2. Lassiguientes secciones buscan explicar nuestro modelado de las distribuciones P (τ), P (θ|τ)y P (π|τ) que modelan, respectivamente, la creencia a priori respecto de los potencialesarboles que estructuran las causas, el efecto que tiene la estructura en los vectores delsimplex que modelan las probabilidades de las causas del suceso y finalmente la relacionentre el verdadero arbol y la interpretacion de los sujetos.

Page 62: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

6. Un modelo bayesiano alternativo basado en teorıas 56

τ θ dnext

π

Fig. 6.2: Modelo Multinomial Arboreo

6.1.1. P (τ)

La principal motivacion para definir la prior es penalizar la complejidad. El arbol masprobable deberıa ser el mas simple, lo que implica que creemos que los humanos usan laexplicacion mas simple para la similaridad, salvo que los datos los fuercen a elegir unamas compleja. La Figura 6.3 muestra cinco arboles para ejemplificar lo que consideramoscomplejidad.

R

1 2 3 4 5

(a) Tc - Arbol canonico: el unico atributo com-partido entre los nodos es el trivial: el hechode ser posibles explicaciones del efecto en eldıa n+ 1−esimo.

R

I1

1 2

3 4 5

(b) T1: Existe un atributo compartido entre losnodos 1 y 2.

R

I1

1 2

I2

3 4

5

(c) T2: Hay un atributo compartido entre los no-dos 1 y 2 y otro entre los nodos 3 y 4.

R

I1

1 2 3

4 5

(d) T3: los nodos 1,2 y 3 comparten un atributo.

R

I1

I2

1 2

3

4 5

(e) T4: Los nodos 1 y 2 comparten un atributo,que no esta presente en 3. Ademas, existe otroatributo compartido entre los nodos 1, 2 y 3.

Fig. 6.3: Ejemplos de arboles de 5 nodos.

Analizando los ejemplos de la Figura 6.3e, Tc es el arbol menos complejo de todos,exhibiendo solo la relacion o atributo trivial entre las causas. No hay ningun atributo

Page 63: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

6. Un modelo bayesiano alternativo basado en teorıas 57

compartido ademas de ser causas que pueden ser agrupadas en una pregunta con semanti-ca disyuntiva. T1 es claramente menos complejo que T2 (Figuras 6.3b y 6.3c) porque elprimero exhibe una asociacion menos que el segundo. T3 (Figura 6.3c), aunque tiene unagrupamiento mas grande, no es necesariamente mas complejo que T1. T2 es mas comple-jo dado que tiene mas agrupamientos y por tanto mayor cantidad de causas a tener encuenta. Por otro lado, T4 (Figura 6.3e) debe ser mas complejo que T3, dado que muestraun agrupamiento dentro de otro. Todos estos ejemplos motivan a la eleccion de una priordonde se penaliza tanto el numero de nodos internos (que notaremos k) como la alturadel arbol (notada h). Sean γ y ρ parametros tales que 0 < γ < 1 y 0 < ρ < 1 entonces:

P (τ) ∝ γhρk. (6.1)

Para que la Ecuacion (6.1) sea una distribucion de probabilidad propia, debemos di-vidirla por un factor de normalizacion Z. Para un numero de hojas fijo l, el numero dearboles esta acotado y por tanto lo podemos expresar de la siguiente manera:

Zl =∑

T :|hojas(T )|=l

γhρk. (6.2)

6.1.2. P (θ|τ)

P (θ|τ) deberıa codificar la influencia probabilıstica de τ sobre θ. En este caso, nosgustarıa que correlaciones implicadas por el arbol se vean reflejadas en θ. Si dos cau-sas i y j son similares (por tanto cercanas en el arbol) θi y θj deberıan ser altamentecorrelacionadas.

Un problema similar se encuentra en [KT09]. En ese trabajo generan muestras corre-lacionadas a partir de similitudes codificadas como un arbol, utilizando una matriz decovarianza como representacion intermedia y muestreando de una Distribucion NormalMultivariada. Aunque el problema es similar, tiene sus diferencias respecto al nuestro.Para empezar, nosotros necesitamos muestras que pertenezcan al n-simplex, dado que lasutilizaremos como parametro θ de una Distribucion Multinomial. Ademas, el enfoque deese trabajo asume que todos los nodos son elementos del problema y por tanto filas de lamatriz de covarianza. Esta ultima hipotesis no es cierta en nuestro problema, donde sololas hojas tienen esa semantica. Sin embargo, utilizaremos una Distribucion Normal Mul-tivariada como bloque para construir P (θ|τ). Un punto que vale la penar tener en cuentaes que la matriz de covarianza de esta distribucion debe ser simetrica y definida positiva.Construiremos la matriz de covarianza en dos pasos: en el primero generaremos, para cadauna de las hojas del arbol, un vector que exprese las similaridades de esta hoja respectoal resto. En el segundo, utilizaremos estos vectores para generar a partir de ellos la matrizde covarianza. Para poder especificar el primer paso, necesitamos dar dos definiciones: laaltura de un arbol va a ser la maxima distancia entre un nodo y la raız, mientras que laaltura de un nodo va a ser la altura del subarbol por el definido. Notando h la altura deτ , podemos definir la matriz Q(τ):

Q(τ)i,j = h−HCA(i, j, τ) (6.3)

donde:

HCA(i, j, τ) : min({altura(c) : c ancestro comun de i y j en τ}). (6.4)

Page 64: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

6. Un modelo bayesiano alternativo basado en teorıas 58

La fila i-esima de esta matriz define las distancias de la hoja i respecto al resto. Si lashojas i y j son similares en el arbol, entonces Qi,j va a ser alto. La Figura 6.4 presentalas matrices asociadas a los arboles en la Figura 6.3. Lo que hace esta matriz es definirmuestras para cada hoja a partir de las distancia con el resto.

Una potencial manera de calcular una matriz de covarianza a partir de un conjuntode vectores es calcular la Matriz de Gramm asociada a ese conjunto. (ver [Bis06]). Estaconstruccion se utiliza en la practica para calcular matrices de covarianza muestral a partirde un dataset. Por definicion, la misma es simetrica semidefinida positiva y, si el conjuntode vectores es linealmente independiente, simetrica definida positiva. Dado que esto no sepuede establecer de la definicion de nuestro conjunto de vectores (ver la Figura 6.4e paraun contraejemplo), podemos asegurarlo en la practica sustituyendo las filas de Q por elagregado a las mismas de un componente de ruido ε. Dada la fila Qi, se puede usar unaDistribucion Normal Univariada con media Qi y varianza ε para calcular Qi. Notando ala matriz compuesta por las filas de Q con el ruido agregado Q, la matriz :

K(τ) = Q(τ).Q(τ)T

(6.5)

es simetrica definida positiva.Teniendo esta matriz, sabemos que una distribucion Normal Multivariada,

Y ∼ N(0,K(τ)), (6.6)

sirve para generar muestras donde las correlaciones en Y son definidas por la matrizde covarianza K(τ). Dado que Y , en principio, podrıa ser cualquier vector en Rn, nece-sitamos una transformacion Z : ∆n −→ Rn a los efectos de calcular las probabilidadessobre vectores en el n-simplex. Una transformacion usual de [0, 1] a R es la Probit (ver[GCSR14]): se toma Φ−1 donde Φ es la funcion acumulada de la distribucion NormalUnivariada. Proponemos entonces una transformacion basada en la Probit:

Z(θ1, ..., θn) = (Φ−1(θ1)

F, ...,

Φ−1(θn)

F), (6.7)

donde F es un factor de normalizacion: F =∑n

i=1 Φ−1(θi).La combinacion de las ecuaciones (6.6) y (6.7) nos permite definir P (θ|τ), de manera

tal que cumpla con las propiedades requeridas:

P (θ|τ) =1

(2π)D/21

|Σ|1/2exp[−1

2(Z(θ))TK(τ)−1Z(θ)] (6.8)

6.1.3. P (π|τ)

Nos focalizamos en esta seccion en definir la relacion entre el arbol que efectivamentemodela la estructura de la evidencia, el cual es potencial salida del optimizador y lainterpretacion de los sujetos de ese arbol.

Un primer enfoque que es al mismo tiempo simple pero interesante de tener en cuenta,es asumir que las personas interpretan perfectamente la estructura de la evidencia:

P (π|τ) =

{1 si π = τ0 si caso contrario

. (6.9)

Page 65: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

6. Un modelo bayesiano alternativo basado en teorıas 59

1 0 0 0 00 1 0 0 00 0 1 0 00 0 0 1 00 0 0 0 1

(a) Matriz Q para Tc.

2 1 0 0 01 2 0 0 00 0 2 0 00 0 0 2 00 0 0 0 2

(b) Matriz Q para T1, donde hay una caracterısti-

ca compartida entre las hojas 1 y 2.2 1 0 0 01 2 0 0 00 0 2 1 00 0 1 2 00 0 0 0 2

(c) Matriz Q para T2. Caracterıstica compartida

entre las hojas 1 y 2 y otra caracterıstica entrelas hojas 3 y 4.

2 1 1 0 01 2 1 0 01 1 2 0 00 0 0 2 00 0 0 0 2

(d) Matriz Q para T3: las hojas 1, 2 y 3 comparten

una caracterıstica.

3 2 1 0 02 3 1 0 01 1 3 0 00 0 0 3 00 0 0 0 3

(e) Matriz Q para T4: las hojas 1 y 2 compar-

ten una caracterıstica que no esta presente en3. Existe ademas otra caracterıstica que si escompartida por las hojas 1, 2 y 3.

Fig. 6.4: Matrices Q para los arboles de la Figura 6.3

Este enfoque no tiene en cuenta la dificultad intrınseca de lograr extraer la estructurade la evidencia por parte de los sujetos. Un segundo enfoque, potencialmente superadordel anterior es pensar que las personas interpretan la estructura con un ruido asociado.Por lo tanto, nos gustarıa que la probabilidad sea proporcional a la similiridad entre losarboles π y τ . Por este motivo, proponemos utilizar algo proporcional a la norma de ladiferencia entre las matrices, lo cual constituye una distancia entre las mismas:

P (π|τ) ∝ ||K(π)−K(τ)||F . (6.10)

En particular proponemos la utilizacion de la Norma Frobenius, que puede ser definidacomo:

||A||F =

√∑i

∑j

|ai,j |2, (6.11)

que es mas facil de calcular numericamente que las normas matriciales inducidas.

Page 66: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

6. Un modelo bayesiano alternativo basado en teorıas 60

6.1.4. Derivacion de las probabilidades del modelo

Habiendo especificado las dependencias probabilısticas entre las variables aleatoriasintervinientes, recordemos de la Seccion 3.3 que cada modelo de nuestro marco debe definirlas Ecuaciones (3.5) y (3.6). En el caso particular de este modelo, es necesario agregar π ala informacion observada por el sujeto. Esto motiva la reescritura de las ecuaciones (3.5)y (3.6) como:

P (dnext|dold, π). (6.12)

y

P (dnext|dold, π,Q, a). (6.13)

Recordemos que la Ecuacion (3.5) es la posterior, es decir, la actualizacion de lascreencias una vez incorporada la informacion proveniente de la evidencia. Dicha evidenciaen este caso incorpora tambien el arbol que los sujetos observan. Por otro lado, la Ecuacion(3.6) modela una nueva actualizacion de las creencias, al incorporar la informacion parcialproveniente de la respuesta a la pregunta realizada.

En lo que a la primer ecuacion respecta, podemos desarrollarla de la siguiente manera1:

P (dnext|dold, π) =

∫θ,τ

P (dnext, dold, π|θ, τ)P (θ, τ)

P (dold, π)dθdτ (6.14)

=

∫θ,τ

P (dnext|θ)P (dold|θ)P (π|τ)P (θ|τ)P (τ)

P (dold, π)dθdτ,

donde la primera igualdad vale por aplicacion del Teorema de Bayes y marginalizaciony la segunda por independencia condicional de dnext, dold y π dados θ y τ .

Podemos expresar la segunda ecuacion de la siguiente manera:

P (dnext|dold, π,Q, a) =

∫θ,τP (a|dnext, Q, θ)P (dnext|Q, θ) P (dold|θ)P (π|τ)P (θ|τ)P (τ)∫

θ,τ P (dold, π, a|Q, θ, τ)P (θ, τ)dθdτ.

(6.15)Incluimos en la Seccion A.3 las manipulaciones algebraicas necesarias para obtener

esta formulacion.Habiendo definido matematicamente el modelo a utilizar, en la proxima seccion nos

focalizaremos en los aspectos computacionales para su implementacion.

6.2. Aspectos computacionales

Para poder calcular las ecuaciones definidas en la Seccion 6.1.4, es necesario calcularintegrales que mapean a calculos de valores esperados sobre los parametros θ y τ . Paraesto proponemos una instanciacion particular del algoritmo de Metropolis-Hastings a losefectos de muestrear sobre el par Ξ = (θ, τ). Recordemos de la Seccion 2.4 que parautilizar este algoritmo necesitamos una distribucion auxiliar para la cual podamos calcular

1 τ es una variable discreta y θ continua. Como tales, los calculos sobre la primera requieren sumatoriasmientras que sobre la segunda integrales. Por simplicidad mantendremos la notacion de integral en amboscasos.

Page 67: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

6. Un modelo bayesiano alternativo basado en teorıas 61

tanto P (Ξi|Ξ∗) como P (Ξ∗|Ξi) donde Ξ es el conjunto de parametros a muestrear, Ξi

la muestra en el estado i-esimo y Ξ∗ la muestra candidata para el estado i + 1-esimo.Ademas, necesitamos asegurar que utilizando la distribucion auxiliar se puede convergera la objetivo. Una restriccion propia de nuestro problema es que τ debe ser un arbolvalido en terminos de la semantica del problema: como se vera mas adelante, no podemosinterpretar correctamente cualquier arbol.

6.2.1. Algoritmo para muestrear τ

Trataremos inicialmente el problema de muestrear τ , puesto que es un subproblemade muestrear Ξ ya que podemos perfectamente muestrear τ y a partir de esa muestraobtener otra para θ. Una condicion suficiente pero no necesaria para la convergencia esque para todo valor τ en el soporte de la distribucion objetivo se cumpla P (τ∗ = τ |τ i) > 0en todo i y para cualquier valor de τ i. Durante el proceso de desarrollar el algoritmo quedescribiremos a continuacion, nos hemos dado cuenta que muchas veces es relativamentesencillo proponer algoritmos para los cuales es facil por ejemplo, calcular P (Ξi|Ξ∗), peroluego es sumamente complicado calcular la probabilidad reversa o imposible probar laconvergencia. De la misma manera, en otros casos fue facil probar la convergencia perodifıcil calcular alguna de las probabilidades necesarias. Para asegurar la convergencia pro-ponemos utilizar un enfoque de regeneracion de subarboles, el cual fue previamenteutilizado en [GTFG08] y que consiste en: elegir en cada paso un nodo interno del arbol yreconstruir todo el subarbol asociado a ese nodo. Como la raız del arbol podrıa ser elegida,se podrıa reescribir todo el arbol, cumpliendo con la condicion de convergencia. La intui-cion detras del algoritmo que describiremos en la proxima seccion es que, una vez elegidoel nodo φ cuyo subarbol asociado reescribiremos, se borran todos los nodos internos (nohojas) de ese subarbol y se ejecutan los siguientes pasos:

1. Asignar terminales a φ: elegir que hojas del arbol original van a ser descendientesdirectos (hijos) del nodo de reescritura. (Notacion: S1)

2. Crear nuevos nodos internos: elegir cuantos nodos internos van a ser hijos directosde φ (Notacion: S2)

3. Asignar las hojas restantes a nodos internos: asignar cada una de las hojas restantesa los nodos internos generados en el paso anterior, teniendo en cuenta que al menosdos hojas deben ser asignadas a cada nodo. (Notacion: S3)

4. Recursion: reescribir cada uno de los nodos internos a los cuales les fueron asignadasmas de dos hojas. (Notacion: S4)

6.2.2. Algoritmo para generar arboles candidatos

Sea φ un nodo interno (no hoja) de τ . Notaremos Lφ a la cantidad de hojas del subarbolde τ cuya raiz es φ, Tφ a la cantidad de hojas (terminales) que son hijos de φ e Iφ a lacantidad de hijos de φ que no son hojas. Buscamos mutar el arbol en el estado i-esimomediante la regeneracion de un subarbol del mismo. Esta intuicion se formaliza en el

Page 68: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

6. Un modelo bayesiano alternativo basado en teorıas 62

siguiente algoritmo:

Algoritmo 2: Generacion de arboles candidatos a partir del estado τ i

Data: τ i: un arbol en el estado iResult: τ∗: un arbol, candidato a muestra para el estado i+ 1

1 Elegir al azar un nodo interno φ de τ i

2 Eliminar todos los nodos internos de subarbol(τ i, φ) excepto por φ.3 return Rebuild(τ i, φ)

.El mismo requiere una rutina especıfica para la reconstruccion del subarbol. Propone-

mos una a continuacion:

Algoritmo 3: Metodo Rebuild para el subarbol subarbol(T, φ)

Data: τ un arbol y φ un nodo interno de τResult: τ ′ una mutacion de τ

1 Calcular Lφ2 if Lφ > 2 then3 if Lφ = 3 then4 Elegir al azar Tφ ∈ {1, ..., Lφ} \ {Lφ − 1}5 else6 Elegir al azar Tφ ∈ {0, ..., Lφ} \ {Lφ − 1}7 end8 if Tφ = 0 then

9 Elegir al azar Iφ, tal que 2 ≤ Iφ ≤ bLφ−Tφ

2 c10 end11 if 0 < Tφ < Lφ then12 Elegir al azar Tφ hojas de subarbol(τ i, φ) y hacer que φ sea su padre

13 Elegir al azar Iφ, tal que 1 ≤ Iφ ≤ bLφ−Tφ

2 c14 end15 if Tφ = Lφ then16 return (arbol actual)17 end18 Crear Iφ nuevos nodos internos, que seran hijos directos de φ.19 Asignar al azar 2 hojas de subarbol(τ i, φ) como hijos de cada uno de los Iφ

nuevos nodos internos.20 Asignar las Lφ − Tφ − 2Iφ hojas restantes al azar a cada uno de los Iφ nuevos

nodos internos.21 Llamar Rebuild(τ, ρ) para cada ρ nuevo nodo interno.

22 end23 return (arbol actual)

.Aunque este algoritmo puede parecer complicado al principio, la idea intuitiva es la

explicada previamente, agregando algunas restricciones para que todos los arboles cum-plan con la semantica requerida. Analizando el Algoritmo 3, las lıneas 3-7,12, 15 y 16implementan la primer etapa (asignar terminales a φ), las lıneas 9, 13 y 18 implementanla segunda etapa (creacion de nuevos nodos internos), las lıneas 19 y 20 implementanla tercer etapa (asignar las hojas restantes a nodos internos) y la lınea 21 es el llamadorecursivo de la etapa cuatro.

Page 69: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

6. Un modelo bayesiano alternativo basado en teorıas 63

La Figura 6.5 presenta dos topologıas que queremos evitar dado que no son consistentescon la semantica deseada. En 6.5a Tφ es 0 e Iφ es 1. Recordemos que un nodo internorepresenta una caracterıstica compartida entre las hojas del subarbol por el definido yque no es compartido por el resto de las hojas del arbol. En este caso, los nodos φ y ψdeberıan ser solo uno para ser consistentes con la semantica. Para evitar esta topologıa,la lınea 9 fuerza la existencia de al menos dos nuevos nodos internos si Tφ = 0. Por otrolado, 6.5b muestra una topologıa donde todas las hojas excepto una son asignadas comoterminales para φ, dejando ψ como representacion de una caracterıstica que solo la hoja4 posee. Para poder evitar esta topologıa, las lıneas 4 y 6 excluyen Lφ− 1 del conjunto devalores posibles para Tφ.

φ

ψ

0 1 2 3 4

(a) Tφ = 0 e Iφ = 1

φ

0 1 2 3 ψ

4

(b) Tφ = Lφ − 1

Fig. 6.5: Dos topologias a evitar en las mutaciones: dado un arbol con 5 hojas hijas directas dela raız (φ), dos posibles transiciones que deben evitarse para que las mutaciones seanconsistentes con la semantica arborea definida.

Ademas, notese que si Tφ = 0 no hay necesidad de elegir terminales para φ y que siTφ = Lφ el algoritmo termino de mutar el arbol y no hay necesidad de crear nuevos nodosinternos y asignarles hojas. La lınea 3 se ve motivada por otro caso especial: si Lφ = 3entonces Tφ no puede ser 0 porque eso implicarıa tener tres hojas para asignar a nodosinternos (que podrıan ser solo uno) generando una situacion similar a la que se muestraen la Figura 6.5a. Como este es el unico caso que no puede ser evitado restringiendo lasposibilidades al crear nuevos nodos internos (dado que no hay manera de evitar la situacional llegar a ese punto), se evita en las lıneas 3 y 4.

6.2.3. Calculo de probabilidades

Habiendo presentado el algoritmo, y quedando clara su convergencia por la utiliza-cion del enfoque de regeneracion de subarboles, nos resta dar formulas para calcular laprobabilidad de transicion (P (τ i|τ∗)) y la probabilidad de transicion invertida (P (τ∗|τ i)).

Podemos dividir el analisis de la probabilidad de transicion en dos partes correspon-dientes a, respectivamente, el Algoritmo 2 y el Algoritmo 3. En lo que al Algoritmo 2respecta, elige el nodo a reconstruir (llamaremos a esta etapa S0) con probabilidad uni-forme:

P (S0 = φ) =1

nodosInternos(τ) + 1. (6.16)

Puesto que este el unico componente no determinıstico del Algoritmo 2, nos enfocare-mos en el Algoritmo 3. El mismo cuenta con cuatro etapas S1, ..., S4 previamente definidas.Notaremos P (Si) la probabilidad de que la salida en el paso i-esimo tome determinadovalor, queda claro que Si es ejecutado antes que Si+1 y que buscamos calcular P (S1, ..., S4).

Page 70: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

6. Un modelo bayesiano alternativo basado en teorıas 64

En lo que a la primera etapa respecta, si K ≤ 2 entonces se transiciona determinısti-camente (con probabilidad 1) al unico resultado posible (el mismo arbol). Teniendo encuenta las potenciales elecciones si K > 2 se cumple:

P (S1|S0 = φ ∩ hojas en subarbol(τ, φ) = Lφ) =

1Lφ

1

(LφTφ

)si Lφ > 3

1Lφ−1

1

(LφTφ

)si Lφ = 3

1 si Lφ ≤ 2

(6.17)

Habiendo realizado la asignacion de terminales, el siguiente paso (S2) es la creacionde nuevos nodos internos, hijos directos de φ. En esta etapa debemos tener en cuenta trescasos: cuando no se asigno ningun terminal en el paso anterior, cuando todos las hojas delsubarbol se asignaron como terminales a φ y cuando no sucedio ninguno de los anteriores.Si todos fueron asignados, entonces no hay mas transiciones para hacer. Si ninguno seasigno debemos crear como mınimo dos nodos internos y si alguno se asigno debemoscrear como mınimo un nodo interno. Esto se ve reflejado por la formula:

P (S2|S1 = Tφ,hojas en subarbol(τ, φ) = Lφ, S0 = φ) =

1

bLφ−Tφ

2c−1

si Tφ = 0

1

bLφ−Tφ

2c

si 0 < Tφ < Lφ

1 si Tφ = Lφ(6.18)

.Una vez realizada la asignacion de terminales y creados los nuevos nodos internos, de-

bemos asignar las hojas restantes a cada nodo interno para luego hacer el llamado recursivoen caso de ser necesario. Cabe destacar que como mınimo debemos asignar dos terminalesa cada nodo interno de manera de cumplir con la semantica arborea deseada. Como puedeapreciarse en el Algoritmo 3 esta asignacion se realiza en dos pasos, repartiendo inicial-mente dos terminales a cada no terminal y luego asignando el resto de manera aleatoria.Lo interesante de esto es que la cantidad de maneras en que pueden ser realizadas estasasignaciones coincide con lo que en combinatoria se conoce como numeros de Stirling delsegundo tipo r-asociados. Estos son numeros combinatorios que expresan la cantidad demaneras de asignar n elementos a k conjuntos donde cada conjunto debe tener al menos relementos, por lo tanto los notaremos S(n, k, r). Un tratamiento profundo sobre los mismospuede encontrarse en [Com74]. Se los puede calcular utilizando la siguiente recursion:

S(n+ 1, k, r) = kS(n, k, r) +

(n

r − 1

)Sr(n− r + 1, k − 1). (6.19)

Aunque la misma puede ser costosa de computar, cabe destacar que solo nos interesanlos S(n, k, 2) (buscamos que todo nodo interno tenga al menos dos hojas asignadas). Puestoque solo utilizaremos una cantidad acotada de nodos internos, podemos precomputar estosvalores y va a ser suficiente para la implementacion necesaria. Como todas las asignaciones

Page 71: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

6. Un modelo bayesiano alternativo basado en teorıas 65

son igualmente probables en nuestro algoritmo, podemos escribir la probabilidad de unaasignacion como:

P (S3|S2 = Iφ, S1 = Tφ, S0 = Lφ) =

{1

S(Lφ−Tφ,Iφ,2) si Lφ − Tφ > 2

1 caso contrario.(6.20)

El ultimo paso del algoritmo es el llamado recursivo. La probabilidad de ese paso es laproductoria de las transiciones de todos los subarboles correspondientes a cada nodo delllamado. Finalmente, podemos escribir la probabilidad de transicion como:

P (τ∗|τ i) = P (S1, S2, S3, S4) =4∏i=1

P (Si|S0, ..., Si−1) (6.21)

A la hora de implementarlo computacionalmente, hay que tener en cuenta que haypasos que podrıan no ejecutarse, debido a no ser necesarios. Por ejemplo, si en S2 seasignan todas las hojas del subarbol original como terminales para el nodo de reescritura,entonces no va a ser necesario crear nuevos nodos internos, ni reescribir sus subarbolesasociados.

En lo que respecta a la probabilidad de transicion invertida, para calcularla es necesarioseguir los mismos pasos, teniendo en cuenta que se parte de τ∗ y no de τ i. Las topologıas delos mismos van a ser seguramente distintas, empezando por la cantidad de nodos internosy eso debe ser tenido en cuenta a la hora de hacer el calculo.

6.3. Validacion del modelo

Un aspecto intrınseco de las investigaciones en Ciencia Cognitiva Computacional esque para poder validar una nueva teorıa en el nivel Computacional de Marr es necesarioatravesar una serie de etapas. Inicialmente se plantean las hipotesis para luego modelarmatematicamente el problema, debiendo este modelado dar cuenta de la funcion de losmecanismos del sistema cognitivo. Luego, se debe realizar la implementacion computacio-nal y posteriormente definir el diseno experimental, realizar los experimentos y analizar losdatos debiendo potencialmente modificar alguno de los pasos anteriores. Todos estos pasosfueron desarrollados para los modelos Multinomial y Dirichlet-Multinomial y explicados enlos Capıtulos 3, 4 y 5. Asimismo, contamos con el planteo matematico del modelo arboreoy con una implementacion preliminar de los Algoritmos 2 y 3. Para poder completar elproceso detallado, faltarıan resolver algunos aspectos que detallamos a continuacion.

En primer lugar, en lo que a la implementacion computacional respecta, las Ecuaciones(6.1) y (6.10) definen distribuciones que poseen factores de normalizacion, a priori costososde calcular. Si bien en ciertos casos del calculo de utilidades, los mismos podrıan cancelarse,resta analizar si esto sucede en todos los potenciales casos o si es necesario su calculo. Ensegundo lugar, resta tambien implementar la optimizacion de experimentos basada en estetipo de modelos, para lo cual puede que un enfoque de busqueda por enumeracion notenga buen rendimiento y sea necesaria la utilizacion de alguna tecnica heurıstica, comopor ejemplo, la reutilizacion de un algoritmo MCMC, pero a los efectos de la optimizacion.El mismo podrıa apoyarse en las ideas de [MP09], donde se mapea el problema de disenooptimo a un problema de calculo de posterior en inferencia bayesiana. En tercer lugar,a los efectos de realizar la validacion experimental, todas las historias del experimento

Page 72: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

6. Un modelo bayesiano alternativo basado en teorıas 66

desarrollado en el Capıtulo 4 fueron pensadas teniendo en cuenta esta semantica. Dichode otra forma, para cada una de las historias existe un arbol asociado. Aunque en terminosdel diseno experimental los ensayos no son optimos para este modelo, se pueden aprovecharlos resultados, reinterpretandolos en terminos de la semantica arborea.

Un aspecto interesante de los algoritmos propuestos para la implementacion compu-tacional del modelo y que vale la pena explorar, es que la utilizacion del enfoque deregeneracion de subarboles en el Algoritmo 2 hace que con facilidad se pueda pensar enuna instanciacion adaptativa del Algoritmo Metropolis-Hastings. A lo largo de esta tesis,las distribuciones de probabilidad para generar muestras candidatas no se ven modificadaspor el rendimiento de la cadena. Dicho de otra forma, las mismas se mantienen constantesindependientemente de si se rechazaron muchas muestras o no. Una variante adaptativadeberıa ir modificando el salto de acuerdo a si efectivamente se esta en convergencia o no.Para el algoritmo en arboles, cuanto mayor la altura del nodo a reescribir, mayor posi-bilidad de reescribir una parte grande del arbol y por tanto hacer un salto mayor en elespacio de soluciones. Por el contrario, si el nodo de reescritura tiene poca altura, se vaa reescribir una fraccion mas pequena del arbol, haciendo un salto pequeno. El tamanodel salto podrıa ajustarse dando mas peso a nodos con mayor altura, teniendo este ajusteen cuenta la tasa de rechazo en iteraciones previas. Esta variante requiere mayor analisisexperimental y de ajuste de parametros para poder ser util en la practica.

6.4. Interpretacion complementaria de la semantica arborea

Como se planteo en el Capıtulo 1, no existe una definicion formal de lo que significapara una pregunta ser constraint-seeking o hypothesis-scanning e incluso la definicioninformal es binaria: no existen grados de constraint-seeking y no existe la nocion de unapregunta mas constraint-seeking que otra. Utilizando la semantica arborea presentada enel Capıtulo 6, donde las hojas son causas de la tarea de inferencia causal y los nodosinternos caracterısticas en comun entre las causas, podemos pensar en una cuantificacionde constraint-seeking. Cuanto mas cerca de la raız se encuentra un nodo en el arbol, lapregunta asociada es mas general, mientras que, cuanto mas cerca de las hojas, la preguntaes mas especıfica. En particular, una pregunta que apunta solamente a una hoja es unahypothesis-scanning. Con esa idea en mente, definimos la utilidad de una pregunta comola altura del nodo asociado en el arbol τ , dividido la altura total de τ . Esta idea se vereflejada en la siguiente ecuacion:

µCS(Q) =altura(Q, τ)

h. (6.22)

Con esta idea en mente, y teniendo en cuenta que los ensayos del experimento presenta-do en el Capıtulo 4 cumplen con la semantica arborea, aplicamos esta metrica para calcularpuntajes sobre nuestros datos de la misma manera en que lo hicimos para InformationGain y Probability Gain en el Capıtulo 5. Si bien los puntajes son altos para ConstraintSeeking, debido a que el diseno experimental no fue especıficamente disenado para poderrealizar correctamente la comparacion de este criterio con los otros, no podemos extraerconclusiones respecto a si modela mejor que Information Gain el comportamiento de laspersonas. Esto se ve reflejado en que hay una correlacion entre los puntajes de Informa-tion Gain y de Constraint Seeking. Si asumimos el modelo Multinomial, la misma tiene uncoeficiente de Pearson de 0,91 y, si asumimos el Dirichlet, de 0,97 (en ambos casos con p

Page 73: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

6. Un modelo bayesiano alternativo basado en teorıas 67

valores significativos). Una linea de trabajo futuro es utilizar la implementacion realizadapara construir otro diseno experimental que tenga en cuenta esto y permita compararestos criterios.

Page 74: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

7. CONCLUSIONES Y TRABAJO FUTURO

A lo largo de esta tesis, hemos estudiado el problema de seleccion de preguntas enel dominio de inferencia causal. Para ello, modelamos matematicamente una situacioncontrolada de ensayo, que fue presentada de manera informal en [RSLX]. A partir deese modelado, pudimos aplicar tecnicas de diseno optimo de experimentos, a los efectos desistematicamente generar ensayos que nos permitieran resolver las preguntas planteadas eneste trabajo (comparacion y calibracion). Ademas, tuvimos en cuenta diferentes modelosde estimacion de probabilidad a partir de la evidencia (modelos Multinomial y Dirichlet-Multinomial). Realizamos el experimento con sujetos humanos y analizamos sus resultados.Finalmente, en el Capıtulo 6 propusimos un modelo alternativo que tiene en cuenta laestructura subyacente de la tarea de inferencia (que relaciones hay entre las causas) yalgoritmos para su implementacion.

Habiendo realizado un resumen de este trabajo, estructuramos los parrafos subsiguien-tes de acuerdo a los ejes de estudio abordados, incluyendo potenciales extensiones a futuro.

Marco general La estructura de los ensayos que realizamos con los sujetos experimen-tales, y que motivaron la formalizacion realizada surgen de [RSLX], donde son construidosde manera manual. En el presente trabajo realizamos una generacion sistematica de losensayos, forzando diferentes configuraciones de Preference Strength para los criterios consi-derados (Information Gain y Probability Gain), agregando ademas una capa al problema:diferentes modelos de estimacion de probabilidad.

En lo que a lıneas de investigacion a futuro respecta, la implementacion realizadapermite validar nuevos modelos de estimacion de probabilidad, ası como tambien nuevoscriterios de utilidad. Por otro lado, cabe recordar que en nuestro enfoque se les solicita alos sujetos experimentales que elijan la primera pregunta de una potencial lista de ellas,pero solo la primera. Las ideas de [RZG+12] podrıan ser aplicadas a este problema. Enese trabajo se construye un juego con tecnicas de diseno optimo de experimentos, infirien-do un modelo a partir del comportamiento del sujeto a lo largo del mismo. En nuestrocaso, podrıamos realizar muchas preguntas disenando de manera optima la totalidad delas mismas, terminando el juego cuando el sujeto llega a alguna conclusion sobre la causadel suceso en el dıa n+ 1. Esto brindarıa una perspectiva mas profunda sujeto por sujeto.Ademas, hay factores tales como el orden de las preguntas y la velocidad de respuesta queson interesantes de analizar. Podrıa haber patrones entre sujetos que responden rapida-mente a cada pregunta, o las preguntas iniciales tener caracterısticas comunes, diferentesde las ultimas.

A lo largo de esta tesis, solo hemos pensado en preguntas binarias. Esto implica que elsujeto hipotetico que responde las preguntas tiene pleno conocimiento del problema. Esteseguramente no es el caso en la vida real y las ideas aquı expresadas pueden ser expandidasmodelando la falta de certeza en la respuesta de una pregunta. La respuesta pasarıa a seralgun grado de certeza sobre una respuesta en particular, codificando la certeza comoprobabilidad.

Diseno experimental El diseno experimental realizado buscaba responder las pregun-tas de comparacion y de calibracion. Para la comparacion, enfrentamos a los sujetos a

68

Page 75: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

7. Conclusiones y trabajo futuro 69

multiples configuraciones en los Preference Strength de los criterios considerados, logran-do resultados consistentes con [RSLX] pero mas generales debido a estas multiples con-figuraciones. En lo que a calibracion respecta, donde cuantificamos la sensibilidad de lossujetos a variaciones de Preference Strength, tanto la pregunta como el analisis realizadoson novedosos para este tipo de problemas. Realizamos tambien un analisis discriminadopor sujetos ademas de la agregacion de resultados, proponiendo la idea de puntajes paraun criterio, concepto que tampoco es tıpico de la literatura.

A futuro, serıa interesante realizar otro diseno donde se puedan comparar los diferentesmodelos de estimacion de probabilidad propuestos: Multinomial, Dirichlet-Multinomial yArboreo.

Resultados experimentales Habiendo realizado un analisis racional [And90] para elproblema de seleccion de preguntas en inferencia causal y habiendo aplicado tecnicas deDiseno Optimo de Experimentos, presentamos en el Capıtulo 5 el analisis de los resultadosdel experimento disenado en el Capıtulo 4. Del mismo se extraen tres conclusiones prin-cipales: primero que nada, los sujetos utilizan EIG en diferentes situaciones y de maneraindependiente de variaciones de la diferencia de utilidad (Preference Strength) para EPGentre las dos preguntas propuestas. En segundo lugar, los sujetos son sensibles a variacio-nes en los Preference Strength para EIG y en tercer lugar, hay una correlacion entre losconocimientos de probabilidad y estadıstica con los puntajes para EIG.

En lo que al primer resultado respecta, nuestras conclusiones en favor de InformationGain como criterio para modelar las estrategias humanas de seleccion de informacion estanalineadas con otros resultados de la literatura. Por ejemplo, en [OC94] se demuestra quelos sujetos utilizan un marco bayesiano, optimizando la utilizacion de Information Gainen la celebre Tarea de Seleccion de Wason. Este es un resultado concordante con el nuestrotanto en la utilizacion del marco bayesiano como en la optimizacion de Information Gain,pero para la tarea de Wason. La misma fue presentada en [Was68] y enfrenta a los sujetosa la tarea de comprobar la validez de una proposicion logica. Para esto se les presentacon cartas que poseen un numero de un lado y un color del otro, debiendo elegir quecartas desean voltear (y por tanto conocer el reverso) a los efectos de validar una teorıaque relaciona los numeros con los colores. Algo similar sucede en [NDG+14], donde laspersonas juegan al Person Game (deben identificar a una persona preguntando la menorcantidad de preguntas binarias sobre las caracterısticas de la misma) y eligen de acuerdoa un algoritmo Goloso basado en Information Gain.

El analisis de sensibilidad, por otro lado, es un resultado novedoso sobre un tipo deanalisis que tambien lo es. En la literatura (por ejemplo en [RSLX] y [NMCS10]) se buscaentender si algun criterio modela el comportamiento humano mejor que otro, pero omi-tiendo, tal vez injustificadamente, la pregunta relacionada con el grado de calibracion ensu utilizacion.

El tercer resultado, la correlacion entre los puntajes para EIG y los conocimientos deprobabilidad y estadıstica, resulta sorprendente. Recordemos que al plantear el modeladobayesiano de la cognicion, estamos utilizando la probabilidad como un calculo para codi-ficar las creencias de los seres humanos y sus modificaciones a partir de nueva evidencia.Sin embargo, esto no implica que los seres humanos sean conscientes de la probabilidado realicen algun tipo de calculo probabilıstico sobre los hechos de la realidad. Que unahabilidad entrenada y consciente tenga alguna relacion con que un criterio de utilidadmodele mejor las elecciones humanas, podrıa ser un indicio de que el entrenamiento en

Page 76: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

7. Conclusiones y trabajo futuro 70

este tipo de disciplinas termina afectando, inconscientemente, la toma de decisiones.En lo que a extensiones respecta, realizando un experimento analogo al presentado

en esta tesis en ninos, podrıamos dilucidar si las estrategias analizadas en esta tesis sonaprendidas en las etapas mas tempranas de la vida o mas tarde, y si los ninos poseen elmismo tipo de sensibilidad (calibracion) que los adultos respecto a variaciones de Prefe-rence Strength. El diseno experimental propuesto en el Capıtulo 4 fue construido pensandoen esta comparacion y esta preparado para ser aplicado en ninos.

Modelo arboreo El modelo explicado en el Capıtulo 6 permite formalizar preguntas,como el aprendizaje y utilizacion de los arboles, para la realizacion de nuevos experimen-tos. Potencialmente, el modelo podrıa ser un paso en la integracion de la clasificacionconstraint-seeking vs hypothesis-scanning con los modelos de utilidad presentados en elCapıtulo 1. Creemos que resultados que muestran una progresion en el desarrollo, pasan-do de una preferencia sobre preguntas hypothesis-scanning a preguntas constraint-seeking(ver [RL14]) puedan ser reinterpretados en terminos de mayor entendimiento de la estruc-tura subyacente, es decir, mejor entendimiento del arbol de relaciones entre las causas. Porotro lado, los algoritmos presentados podrıan ser utilizados en otros problemas que requie-ran el muestreo de arboles con esa semantica. Cabe destacar ademas, que sera interesantedisenar un experimento a los efectos de validar experimentalmente la metrica propuestaen la Seccion 6.4, donde consideramos una metrica alternativa para comparar los criteriosde utilidad basados en la clasificacion entre constraint-seeking y hypothesis scanning conlos criterios matematicos previamente considerados como Information Gain y ProbabilityGain.

Aunque proponemos modelar el tipo de situaciones consideradas en el experimento co-mo arboles, los mismos son solamente un tipo de estructura combinatoria, que podrıa noser la que mejor se adecue a la evidencia de tareas de inferencia causal. En particular, unasituacion en la cual la caracterıstica φ es compartida entre las causas A y B, y la carac-terıstica ψ es compartida entre B y C pero no por A no puede ser modelada por nuestrasemantica. Por otro lado, no hay una manera de cuantificar el peso de una determinadacaracterıstica compartida en la similaridad de las causas. Una simple extension podrıaradicar en el uso de grafos bipartitos, codificando una primera particion como atributos yla segunda particion como causas. Las versiones pesadas de los arboles tambien podrıanser utiles, codificando el nivel de fuerza de cada caracterıstica compartida.

Incorporando herramientas de otras areas Otro punto interesante es la relacionentre este problema y Discrete Choice Theory. (Ver [Tra03]). La Discrete Choice Theoryes un campo de la Economıa que lidia con la construccion de modelos que explican laselecciones racionales de sujetos al seleccionar de un conjunto discreto marcado por uncriterio de utilidad. El problema estudiado allı es muy similar al nuestro y podrıa serel terreno para aun mas conclusiones teoricas. De esta manera, se podrıa contestar lapregunta de como el mecanismo de pensamiento humano se compara con lo que se consideraracional en la economıa, donde tambien hay incertidumbre.

Page 77: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

APENDICE

Page 78: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

A. APENDICE

A.1. Problemas de probabilidad y estadıstica

Como explicamos en el Capitulo 4 ademas de los ensayos asociados a seleccionar pre-guntas, solicitamos a los sujetos que resolvieran cuatro problemas de probabilidad y es-tadıstica de creciente nivel de complejidad. Incluimos los mismos en esta seccion.

Problema 1

De las 1000 personas que viven en un pueblo peque~no, 500 son miembros del

coro. De estos 500 miembros del coro, 100 son hombres. De los 500 habitantes

que no estan en el coro, 300 son hombres. ¿Cual es la probabilidad que un hombre

elegido al azar sea miembro del coro?

Problema 2

Imagine que tiramos un dado de cinco caras 50 veces. En promedio, de estas

50 tiradas, ¿Cuantas veces este dado de cinco caras va a mostrar un numero impar

(1, 3 o 5)?

Problema 3

Imagine que tiramos un dado cargado de 6 caras. La probabilidad de que el

dado muestre un 6 es dos veces la probabilidad de que muestre cada uno de los

otros numeros. En promedio, de 70 tiradas, ¿Cuantas veces el dado va a mostrar

el numero 6?

Problema 4

En un bosque 20 % de los hongos son rojos, 50 % marrones y 30 % blancos.

Un hongo rojo es venenoso con una probabilidad del 20 %. Un hongo que no es

rojo es venenoso con una probabilidad del 5 %. ¿Cual es la probabilidad que

un hongo venenoso sea rojo?

A.2. Demostracion de formulaciones equivalentes para el caso Multino-mial

Como se desarrollo en el Capıtulo 3, el modelo Multinomial admite dos formulacionesequivalentes para la probabilidad a posteriori agregando la informacion de la pregunta ysu respuesta. Aunque la primera se desprende del planteo probabilıstico del problema, lasegunda es de mas facil interpretacion e implementacion computacional. Presentamos enesta seccion la prueba de la equivalencia de las dos formulaciones.

Notaremos F1 y F2 a las formulaciones. Dado un dold fijo, Q, dnext y asumiendo a = sı,queremos ver que:

72

Page 79: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

A. Apendice 73

F1(dnext, dold, Q, a = sı) = P (dnext = c|dold, Q, a = sı) =P (a = sı|Q, dnext)P (dnext|dold)

P (a = sı|Q, dold)

es equivalente a:

F2(dnext, dold, Q, a = sı) = P (dnext|dold, Q, a = sı) =

{0 si dnext 6∈ Q

ocurrencias de dnext en dold∑d∈Q ocurrencias de d en dold

si dnext ∈ Q .

Si dnext no pertenece a Q, por definicion F2(dnext, dold, Q, a = sı) = 0. Ademas P (a =sı|Q, dnext) = 0, lo que hace que F1(dnext, dold, Q, a = sı) = 0. Si dnext pertenece a Q:

F1(dnext, dold, Q, a = sı) =P (dnext|dold)∑

d∈Q P (dnext = d|dold),

usando la definicion de P (a = sı|Q, dnext) y la Ecuacion (3.7). Ademas, notando lasocurrencias de A en B como occ(A,B),

P (dnext|dold)∑d∈Q P (dnext = d|dold)

=

occ(dnext,dold)∑d∈set(dold) occ(d,d

old)∑d∈Q

occ(d,dold)∑d∈set(dold) occ(d,d

old)

=

occ(dnext,dold)∑d∈set(dold) occ(d,d

old)∑d∈Q occ(d,d

old)∑d∈set(dold) occ(d,d

old)

, (A.1)

por la Ecuacion (3.9). Finalmente, se cumple:

occ(dnext,dold)∑d∈set(dold) occ(d,d

old)∑d∈Q occ(d,d

old)∑d∈set(dold) occ(d,d

old)

=occ(dnext, dold)∑

d∈set(dold) occ(d, dold)

∑d∈set(dold) occ(d, d

old)∑d∈Q occ(d, d

old)

= F2(dnext, dold, Q, a = sı) .

A.3. Derivacion para el modelo arboreo

En el Capıtulo 6 presentamos las ecuaciones necesarias para definir el modelo arboreo.Describiremos a continuacion los pasos necesarios para derivar la Ecuacion (6.15).

Por marginalizacion, podemos expresar la Ecuacion (6.13) como:

P (dnext|dold, π,Q, a) =

∫θ,τP (dnext|dold, π,Q, a, θ, τ)P (θ, τ |dold, π,Q, a)dθdτ, (A.2)

donde luego podemos desarrollar el termino izquierdo de la integral mediante la va-riante de Bayes expresada en la Ecuacion (2.4):

P (dnext|dold, π,Q, a, θ, τ) =P (a|dnext, Q, θ)P (dnext|Q, θ)

P (a|Q, θ). (A.3)

En lo que respecta al termino derecho, podemos aplicar el mismo teorema y obtener:

P (θ, τ |dold, π,Q, a) =P (dold, π, a|θ, τ,Q)P (θ, τ |Q)

P (dold, π, a|Q), (A.4)

Page 80: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

A. Apendice 74

para luego aplicar independencia condicional, marginalizacion y regla del producto:

=P (dold|θ)P (π|τ)P (a|Q, θ)P (θ|τ)P (τ)∫

θ,τ P (dold, π, a|Q, θ, τ)P (θ, τ). (A.5)

Finalmente, podemos combinar las Ecuaciones (A.3) y (A.5) en (A.2):

P (dnext|dold, π,Q, a)

=

∫θ,τ

P (a|dnext, Q, θ)P (dnext|Q, θ)P (a|Q, θ)

P (dold|θ)P (π|τ)P (a|Q, θ)P (θ|τ)P (τ)∫θ,τ P (dold, π, a|Q, θ, τ)P (θ, τ)

dθdτ

=

∫θ,τP (a|dnext, Q, θ)P (dnext|Q, θ) P (dold|θ)P (π|τ)P (θ|τ)P (τ)∫

θ,τ P (dold, π, a|Q, θ, τ)P (θ, τ)dθdτ

(A.6)

A.4. Documentos sobre aspectos eticos

En el Capitulo 4 desarrollamos las decisiones tomadas para llevar adelante un expe-rimento conductual con personas. Como se explico, el mismo fue desarrollado en cola-boracion y aprobado por un comite de etica. Incluimos en esta seccion los documentospresentados ante dicho comite.

Page 81: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

A. Apendice 75

Abstract: Question evaluation In this study we intend to examine people’s ability to evaluate the effectiveness of given questions. For this purpose, participants will be presented with a series of scenarios (e.g., “Toma goes to school every day. But Toma is often late to school. In the last 10 days, Toma was late for the following reasons […] Today, Toma was late to school again. You want to find out why, by asking as few questions as possible”). Participants will then be asked to choose, between two questions, the one they think is more effective. At the end of the task, they will be presented with a few questions to measure their understanding of statistics and probabilities. We will present this task to about 200 adults through the MTURK platform, and to about 60 8- to 10-year-old children from schools and museums in Berkeley, California, US.

Contacts:

Azzurra Ruggeri Max Planck Institute for Human Development

Center for Adaptive Behavior and Cognition Lentzeallee 94, 14195 Berlin, Germany

[email protected]

Page 82: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

A. Apendice 76

Adaptive Behavior and Cognition

Max-Planck-InstitutfürBildungsforschungMaxPlanckInstituteforHumanDevelopment

Kollegium:UteFrevertGerdGigerenzerRalphHertwigUlmanLindenberger

Lentzeallee94D-14195Berlin(Dahlem)

AzzurraRuggeri,Ph.D.Email:[email protected]

Telephone:+4915208808565

DeclarationofConsentforMajority-AgedParticipantsInthisstudyweintendtoexaminepeople’sabilitytoevaluatetheeffectivenessofgivenquestions.Forthispurposeyouwillbeaskedtochoose,betweentwoquestions,theoneyouthinkismoreeffectivetofindoutwhysomethinghappened,acrossaseriesofdifferentscenarios.Attheendofthetask,youwillbepresentedwithafewquestionstomeasureyourunderstandingofstatisticsandprobabilities.Thedatacollectedwillbestoredanonymouslytogetherwithyourpersonaldata.TheMaxPlanckInstituteforHumanDevelopmentisaninstitutionthatpromotesscientificresearch.Ourworkadheresstrictlytoregulationsgoverningprotectionofprivacy.TheinformationrequestedinthestudywillbekeptconfidentialandarchivedandscientificallyprocessedinaccordancewiththeDataPrivacyAct.Personaldatawillnotbepassedontoanythirdparties.ThedatawillbeusedsolelyforresearchpurposesandsolelywithintheMaxPlanckInstituteforHumanDevelopmentorincooperationwiththeMaxPlanckInstitute.Personalcontactdataandexperimentaldatawillbestoredseparatelyfromeachotherandhandledwithutmostdiscretion.Participationinthestudyisvoluntaryandyouareabletoendyourparticipationatanytime.Thestudywilllastapproximately20minutes.Youwillbepaidacompensationof1.50dollarsforyourparticipation.Additionally,youwillbepaidabonusof1dollarifallattentionchecksarecorrectlypassed.□yes□no Ihavereadandacceptthetermsandconditionslistedaboveand

consenttoparticipateinthisstudy(prerequisiteforparticipatinginthestudy).

Name(inblockletters): __________________________________________Date: __________________________________________Signature: __________________________________________

Page 83: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

A. Apendice 77

Ethics Committee of the Max Planck Institute for Human Development

Questionnaire for Research Involving Human Participants 1. Name of the project supervisor: Azzurra Ruggeri 2. Names of the participating researchers: Azzurra Ruggeri - Zi Lin Sim - Allejo

Salles 3. Name of the project: Questions Evaluation

Name of the study: Questions evaluation 4. Planned start of the research: August 2016 5. Short description of the study: We will investigate children and adults'

ability to identify the most efficient questions across several different causal scenarios

6. Is the planned study a follow-up to a study that has already been approved?

no

If so, please provide the Ethics Committee with a copy of the questionnaire submitted for the previous study!

7. Is follow-up research planned? yes If changes are made to the planned study (instruments, participant groups, design), a new questionnaire must be submitted.

8. How are research participants to be recruited (e.g., through the Internet, from an existing database, or via an organization)? If using the Internet, please indicate who your addressees will be or how you will "find" your participants.

The participants are recruited through Mechanical Turk and in schools in Berkeley, USA

9. Further information on participants (number, age range):

60 children 8-10 years old 200 adults

Special selection criteria (e.g., social background or ethnicity; diseases, disorders, and disabilities; achievements; other characteristics):

US citizens

10. The research involves: Manipulative questions Hidden observation Deception of the participant Physical risks Mental risks No manipulation or deception of the

participants and no risks to them If the research goals can be achieved only by means of manipulative questions, hidden observations, or deceiving the participants, it is imperative that they be thoroughly debriefed and informed about the purpose of the research project following the assessment.

11. If the research entails physical or mental risks for the participants: How do you intend to ensure their safety?

no

Page 84: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

A. Apendice 78

The participants (or their legal guardians) must be informed about any risks before the study begins and confirm by signature that they agree to the conditions of the study.

12. Are participants asked to divulge any sensitive information (e.g., sexual behavior, drug abuse, financial situation, etc.). Please specify:

no

If sensitive data are to be collected, participants must be informed about this before the study begins, and confirm by signature that they agree to the conditions of the study.

13. Is any personal information to be assessed that could, were it to become known outside of the research project, have the following consequences:

considerably affect the participant’s

reputation cast doubt on the participant’s financial

stability compromise the participant’s

employment situation lead to complications with the police otherwise negatively affect the participant no negative consequences

14. The participant will be asked to provide

information on:

gender age ethnicity marital status salary social security number address telephone number

15. Research instruments:

Standard research instruments Specially developed research instruments

Please submit the instruments to be used in your project to the Ethics Committee or allow

the Committee to inspect your instruments or procedures. 16. Data will be stored:

in paper form in electronic form in audiovisual form

If individual audiovisual recordings are planned, participants (or their legal guardians) must be informed about the manner and length of data storage and the further use of the recordings before the study begins, and must confirm by signature that they agree to the conditions of the study.

17. How will the data be anonymized? randomly assigned codes 18. How will the original data provided by

the research participants (completed questionnaires, test booklets, addresses, consent forms, bank details, etc.) and the information needed to decypher codes be stored?

password protected archive

Page 85: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

A. Apendice 79

19. Will participants be remunerated for their participation?

yes no

If yes: How will the anonymity of the participants be ensured?

Only adults will be paid. Mechanical turk will ahndle the transactions.

If yes: What provision has been made for the remuneration of participants who drop out of the study prematurely?

they will be paid anyway

Participants must be informed as to the amount of remuneration to be received before the study begins and, if applicable, told that not all participants will be paid the same amount and why this is the case.

20. Please name one person who is responsible for ensuring that the following data protection regulations are observed in the planned study: General information on data protection regulations - Any personal data must be protected from unauthorized access. “Physical” data (e.g.,

consent forms, audiovisual data) must be kept locked up. “Electronic” data must be protected by passwords.

- Research data used on a daily basis must be anonymized to ensure that participants cannot be identified.

- Potential participants may only be added to the database with their consent. If participants request to be removed from the database, their data must be deleted immediately and permanently.

- Access to any personal data or data that can be used to link anonymous data to individuals is limited to a single person or very few people. Any person who can access these data must be informed about the data protection regulations.

Person responsible for ensuring that the above data protection regulations are observed in the planned study: Family name: Given name: Signature: Date: Ruggeri Azzurra 14/07/2016

21. I certify that the information provided above is accurate and complete to the best of my knowledge: Date: Signature: 14/07/2016

Page 86: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

BIBLIOGRAFIA

[And90] J. R. Anderson. The adaptive character of thought. Erlbaum, Hillsdale, NJ,1990.

[Bis06] Christopher M. Bishop. Pattern Recognition and Machine Learning (Informa-tion Science and Statistics). Springer-Verlag New York, Inc., Secaucus, NJ,USA, 2006.

[BST11] Chris L Baker, Rebecca R Saxe, and Joshua B Tenenbaum. Bayesian theoryof mind: Modeling joint belief-desire attribution. In Proceedings of the thirty-second annual conference of the cognitive science society, pages 2469–2474,2011.

[Com74] L. Comtet. Advanced Combinatorics. Reidel, 1974.

[CRG14] Anna Coenen, Bob Rehder, and Todd Gureckis. Decisions to intervene oncausal systems are adaptively selected. In Proceedings of the 36th annual con-ference of the cognitive science society. Austin, TX, 2014.

[GCSR14] Andrew Gelman, John B Carlin, Hal S Stern, and Donald B Rubin. Bayesiandata analysis, volume 2. Taylor & Francis, 2014.

[GKT08] Thomas L Griffiths, Charles Kemp, and Joshua B Tenenbaum. Bayesian mo-dels of cognition. 2008.

[GR92] Andrew Gelman and Donald B Rubin. Inference from iterative simulationusing multiple sequences. Statistical science, pages 457–472, 1992.

[GSTG11] Thomas L. Griffiths, David M. Sobel, Joshua B. Tenenbaum, and Alison Gop-nik. Bayes and blickets: Effects of knowledge on causal induction in childrenand adults. Cognitive Science, 35(8):1407–1455, 2011.

[GTFG08] Noah D Goodman, Joshua B Tenenbaum, Jacob Feldman, and Thomas L Grif-fiths. A rational analysis of rule-based concept learning. Cognitive Science,32(1):108–154, 2008.

[JK16] Eric Jonas and Konrad Kording. Could a neuroscientist understand a micro-processor? bioRxiv, 2016.

[KT08] Charles Kemp and Joshua B Tenenbaum. The discovery of structural form.Proceedings of the National Academy of Sciences, 105(31):10687–10692, 2008.

[KT09] Charles Kemp and Joshua B Tenenbaum. Structured statistical models ofinductive reasoning. Psychological review, 116(1):20, 2009.

[LUTG16] Brenden M Lake, Tomer D Ullman, Joshua B Tenenbaum, and Samuel J Gersh-man. Building machines that learn and think like people. arXiv preprintarXiv:1604.00289, 2016.

80

Page 87: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

Bibliografıa 81

[Mac02] David J. C. MacKay. Information Theory, Inference & Learning Algorithms.Cambridge University Press, New York, NY, USA, 2002.

[Mar82] David Marr. Vision. Freeman, 1982.

[MP09] Jay I Myung and Mark A Pitt. Optimal experimental design for model discri-mination. Psychological review, 116(3):499, 2009.

[NDG+14] Jonathan D Nelson, Bojana Divjak, Gudny Gudmundsdottir, Laura F Martig-non, and Bjorn Meder. Children’s sequential information search is sensitive toenvironmental probabilities. Cognition, 130(1):74–80, 2014.

[Nel05] Jonathan D Nelson. Finding useful questions: on bayesian diagnosticity, pro-bability, impact, and information gain. Psychological Review, 112(4):979, 2005.

[Nel08] Jonathan D Nelson. Towards a rational theory of human information acquisi-tion. The probabilistic mind: Prospects for rational models of cognition, pages143–163, 2008.

[NMCS10] Jonathan D Nelson, Craig RM McKenzie, Garrison W Cottrell, and Terrence JSejnowski. Experience matters. Psychological science, 21(7):960–969, 2010.

[OC94] Mike Oaksford and Nick Chater. A rational analysis of the selection task asoptimal data selection. Psychological Review, 101(4):608, 1994.

[OC09] Mike Oaksford and Nick Chater. Precis of bayesian rationality: The probabilis-tic approach to human reasoning. Behavioral and Brain Sciences, 32(01):69–84,2009.

[Pea88] Judea Pearl. Probabilistic Reasoning in Intelligent Systems: Networks of Plau-sible Inference. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA,1988.

[RL14] Azzurra Ruggeri and Tania Lombrozo. Learning by asking: How children askquestions to achieve efficient search. In CogSci, 2014.

[RLGX15] Azzurra Ruggeri, Tania Lombrozo, Thomas L Griffiths, and Fei Xu. Childrensearch for information as efficiently as adults, but seek additional confirmatoryevidence. In CogSci, 2015.

[Ros09] Sheldon M. Ross, editor. A First Course in Probability. Pearson Prentice Hall,Upper Saddle River, N.J., eighth edition, 2009.

[RSLX] Azzurra Ruggeri, Zi Sim Lin, and Fei Xu. Five-year-old children identify themost informative questions. Under review at Cognitive Psychology.

[RZG+12] Anna N Rafferty, Matei Zaharia, Thomas L Griffiths, et al. Optimally desig-ning games for cognitive science research. In Proceedings of the 34th AnnualConference of the Cognitive Science Society, pages 893–898, 2012.

[Sha01] C. E. Shannon. A mathematical theory of communication. SIGMOBILE Mob.Comput. Commun. Rev., 5(1):3–55, January 2001.

Page 88: Diseno~ optimo de experimentos para un an alisis … · Los Cap tulos 3, 4, 5 y 6 presentan las contribuciones de esta tesis. El Cap tulo 3 contie-ne el modelado matem atico del problema

Bibliografıa 82

[TGK06] Joshua B Tenenbaum, Thomas L Griffiths, and Charles Kemp. Theory-basedbayesian models of inductive learning and reasoning. Trends in cognitive scien-ces, 10(7):309–318, 2006.

[TKGG11] Joshua B Tenenbaum, Charles Kemp, Thomas L Griffiths, and Noah D Good-man. How to grow a mind: Statistics, structure, and abstraction. science,331(6022):1279–1285, 2011.

[Tra03] Kenneth Train. Discrete Choice Methods with Simulation. Number emetr2 inOnline economics textbooks. SUNY-Oswego, Department of Economics, 2003.

[Was68] P. C. Wason. Reasoning about a rule. Quarterly Journal of ExperimentalPsychology, 20(3):273–281, 1968.

[XT07] Fei Xu and Joshua B Tenenbaum. Word learning as bayesian inference. Psy-chological review, 114(2):245, 2007.