Diferencia entre revisiones de «Trabajo:Fairness en Machine Learning»

De FdIwiki ELP
Saltar a: navegación, buscar
(Aportaciones al procomún)
(Vídeo divulgativo)
Línea 109: Línea 109:
 
=== Vídeo divulgativo ===
 
=== Vídeo divulgativo ===
 
Como se comentó anteriormente se grabó un video para comunicar a todo aquel que lo vea la existencia del problema del sesgo en los algoritmos de aprendizaje automático, así como de las soluciones para combatirlo.
 
Como se comentó anteriormente se grabó un video para comunicar a todo aquel que lo vea la existencia del problema del sesgo en los algoritmos de aprendizaje automático, así como de las soluciones para combatirlo.
[https://www.youtube.com/watch?v=datSJILn0SY&feature=emb_title https://www.youtube.com/watch?v=datSJILn0SY&feature=emb_title]
+
<iframe width="560" height="315" src="https://www.youtube.com/embed/datSJILn0SY" frameborder="0" allow="accelerometer; autoplay; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>
  
 
=== Aportaciones al procomún ===
 
=== Aportaciones al procomún ===

Revisión de 22:15 18 dic 2019

Este trabajo sobre equidad en aprendizaje automático ha sido desarrollado por alumnos de la asignatura de "Ética, Legislación y Profesión" de 4ºA del curso 2019/2020, asignatura impartida en la Universidad Complutense de Madrid (UCM).

Nuestro trabajo consistirá en comunicar sobre equidad (o fairness) en aprendizaje automático, no sólo centrándonos en el sesgo que se produce sino especialmente en los medios que existen para solucionarlo.

Introducción

La traducción más directa de fairness al español sería la de equidad; es decir, la cualidad de tratar a las personas de manera parecida o de forma que parezca justa o razonable. Ahora bien, tanto la justicia como la razonabilidad son conceptos subjetivos, por lo que el fairness también lo será (de hecho se podrá definir formalmente de varias maneras). Sin embargo, aunque el concepto sea subjetivo, en la práctica la sociedad actual tiende a violar constantemente este principio de equidad de formas que no parecen razonables. Por ejemplo, no parece justificable que la brecha salarial entre hombres y mujeres en España sea superior al 10%, o que una de cada cuatro personas que ocupa una celda en España sea inmigrante (cuando estos tan solo representan alrededor de un 10% de la población de nuestro país). Se puede deducir de estos datos (y de muchos otros casos que se dan) que la sociedad tiene sesgo. Por ejemplo, en la forma de dictaminar sentencias, otorgar puestos de trabajo, conceder una hipoteca o seguro, etc.

Hasta hace no muchos años los responsables de estas injusticias eran humanos. Sin embargo, con los algoritmos de aprendizaje automático se están empezando a automatizar estos procesos. Estos algoritmos, en esencia, reciben una gran cantidad de casos reales ya procesados e intentan obtener un patrón a partir de estos (se entrena al algoritmo). A continuación, el algoritmo procesa con el patrón obtenido otros casos reales de los que se conoce el resultado, pues han sido procesados ya sea por otro programa o por un humano. De esta forma un acierto representará un caso en el que el resultado real coincida con el que ha dado el algoritmo.

Como se puede observar, los algoritmos no dan un resultado correcto o incorrecto, sino un resultado que trata de emular los casos reales. De esta forma, si los datos de entrenamientos están sesgados, los algoritmos también lo serán.

Por este motivo, es de vital importancia que los datos que se le pasen a la máquina sean lo más representativos posible. Para lograr este objetivo serán tratados mediante los llamados algoritmos de fairness.

Motivación

Tras buscar en Internet, hemos visto que hay un gran desconocimiento sobre este tema en la facultad y, en general, en la población. Además, consideramos que es de especial interés para todos aquellos colectivos que son discriminados en la actualidad, pues sin estos algoritmos de equidad, la desigualdad social incrementaría irremediablemente cuando el uso de la inteligencia artifical se generalice aún más. Por ello, vamos a hacer una campaña de información para comunicar las ideas de este campo tanto desde un punto de vista divulgativo como desde uno más técnico.

Desarrollo del trabajo

Documento divulgativo

En nuestro trabajo después de estar debatiendo entre los integrantes del grupo, decidimos que no solo nos centrásemos en temas técnicos del los sesgos Machine Learning, sino que, además sería interesante desarrollar lo que llamamos un documento "divulgativo". Su principal objetivo es concienciar sobre el tema de Fairness pero desde un punto de vista asequible para cualquier persona independientemente de su formación sobre esta tecnología. Para conseguir este objetivo hemos concluido que este documento deberá guiarse por las siguientes características:

  • Brevedad: La clave es conseguir que sea un artículo realmente útil para concienciar, ésto supone tener que ir a lo esencial de la cuestión para que sea una lectura ligera y entretenida.
  • Facilidad de lectura: El otro punto fundamental como ya hemos indicado es que se ha de emplear un vocabulario que pueda entender cualquier persona independientemente de su formación académica sobre el tema. Para ello, hemos empleado diversas metáforas en el documento para ayudar a entender los conceptos.
  • Diseño atractivo: La impresión inicial que da un artículo cuando se abre es vital, pues condiciona si el lector de verdad se va interesar por echarle un vistazo o no. Es por esto que hemos decidido usar una plantilla comúnmente usada para folletos que tiene un esquema de colores atractivo. Además hemos añadido alguna imágen y hemos estructurado la información en apartados premeditados para obtener fluidez en la lectura.
  • Máxima difusión posible: Para conseguir este objetivo hemos decidido no solo crear el documento en español sino que también lo hemos hecho inglés para poder así difundirlo en comunidades de todo el mundo.
PDF documento divulgativo sobre Fairness en IA versión en inglés. Link al pdf: [1]
PDF documento divulgativo sobre Fairness en IA versión en español. Link al pdf: [2]


Video divulgativo

Tabmbién a modo divulgativo se creará un video en el que se explica brevemente como se producen los sesgos algorítmicos y las formas que hay de evitarlos.

Taller sobre IBM-AIF360 en la FDI

Cartel de la presentación

El 18/12/19 se llevó a cabo un taller en la facultad donde se trabajó sobre un Jupyter Notebook que usaba diferentes métricas y algoritmos de la librería de IBM AIF360 para medir y corregir los sesgos en un dataset real.

El Jupyter Notebook se hizo a partir de los ejemplos provistos por IBM para contener un ejemplo de un algoritmo de pre,in y postprocesado. Hizo falta modificar parcialmente el código de la librería en sí, añadiendo la función predict_proba a la clase Adversarial Debiasing con el fin de poder enlazar la técnica de inprocesamiento con la de postprocesamiento. Luego, se hizo otro cambiando el código por un guión para que los asistentes lo fueran haciendo ellos mismos. Se ha utilizado como fuente de explicación la página de esta wiki realizada por nosotros: Equidad y corrección de sesgos en Aprendizaje Automático y se han abarcado conceptos desde las primeras definiciones, las métricas implementadas por AIF360 y algoritmos como Reweighing, Adversarial Debiasing y Reject Option Classification.

Notebook completado aquí y notebook sin completar aquí.

Aportación Wiki ELP

En primer lugar, tras buscar una página web que unificara los conceptos hemos visto que hay muchos libros y artículos sobre distintos campos pero ninguno que los recopilara al completo. Por ello, haremos una wiki donde vengan incluidos los contenidos más importantes y actuales (a modo de estado del arte) de Equidad (las diferentes definiciones, las métricas y las soluciones algorítmicas), de manera organizada y accesible para que se pueda usar como un sitio de consulta o para aprender del tema en general.

Aportaciones a Wikipedia

Adicionalmente se realizarán ediciones en algunas páginas relacionadas con el tema de wikipedia, ya sea porque están desactualizadas o porque les falta información. En algunas ocasiones lo único que haremos será traducir contenido de wikipedia de inglés al español o viceversa. De esta manera realizaremos una pequeña contribución al procomún.

Biblioteca de Zotero

También se ha creado una biblioteca en zotero, un gestor de referecias, que la gente puede consultar y citar en cualquier momento:

https://www.zotero.org/groups/2422207/fairness_in_machine_learning/items/

Impacto social

Ambos archivos serán difundidos por distintos medios y esperamos que haya personas que se vean atraídos por el documento divulgativo y usen nuestra wiki como consulta. Para ello, haremos ambos tanto en inglés como en español.

Si el tiempo lo permite se planea hacer otras cosas como un vídeo divulgativo, una presentación en la facultad o cierta aportación en forma de código.

Documento divulgativo

Primero de todo para poder analizar el impacto de nuestro documento divulgativo hemos decidido subirlo a un blog (link: [3]) que nos proporcione estadísticas sobre las visitas que recibe. (Link: [4])

Ahora bien para obtener el impacto hemos decidido distribuir nuestro documento en comunidades por internet tanto españolas como extranjeras; ya que, tenemos el documento tanto en español como en inglés. Después de investigación y un debate sobre qué sitios íbamos a elegir para la difusión, estos son los lugares por los que lo hemos publicado:

  • Comunidades de Reddit
    • r/Ethics
    • r/ComputerEthics
    • r/programming
    • r/computerscience
    • r/ComputerEngineering
    • r/compsci
    • r/MachineLearning
    • r/artificial
    • r/Equality
    • r/Feminism
    • r/women
  • 4chan
  • Forocoches

Para cada una de las comunidades hemos diseñado títulos distintos para la publicación que tenga en cuenta el contexto de dicha comunidad, para poder así maximizar la cantidad de gente que lee el artículo. Además mediante la página de redditmetrics encontramos la hora punta de tráfico de cada subreddit para publicar el artículo en el mejor momento posible.

A día 18/12/2019 (17:00), hemos obtenido 535 visitas y más de 20 comentarios entre todas las plataformas. (Además de las visitas de los propios posts de reddit que desgraciadamente no se pueden contabilizar). La prueba de las visitas del blog se puede acceder en cualquier momento entrando en él; pues tiene un contador de visitas público. (link [5]). Finalmente adjuntamos las estadísticas detalladas de las visitas.

Estadísticas detalladas de las visitas del Blog sobre Fairness en IA.

Taller sobre IBM-AIF360 en la FDI

El taller se llevó a cabo exitosamente. Los asistentes aprendieron a nivel teórico sobre este campo tan importante en la lucha contra la discriminación hoy en día y aprendieron a utilizar de forma práctica la librería AIF360, completando todos el notebook y adquiriendo competencias que les servirán en un futuro para profundizar en estas métricas y algoritmos y para aplicarlos en su entorno profesional. Consideramos que la educación en este campo es fundamental para impactar en la sociedad y aunque un taller no llegue a un número grande de personas, todos aquellos que han participado han aprendido mucho y tendrán en cuenta lo aprendido en sus futuros puestos de trabajo, un sitio muy importante donde iniciar el cambio.

Vídeo divulgativo

Como se comentó anteriormente se grabó un video para comunicar a todo aquel que lo vea la existencia del problema del sesgo en los algoritmos de aprendizaje automático, así como de las soluciones para combatirlo. <iframe width="560" height="315" src="https://www.youtube.com/embed/datSJILn0SY" frameborder="0" allow="accelerometer; autoplay; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>

Aportaciones al procomún

Por último consideramos que tanto la publicación de la biblioteca en zotero como las ediciones en wikipedia son contribuciones al procomún, y por tanto tiene un impacto de por sí, pues estamos poniendo al alcance de cualquier persona la posibilidad de consultar esta información, mucha de la cual no hemos encontrado en español.

Enlaces usados

Documento divultagivo

Integrantes del grupo

Este trabajo ha sido realizado por el grupo 8, compuesto por:

  • Rafael Herrera Troca
  • Alejandro Jiménez Sánchez
  • José María López Morales
  • Pablo Martín Huertas
  • Guillermo Martín Sánchez
  • Rubén Ruperto Díaz