Buenas prácticas para recolectar datos

Buenas prácticas para recolectar datos

Datos quiere decir información, y cada entidad tiene que personalizar la recogida de datos en función de la información que quiera conseguir. Pero… ¿es posible conseguir cualquier tipo de datos? ¿Qué pasaría si los datos cayeran en manos equivocadas? ¿Se pueden recolectar datos que puedan promover el sesgo o la discriminación? ¿Cómo nos aseguramos de que los derechos de las personas son respetados?

¿Qué queremos recolectar?

Antes de empezar a almacenar datos es importante analizar qué información se necesita y con qué objetivo. Se trata de un ejercicio imprescindible que permite desarrollar una metodología sistemática para recolectar, almacenar y tratar los datos con los mecanismos adecuados. De hecho, garantiza que la información que se obtiene dé respuesta a todas las preguntas que se quieran hacer. Este ejercicio es relevante para asegurarse que los datos se recolectan de forma óptima, evitando duplicados, y que se almacenan de la forma más cuidadosa posible reduciendo al máximo el error humano.

Legalidad

Los datos personales o sensibles tienen que ser tratados con especial atención. Por un lado, los datos personales se refieren a información que identifica directamente o indirectamente a una persona. Por otro lado, los datos sensibles son aquellos que hacen referencia a la salud (como los datos genéticos, muestras clínicas, etc.), el origen étnico o racial, ideologías, datos biométricos dirigidos a identificar de manera unívoca una persona física, y los datos relativos a la vida sexual o la orientación sexual de una persona física.

Como derecho constitucional, legislativamente, la protección de datos personales ha sido desarrollada por varias leyes orgánicas. En primer lugar, por la LORTAD de 1992, sustituida posteriormente por la LOPD de 1999, que ha estado vigente hasta la aplicación definitiva, en mayo de 2018, del reglamento europeo (RGPD). Los principios básicos del RGPD son:

En pocas palabras, podemos decir que no hay mejor forma de proteger los datos personales que solicitando solo aquellos que sean indispensables y conservandose el mínimo tiempo posible.

Los ciudadanos también tienen derechos respecto a sus datos, estos son: acceso, rectificación, supresión y portabilidad. Y respecto a su tratamiento: limitación y oposición.

Aplicar los principios establecidos legalmente y adoptar medidas de seguridad garantiza la correcta aplicación de la normativa de protección de datos como también protege el derecho de las personas. Es por este motivo que se recomienda el asesoramiento legal y técnico para cumplir con la normativa vigente.

Buena estructuración de los datos

A menudo se dice que el 80% del esfuerzo que se dedica al análisis de los datos se destina al proceso de limpieza y preparación de estos. Es por eso que es clave diseñar el modelo de datos antes de empezar el proceso de recolección. La estructuración de los datos proporciona una manera normalizada de enlazar la estructura de un conjunto de datos (su disposición física) con su semántica (su significado)

Un conjunto de datos es una colección de valores, generalmente de números (si son datos cuantitativos) o de texto (si son cualitativas). Los valores se organizan de dos maneras. Cada valor pertenece a una variable y a una observación. Una variable contiene todos los valores que miden el mismo atributo subyacente (como la altura, la temperatura, la duración) entre las unidades. Una observación contiene todos los valores medidos de la misma unidad (como una persona, un día o una carrera) entre atributos.

En general, una base de datos se estructura mediante el uso de tablas que se componen de registros (filas) y campos (columnas). Una vez recogidos los datos crudos o primarios, es decir, los que no han estado sujetos a ningún tratamiento ni a ninguna manipulación, se inicia un proceso de normalización para organizarlos, clasificarlos en nuevas tablas, y establecer una relación entre ellos.

Cada tabla tiene que incluir como mínimo un campo que contenga valores únicos para diferenciar cada registro. Un buen ejemplo de esto es: el número de carné de identidad, el identificador de un pedido, etc.

Una buena organización de los datos sería la siguiente:

Y los errores más comunes de datos no organizados son:

Identificar el objetivo con el que se analizan los datos es vital para poder diseñar una estructura idónea que se adapte a las necesidades de cada entidad. A la vez permite desarrollar mecanismos que ayuden a evitar datos redundantes o duplicados que pueden comportar errores e incoherencias.

Los datos son información que te pueden llevar a la acción. Imagina que tienes toda la información a tu alcance - ¿qué harías? Si no lo sabes, no la recolectes.
Cruce de datos

La mayoría de las bases de datos necesitan más de una tabla para poder almacenar la información de manera lógica y estructurada, pero se tienen que distribuir de manera significativa para evitar la duplicación de campos y garantizar la relación entre ellas.

Tal como se ha explicado en el párrafo anterior, una tabla tiene que tener, como mínimo, un campo que tenga valores únicos por cada registro que se denomina la clave primaria. El elemento elegido para definir unívocamente el resto de atributos y valores, a la vez también sirve de referencia para relacionar las tablas entre ellas. Es decir, la columna en común es la clave principal de una tabla y la clave foránea o externa de la otra.

Las relaciones entre tablas pueden ser de tres tipos. En primer lugar, la relación uno a uno en que se garantiza la univocidad. Un ejemplo es que el número de profesional que recibe cada persona que forma parte de la plantilla de una empresa, tiene asociado un único número de carné de identidad. En segundo lugar, la relación uno a muchos en que un solo caso está relacionado con más casos de otra tabla. Un ejemplo es la persona responsable de una aula en relación a su alumnado. Y, en tercer lugar, la relación muchos a muchos en que hay varias ocurrencias entre ambas partes. Un ejemplo es una persona voluntaria que participa en varios proyectos, y estos proyectos disponen de más personas voluntarias.

Ética

Como hemos comentado anteriormente, la responsabilidad proactiva es uno de los principios básicos del RGPD. Este principio exige a las organizaciones que analicen qué datos tratan, con qué finalidad lo hacen, y qué tipo de operaciones de tratamiento llevan a cabo.

La falta de responsabilidad proactiva puede ocasionar injusticias y perpetuar desigualdades. Este fue el caso del algoritmo usado por el Gobierno Español para decidir si las personas que viven en una vivienda vulnerable pueden recibir el bono social para recibir un pequeño descuento en la factura de la luz. La Fundación Ciudadana Civio investigó este algoritmo y dieron a conocer ciertos errores que hacían que no aplicaran correctamente las reglas definidas, perpetuando, así, la vulnerabilidad de estas viviendas.

La ética que hay detrás de la responsabilidad proactiva está sesgada por nuestras percepciones. Y, a la vez, nuestras percepciones están configuradas por nuestros tiempos. Las ideas sociales de virtud, justicia, bondad, y equidad no son las mismas hoy en día que hace unos cuantos miles de años, y pueden seguir cambiando. Así que es responsabilidad de todo el mundo esforzarse para hacer el máximo posible éticamente y tratar a todas las personas con los máximos estándares de respeto y cuidado.