La batalla de los datos
Dos bases de datos son entregadas periódicamente por el Ministerio de Salud: el reporte diario y el informe epidemiológico. Ambos con cientos de números y cifras. Los expertos en big data piden incluir más detalles y debaten sobre eliminar el de “recuperados”.
“También es muy importante [conocer cuáles son] las cifras que no debes mirar”, señala con brío Jorge Pérez, académico e investigador de la Facultad de Ciencias de la Computación de la Universidad de Chile. “Por ejemplo la de ‘recuperados’, que no sirve para nada y es un producto de marketing“, comenta en línea con las primera críticas sobre ese mismo asunto que él divulgó a fines de abril.
PAUTA conversó con cuatro expertos en análisis de datos (big data) que han seguido el curso de la pandemia, quienes compartieron cuáles consideran ellos que son los indicadores que aún pueden ser perfeccionados para recopilar la información más precisa sobre el fenómeno.
¿Hay cifras que sobran?
Ante el debate público que surgió luego de que el Ministerio de Salud señalara que se consideraban, dentro del listado de recuperados, a aquellas personas que habían fallecido, la autoridad sanitaria debió modificar su estrategia: actualmente se considera como recuperados a aquellos pacientes cuyo diagnóstico de Covid-19 positivo fue conocido hace dos semanas (o más) y que aún se mantienen con vida.
El principal problema que Pérez plantea con respecto a este indicador es que la autoridad sanitaria no se está rigiendo por un criterio clínico para considerar e informar a los pacientes como recuperados, sino que están aplicando una fórmula sobre la totalidad de casos confirmados.
“La OMS recomienda dos test de salida, con una diferencia de 24 horas entre cada uno. Está bien, en Chile no tenemos la capacidad, pero entonces no lo reportemos”, comenta Pérez, quien continúa su explicación aludiendo a un ejemplo: “En otros países algo que hacen, que es muy razonable, es monitorear a las personas, llamarlas por teléfono y preguntarles a los 14 días si siguen o no con síntomas. Si no tienen síntomas, entonces se consideran recuperados”, comenta.
Bárbara Poblete, investigadora del Instituto Milenio Fundamentos de los Datos, se alinea con la postura de Pérez. Sobre la cifra de recuperados señala que “la deberían reportar solo si corresponde a personas declaradas sanas usando un test de salida”, y que, siguiendo la metodología que se usa actualmente, lo que se logra es llevar a confusiones.
Pero también hay quienes consideran que estas cifras son necesarias. Es el caso de Tomás Pérez-Acle, director del Laboratorio de Biología Computacional de la Fundación Ciencia y Vida -y miembro de la Mesa de Datos Covid-19 del Ministerio de Ciencia-, quien señala que, aunque esta metodología no es la ideal, “incluso el mismo Centro para el Control y la Prevención de Enfermedades (CDC) de Estados Unidos propone que, en el caso de ser imposible el seguimiento de cada caso, se puede usar el promedio de recuperación para convertir a los infectados en recuperados”.
Asimismo, agrega que la estadística mencionada “es necesaria para ajustar nuestro modelo”, el cual incluye una serie de estados dentro de los cuales se debiera poder catalogar a cada persona de la sociedad. Estos estados son los siguientes:
- Susceptible: quien puede contraer la enfermedad
- Expuesto: quien contrajo el virus, pero aún no manifiestas síntomas o no se vuelve asintomático
- Infectado: quien además de contraer el virus es infeccioso por 14 y hasta 20 días
- Hospitalizados: quienes deben ser hospitalizados para tratar sus síntomas
- UCI: quienes entran en una Unidad de Cuidados Intensivos
- Ventilados: quienes están conectados a ventilador mecánico
- Fallecidos
- Recuperados
En línea con esto, el informático y doctor en educación de la consultora Tide, Ernesto Laval, comenta a PAUTA que la cifra de recuperados sí tiene una utilidad que la justifica: sirve para estimar cuántos casos confirmados están potencialmente con riesgo de contagiar a otras personas que aún no han sido infectadas. “Es un indicador útil para ‘modelar’, pero no representa necesariamente la realidad”, puntualiza.
A esto le añade una recomendación para enfrentar la enorme cantidad de cifras ante las cuales nos exponemos. Más que mirar los números en bruto y acumulados con los días, se debería mirar cómo cambian estos, es decir, cuándo se multiplican y si los nuevos casos empiezan a decrecer.
“El único problema es que, al cambiar ciertos criterios (por ejemplo, la definición de casos sintomáticos o la de sospechosos), las comparaciones no son tan válidas en un período inmediato y hay que esperar una o dos semanas hasta que se estabilicen los números bajo los nuevos criterios para comparar este crecimiento”, explica Laval.
Existe, además, algún nivel de coincidencia entre los antecedentes que estos expertos en datos piden con los que los especialistas en epidemiología y salud pública consideran los cinco indicadores indispensables para entender la evolución de la pandemia.
Los datos que faltan
Aunque al hablar de las cifras de recuperados las opiniones de los expertos son diversas, hay un tema que los convoca a todos alrededor de una misma idea: la importancia de contar con una desagregación de los casos.
Ojo: desagregación no implica una pérdida del anonimato.
“Deberían entregar información anónima, sin absolutamente ningún dato personal, ninguno, y anonimizando ‘por grupo’, de cada caso sospechoso”, recomienda Jorge Pérez.
Quería explicar en simple qué significa “dato desagregado” y cuáles d ellos tiene el Minsal y no quiere hacer públicos. Esto pq el gobierno en su habitual gaslighting, trata d plantar la idea d q se piden datos en formatos complejos q solo interesan a los nerds🤓, pero no…
— Jorge (@perez) May 4, 2020
En cuanto a la cantidad de datos que se debieran disponer para uso investigativo, el académico señala que -al menos- se deberían entregar para cada caso sospechoso los siguientes:
- Datos generales del paciente (edad en rango, género al menos)
- Si paciente es o no funcionario de la salud
- Comuna de residencia de paciente
- Comuna de trabajo de paciente
- Identificación de la institución de salud que reporta la sospecha
- Identificación de la institución de salud que lo atiende actualmente
- Previsión (Fonasa, Isapre, no tiene)
- Fecha inicio-fin de uso de recursos (cama UCI, ventilación mecánica, otros)
- Síntomas por el que se sospecha
- Fecha de inicio de síntoma (idealmente qué síntomas)
- Fecha de realización del test (si es que ya se lo hicieron)
- Laboratorio que realiza el test
- Fecha de notificación del test (si es que ya lo notificaron)
- Fecha de muerte (si es un fallecido)
- Comorbilidades
La lista pareciera ser amplia, pero Pérez indica que su entrega no debería suponer una carga extra para el sistema. “Todos esos datos están siendo ingresados al sistema de vigilancia epidemiológica (Epivigila), y desde allí se generan los reportes epidemiológicos que entrega el Minsal”, explica.
Es decir, la data está.
¿Por qué no se entregan?
“Los datos desagregados se pueden anonimizar para que no sirvan para identificar personas de manera individual y así proteger la privacidad del individuo” explica Poblete. “No es necesario perder privacidad para poder generar datos con utilidad”, agrega.
Precisamente, la mañana del 7 de mayo el ministro Jaime Mañalich fue consultado, durante el balance diario, por la entrega de esta información desagregada, pero manteniendo el anonimato.
“A medida que hemos ido conociendo más el virus y hemos tenido más fortalecimiento de la red de información, tenemos mucha información disponible. Ella se provee al público a través de dos informes […], que es bueno revisar permanentemente porque la información que se entrega de informe en informe, no solo en calidad, sino que en cantidad, se va enriqueciendo”, aseguró el jefe de la cartera. Y agregó, como resumen, que no consideraba atendible la solicitud realizada.
Ministro Jaime Mañalich:
“La información se provee a través de dos informes en el sitio web del Ministerio de Salud, y los datos se ofrecen en cantidad y calidad de ellos”. pic.twitter.com/ENriuYGr0F
— Ministerio de Salud (@ministeriosalud) May 7, 2020
Además, hay un tema del que poco se ha hablado en esta materia y que podría estar impidiendo que datos desagregados fueran entregados: actualmente no existe un marco regulatorio que proteja al ministerio en caso de entregar información que pueda ser considerada sensible.
La ley existente es clara en este ámbito. Según el artículo 24 de la Ley 19.628 sobre Protección de la Vida Privada, “las recetas médicas y análisis o exámenes de laboratorios clínicos y servicios relacionados con la salud son reservados. Solo podrá revelarse su contenido o darse copia de ellos con el consentimiento expreso del paciente, otorgado por escrito. Quien divulgare su contenido indebidamente, o infringiere las disposiciones del inciso siguiente, será castigado en la forma y con las sanciones establecidas en el Libro Décimo [del Código Sanitario]”.
“Si está la decisión de no entregar la información a ese nivel de individualización, existen maneras de hacerlo con información útil a otro nivel. Por ejemplo, a nivel comunal con regularidad diaria y una serie de dimensiones que hoy no se entregan”, comenta Laval.
Estimado ministro @acouvecorrea, com mucha alegría acabo de ver este anuncio del @min_ciencia de una BD COVID19!
Pero desgraciadamente al revisar los datos me percato que es la misma información existente (que hemos criticado por insuficiente)
Un ejemplo clarificador es
(sigo) https://t.co/FRQJlxsdid— Ernesto Laval (@elaval) May 7, 2020
Sin embargo, y aunque el sistema siempre podría ser perfectible, Tomás Pérez-Acle señala que, aunque la información que reciben en la Mesa de Datos para analizar no está cumpliendo el estándar máximo de detalle posible, sí ha sido posible llegar a conclusiones importantes con la data que manejan.
“Si con los datos que ha recogido el Ministerio de Ciencia hemos sido capaces de aportar, cuánto más podríamos hacer con datos más abiertos”, reflexiona el investigador.