lunes, 23 de septiembre de 2013

¿Por qué no se reutilizan los datos abiertos?

Actualización 25/09/2013: Complemento este post gracias a aportaciones recibidas por parte del equipo de Red.es y por J. Félix Ontañon.
Actualización 19/10/2013: Complemento este post gracias a aportaciones recibidas por parte de Alberto Abella y Miguel García González.

Como os comentaba en mi anterior post, este miércoles 25 de septiembre estaré participando en el Sexto Encuentro Internacional de Investigación en Información y Comunicación (6eiiic) que se celebrará en la Facultad de Ciencias de la Información de la Universidad Complutense, en Madrid.


Realizaré una ponencia dónde expondré los motivos que, a mi juicio, justifican la baja reutilización de los datos abiertos (Open Data) que actualmente ya ofrecen 23 administraciones españolas.

Pero antes conviene recordar la definición (una de las posibles) sobre qué es "esto" del Open Data:
"Apertura de datos públicos en formatos digitales, estándares y abiertos para ser reutilizados de forma automática. Cualquiera puede usarlos gratuitamente cuando quiera para lo que quiera - siempre acorde con el licenciamiento de los datos - incluido el fin comercial"
Es importante resaltar lo de "ser reutilizados de forma automática", este es el objetivo principal de la apertura de datos: proporcionar - abrir - datos para que sean reutilizados.

Sin embargo esta reutilización no se está produciendo, veamos los motivos...


He clasificado dichos motivos en tres grandes ámbitos, en función de su caracterización. Para cada motivo ofrezco, además, posibles acciones para resolverlo o, como minimo, reducir su alcance.

1.- Ámbito de la oferta de datos abiertos:
Los reutilizadores siempre se han quejado que no pueden reutilizar masivamente dado que la oferta de datos abiertos aún presenta graves carencias, veamos cuáles:

Motivo 1.- Por escasez de datos abiertos.
Ciertamente, aún quedan muchisimos datos por abrir, pero también es cierto que poco a poco cada vez hay más datos abiertos, actualmente ya hay 23 portales de datos abiertos de administraciones públicas españolas con una oferta de más de 7.250 datasets disponibles. En este caso es evidente cómo solucionar (o minimizar) este motivo, hay que seguir abriendo más conjuntos de datos, incluso abarcando a más administraciones públicas (de hecho, ya hay previstos nuevos portales Open Data). Un buen abordaje de esta cuestión es "abrir por defecto", tal como se debate en este debate iniciado por Alberto Ortiz de Zárate.

Motivo 2.- Por escasez de datos abiertos debido a que "me sale caro abrir datos".
Es discutible este motivo, si se aplica una buena gestión interna de los datos, abrir éstos no debería ser costoso. Sin embargo, si no se abren datos por motivos económicos (falta de presupuesto), una opción es explorar las colaboraciones público-privadas con el fín que sean las propias empresas que paguen la apertura de datasets (a cambio de difusión y/o exclusividad durante un cierto tiempo, etc).
Por otro lado, actualmente es cierto que aún algunos presupuestos de ciertas instituciones públicas dependen de la venta de datos públicos (dicho sea de paso, datos generados con fondos públicos). En este caso abrir los datos entraña un cambio de modelo económico de la institución, y en la crisis actual, esto no es nada fácil de llevar a cabo.

Motivo 3.- Por escasez de datos abiertos debido a que la Ley no obliga.
Es cierto que actualmente solo los entes relacionados con la Administración General del Estado tiene la obligación de abrir datos, sin embargo, no hay que esperar a tener una ley para abrir datos, dicho de otra forma, no hay ninguna ley que impida abrir datos (excepto aquellos datos privados o regulados con normativas específicas).

Motivo 4.- Por baja calidad de los datos abiertos.
Uno de los motivos principales de la baja reutilización es la baja calidad (en un sentido amplio) de los datos que se ofrecen. ¿Qué genera esta baja calidad?, las siguientes causas:
  • Aunque no es el caso habitual, es cierto que hay datasets que contienen datos con errores puntuales. Por esto es muy importante ofrecer vías para poder notificar cuando se localizan errores.
  • Otro caso poco habitual (pero real) son los errores en los portales, errores que impiden poder acceder a los datos abiertos y errores en la documentación e información contenida en los portales. 
  • Datasets con datos incompletos (faltan datos o éstos no incluyen todo el “ámbito lógico” que se espera de ellos). Hay que ofrecer los datos con todo su contexto.
  • Datasets con pocos metadatos, ello impide su búsqueda e incluso entender qué datos son. Todos los conjuntos de datos deben tener su ficha que informe claramente sus características.
  • Datasets abiertos en formatos poco reutilizables, (el típico ejemplo son los datos “abiertos” en formato PDF). Sólo se deben abrir datos en formatos reutilizables, conviene recordar que el objetivo del Open Data es abrir datos para ser reutilizados; si el formato impide la reutilización... ¿por qué lo abrimos? 
  • Datasets abiertos en formatos no utilizados por el sector específico de dichos datos. Por ejemplo, si abrimos datos para reutilizadores que no son técnicos, hay que utilizar formatos ampliamente conocidos. Éste es el caso de información pensada para ser utilizada por periodistas, lo mejor es abrirlo en formato Excel.
  • Datasets abiertos sólo en procedimiento de descarga. En algunos casos - datasets con muchos datos y/o datos con alta variabilidad - conviene proporcionar además otros procedimientos como las API (interfaces de programación) o los puntos SPARQL.

Motivo 5.- Oferta de datos abiertos no adecuada a la demanda.
En muchas administraciones no se han abierto los datos que, a-priori, podrían tener más demanda sino que se han abierto aquellos datos que era más fácil abrir. Ello ha provocado que haya un posible gap entre la oferta y la demanda de datos abiertos. Para reducir dicho gap deberíamos preguntar a los potenciales reutilizadores para saber qué datos (o qué tipos de datos) son los que más interesan, o sea, hay que tener una comunicación continua y fluida con los reutilizadores.

En algunos casos la oferta de datos no está adecuada a la demanda dado que ésta exige datos generados y ofrecidos en tiempo real. Ofrecer datos en tiempo real (y de calidad) no es un proceso fácil, pero tampoco es una cuestión imposible y menos teniendo en cuenta que ya hay varias administraciones que están implantando el nuevo paradigma de gestión de gobiernos Smart City.

Motivo 6.- Por ofrecer los datos ya "cocinados".
En el fondo este motivo podría estar incluido en el anterior, pero es tan habitual que he decidido darle más visibilidad. Muchos portales ofrecen datos que son fruto de alguna acción de agregación o conjunción con otros datos. Esto no es negativo, de hecho, en muchos casos es muy positivo que sea así dado que se ofrecen los datos cocinados pensando en, quizás, su principal uso posterior. Sin embargo, se debería ofrecer también los datos iniciales, los datos antes de ser "cocinados", o sea, los "datos crudos" para que, si se quiere, el reutilizador pueda cocinarlos pensando en otros usos posteriores. Como dijo Tim Berners-Lee, "raw data now!".

Motivo 7.- Oferta de datos abiertos no homogeneizada.
El Grupo Open Data España se creó con un objetivo inicial muy claro: homogeneizar la oferta de datos abiertos, que dos administraciones que abran un dataset similar (por ejemplo el tráfico), se abran en los mismos formatos, frecuencia y licencia, de esta forma se amplia el mercado potencial de un reutilizador de dichos datos abiertos y homogeneizada. Hay que abrir los mismos datos y en los mismos formatos en los diferentes portales Open Data existentes, además debe haber una oferta mínima común de datos abiertos entre todos los portales similares (por ejemplo, un mínimo común entre todos los portales Open Data de Comunidades Autónomas).

Motivo 8.- Oferta de datos abiertos muy fragmentada.
En muchos países, incluido España, hemos pasado de tener los datos cerrados a tenerlos abiertos… pero en silos. Obviamente esto dificulta la reutilización. Conviene pensar en metaportales que agrupen datos abiertos de diferentes portales, una solución se podría implementar vía el estándar DCAT. La reciente Norma Técnica de Interoperabilidad de Reutilización de Recursos de Información ya indica que "El propio catálogo se ofrecerá como un conjunto de datos reutilizable, utilizando para ello el vocabulario internacionalmente reconocido DCAT".

Motivo 9.- Incorrecta (o nula) identificación de los conjuntos de datos.
Enlazando con la citada Norma Técnica de Interoperabilidad de Reutilización de Recursos de Información, ésta propone un esquema de cómo indentificar de forma unívoca los conjuntos de datos (vía URIs). Este es un "detalle" que parece menor pero que es importante, hay que recordar - tal  como he definido al principio de este post - que se abren los datos para ser reutilizados de forma automática. Sin una identificación unívoca, permanente e incluso intuitiva de los datos será más difícil (o imposible) reutilizarlos automáticamente. 

Motivo 10.- Por tener una licencia de uso de los datos abiertos demasiado restrictiva.
Actualmente este es un caso que apenas se da en España, aunque me acuerdo de un portal que abrió con licencia Creative Commons sin permiso para hacer obras derivadas, o sea, estaba prohibida la reutilización!. El problema que sí que se da son las (pequeñas) diferencias entre las licencias de los 23 portales públicos que actualmente hay en España. En este sentido conviene comentar el modelo de aviso legal que ofrece el Real Decreto 1495/2011 por el que se desarrolla - para el sector público estatal - la Ley 37/2007 de reutilización de la información del sector público.



2.- Ámbito de la difusión/promoción de los datos abiertos:
Este segundo ámbito incluye los motivos relacionados con la incesante necesidad de explicar más y a más gente qué son los datos abiertos, aún es muy desconocido inclusive entre profesionales del sector.

Motivo 11.- Por simple y pura ignorancia.
Aunque algunos realizamos un montón de conferencias, artículos e incluso somos entrevistados para cadenas de TV, lo cierto es que hay muchas empresas/organizaciones que aún desconocen la existencia de datos abiertos que pueden ser utilizados para fines comerciales. Conviene realizar mucha pedagogía, mucha comunicación. Una buena estrategia es centrarse en ámbitos específicos (también conocidos como ámbitos verticaes). Por ejemplo, realizar acciones de comunicación centradas sólo en el sector educativo, o en el de la sanidad, etc. Conviene crear ecosistemas (entre los que ofertan datos y los que los demandan) que ayuden a tener una comunicación fluida entre ambos colectivos.

Motivo 12.- Ausencia de "literatura" específica.
Los datos abiertos es una disciplina muy reciente, de hecho, la Administración se ha pasado toda su historia ocultando los datos o, simplemente, no ofreciéndolos si no había una petición concreta (y "justificada") detrás. Ello ha propiciado que existan muy pocos estudios sobre ello, pocos académicos se han interesado por esta nueva forma de comunicarse con el ciudadano (en un sentido amplio). Por ejemplo, sería muy interesante estudiar/analizar (cuantitativamente) los beneficios (directos e indirectos) de abrir los datos de una Administración Pública. Hace falta este tipo de estudios para vencer recelos a la apertura de datos por parte de los dirigentes públicos.



3.- Ámbito del reutilizador:
En este tercer, y ultimo, ámbito incluyo los motivos relacionados intrínsicamente con el reutilizador.

Motivo 13.- Por desconfianza en la perseverancia del servicio Open Data
Reutilizar datos públicos en servicios empresariales implica inversión por parte de las empresas, éstas no querrán invertir si no tienen una cierta confianza en que los datos públicos abiertos se mantengan abiertos, para cualquier uso, durante un plazo importante y con actualización constante, no se trata de abrir datos y cerrarlos al cabo de unos poco meses. Una buena estrategia para dar confianza es proporcionar una actualizada trazabilidad de los datos (indicando el responsable de los datos de cada organización), además de una certificación y un claro compromiso político. Todo ello con el interés de dar confianza al empresario reutilizador.

Motivo 14.- Por falta de costumbre...
En España aún hay poca costumbre en realizar servicios a partir de información pública, no hay un "tejido empresarial (y/o social)" acostumbrado a estas acciones como existe en la cultura anglosajona. Sin embargo, soy de los que piensa que esta es una fruta que va madurando y tarde o temprano caerá.


Mi objetivo era exponer aquí los motivos por los que, según mi juicio, son las barreras a la reutilización de datos públicos. Espero iniciar un debate que enriquezca mis opiniones originales, espero vuestros comentarios. Gracias :)

6 comentarios:

  1. Muy buena recopilación Marc.

    Si echas un vistazo a Share-psi.eu verás que la mayoría de esas barreras a la reutilización se documentaron en diferentes papers. Y de eso hace más de 2 años.

    Yo añadiría que uno de los principales problemas es que no se está evolucionando prácticamente nada.

    Ánimo y gracias por tu esfuerzo Marc

    José Luis

    ResponderEliminar
  2. Gracias José Luis,

    Efectivamente la evolución de estas cuestiones sigue siendo muy lenta.

    Gracias por la referencia a share-psi.eu, lástima que la mayoría de enlaces ya están desactivados.

    Saludos.

    ResponderEliminar
  3. Buenas Marc,

    Como reutilizador me siento muy identificado con tu post. En mi caso los motivos que han supuesto un mayor freno son el 4, 5, 6, 7 y 8.
    Tengo una web www.papelea.com que pretende ofrecer los trámites de todas las AAPP y ser un espacio de colaboración ciudadana. A priori, los datos que utilizo no deberían ser difíciles de ofrecer por las AAPP, pues todas ellas los utilizan en sus webs. Y sin embargo.. De los 23 portales que citas sólo algunos ofrecen el dataset que yo necesito. De las que lo ofrecen, casi todas van por libre, excepto unas contadas y honrosas excepciones, que utilizan la ontología publicada por el CTIC. Por otro lado, alguna lo ofrece en XML y con todos los campos, otras en CSV y con algunos campos vacíos, otra te da un formulario y pretende que eso sea open data y alguna otra divide la información en decenas de pdf que sólo cubren 4 o 5 campos.
    Creo que para que la demanda aumente, la oferta ha de aumentar mucho, y sobre todo ser más consistente y coordinada.
    Saludos y enhorabuena por el post,

    Pablo del Ser

    ResponderEliminar
  4. Gran resumen Marc

    Yo ahí añadiría también las resistencias de algunos organismos a abrir sus propios datos por miedo a perder sus ingresos en la venta de los datos.

    Diversos catastros europeos aplican tasas por descargar datos geográficos, el registro mercantil cobra por ver las cuentas de una empresa, AEMET cerró los históricos de las series temporales.

    Un problema bastante relevante, pues plantear que abrir los datos trae más beneficios a largo plazo en una situación de crisis como la actual no es algo sencillo.

    ResponderEliminar
  5. Gracias Pablo,

    Efectivamente la oferta de datos abiertos aún tiene que crecer mucho más... y de forma coordinada.

    Sin coordinación "sólo" hemos pasado de tener los datos cerrados a abiertos, pero en silos estancos e independientes entre si.

    Seguimos luchando :)

    ResponderEliminar
  6. Gracia Miguel,

    Sí, tienes razón, faltaba la referencia a las instituciones que parte de su presupuesto dependen de vender sus datos. Lo he añadido al texto del post.

    Efectivamente, es difícil hoy en día poder convencer a una institución que renuncie a parte de su presupuesto para que "salga ganando" toda la sociedad.

    Es complejo... pero no nos rendiremos aquí, ¿verdad? :)

    ResponderEliminar