Estas son las mejores fuentes de datos abiertas gratuitas que cualquiera puede usar

¿Qué son los datos abiertos?

En términos simples, Open Data significa el tipo de datos que están abiertos para que todos puedan acceder, modificar, reutilizar y compartir.

Los datos abiertos se basan en varios "movimientos abiertos" como el código abierto, el hardware abierto, el gobierno abierto, la ciencia abierta, etc.

Los gobiernos, las organizaciones independientes y las agencias se han presentado para abrir las compuertas de los datos para crear cada vez más datos abiertos de acceso fácil y gratuito.

¿Por qué son importantes los datos abiertos?

Los datos abiertos son importantes porque el mundo se ha vuelto cada vez más impulsado por los datos. Pero si existen restricciones sobre el acceso y el uso de los datos, la idea de negocios y gobernanza basados ​​en datos no se materializará.

Por lo tanto, los datos abiertos tienen su propio lugar único. Puede permitir una comprensión más completa de los problemas globales y las cuestiones universales. Puede dar un gran impulso a las empresas. Puede ser un gran impulso para el aprendizaje automático. Puede ayudar a combatir problemas globales como enfermedades, delitos o hambrunas. Los datos abiertos pueden empoderar a los ciudadanos y, por tanto, pueden fortalecer la democracia. Puede agilizar los procesos y sistemas que la sociedad y los gobiernos han construido. Puede ayudar a transformar la forma en que entendemos y nos relacionamos con el mundo.

Así que aquí está mi lista de 15 increíbles fuentes de datos abiertos:

1. Datos abiertos del Banco Mundial

Como repositorio de los datos más completos del mundo sobre lo que está sucediendo en diferentes países del mundo, los datos abiertos del Banco Mundial son una fuente vital de datos abiertos. También proporciona acceso a otros conjuntos de datos que se mencionan en el catálogo de datos.

Los datos abiertos del Banco Mundial son masivos porque tiene 3000 conjuntos de datos y 14000 indicadores que abarcan microdatos, estadísticas de series de tiempo y datos geoespaciales.

Acceder y descubrir los datos que desea también es bastante fácil. Todo lo que necesita hacer es especificar los nombres de los indicadores, países o temas y se le abrirá el tesoro de los Datos Abiertos. También le permite descargar datos en diferentes formatos como CSV, Excel y XML.

Si es periodista o académico, quedará cautivado por la variedad de herramientas que tiene a su disposición. Puede obtener acceso a herramientas de análisis y visualización que pueden reforzar su investigación. Puede felicitar una comprensión mejor y más profunda de los problemas globales.

Puede obtener acceso a la API que puede ayudarlo a crear las visualizaciones de datos que necesita, combinaciones en vivo con otras fuentes de datos y muchas más características similares.

Por lo tanto, no sorprende que los datos abiertos del Banco Mundial encabecen cualquier lista de fuentes de datos abiertos.

2. OMS (Organización Mundial de la Salud): repositorio de datos abiertos

El repositorio de datos abiertos de la OMS es la forma en que la OMS realiza un seguimiento de las estadísticas específicas de salud de sus 194 Estados Miembros.

El repositorio mantiene los datos organizados sistemáticamente. Se puede acceder a él según diferentes necesidades. Por ejemplo, ya se trate de mortalidad o carga de enfermedades, se puede acceder a datos clasificados en 100 o más categorías, como los Objetivos de Desarrollo del Milenio (nutrición infantil, salud infantil, salud materna y reproductiva, inmunización, VIH / SIDA, tuberculosis, malaria, enfermedades desatendidas, agua y saneamiento), enfermedades no transmisibles y factores de riesgo, enfermedades propensas a epidemias, sistemas de salud, salud ambiental, violencia y lesiones, equidad, etc.

Para sus necesidades específicas, puede revisar los conjuntos de datos según temas, categoría, indicador y país.

Lo bueno es que es posible descargar cualquier dato que necesite en formato Excel. También puede monitorear y analizar datos haciendo uso de su portal de datos.

También está disponible la API para el contenido de datos y estadísticas de la Organización Mundial de la Salud.

3. Explorador de datos públicos de Google

Lanzado en 2010, Google Public Data Explorer puede ayudarlo a explorar grandes cantidades de conjuntos de datos de interés público. Puede visualizar y comunicar los datos para sus respectivos usos.

Pone a disposición los datos de diferentes agencias y fuentes. Por ejemplo, puede acceder a datos del Banco Mundial, la Oficina de Estadísticas Laborales de EE. UU. Y la Oficina de EE. UU., OCDE, FMI y otros.

Diferentes partes interesadas acceden a estos datos para una variedad de propósitos. Ya sea estudiante o periodista, un creador de políticas o un académico, puede aprovechar esta herramienta para crear visualizaciones de datos públicos.

Puede implementar varias formas de representar los datos, como gráficos de líneas, gráficos de barras, mapas y gráficos de burbujas con la ayuda de Data Explorer.

La mejor parte es que encontrará estas visualizaciones bastante dinámicas. Significa que los verá cambiar con el tiempo. Puede cambiar de tema, centrarse en diferentes entradas y modificar la escala.

También se puede compartir fácilmente. Tan pronto como tenga el gráfico listo, puede insertarlo en su sitio web o blog o simplemente compartir un enlace con sus amigos.

4. Registro de datos abiertos en AWS (RODA)

Este es un repositorio que contiene conjuntos de datos públicos. Son datos que están disponibles en los recursos de AWS.

En lo que respecta a RODA, puede descubrir y compartir los datos que están disponibles públicamente.

En RODA, puede usar palabras clave y etiquetas para tipos comunes de datos, como imágenes genómicas, satelitales y transporte, para buscar cualquier dato que esté buscando. Todo esto es posible en una sencilla interfaz web.

Para cada conjunto de datos, descubrirá una página de detalles, ejemplos de uso, información de licencia y tutoriales o aplicaciones que utilizan estos datos.

Al hacer uso de una amplia gama de productos de análisis de datos y computación, puede analizar los datos abiertos y crear los servicios que desee.

Si bien los datos a los que accede están disponibles a través de los recursos de AWS, debe tener en cuenta que AWS no los proporciona. Estos datos pertenecen a diferentes agencias, organizaciones gubernamentales, investigadores, empresas e individuos.

5. Portal de datos abiertos de la Unión Europea

Puede acceder a cualquier información abierta que las instituciones, agencias y otras organizaciones de la UE publiquen en una única plataforma, a saber, el Portal de Datos Abiertos de la Unión Europea.

El portal de datos abiertos de la UE alberga datos abiertos vitales pertenecientes a los dominios de las políticas de la UE. Estos dominios de políticas incluyen economía, empleo, ciencia, medio ambiente y educación.

Alrededor de 70 instituciones, organizaciones o departamentos de la UE como Eurostat, la Agencia Europea de Medio Ambiente, el Centro Común de Investigación y otras Direcciones Generales y Agencias de la UE de la Comisión Europea han hecho públicos sus conjuntos de datos y han permitido el acceso. Estos conjuntos de datos han cruzado el número de 11700 hasta la fecha.

El portal permite un fácil acceso. Puede buscar, explorar, vincular, descargar y reutilizar fácilmente los datos a través de un catálogo de metadatos comunes. Puede hacerlo para sus propósitos específicos. Pueden ser con fines comerciales o no comerciales.

Puede buscar en el catálogo de metadatos a través de un motor de búsqueda interactivo (pestaña Datos) y consultas SPARQL (pestaña Datos vinculados).

Al hacer uso de este catálogo, puede acceder a los datos almacenados en los diferentes sitios web de las instituciones, agencias y organizaciones de la UE.

6. FiveThirtyEight

Es un gran sitio para el periodismo basado en datos y la narración de historias.

Proporciona sus diversas fuentes de datos para una variedad de sectores como la política, los deportes, la ciencia, la economía, etc. También puede descargar los datos.

Cuando acceda a los datos, encontrará una breve explicación sobre cada conjunto de datos con respecto a su fuente. También conocerá qué significa y cómo utilizarlo.

Para hacer que estos datos sean fáciles de usar, proporciona conjuntos de datos en formatos tan simples y no propietarios como archivos CSV como sea posible. No hace falta decir que tanto humanos como máquinas pueden acceder y procesar fácilmente estos formatos.

Con la ayuda de estos conjuntos de datos, puede crear historias y visualizaciones según sus propios requisitos y preferencias.

7. Oficina del Censo de EE . UU.

La Oficina del Censo de los Estados Unidos es la agencia de estadísticas más grande del gobierno federal. Almacena y proporciona hechos y datos confiables sobre personas, lugares y economía de Estados Unidos.

La Oficina del Censo considera que su noble misión es extender sus servicios como el proveedor más confiable de datos de calidad.

Ya sea un gobierno federal, estatal, local o tribal, todos ellos utilizan los datos del censo para una variedad de propósitos. Estos gobiernos utilizan estos datos para determinar la ubicación de nuevas viviendas e instalaciones públicas. También lo utilizan a la hora de examinar las características demográficas de las comunidades, los estados y los EE. UU.

Estos datos también se utilizan en la planificación de sistemas de transporte y carreteras. Cuando se trata de decidir cuotas y crear recintos policiales y de bomberos, estos datos son útiles. Cuando los gobiernos crean áreas localizadas de elecciones, escuelas, servicios públicos, etc., hacen uso de estos datos. Es una práctica recopilar información sobre la población una vez por década y estos datos son bastante útiles para lograr lo mismo.

Hay varias herramientas como American Fact Finder, Census Data Explorer y Quick Facts que son útiles en caso de que desee buscar, personalizar y visualizar datos.

Por ejemplo, Quick Facts solo contiene estadísticas de todos los estados, condados, ciudades e incluso pueblos con una población de 5000 o más.

Del mismo modo, American Fact Finder puede ayudarlo a descubrir hechos populares como la población, los ingresos, etc. Proporciona información que se solicita con frecuencia.

Lo bueno es que puede buscar, interactuar con los datos, conocer estadísticas populares y ver los gráficos relacionados a través del Census Data Explorer. Además, también puede utilizar la herramienta visual para personalizar los datos en una experiencia de mapas interactivos.

8. Data.gov

Data.gov es el tesoro de los datos abiertos del gobierno de EE. UU. Solo recientemente se tomó la decisión de que todos los datos gubernamentales estén disponibles de forma gratuita.

Cuando se lanzó, solo había 47. Ahora hay 180.000 conjuntos de datos.

La razón por la que Data.gov es un gran recurso es porque puede encontrar datos, herramientas y recursos que puede implementar para una variedad de propósitos. Puede realizar su investigación, desarrollar sus aplicaciones web y móviles e incluso diseñar visualizaciones de datos.

Todo lo que necesita hacer es ingresar palabras clave en el cuadro de búsqueda y navegar a través de tipos, etiquetas, formatos, grupos, tipos de organización, organizaciones y categorías. Esto facilitará el acceso fácil a los datos o conjuntos de datos que necesite.

Data.gov sigue el esquema de datos abiertos del proyecto: un conjunto de campos obligatorios (título, descripción, etiquetas, última actualización, editor, nombre de contacto, etc.) para cada conjunto de datos que se muestra en Data.gov.

9. DBpedia

Como saben, Wikipedia es una gran fuente de información. DBpedia tiene como objetivo obtener contenido estructurado a partir de la información valiosa que creó Wikipedia.

Con DBpedia, puede buscar y explorar semánticamente las relaciones y propiedades de los recursos de Wikipedia. Esto también incluye enlaces a otros conjuntos de datos relacionados.

Hay alrededor de 4,58 millones de entidades en el conjunto de datos de DBpedia. 4,22 millones están clasificados en ontología, entre ellos 1.445.000 personas, 735.000 lugares, 123.000 álbumes de música, 87.000 películas, 19.000 videojuegos, 241.000 organizaciones, 251.000 especies y 6.000 enfermedades.

Hay etiquetas y resúmenes para estas entidades en alrededor de 125 idiomas. Hay 25,2 millones de enlaces a imágenes. Hay 29,8 millones de enlaces a páginas web externas.

Todo lo que necesita hacer para usar DBpedia es escribir consultas SPARQL en el punto final o descargar sus volcados.

DBpedia ha beneficiado a varias empresas, como Apple (a través de Siri), Google (a través de Freebase y Google Knowledge Graph) e IBM (a través de Watson), y en particular a sus respectivos proyectos de prestigio asociados con la inteligencia artificial.

10. datos abiertos de freeCodeCamp

Es una comunidad de código abierto. Por qué es importante es porque le permite programar, crear proyectos pro bono después de organizaciones sin fines de lucro y conseguir un trabajo como desarrollador.

Para que esto suceda, la comunidad freeCodeCamp.org pone a disposición enormes cantidades de datos cada mes. Lo han convertido en datos abiertos.

Encontrará una variedad de cosas en este repositorio. Puede encontrar conjuntos de datos, análisis de los mismos e incluso demostraciones de proyectos basados ​​en los datos de freeCodeCamp. También puede encontrar enlaces a proyectos externos relacionados con los datos de freeCodeCamp.

Puede ayudarlo con una diversidad de proyectos y tareas que pueda tener en mente. Ya se trate de análisis web, análisis de redes sociales, análisis de redes sociales, análisis educativo, visualización de datos, desarrollo web basado en datos o bots, los datos que ofrece esta comunidad pueden ser extremadamente útiles y efectivos.

11. Conjuntos de datos abiertos de Yelp

El conjunto de datos de Yelp es básicamente un subconjunto de nada más que nuestros propios negocios, reseñas y datos de usuarios para su uso en actividades personales, educativas y académicas.

Hay 5.996.996 reseñas, 188.593 negocios, 280.991 fotografías y 10 áreas metropolitanas incluidas en los conjuntos de datos abiertos de Yelp.

Puede usarlos para diferentes propósitos. Dado que están disponibles como archivos JSON, puede usarlos para enseñar a los estudiantes sobre bases de datos. Puede usarlos para aprender PNL o para datos de producción de muestra mientras comprende cómo diseñar aplicaciones móviles.

En este conjunto de datos, encontrará cada archivo compuesto por un solo tipo de objeto, un objeto JSON por línea.

12. Conjunto de datos del UNICEF

Dado que el UNICEF se ocupa de una amplia variedad de cuestiones críticas, ha recopilado datos pertinentes sobre educación, trabajo infantil, discapacidad infantil, mortalidad infantil, mortalidad materna, agua y saneamiento, bajo peso al nacer, atención prenatal, neumonía, malaria, deficiencia de yodo. trastorno, mutilación / ablación genital femenina y adolescentes.

Los conjuntos de datos abiertos de UNICEF publicados en el Registro de la IATI: //www.iatiregistry.org/publisher/unicef ​​se han extraído directamente del sistema operativo de UNICEF (VISION) y otros sistemas de datos, y reflejan las aportaciones realizadas por las oficinas individuales de UNICEF.

Lo bueno es que hay una actualización regular cuando se trata de estos conjuntos de datos. Cada mes, los datos se actualizan para hacerlos más completos, confiables y precisos.

Puede acceder libre y fácilmente a estos datos. Para ello, puede descargar estos datos en formato CSV. También puede obtener una vista previa de los datos de muestra antes de descargarlos.

Si bien cualquiera puede explorar y visualizar los conjuntos de datos de UNICEF, hay tres editores principales:

PORTAL DE TRANSPARENCIA DE LA AYUDA DE UNICEF: Puede acceder mucho más fácilmente a los conjuntos de datos si utiliza este portal. También incluye detalles de cada país en el que trabaja UNICEF.

Publisher d-portal: Está, de momento, en BETA. Con este portal, puede explorar los datos de la IATI.

Puede buscar información relacionada con actividades de desarrollo, presupuestos, etc. Puede explorar esta información por países.

Plataforma de datos del editor: en esta plataforma, puede acceder fácilmente a estadísticas, gráficos y métricas sobre los datos a los que se accede a través del Registro IATI. Si hace clic en los encabezados, también puede ordenar muchas de las tablas que ve en la plataforma. También encontrará muchos de los conjuntos de datos en las plataformas en formato JSON legible por máquina.

13. Kaggle

Kaggle es excelente porque promueve el uso de diferentes formatos de publicación de conjuntos de datos. Sin embargo, la mejor parte es que recomienda encarecidamente que los editores de conjuntos de datos compartan sus datos en un formato accesible y no propietario.

La plataforma admite formatos de datos abiertos y accesibles. Es importante no solo para el acceso, sino también para lo que quiera hacer con estos datos. Por lo tanto, Kaggle Dataset define claramente los formatos de archivo que se recomiendan al compartir datos.

Lo único de los conjuntos de datos de Kaggle es que no es solo un repositorio de datos. Cada conjunto de datos representa una comunidad que le permite discutir datos, descubrir códigos y técnicas públicos y conceptualizar sus propios proyectos en Kernels.

CSV, JSON, SQLite, Archive, Big Query, etc.son tipos de archivos que admite Kaggle. Puede encontrar una variedad de recursos para comenzar a trabajar en su proyecto de datos abiertos.

La mejor parte es que Kaggle le permite publicar y compartir conjuntos de datos de forma privada o pública.

14. LODUM

Es la iniciativa Open Data de la Universidad de Münster. Bajo esta iniciativa, cualquier persona puede acceder a cualquier información pública sobre la universidad en formatos legibles por máquina. Puede acceder fácilmente y reutilizarlo según sus necesidades.

Los datos abiertos sobre artefactos científicos y codificados como datos vinculados están disponibles en este proyecto.

Con la ayuda de Linked Data, es posible compartir y usar datos, ontologías y varios estándares de metadatos. De hecho, se prevé que será el estándar aceptado para proporcionar metadatos y los datos en sí en la Web.

El equipo de LODUM ha co-iniciado LinkedUniversities.org y LinkedScience.org.

Puede utilizar el editor SPARQL o el paquete SPARQL de R para analizar datos.

El paquete SPARQL permite conectarse a un punto final SPARQL a través de HTTP, plantear una consulta SELECT o una consulta de actualización (LOAD, INSERT, DELETE).

15. Repositorio de aprendizaje automático de la UCI

Sirve como un repositorio completo de bases de datos, teorías de dominio y generadores de datos que la comunidad de aprendizaje automático utiliza para el análisis empírico de los algoritmos de aprendizaje automático.

En este repositorio, hay, en la actualidad, 463 conjuntos de datos como un servicio para la comunidad de aprendizaje automático.

El Centro de Aprendizaje Automático y Sistemas Inteligentes de la Universidad de California, Irvine, lo aloja y lo mantiene. David Aha lo había creado originalmente como estudiante de posgrado en UC Irvine.

Desde entonces, estudiantes, educadores e investigadores de todo el mundo lo utilizan como una fuente confiable de conjuntos de datos de aprendizaje automático.

Su funcionamiento es que cada conjunto de datos tiene su página web distinta que incluye todos los detalles conocidos, incluidas las publicaciones relevantes que lo investigan. Puede descargar estos conjuntos de datos como archivos ASCII, a menudo el útil formato CSV.

Los detalles de los conjuntos de datos se resumen por aspectos como tipos de atributos, número de instancias, número de atributos y año de publicación que se pueden ordenar y buscar.

Portales de datos abiertos y motores de búsqueda:

Si bien hay muchos conjuntos de datos publicados por numerosas agencias cada año, muy pocos conjuntos de datos se reconocen y establecen.

La razón por la que muy pocos conjuntos de datos de este tipo se mantienen como recursos útiles es que es un desafío desarrollar, administrar y proporcionar los datos de manera que las personas y las organizaciones los encuentren útiles y fáciles de usar.

Sin embargo, a continuación encontrará una lista de otros portales y plataformas de datos abiertos importantes que permiten a los usuarios acceder a los datos abiertos con bastante facilidad, estudiar el impacto y obtener información valiosa.

  1. Búsqueda de conjuntos de datos de Google
  2. Dataverse
  3. Kit de datos abiertos
  4. C Kan
  5. Monitor de datos abiertos
  6. Plenar.io
  7. Mapa de impacto de datos abiertos

Conclusión

Los datos abiertos están a la orden del día. El mundo ha comenzado a moverse gradualmente hacia sistemas abiertos y los datos abiertos están correctamente sincronizados con eso.

Las empresas y organizaciones que aprovechan los datos abiertos obtendrán una ventaja competitiva y podrán dominar el futuro.