Denominación de la asignatura

La Búsqueda de Datos en el Periodismo de Investigación: Minería de Datos
Grado al que pertenece
Máster Universitario en Periodismo de Investigación, Datos y Visualización
Créditos ECTS
6
Cuatrimestre en el que se imparte
Primer cuatrimestre
Carácter de la asignatura Obligatoria

Presentación

Una de las características principales de la sociedad de la información es la gran abundancia de datos registrados. La web inició a comienzos de los 90 un espacio público de intercambio de información y contenidos que utilizaba Internet para su transmisión. Desde entonces son cada vez más las personas, entidades, servicios, aplicaciones o dispositivos que generan contenidos que son registrados y almacenados.

A esta abundancia de datos se denomina big data o datos masivos, un diamante en bruto de información que primero hay que extraer, luego refinar y finalmente explotar. Para ello se utilizan métodos de inteligencia artificial, estadística, aprendizaje automático y sistemas de bases de datos.

El concepto ha vivido en ámbitos de la ingeniería informática, la estadística, la neurociencia o las ciencias sociales y aparentemente alejado del periodismo. En esta asignatura no nos adentraremos en el complejo mundo de la tecnología computacional y sus lenguajes. Por encima de la programación, la Minería de Datos es una asignatura sobre la ciencia de los datos, que analiza los principios generales que estarán presentes y serán de utilidad en los próximos años.

Un pionero del periodismo de datos, Philip Meyer, aprendió estas técnicas de las ciencias sociales y las aplicó a su trabajo periodístico, lo que dio lugar al «Periodismo de precisión».

Comenzaremos la asignatura acercándonos a los conceptos y técnicas de la minería de datos para después entender algunos conceptos relacionados como los datos masivos y los distintos tipos de datos. Continuaremos con herramientas que nos permiten la minería y la extracción de datos de distintas formas, atendiendo a los distintos tipos de datos y escenarios posibles. Finalmente, nos ocuparemos de cómo pulir esos datos para utilizarlos posteriormente en nuestro trabajo periodístico final.

La asignatura de Minería de Datos ofrece al alumno una visión panorámica completa del estado actual de la cuestión y ofrece las bases teóricas y las claves prácticas para incorporar los conocimientos en el proceso de investigación periodística.

Competencias

Competencias básicas

  • CB6. Poseer y comprender conocimientos que aporten una base u oportunidad de ser originales en el desarrollo y/o aplicación de ideas, a menudo en un contexto de investigación.
  • CB7. Que los estudiantes sepan aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio.
  • CB8. Que los estudiantes sean capaces de integrar conocimientos y enfrentarse a la complejidad de formular juicios a partir de una información que, siendo incompleta o limitada, incluya reflexiones sobre las responsabilidades sociales y éticas vinculadas a la aplicación de sus conocimientos y juicios.
  • CB9. Que los estudiantes sepan comunicar sus conclusiones y los conocimientos y razones últimas que las sustentan a públicos especializados y no especializados de un modo claro y sin ambigüedades.
  • CB10. Que los estudiantes posean las habilidades de aprendizaje que les permitan continuar estudiando de un modo que habrá de ser en gran medida autodirigido o autónomo.

Competencias generales

  • CG1. Aplicar los conocimientos adquiridos para resolver problemas en diferentes entornos dentro de contextos multidisciplinares relacionados con el periodismo de investigación basado en datos.
  • CG3. Integrar los conocimientos adquiridos y utilizar la terminología adecuada en relación al periodismo de investigación basado en datos.
  • CG4. Actualizar la información y los conocimientos de forma autónoma, para estar al día de las últimas tendencias en el periodismo de investigación basado en datos y su visualización.

Competencias específicas

  • CE1. Seleccionar los datos más relevantes para la investigación en curso dentro de una amplia gama de fuentes de datos adaptadas al periodismo de investigación basado en datos y su visualización.
  • CE2. Analizar y resumir los datos desde una perspectiva científica para su aplicación y uso en el periodismo de investigación.
  • CE3. Explorar y detectar anomalías en los datos obtenidos de diversas fuentes para su utilización en el periodismo de investigación.
  • CE4. Familiarizarse con diversos estándares de datos y utilizar herramientas de conversión entre ellos en el contexto del periodismo de investigación basado en datos y su visualización.

Competencias transversales

  • CT2. Identificar las nuevas tecnologías como herramientas didácticas para el intercambio comunicacional en el desarrollo de procesos de indagación y de aprendizaje grupal.
  • CT3. Aplicar los conocimientos y capacidades aportados por los estudios a casos reales y en un entorno de grupos de trabajo en empresas u organizaciones.
  • CT4. Adquirir la capacidad de trabajo independiente, impulsando la organización y favoreciendo el aprendizaje autónomo.

Contenidos

Tema 1. Introducción a la minería de datos: estadística, bases de datos y aprendizaje automático
Introducción
Conceptos básicos
Introducción a la minería de datos
Técnicas de minería de datos
Teoría matemática de la información
La minería de datos en el periodismo

Tema 2. Digitalización y explotación de datos
Introducción
El proceso de digitalización de datos
La explotación de datos
Los datos masivos o Big Data
Fuentes de datos

Tema 3. Evaluación de la recuperación de información
Introducción
Aproximaciones al término
Sistemas de recuperación de información
Métodos para evaluar los datos y los sistemas
Un caso práctico

Tema 4. Extracción de datos de PDF
Introducción
Programas y servicios
Extracción de tablas de PDF con Tabula
Reconocimiento óptico de caracteres

Tema 5. Minería de datos de la web semántica
Introducción a la web semántica
Por qué interesa al periodismo de datos
Rascando datos de la web semántica
Minería de datos de la web semántica

Tema 6. Técnicas de recopilación de datos web
Introducción
Minería web o web mining
Inspección de HTML
Aplicaciones para rascar datos
Buscadores, recolectores, clonadores

Tema 7. Limpieza y transformación de datos
Introducción
OpenRefine
GREL
Uso avanzado: extensiones
Expresiones regulares

Tema 8. Rascando datos de las redes sociales
Introducción
Minería de datos de las redes sociales
La web social
Conexión con API

Tema 9. Minería de datos con lenguajes de programación
Introducción
Minería de datos con R
Extracción y tratamiento de datos con Python
Extracción y tratamiento de datos con Ruby

Metodología

Metodología

Las actividades formativas de la asignatura se han elaborado con el objetivo de adaptar el proceso de aprendizaje a las diferentes capacidades, necesidades e intereses de los alumnos.

Las actividades formativas de esta asignatura son las siguientes:

  • Trabajos y casos prácticos. Se trata de actividades de diferentes tipos: reflexión, análisis de casos, prácticas, etc.
  • Participación en eventos. Son eventos programados todas las semanas del cuatrimestre: sesiones presenciales virtuales, foros de debate, blogs, test.
  • Talleres presenciales virtuales. Actividades prácticas que se realizan en tiempo real e interactuando con otros alumnos, donde se tratarán casos prácticos. Para que el alumno pueda trabajar sobre estos casos aplicando correctamente los programas y herramientas, se trabajará, tanto de forma individual como grupal, siempre bajo la orientación y el apoyo del profesor de la asignatura o de un profesional experto en la materia.

En la programación semanal puedes consultar cuáles son las actividades concretas que tienes que realizar en esta asignatura.

Descarga el pdf de la programación

Estas actividades formativas prácticas se completan, por supuesto, con estas otras:

  • Estudio personal
  • Tutorías. Las tutorías se pueden articular a través de diversas herramientas y medios. Durante el desarrollo de la asignatura, el profesor programa tutorías en días concretos para la resolución de dudas de índole estrictamente académico a través de las denominadas “sesiones de consultas”. Como complemento de estas sesiones se dispone también del foro “Pregúntale al profesor de la asignatura” a través del cual se articulan algunas preguntas de alumnos y las correspondientes respuestas en el que se tratan aspectos generales de la asignatura. Por la propia naturaleza de los medios de comunicación empleados, no existen horarios a los que deba ajustarse el alumno.
  • Examen final presencial

Las horas de dedicación a cada actividad se detallan en la siguiente tabla:

ACTIVIDADES FORMATIVAS
HORAS
Sesiones Presenciales Virtuales 15,0
Lecciones magistrales 6.0
Talleres prácticos virtuales 12,5
Estudio del material básico 44,5
Lectura de material complementario 18,0
Trabajos, casos prácticos, test 29,0
Tutorías 16,0
Trabajo colaborativo 7,0
Examen final presencial 2
Total
       150 

 

Puedes personalizar tu plan de trabajo seleccionando aquel tipo de actividad formativa que se ajuste mejor a tu perfil. El profesor-tutor te ayudará y aconsejará en el proceso de elaboración de tu plan de trabajo. Y siempre estará disponible para orientarte durante el curso.

Bibliografía

Bibliografía básica

La bibliografía básica es imprescindible para el estudio de la asignatura. Cuando se indica que no está disponible en el aula virtual, tendrás que obtenerla por otros medios: librería UNIR, biblioteca… 

Los textos necesarios para el estudio de la asignatura han sido elaborados por UNIR y están disponibles en formato digital para consulta, descarga e impresión en el aula virtual.

Bibliografía complementaria

Crucianelli, S. (2013). Herramientas digitales para periodistas (2ª ed.). Centro Knight para el Periodismo en las Américas de la Universidad de la Universidad de Texas. Recuperado de https://knightcenter.utexas.edu/books/HDPP.pdf

García, L. (2003). Extraer y visualizar información en Internet: el Web Mining. Gijón: Ediciones Trea.

Gray, J., Bounegru, L. y Chambers, L. (2012). Data Journalism Handbook. European Journalism Centre y Open Knowledge Foundation. Recuperado de http://datajournalismhandbook.org/

Hernández, J., Ramírez, M. J. y Ferri, C. (2005). Introducción a la minería de datos. Madrid: Pearson Educación.

Russell, M. A. (2013). Mining the Social Web. California: O'Reilly Media.

evaluación

Evaluación y calificación

El sistema de calificación se basa en la siguiente escala numérica:

0 - 4, 9

Suspenso

(SS)

5,0 - 6,9

Aprobado

(AP)

7,0 - 8,9

Notable

(NT)

9,0 - 10

Sobresaliente

(SB)

La calificación se compone de dos partes principales:

calificación

El examen se realiza al final del cuatrimestre y es de carácter PRESENCIAL y OBLIGATORIO. Supone el 60% de la calificación final (6 puntos sobre 10) y para que la nota obtenida en este examen se sume a la nota final, es obligatorio APROBARLO (es decir, obtener 3 puntos de los 6 totales del examen).

La evaluación continua supone el 40% de la calificación final (es decir, 4 puntos de los 10 máximos). Este 40% de la nota final se compone de las calificaciones obtenidas en las diferentes actividades formativas llevadas a cabo durante el cuatrimestre.

Ten en cuenta que la suma de las puntuaciones de las actividades de la evaluación continua es de 6 puntos. Así, puedes hacer las que prefieras hasta conseguir un máximo de 4 puntos (que es la calificación máxima que se puede obtener en la evaluación continua). En la programación semanal de la asignatura, se detalla la calificación máxima de cada actividad o evento concreto puntuables.

SISTEMA DE EVALUACIÓN

PONDERACIÓN
MIN

PONDERACIÓN
MAX

Participación en foros y otros medios participativos

0 %

40 %

Realización de trabajos, proyectos y casos

0 %

40 %

Lecturas complementarias

0 %

40 %

Prueba de evaluación final

60 %

60 %

 

Ten en cuenta…
Si quieres presentarte solo al examen final, tendrás que obtener una calificación de 5 puntos sobre 6 para aprobar la asignatura.

Profesorado

Montse Hidalgo

Formación académica: Licenciada en Periodismo y diplomada en Comunicación Política por la Universidad de Navarra y Máster en Periodismo de Investigación, Datos y Visualización por la Universidad Rey Juan Carlos y Unidad Editorial.
Experiencia: Actualmente es periodista freelance en diferentes medios de comunicación. Antes ha trabajado como redactora en El Mundo Data, El Diario Vasco y La Opinión de Tenerife.


Orientaciones para el estudio

Orientación para el estudio

Obviamente, al tratarse de formación online puedes organizar tu tiempo de estudio como desees, siempre y cuando vayas cumpliendo las fechas de entrega de actividades, trabajos y exámenes. Nosotros, para ayudarte, te proponemos los siguientes pasos:

  1. Desde el Campus virtual podrás acceder al aula virtual de cada asignatura en la que estés matriculado y, además, al aula virtual del Curso de introducción al campus virtual. Aquí podrás consultar la documentación disponible sobre cómo se utilizan las herramientas del aula virtual y sobre cómo se organiza una asignatura en la UNIR y también podrás organizar tu plan de trabajo personal con tu profesor-tutor.
  2. Observa la programación semanal. Allí te indicamos qué parte del temario debes trabajar cada semana.
  3. Ya sabes qué trabajo tienes que hacer durante la semana. Accede ahora a la sección Temas del aula virtual. Allí encontrarás el material teórico y práctico del tema correspondiente a esa semana.
  4. Comienza con la lectura de las Ideas clave del tema. Este resumen te ayudará a hacerte una idea del contenido más importante del tema y de cuáles son los aspectos fundamentales en los que te tendrás que fijar al estudiar el material básico. Lee siempre el primer apartado, ¿Cómo estudiar este tema?, porque allí te especificamos qué material tienes que estudiar. Consulta, además, las secciones del tema que contienen material complementario (Lo + recomendado y + Información).
  5. Dedica tiempo al trabajo práctico (sección Actividades y Test). En la programación semanal te detallamos cuáles son las actividades correspondientes a cada semana y qué calificación máxima puedes obtener con cada una de ellas.
  6. Te recomendamos que participes en los eventos del curso (sesiones presenciales virtuales, foros de debate…). Para conocer la fecha concreta de celebración de los eventos debes consultar las herramientas de comunicación del aula vitual. Tu profesor y tu profesor-tutor te informarán de las novedades de la asignatura.
En el aula virtual del Curso de introducción al campus virtual encontrarás siempre disponible la documentación donde te explicamos cómo se estructuran los temas y qué podrás encontrar en cada una de sus secciones: Ideas clave, Lo + recomendado, + Información, Actividades y Test.

Recuerda que en el aula virtual del Curso de introducción al campus virtual puedes consultar el funcionamiento de las distintas herramientas del aula virtual: Correo, Foro, Sesiones presenciales virtuales, Envío de actividades, etc.

Ten en cuenta estos consejos…

  • Sea cual sea tu plan de estudio, accede periódicamente al aula virtual, ya que de esta forma estarás al día de las novedades del curso y en contacto con tu profesor y con tu profesor tutor.
  • Recuerda que no estás solo: consulta todas tus dudas con tu profesor-tutor utilizando el correo electrónico. Si asistes a las sesiones presenciales virtuales también podrás preguntar al profesor sobre el contenido del tema. Además, siempre puedes consultar tus dudas sobre el temario en los foros que encontrarás en cada asignatura (Pregúntale al profesor).
  • ¡Participa! Siempre que te sea posible accede a los foros de debate y asiste a las sesiones presenciales virtuales. El intercambio de opiniones, materiales e ideas nos enriquece a todos.
  • Y ¡recuerda!, estás estudiando con metodología on line: tu esfuerzo y constancia son imprescindibles para conseguir buenos resultados. ¡No dejes todo para el último día!