Denominación de la asignatura |
La Búsqueda de Datos en el Periodismo de Investigación: Minería de Datos |
Grado al que pertenece |
Máster Universitario en Periodismo de Investigación, Datos y Visualización |
Créditos ECTS |
6 |
Cuatrimestre en el que se imparte |
Primer cuatrimestre |
Carácter de la asignatura | Obligatoria |
Una de las características principales de la sociedad de la información es la gran abundancia de datos registrados. La web inició a comienzos de los 90 un espacio público de intercambio de información y contenidos que utilizaba Internet para su transmisión. Desde entonces son cada vez más las personas, entidades, servicios, aplicaciones o dispositivos que generan contenidos que son registrados y almacenados.
A esta abundancia de datos se denomina big data o datos masivos, un diamante en bruto de información que primero hay que extraer, luego refinar y finalmente explotar. Para ello se utilizan métodos de inteligencia artificial, estadística, aprendizaje automático y sistemas de bases de datos.
El concepto ha vivido en ámbitos de la ingeniería informática, la estadística, la neurociencia o las ciencias sociales y aparentemente alejado del periodismo. En esta asignatura no nos adentraremos en el complejo mundo de la tecnología computacional y sus lenguajes. Por encima de la programación, la Minería de Datos es una asignatura sobre la ciencia de los datos, que analiza los principios generales que estarán presentes y serán de utilidad en los próximos años.
Un pionero del periodismo de datos, Philip Meyer, aprendió estas técnicas de las ciencias sociales y las aplicó a su trabajo periodístico, lo que dio lugar al «Periodismo de precisión».
Comenzaremos la asignatura acercándonos a los conceptos y técnicas de la minería de datos para después entender algunos conceptos relacionados como los datos masivos y los distintos tipos de datos. Continuaremos con herramientas que nos permiten la minería y la extracción de datos de distintas formas, atendiendo a los distintos tipos de datos y escenarios posibles. Finalmente, nos ocuparemos de cómo pulir esos datos para utilizarlos posteriormente en nuestro trabajo periodístico final.
La asignatura de Minería de Datos ofrece al alumno una visión panorámica completa del estado actual de la cuestión y ofrece las bases teóricas y las claves prácticas para incorporar los conocimientos en el proceso de investigación periodística.
Competencias básicas
Competencias generales
Competencias específicas
Competencias transversales
Tema 1. Introducción a la minería de datos: estadística, bases de datos y aprendizaje automático
Introducción
Conceptos básicos
Introducción a la minería de datos
Técnicas de minería de datos
Teoría matemática de la información
La minería de datos en el periodismo
Tema 2. Digitalización y explotación de datos
Introducción
El proceso de digitalización de datos
La explotación de datos
Los datos masivos o Big Data
Fuentes de datos
Tema 3. Evaluación de la recuperación de información
Introducción
Aproximaciones al término
Sistemas de recuperación de información
Métodos para evaluar los datos y los sistemas
Un caso práctico
Tema 4. Extracción de datos de PDF
Introducción
Programas y servicios
Extracción de tablas de PDF con Tabula
Reconocimiento óptico de caracteres
Tema 5. Minería de datos de la web semántica
Introducción a la web semántica
Por qué interesa al periodismo de datos
Rascando datos de la web semántica
Minería de datos de la web semántica
Tema 6. Técnicas de recopilación de datos web
Introducción
Minería web o web mining
Inspección de HTML
Aplicaciones para rascar datos
Buscadores, recolectores, clonadores
Tema 7. Limpieza y transformación de datos
Introducción
OpenRefine
GREL
Uso avanzado: extensiones
Expresiones regulares
Tema 8. Rascando datos de las redes sociales
Introducción
Minería de datos de las redes sociales
La web social
Conexión con API
Tema 9. Minería de datos con lenguajes de programación
Introducción
Minería de datos con R
Extracción y tratamiento de datos con Python
Extracción y tratamiento de datos con Ruby
Las actividades formativas de la asignatura se han elaborado con el objetivo de adaptar el proceso de aprendizaje a las diferentes capacidades, necesidades e intereses de los alumnos.
Las actividades formativas de esta asignatura son las siguientes:
En la programación semanal puedes consultar cuáles son las actividades concretas que tienes que realizar en esta asignatura.
Estas actividades formativas prácticas se completan, por supuesto, con estas otras:
Las horas de dedicación a cada actividad se detallan en la siguiente tabla:
ACTIVIDADES FORMATIVAS |
HORAS |
Sesiones Presenciales Virtuales | 15,0 |
Lecciones magistrales | 6.0 |
Talleres prácticos virtuales | 12,5 |
Estudio del material básico | 44,5 |
Lectura de material complementario | 18,0 |
Trabajos, casos prácticos, test | 29,0 |
Tutorías | 16,0 |
Trabajo colaborativo | 7,0 |
Examen final presencial | 2 |
Total |
150 |
Bibliografía básica
Los textos necesarios para el estudio de la asignatura han sido elaborados por UNIR y están disponibles en formato digital para consulta, descarga e impresión en el aula virtual.
Bibliografía complementaria
Crucianelli, S. (2013). Herramientas digitales para periodistas (2ª ed.). Centro Knight para el Periodismo en las Américas de la Universidad de la Universidad de Texas. Recuperado de https://knightcenter.utexas.edu/books/HDPP.pdf
García, L. (2003). Extraer y visualizar información en Internet: el Web Mining. Gijón: Ediciones Trea.
Gray, J., Bounegru, L. y Chambers, L. (2012). Data Journalism Handbook. European Journalism Centre y Open Knowledge Foundation. Recuperado de http://datajournalismhandbook.org/
Hernández, J., Ramírez, M. J. y Ferri, C. (2005). Introducción a la minería de datos. Madrid: Pearson Educación.
Russell, M. A. (2013). Mining the Social Web. California: O'Reilly Media.
El sistema de calificación se basa en la siguiente escala numérica:
0 - 4, 9 |
Suspenso |
(SS) |
5,0 - 6,9 |
Aprobado |
(AP) |
7,0 - 8,9 |
Notable |
(NT) |
9,0 - 10 |
Sobresaliente |
(SB) |
La calificación se compone de dos partes principales:
El examen se realiza al final del cuatrimestre y es de carácter PRESENCIAL y OBLIGATORIO. Supone el 60% de la calificación final (6 puntos sobre 10) y para que la nota obtenida en este examen se sume a la nota final, es obligatorio APROBARLO (es decir, obtener 3 puntos de los 6 totales del examen).
La evaluación continua supone el 40% de la calificación final (es decir, 4 puntos de los 10 máximos). Este 40% de la nota final se compone de las calificaciones obtenidas en las diferentes actividades formativas llevadas a cabo durante el cuatrimestre.
Ten en cuenta que la suma de las puntuaciones de las actividades de la evaluación continua es de 6 puntos. Así, puedes hacer las que prefieras hasta conseguir un máximo de 4 puntos (que es la calificación máxima que se puede obtener en la evaluación continua). En la programación semanal de la asignatura, se detalla la calificación máxima de cada actividad o evento concreto puntuables.
SISTEMA DE EVALUACIÓN |
PONDERACIÓN |
PONDERACIÓN |
Participación en foros y otros medios participativos |
0 % |
40 % |
Realización de trabajos, proyectos y casos |
0 % |
40 % |
Lecturas complementarias |
0 % |
40 % |
Prueba de evaluación final |
60 % |
60 % |
Montse Hidalgo
Formación académica: Licenciada en Periodismo y diplomada en Comunicación Política por la Universidad de Navarra y Máster en Periodismo de Investigación, Datos y Visualización por la Universidad Rey Juan Carlos y Unidad Editorial.
Experiencia: Actualmente es periodista freelance en diferentes medios de comunicación. Antes ha trabajado como redactora en El Mundo Data, El Diario Vasco y La Opinión de Tenerife.
Obviamente, al tratarse de formación online puedes organizar tu tiempo de estudio como desees, siempre y cuando vayas cumpliendo las fechas de entrega de actividades, trabajos y exámenes. Nosotros, para ayudarte, te proponemos los siguientes pasos:
Recuerda que en el aula virtual del Curso de introducción al campus virtual puedes consultar el funcionamiento de las distintas herramientas del aula virtual: Correo, Foro, Sesiones presenciales virtuales, Envío de actividades, etc.
Ten en cuenta estos consejos…
|