De dades en brut a informes llestos per al finançador en 2–4 setmanes
La majoria de projectes generen dades abans que lliurables reportables. La pipeline de 4 fases que converteix dades en brut en un informe acceptat.
És l'últim mes del projecte. Les dades existeixen — en algun lloc. La doctoranda les té al seu portàtil, el postdoc té una còpia parcial, el centre de camp té la seva pròpia versió amb columnes addicionals que ningú va documentar. El finançador espera l'informe a la setmana 4. Ningú de l'equip ha produït un lliurable estil memòria des de dades en brut en menys de tres mesos, i tot i així les figures d'aquella vegada ara tothom preferiria que fossin millors.
Aquí és on viu l'informe de projecte de recerca. La majoria de projectes de recerca generen dades molt abans que lliurables reportables. Tancar aquesta bretxa — netament, de manera reproduïble, en termini — és la feina que la majoria d'equips infravalora. També és la més probable de descarrilar el tancament si es deixa per a la darrera quinzena.
Aquest article és una pipeline pràctica de 4 fases per convertir dades en brut en un informe llest per al finançador. És la mateixa estructura que fem servir als nostres Sprints de dades a informe per a consorcis europeus i col·laboracions acadèmiques.
Què significa realment "llest per al finançador"
Abans de definir abast, cal anomenar què revisarà l'avaluador. La frase "llest per al finançador" fa molta feina i convé desempaquetar-la.
Una memòria llesta per al finançador té, com a mínim:
- Una versió neta i canònica de les dades subjacents, amb esquema i procedència documentats
- Figures i taules generades des d'una pipeline reproduïble, no captures d'Excel
- Una secció narrativa que respon a les preguntes específiques del pla de treball, amb llenguatge mesurat sobre troballes i limitacions
- Traçabilitat clara de dada a afirmació — cada percentatge citat a la narrativa s'enllaça a una taula o figura concreta
- Compliment de la plantilla del finançador — nombre de pàgines, estructura, annexos requerits
La majoria d'aquests requisits són obvis en principi i s'ometen a la pràctica. El penediment de tancament més comú és "ho hauríem d'haver resolt al mes 18".
La pipeline de 4 fases
Cada projecte de dades a informe segueix les mateixes quatre fases. La durada varia; l'estructura no.
Fase 1: Neteja i estructuració (setmana 1)
Objectiu: una única versió canònica del dataset, amb esquema documentat, llest per a l'anàlisi.
Tasques concretes:
- Inventaria cada font de dades. Llista els arxius, les ubicacions i qui els ha estat tocant.
- Reconcilia esquemes entre seus o lots. Documenta cada discrepància i la resolució.
- Aplica filtres de qualitat explícitament — les exclusions es registren com a codi, no com a esborraments.
- Produeix un dataset versionat i estructurat en format obert (CSV, Parquet) amb diccionari de dades.
- Defineix un
clean.py(o equivalent) que prengui cru → net, executable d'extrem a extrem.
Sortida de la fase 1: algú extern a l'equip pot re-derivar el dataset net des de les dades crues amb una sola comanda. La gestió de dades de recerca sense aquest pas és fràgil.
Fase 2: Anàlisi (setmana 2)
Objectiu: l'evidència analítica que respon a les preguntes del pla de treball.
Tasques concretes:
- Tradueix cada pregunta de la plantilla del finançador en una afirmació quantitativa específica.
- Per a cada afirmació, escriu l'script d'anàlisi que produeix la resposta. Els notebooks valen si estan al repositori i són executables; les cel·les ad-hoc al Jupyter local d'algú no.
- Produeix sortides intermèdies (definicions de cohort, estadístics per grup, comparacions) com a artefactes amb nom, no com a cel·les puntuals.
- Aborda les decisions metodològiques explícitament — llindars de significació, gestió de dades faltants, correccions per comparacions múltiples — i documenta la decisió.
- Executa anàlisis de sensibilitat sobre les afirmacions més conseqüents.
Sortida de la fase 2: un conjunt estructurat de sortides analítiques que mapegen 1-a-1 a les afirmacions de l'informe. Re-executar la pipeline contra un dataset actualitzat produeix números actualitzats automàticament.
Fase 3: Visualització (setmana 3)
Objectiu: figures i taules llestes per a publicació i regenerables.
Tasques concretes:
- Per a cada figura que apareixerà a l'informe, escriu l'script que la produeix des de la sortida de l'anàlisi. Fes servir una llibreria de visualització que el teu equip pugui mantenir (matplotlib, seaborn, ggplot, plotly).
- Aplica un estil visual consistent entre figures — paleta de colors, mides de font, tractament d'eixos.
- Produeix taules en un format que la plantilla de l'informe accepti (LaTeX, Markdown compatible amb Word, CSV formatat).
- Per a cada visualització, comprova: un revisor que no ha vist les dades entendria què es mostra sense el text que l'envolta?
Sortida de la fase 3: un directori figures/ i un directori tables/, cadascun poblat per la pipeline, cadascun regenerable. La visualització de dades de recerca que sobreviu a la revisió és regenerable; els gràfics ad-hoc d'Excel no.
Fase 4: Narrativa (setmana 4)
Objectiu: el text de l'informe, amb cada afirmació traçable a les dades.
Tasques concretes:
- Redacta cada secció de l'informe contra la plantilla del finançador.
- Insereix figures i taules amb els seus peus i referències.
- Per a cada afirmació numèrica a la prosa, enllaça-la explícitament a l'artefacte que la produeix (p.ex. "veure Taula 3" o una nota a peu apuntant a l'script).
- Afegeix l'annex metodològic — fonts de dades, passos de processament, decisions estadístiques, enllaç al repositori.
- Executa una comprovació en màquina nova del codi de suport: un revisor pot clonar el repositori i reproduir les figures?
Sortida de la fase 4: un lliurable que el teu finançador accepta, amb una traçabilitat d'auditoria defensable.
On fallen els equips a la pràctica
Les quatre fases no són on fallen els equips. Els equips fallen a les costures entre fases.
- Fase 1 → 2: l'anàlisi comença abans que la neteja estigui completa, després cal re-executar-la contra un dataset actualitzat, i després re-executar-la una altra vegada. Disciplina: no passar a la fase 2 fins que la fase 1 tingui una versió etiquetada.
- Fase 2 → 3: les figures es produeixen ad-hoc segons les necessita l'esborrany, deslligades de la pipeline d'anàlisi. Disciplina: cada figura té un script productor, fins i tot les simples.
- Fase 3 → 4: qui escriu la narrativa és diferent de qui fa l'anàlisi, i els números deriven entre la prosa i les figures. Disciplina: una passada final de consistència on cada afirmació numèrica de la narrativa es verifica contra l'artefacte que la produeix.
La majoria d'equips coneix la pipeline conceptualment. La part difícil és la disciplina a les costures.
Decisions d'eines que sobreviuen
L'stack correcte no és fix — però alguns patrons funcionen millor que d'altres per a projectes de recerca.
| Fase | Elecció fiable | Per què | |---|---|---| | Neteja | Python (pandas) o R (tidyverse), scripts versionats | Tots dos estan ben suportats, hi ha perfils disponibles i produeixen codi auditable | | Anàlisi | Mateix llenguatge que neteja, amb paquets estadístics (scipy / statsmodels / R base) | La continuïtat de llenguatge redueix fricció de traspàs | | Visualització | matplotlib / seaborn / ggplot2 / plotly | Establertes, personalitzables, formats de sortida que la teva plantilla accepta | | Orquestració de pipeline | Make / Snakemake / nf-core per a pipelines complexes; un script bash per a les simples | Reproduïbilitat sense sobrecàrrega empresarial | | Plantilles de document | Quarto / Rmarkdown / Pandoc | Incrusta sortides de codi directament al document |
La resposta honesta per a la majoria de projectes: un únic repositori Python o R amb un run.sh de nivell arrel que produeix cada figura de l'informe des de dades crues. Qualsevol cosa més sofisticada ha de justificar la seva complexitat.
Una autoavaluació de 60 minuts
Bloqueja 60 minuts. Obre el drive del projecte. Puntua amb honestedat.
| Comprovació | Puntuació 0–2 | |---|---| | Versió canònica única de les dades netes identificada | | | La neteja és reproduïble des de dades crues | | | L'script d'anàlisi produeix cada afirmació citada a l'esborrany | | | Les figures es generen des de la pipeline, no són captures | | | Les afirmacions de la narrativa tracen a taules o figures concretes | | | Compliment de plantilla del finançador (pàgines + estructura) verificat | | | El repositori de codi passaria una prova de reproducció en màquina nova | | | Annex metodològic redactat amb dades + processament + decisions estadístiques | |
Total sobre 16. Per sota de 10: risc seriós de cursa d'última hora. Per sota de 6: demana ajuda.
Quan incorporar capacitat externa
Un Sprint de dades a informe de 2–4 setmanes és la col·laboració correcta quan:
- Les dades existeixen però la pipeline analítica no
- L'equip té el criteri científic però li falta capacitat d'enginyeria
- La plantilla del finançador té requisits estructurals específics amb què el teu equip no ha treballat abans
- El termini és més a prop del que la capacitat disponible de l'equip permet
Per a això està construït el nostre Sprint de dades a informe. L'hem entregat per a consorcis europeus, col·laboracions de recerca acadèmica i grups de recerca clínica. La sortida és un repositori versionat, figures regenerables, un esborrany de l'informe i l'annex metodològic — el teu equip se l'emporta des d'aquí.
Tres coses per fer aquesta setmana
- Executa l'autoavaluació de 60 minuts. Puntua amb honestedat.
- Per a l'ítem de menor puntuació, escriu una frase amb la definició de "fet". Aquesta és la teva major palanca.
- Si tres o més ítems estan a 0 i el termini és inferior a 8 setmanes, sol·licita una revisió de projecte. Millor saber-ho ara que a la setmana menys u.
Les dades hi són. La memòria és assolible. La pipeline entre totes dues és enginyeria — finita, definible i més ràpida del que la majoria d'equips espera quan es tracta com a codi en lloc de com a feina ad-hoc.
Notes relacionades
Dashboards de recerca: quan construir, quan evitar
La majoria de dashboards de recerca s'abandonen en menys de 12 mesos. Quan construir un dashboard, quan un informe estàtic és millor.
Pla de gestió de dades: del requisit a un sistema mantenible
El PGD que vas escriure a la proposta no és el que necessitaràs al tancament. Cicle complet del Pla de Gestió de Dades — alineat amb AGAUR, CORA, TERMCAT.
Tancament digital de projectes europeus de recerca a Catalunya
Què necessita el teu projecte Horizon Europe abans del tancament digital, des de la perspectiva dels equips catalans: AGAUR, ICREA, avaluadors.