Commit 69d56170 authored by Roelandt nicolas's avatar Roelandt nicolas

Merge branch 'intégration_docs_mathieu' into 'master'

Ajout des liens vers les dépots et le site

See merge request !18
parents 1b1eecec 0e47784b
......@@ -120,6 +120,11 @@ La première partie de ce document rappelle des éléments de contexte, sur la s
A partir du jeu de données initial correspondant à l'enquête intercensitaire de 2015, nous avons extrait les données qui nous semblait pertinentes et réalisé une visualisation des plus caractéristiques, c'est ce qui est présenté en deuxième partie. Ensuite nous avons réalisé une série d'analyse sur ces données: tout d'abord une analyse en composantes principales, puis une classification ascendante hiérarchique et une analyse factorielle des correspondances. C'est ce qui est développé dans la troisième partie. Enfin, après la conclusion, les principaux scripts utilisés ont été mis en annexes.
En plus du présent document, un site internet[^site] a été publié avec des billets détaillant chaque analyse et processus. Le code source[^depots] des analyses, du présent document et du site internet est disponible depuis internet.
[^depots]: https://framagit.org/m2_projet_mexique
[^site]: http://m2_projet_mexique.frama.io/website
# Cadre général de l'étude
## Contexte
......@@ -1675,10 +1680,10 @@ Ces dépôts git sont hébergés sur [**Framagit**](https://framagit.org/), une
Nous tenons à les remercier chaleureusement.
![Logo de l'association Framasoft](images/Logo_Framasoft.png)
![Logo de l'association Framasoft](images/Logo_Framasoft.png){width=50%}
### Python
#### Python
La langage de programmation [**Python**](https://www.python.org/) a été utilisé pour traiter et filtrer les données. En effet, les données de l'année 2015 représentaient près de 7 Gigaoctets, divisés en 64 fichiers *csv*. Malheureusement, nous n'avons pas su mettre en oeuvre **R** pour traiter toutes ces données, et cela bien qu'ayant essayé divers paquets tels de [fread](https://www.rdocumentation.org/packages/data.table/versions/1.10.4-2/topics/fread) ou [ffbase](https://cran.r-project.org/web/packages/ffbase/index.html). Nous avons donc recouru à **Python** et notamment à la librairie [Pandas](http://pandas.pydata.org/). Celle-ci a permis de manipuler les données, de les fusionner et, une fois le sujet précisément déterminé, de les filtrer pour ne garder que les lignes et les colonnes qui nous intéressaient. Nous sommes ainsi passé d'un fichier *csv* de près de 7 Go (22 millions de lignes, 186 variables) à un condensé de 300 Mo (près de 400 000 lignes, environ 50 variables).
......
No preview for this file type
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment