Analyse du corpus français

Dans cet article l'analyse du corpus français généré à partir du script bash élaboré tout au long du projet. Le corpus du français s'il ne paraissait pas le plus difficile au premier abord à tout de même nécessité une attention particulière. Le problème majeur à surtout concerné les sites de forum très problématiques pour leur … Lire la suite Analyse du corpus français

Analyse du corpus chinois

Cet article, il s'agit d'une analyse de notre corpus en chinois, généré du script qui est complété petit à petit durant tout le semestre. On se rappelle que l'objectif du projet est de faire une étude textométrique d'un certain mot. Pour notre groupe, il s'agit bien d'un terme, "made in China"(en chinois, 中国制造/制造中国) et on … Lire la suite Analyse du corpus chinois

Analyse du corpus italien

Le corpus que nous nous apprêtons à analyser est le produit final généré par notre programme principale. Il s'agit d'une récolte de textes provenant d'internet (lire aussi notre article sur la recherche des URLs) qui ont été concatené dans un seul fichier et balisé en sous-parties. Pour l’analyse du corpus en italien nous avons utilisé … Lire la suite Analyse du corpus italien

Amélioration du script et résolution des problèmes

Nous avons longtemps cherché à résoudre les problèmes que nous avions rencontré, notamment les problèmes concernant les encodages particulièrement persistant sur les URLs chinois. Nous en sommes arrivé à réorganiser la structure du script en relativisant la performance de la fonction file qui s'est finalement révélé pour nous plus handicapante qui bénéfique. Dans le le … Lire la suite Amélioration du script et résolution des problèmes

Segmentation du chinois

On est arrivé presque à la fin du projet! Dans cette nouvelle scéance, on va insérer de nouveaux traitements au corpus: 1. Extraction de contextes "courts" autour des mots choisis; 2. Comptage de la fréquence des mots choisis dans chaque fichier dump; 3. Création d'un index des mots présents dans chaque fichier dump; 4. Calcul de bigramme... Après quelques essais avec nos … Lire la suite Segmentation du chinois

Ecriture du script (séance du 14/11/18) : Phase de traitement complétée

Dans cette séance nous avons complété notre script avec plusieurs fonctions afin de créer des informations supplémentaires concernant notre occurrence "made in China". Nous avons également intégré le minigrep : un programme écrit en langage perl. Les colonnes du tableau seront évidement adaptées. Environnement (Pierre) : Système : Windows / Editeur : Sublime Text 3 … Lire la suite Ecriture du script (séance du 14/11/18) : Phase de traitement complétée

Ecriture du script (séance du 07/11/18) : Détection et conversion d’encodage

Dans cette séance, nous cherchons à mieux détecter l'encodage des urls. En effet avec la méthode utilisée dans le script précédent certains encodages n'ont pas été détectés alors que le code HTTP est valide. On verra également comment convertir les pages non UTF-8. Environnement (Meixin) : Système : Windows / Editeur : Notepad ++   … Lire la suite Ecriture du script (séance du 07/11/18) : Détection et conversion d’encodage

Ecriture du script (séance du 24/10/18) : Premiers problèmes d’encodage

Nous continuons le développement de notre script Bash. La séance du 24/10/18 nous a essentiellement permise d'intégrer deux conditions : Une première pour vérifier la validité de nos liens, et une autre afin vérifier l'encodage des sites. Elle a également été l'occasion d'introduire une commande particulièrement puissante : "lynx" afin de récupérer le contenu de … Lire la suite Ecriture du script (séance du 24/10/18) : Premiers problèmes d’encodage

Écriture du script (scéance du 17/10/2018) : la lecture, l’aspiration, la numérotation et l’encodage

Le Trameur Au tout début de cette séance, on a fait connaissance avec deux nouveaux outils d’analyse de corpus : Gromoteur et Trameur. Pour nous trois, on a tous rencontré les problèmes quand on a voulu essayer d’utiliser le Gromoteur : ni le Windows ni le Mac n’a pas pu ouvrir cette application. De cela, on a … Lire la suite Écriture du script (scéance du 17/10/2018) : la lecture, l’aspiration, la numérotation et l’encodage

Base du HTML et génération d’un premier tableau (Séance du 10/10/2018)

Maintenant que nous avons collecté nos URLs, nous voulons les afficher de façon structurée dans une page Web. Nous allons donc créer un tableau HTML dans lequel on ajoutera au file du temps toutes les informations recueillies et les liens vers les fichiers générés lors de l'avancé du projet. Voici le plan synthétisant le processus … Lire la suite Base du HTML et génération d’un premier tableau (Séance du 10/10/2018)