La recherche des URLs

Après notre initiation au bash et la mise en place de notre environnement de travail nous  passons enfin à la première phase de notre projet « made in China » : La recherche des URLs.

L’intérêt du projet étant de comparer les occurrences dans un contexte multilingue, nous avons décidé de faire notre analyse dans nos langues maternelles respectives : le français, le chinois et l’italien. Nous chercherons donc des pages pages web dans ces trois langues. Afin de garantir l’homogénéité et l’intégrité du corpus, nous avons décidé de définir quelques critères de recherche : 50 URLs pour chaque langue avec environ 25 articles, et 25 discussions de forum pour chacune. La recherche peut commencer !

magnifying-glass-1020142_640

I. Pour les URLs du chinois (Meixin)

La recherche pour le chinois est basée sur le plus grand moteur de recherche 百度 « www.baidu.com« .

En chinois, une traduction existe pour « Made in China », nous sommes cependant habitués à utiliser directement la locution anglaise. J’ai tout de même commencé par essayer la traduction « 中国制造 zhong guo zhi zao », mais j’ai rapidement remarqué que les résultats n’étaient pas satisfaisants. Afin d’obtenir de meilleurs résultats j’ai finalement écrit les deux traductions « 中国制造 zhong guo zhi zao » et « Made in China ». Lors de la recherche, je n’ai pas vérifié l’orthographe de « Made in China », notamment au niveau des minuscules et les majuscules. Ce qui n’a pas empêché Baidu de me proposer de bons résultats. J’ai cependant remarqué que l’ordre de « 中国制造 zhong guo zhi zao » et « Made in China » influençaient les résultats. En effet, en écrivant « 中国制造 zhong guo zhi zao » devant « Made in China », Baidu propose de nombreuses informations sur une entreprise chinoise nommée « 中国制造 zhong guo zhi zao », ce qui évidemment ne nous intéresse pas. En inversant simplement l’ordre de ces deux expressions, les résultats correspondent d’avantage à ce que je cherche. Après l’observation des résultats, je filtre manuellement les sites proposés en fonction de nos critères de recherche.

Concernant les articles, je conserve seulement ceux qui s’intéressent d’une manière générale aux produits « Made in China ». Dans les résultats de la recherche, il convient également de préciser que nous obtenons également des articles traitants de 中国制造2025 « Made in China 2025 ». Il s’agit d’une politique chinoise visant à faire de la marque « made in China » une référence de qualité d’ici l’année 2025. D’après moi, cette politique et les opinions des internautes la concernant participent au ressenti du « Made in China ». J’ai donc conservé quelques articles traitants de ce sujet.

Concernant les forums, l’émergence et la popularité de divers forums chinois a facilité la recherche. J’ai ciblé les plus développés de Chine, comme par exemple, «豆瓣 dou ban », «天涯 tian ya » ou encore «百度贴吧 bai du tie ba » qui ont parfaitement satisfaits ma demande. Je me suis cependant interrogé sur la classification de certains forums : les utilisateurs qui publient un long article sur ces forum sont-ils a considérer comme étant un article indépendant ou une interaction de forum ? Après concertation du groupe, nous avons décidé de la règle suivante : S’il y a qu’un auteur, nous le considérons comme un article, si au contraire il y des commentaires de différents internautes, alors nous le considérons comme un forum.

II. Pour les URLs de l’italien (Andrea)

Pour la recherche en italien, j’ai utilisé le moteur de recherche le plus populaire : Google. Après avoir paramétré la langue et la région de recherche (italien, Italie), j’ai lancé une recherche générique afin de déterminer la forme la plus répandue sur le Web (« made in China » , « fabriqué en Chine » « produit en Chine » ?). Chaque recherche a été effectuée par le biais des opérateurs de Google, afin d’obtenir le moins de bruit possible dans les données.

query_ita.jpg

Les résultats de 1 700 000 contre 313 000 ont confirmé mon intuition initiale : le syntagme semble être beaucoup plus fréquent dans sa forme anglaise que dans sa version italienne (« fabbricato / prodotto in Cina »). Bien que l’usage des anglicismes soit répandu dans la langue italienne (en particulier dans la presse), j’ai constaté deux choses : d’abord le syntagme « Made in China » est majoritairement utilisé entre guillemets, ensuite il est presque toujours intégré aux titres, exprimant un concept clair et concis.

J’ai pensé qu’il était nécessaire de filtrer à nouveau la recherche pour éviter l’affichage de fichiers .pdf et d’autres sites qui surchargeaient les résultats :

« made in china » -pdf -made-in-china.com -amazon.com -amazon.it -tripadvisor.com -ibs.it -facebook.com -tripadvisor.it -booking.com -amazon.fr -reverso – cnbc -youtube

Mon intuition repose sur le fait qu’en Italie, les produits fabriqués en Chine sont considérés comme un danger potentiel pour la production nationale. Le phénomène des importations massives est documenté par les nombreux articles de journaux, dans lesquels « Made in China » est souvent associé à la contrebande, à la saisie de marchandises irrégulières, à l’électronique et la technologie militaire. J’ai tout de même remarqué la présence de certains articles sur l’intégration, l’art et le théâtre.

Pour obtenir exclusivement des forums, j’ai utilisé l’opérateur « inurl: forum ». Les discussions sur les forums semblent se focaliser sur des produits ou des marques technologiques fabriqués en Chine. En lançant la recherche textuelle (ctrl + f) dans certaines de ces pages, j’ai remarqué l’utilisation de néologismes plus ou moins établis en italien mais souvent synonymes de « basse qualité » comme « cineseria / cinesata » signifiant « chinoiserie ».

Enfin, j’ai exécuté la commande « lynx » sur mon lien de recherche pour obtenir tous les liens de la requête Google.

terminal_query_ita.png

Une fois le résultat enregistré dans un fichier.txt il ne reste qu’a sélectionner les liens en UTF-8. On verra dans les prochaines publications comment convertir les encodages des URLs.

III. Pour les URLs du français (Pierre)

Tout comme pour les URLs italiens, je me suis naturellement tourné vers le moteur de recherche google en le paramétrant afin d’obtenir seulement les résultats en français.

Même si mon intuition m’indiquait que l’occurrence la plus utilisée était l’anglicisme « made in China », j’ai tout de même essayé avec la traduction française « fabriqué en chine ». Comme attendu, les résultats n’était pas satisfaisants. Une fois cette vérification effectuée, je me suis concentré sur la formulation « made in China ». En réalité cet anglicisme est aujourd’hui complètement intégré dans les usages et peut être presque considéré comme une expression figé. J’ai donc ajouté des guillemets afin que les résultats proposés correspondent à mon attente. Une méthode tout à fait similaire à celle utilisé pour les URLs italiens.

Les articles contenant l’occurrence étaient beaucoup plus abondant que les forums. Il n’a donc pas été difficile de les rassembler. j’ai cependant remarqué que plusieurs articles de presse concernaient l’objectif « Made in china 2025 » comme décrit dans la partie sur les URLs chinois. Les informations contenues dans ce sujet peuvent aidé à faire ressortir la polarité du syntagme. Mais en remarquant que ces articles de presse possédaient quasiment le même contenu, j’ai rapidement fais le trie afin de ne pas accumuler les répétitions.

Comme dit plus haut, les sites de forums étaient quasiment absent des premiers résultats de la recherche. J’ai donc tout comme pour les URLs en italien, utilisé « inurl: forum » afin d’afficher exclusivement les forums, une méthode qui c’est révélé plutôt efficace. La récolte des URLs forum a été faite en veillant à ce que chaque site possède une quantité de données assez conséquente pour l’analyse.

***

Nous possédons maintenant un corpus équilibré dans les trois langues : chinois, italien et français. la prochaine étape sera leur mise en forme dans un tableau HTML.

See you soon.

 

Meixin, Andrea et Pierre

Laisser un commentaire