« L'analyse textuelle » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 2 : | Ligne 2 : | ||
Le 08/02/2021 à 15:48, Pincemin, Bénédicte a écrit : | Le 08/02/2021 à 15:48, Pincemin, Bénédicte a écrit : | ||
> Si vous interrogez un corpus dans lequel la catégorie grammaticale et le lemme des mots sont renseignés, alors vous pouvez utiliser ces informations dans vos requêtes pour préciser les mots ou les catégories que vous ne souhaitez pas considérer. Voir par exemple dans la page des Questions fréquentes : | > Si vous interrogez un corpus dans lequel la catégorie grammaticale et le lemme des mots sont renseignés, alors vous pouvez utiliser ces informations dans vos requêtes pour préciser les mots ou les catégories que vous ne souhaitez pas considérer. | ||
Voir par exemple dans la page des Questions fréquentes : https://groupes.renater.fr/wiki/txm-users/public/faq#comment_faire_un_index_sans_les_mots-outils_ou_grammaticaux | |||
> Cette technique peut être appliquée pour n'importe quelle commande utilisant une requête (pas simplement l'INDEX). | > Cette technique peut être appliquée pour n'importe quelle commande utilisant une requête (pas simplement l'INDEX). | ||
> Vous pouvez disposer de ces informations de catégorie grammaticale et lemme automatiquement dans vos propres corpus, en installant TreeTagger en lien avec TXM : | > Vous pouvez disposer de ces informations de catégorie grammaticale et lemme automatiquement dans vos propres corpus, en installant TreeTagger en lien avec TXM : | ||
> https://txm.gitpages.huma-num.fr/textometrie/InstallTreeTagger/ | > https://txm.gitpages.huma-num.fr/textometrie/InstallTreeTagger/ | ||
> https://txm.gitpages.huma-num.fr/txm-manual/installation.html#sec:extension-install-treetagger | > https://txm.gitpages.huma-num.fr/txm-manual/installation.html#sec:extension-install-treetagger | ||
> puis en demandant l'analyse avec TreeTagger dans les réglages au moment de l'import de vos textes dans TXM. | > puis en demandant l'analyse avec TreeTagger dans les réglages au moment de l'import de vos textes dans TXM. | ||
> Une autre façon de faire serait de recourir à des listes CQP, mais cela suppose déjà une bonne connaissance de TXM (usage avancé) : | > Une autre façon de faire serait de recourir à des listes CQP, mais cela suppose déjà une bonne connaissance de TXM (usage avancé) : | ||
> https://groupes.renater.fr/wiki/txm-users/public/tutoriel_d_utilisation_des_listes_cql | > https://groupes.renater.fr/wiki/txm-users/public/tutoriel_d_utilisation_des_listes_cql | ||
> Il est peu probable que vous en ayez besoin dans l'immédiat, je l'indique plutôt pour d'autres lecteurs de la liste (ou pour vous à plus long terme). | > Il est peu probable que vous en ayez besoin dans l'immédiat, je l'indique plutôt pour d'autres lecteurs de la liste (ou pour vous à plus long terme). | ||
la solution "avancée" utilisant des listes CQP n'est pas en soi meilleure ou supérieure à la solution courante indiquée dans la FAQ, elle est simplement plus compliquée à mettre en oeuvre. Mais elle peut aider dans certains cas particuliers, par exemple quand il n'existe pas de modèle TreeTagger pour la langue de son corpus. | |||
Le 08/02/2021 à 10:34, François BERNIGAUD a écrit : | |||
>>> Je découvre TXM, j'ai une question sur la fonction de lemmatisation. | >>> Je découvre TXM, j'ai une question sur la fonction de lemmatisation. | ||
>>> | >>> | ||
>>> Est-il possible d'exclure les articles et autres mots de liaison qui ne sont pas porteurs de sens ? | >>> Est-il possible d'exclure les articles et autres mots de liaison qui ne sont pas porteurs de sens ? | ||
>>> | >>> | ||
>>> L'outil en ligne de Jerôme Pascalin https://www.jerome-pasquelin.fr/tools/outil_lemmatisation.php utilise la notion de "stop word", une liste de mots à exclure, existe-t-il un | >>> L'outil en ligne de Jerôme Pascalin https://www.jerome-pasquelin.fr/tools/outil_lemmatisation.php utilise la notion de "stop word", une liste de mots à exclure, existe-t-il un équivalent dans TXM ? | ||
== Iramuteq == | == Iramuteq == |
Version actuelle datée du 11 février 2021 à 17:40
TXM
Le 08/02/2021 à 15:48, Pincemin, Bénédicte a écrit :
> Si vous interrogez un corpus dans lequel la catégorie grammaticale et le lemme des mots sont renseignés, alors vous pouvez utiliser ces informations dans vos requêtes pour préciser les mots ou les catégories que vous ne souhaitez pas considérer.
Voir par exemple dans la page des Questions fréquentes : https://groupes.renater.fr/wiki/txm-users/public/faq#comment_faire_un_index_sans_les_mots-outils_ou_grammaticaux
> Cette technique peut être appliquée pour n'importe quelle commande utilisant une requête (pas simplement l'INDEX).
> Vous pouvez disposer de ces informations de catégorie grammaticale et lemme automatiquement dans vos propres corpus, en installant TreeTagger en lien avec TXM :
> https://txm.gitpages.huma-num.fr/textometrie/InstallTreeTagger/
> https://txm.gitpages.huma-num.fr/txm-manual/installation.html#sec:extension-install-treetagger
> puis en demandant l'analyse avec TreeTagger dans les réglages au moment de l'import de vos textes dans TXM.
> Une autre façon de faire serait de recourir à des listes CQP, mais cela suppose déjà une bonne connaissance de TXM (usage avancé) : > https://groupes.renater.fr/wiki/txm-users/public/tutoriel_d_utilisation_des_listes_cql
> Il est peu probable que vous en ayez besoin dans l'immédiat, je l'indique plutôt pour d'autres lecteurs de la liste (ou pour vous à plus long terme).
la solution "avancée" utilisant des listes CQP n'est pas en soi meilleure ou supérieure à la solution courante indiquée dans la FAQ, elle est simplement plus compliquée à mettre en oeuvre. Mais elle peut aider dans certains cas particuliers, par exemple quand il n'existe pas de modèle TreeTagger pour la langue de son corpus.
Le 08/02/2021 à 10:34, François BERNIGAUD a écrit :
>>> Je découvre TXM, j'ai une question sur la fonction de lemmatisation.
>>> >>> Est-il possible d'exclure les articles et autres mots de liaison qui ne sont pas porteurs de sens ?
>>> >>> L'outil en ligne de Jerôme Pascalin https://www.jerome-pasquelin.fr/tools/outil_lemmatisation.php utilise la notion de "stop word", une liste de mots à exclure, existe-t-il un équivalent dans TXM ?
Iramuteq
Ouvrage CEREMA "Connaissance des mobilité article "Variabilité spatiale des comportements modaux"
Opération de lemmatisation
Installation de IraMuTeq
pb de dépendances : https://sourceforge.net/p/iramuteq/mailman/iramuteq-users/thread/7a4eff09-437d-cab4-5f2d-c811a9cec70a%40univ-lemans.fr/#msg37177704