. Mais je veux extraire seulement" /> Comment puis-je extraire uniquement le texte de fichier html, sans balise HTML - The UNIX et Linux Forums
The UNIX and Linux Forums  


Go Back   Les systèmes UNIX et Linux Forums > Top Forums > UNIX pour les nuls Questions et réponses
.
google unix.com



UNIX pour les nuls Questions et réponses Si vous ne savez pas où poster un UNIX ou Linux question, post it here. Tous les systèmes UNIX et Linux, débutants bienvenus!

Plus d'UNIX et Linux Forum Sujets Vous trouverez peut-être utile
Fil Thread Starter Forum Réponses Last Post
extraire des données de tableaux html Streetrcr UNIX pour les nuls Questions et réponses 8 03-20-2008 06:14 AM
html coverting données au format texte dans le «c» phani_sree High Level Programming 3 10-18-2007 11:06 AM
HTML message avec pièce jointe (fichier texte) Felix2511 UNIX pour les nuls Questions et réponses 2 09-12-2007 03:59 AM
html - fichier texte question frustrated1 De programmation et de script Shell 5 09-21-2005 06:23 AM
lien généré unix fichier texte à la page html AlexD De programmation et de script Shell 1 11-13-2002 12:21 PM

Closed Thread
English Japanese Spanish French German Portuguese Italian Dutch Swedish Russian Norwegian Hungarian Hebrew Danish Bulgarian Greek Powered by Powered by Google
 
LinkBack Thread Tools Recherche sur ce Thread Rate Thread Modes d'affichage
  #1 (permalink)  
Old 09-20-2005
los111 los111 is offline
Registered User
  
 

Join Date: Sep 2005
Messages: 2
Comment puis-je extraire uniquement le texte de fichier html, sans balise HTML

J'ai un fichier html appelé monfichier. Si j'ai tout simplement "cat monfichier.html" sous UNIX, il montre toutes les balises html comme <a href\u003dr/26> <img src\u003d"http://www>. Mais je veux extraire seulement une partie du texte.

Même problème se pose en "type" commande MS-DOS.

Je sais que vous pouvez le faire en l'ouvrant dans Internet Explorer, puis "enregistrer sous forme de texte", puis ouvrez-le à nouveau. Mais j'ai besoin de le faire à partir d'UNIX, comme je l'ai des milliers de fichiers html et n'ont pas le temps de les convertir en fichiers de texte, un par un. Je suis allé à travers de nombreux livres, mais ne peut pas trouver un moyen. Je vous remercie de votre aide.
  #2 (permalink)  
Old 09-20-2005
LanceBoyles LanceBoyles is offline
Registered User
  
 

Join Date: Sep 2005
Messages: 8
Utilisez avec les Lynx - dump option, comme ceci:

lynx - dump monfichier.html> monfichier.txt

OU

lynx - dump http://some.where.com/whatever.html > Monfichier.txt

Vous pouvez écrire un script shell qui va le faire pour de nombreux dossiers sans que vous ayez à toucher.
  #3 (permalink)  
Old 09-20-2005
los111 los111 is offline
Registered User
  
 

Join Date: Sep 2005
Messages: 2
merci

Merci beaucoup! Je vais essayer. Je n'ai jamais utilisé le lynx, mais j'espère que ma Fedora Core a déjà.
  #4 (permalink)  
Old 11-28-2007
ali560045's Avatar
ali560045 ali560045 is offline
Registered User
  
 

Join Date: Oct 2007
Messages: 328
même problème

j'ai un script en ksh appelé fichier1

#! / bin / ksh

cat my.html

---------------------------
et un fichier html hy.html

peut u me dire que si je exécuter "fichier1" script il ouvrira hy.html bt ici, il montre l'ensemble des balises et des textes .........

il devrait ouvrir le navigateur partie .......

plz help, toute commande
  #5 (permalink)  
Old 11-28-2007
infyanurag infyanurag is offline
Registered User
  
 

Join Date: Nov 2007
Posts: 65
Citation:
Posté par LanceBoyles View Post
Utilisez avec les Lynx - dump option, comme ceci:

lynx - dump monfichier.html> monfichier.txt

OU

lynx - dump http://some.where.com/whatever.html > Monfichier.txt

Vous pouvez écrire un script shell qui va le faire pour de nombreux dossiers sans que vous ayez à toucher.
salut

Je ne peux pas obtenir le lynx commande linux.
Que dois-je faire?
Closed Thread

Bookmarks

Thread Tools Recherche sur ce Thread
Recherche sur ce Thread:

Recherche avancée
Modes d'affichage Rate this thread
Rate this thread:

Règles de messages
Tu mai pas de nouvelles discussions: nonoui
Tu mai pas envoyer des réponses:
Tu mai pas envoyer des pièces jointes
Tu mai pas modifier vos messages

BB code est Sur
Smilies sont Sur
[IMG] code est Sur
Le code HTML est Hors tension
Trackbacks sont Sur
Pingbacks sont Sur
Refbacks sont Sur




Toutes les heures sont au format GMT -4. Le temps est maintenant 12:01 AM.


Powered by: vBulletin, Copyright © 2000 - 2006, Jelsoft Enterprises Limited. Traductions Langue Powered by .
vBCredits v1.4 Copyright © 2007 - 2008, PixelFX Studios
Les systèmes UNIX et Linux Forums Content Copyright © 1993-2009. Tous droits Reserved.Ad de gestion par RedTyger

Content Relevant URLs par vBSEO 3.2.0