. Men jag vill extrahera endast" /> Hur extraherar jag bara text från html-fil utan HTML-taggen - Unix och Linux Forums
The UNIX and Linux Forums  
Hej och välkommen från USA till UNIX och Linux Forum! Tack för ditt besök och gå med i vår globala gemenskapen.

Go Back   UNIX och Linux Forum > Upp Forum > UNIX for Dummies Frågor & Svar
.
google unix.com



UNIX for Dummies Frågor & Svar Om du inte är säker på var att skriva en UNIX eller Linux fråga efter det här. Alla UNIX-och Linux-nybörjare välkomna!

Mer UNIX och Linux Forum Ämnen Du kan hitta Helpful
Tråd Thread Starter Forum Svar Senaste Inlägg
extrahera data från html tabeller Streetrcr UNIX for Dummies Frågor & Svar 8 03-20-2008 06:14
coverting html uppgifter till texten i "c" phani_sree High Level Programming 3 10-18-2007 11:06
HTML-meddelande med kvarstad (text-fil) Felix2511 UNIX for Dummies Frågor & Svar 2 09-12-2007 03:59
html - textfil fråga frustrated1 Shell-programmering och Skript 5 09-21-2005 06:23
koppla UNIX genererade textfilen till HTML-sidan alexd Shell-programmering och Skript 1 11-13-2002 12:21

Closed Thread
English Japanese Spanish French German Portuguese Italian Dutch Swedish Russian Norwegian Hungarian Hebrew Danish Bulgarian Greek Powered by Powered by Google
 
LinkBack Thread Tools Sök i denna tråd Rate Thread Visningslägen
  #1 (permalänk)  
Old 09-20-2005
los111 los111 is offline
Registered User
  
 

Join Date: Sep 2005
Inlägg: 2
Hur kan jag extrahera text från html-fil utan HTML-tagg

Jag har en html-fil som heter minfil. Om jag bara lägga "katt minfil.html" i UNIX, visar det alla html-taggar som <a href\u003dr/26> <img src\u003d"http://www>. Men jag vill extrahera endast textdelen.

Samma problem som händer i "typ" kommandot i MS-DOS.

Jag vet att du kan göra det genom att öppna den i Internet Explorer, och sedan "spara som text" och sedan öppna den igen. Men jag måste göra detta från UNIX, som jag har tusentals HTML-filer och har inte tid att konvertera dem till textfiler en efter en. Jag gick igenom många böcker, men kan inte hitta ett sätt. Jag skulle verkligen uppskatta din hjälp.
  #2 (permalänk)  
Old 09-20-2005
LanceBoyles LanceBoyles is offline
Registered User
  
 

Join Date: Sep 2005
Inlägg: 8
Använd Lynx med - soptippen alternativet, så här:

lynx - dump minfil.html> minfil.txt

ELLER

lynx - dump http://some.where.com/whatever.html > Minfil.txt

Du kan skriva ett shell script som gör detta för många filer utan att du behöver röra vid den.
  #3 (permalänk)  
Old 09-20-2005
los111 los111 is offline
Registered User
  
 

Join Date: Sep 2005
Inlägg: 2
tack

Thanks a lot! Jag ska prova det här. Jag använde aldrig lodjur tidigare, men jag hoppas att min Fedora Core redan har det.
  #4 (permalänk)  
Old 11-28-2007
ali560045's Avatar
ali560045 ali560045 is offline
Registered User
  
 

Join Date: oktober 2007
Inlägg: 328
Samma problem

Jag har ett skript i KSH kallas file1

#! / bin / ksh

katt my.html

---------------------------
och en html-fil hy.html

kan och tala om för mig att om jag kör "fil1" manus det kommer att öppna hy.html BT här är det som visar alla taggar tillsammans med texten .........

Det bör öppna webbläsaren del bara .......

plz hjälp, något kommando
  #5 (permalänk)  
Old 11-28-2007
infyanurag infyanurag is offline
Registered User
  
 

Join Date: Nov 2007
Inlägg: 65
Citat:
Ursprungligen postat av LanceBoyles View Post
Använd Lynx med - soptippen alternativet, så här:

lynx - dump minfil.html> minfil.txt

ELLER

lynx - dump http://some.where.com/whatever.html > Minfil.txt

Du kan skriva ett shell script som gör detta för många filer utan att du behöver röra vid den.
hej

Jag kan inte få lodjur kommandot på linux.
Vad ska jag göra?
Closed Thread

Komihåglista

Thread Tools Sök i denna tråd
Sök i denna tråd:

Avancerad sökning
Visningslägen Betygsätt denna tråd
Betygsätt denna tråd:

Utstationering Regler
Du får inte efter nya trådar
Du får inte efter svar
Du får inte skicka bilagor
Du får inte redigera dina inlägg

BB-kod är
Smilies är
[IMG] kod
HTML-koden är Av
Trackback är
Pingbacks är
Refbacks är




Alla tider är GMT -4. Klockan är nu 09:10.


Powered by: vBulletin, Copyright © 2000 - 2006, Jelsoft Enterprises Limited. Översättningar Powered by .
vBCredits v1.4 Copyright © 2007 - 2008, PixelFX Studios
UNIX och Linux Forum Innehållet upphovsrättsskyddat © 1993-2009. All Rights Reserved.Ad förvaltning RedTyger

Content Relevant webbadresser från vBSEO 3.2.0