Arquitecto Arquitecto 3D Inicio 4 " /> Su vez los datos en HTML de texto delimitado - Los Foros UNIX y Linux
The UNIX and Linux Forums  
Hola y bienvenida de los Estados Unidos a la UNIX y Linux Foros! Gracias por su visita y formar parte de nuestra comunidad global.

Go Back   El UNIX y Linux Foros > Arriba Foros > Programación de scripts de shell y
.
google unix.com



Programación de scripts de shell y Plantear preguntas sobre KSH, CSH, SH, BASH, PERL, PHP, SED, AWK y otros scripts de shell y lenguajes de script de shell aquí.

Más UNIX y Linux Foro Temas usted puede encontrar útiles
Hilo Hilo para principiantes Foro Respuestas Último mensaje
¿Cómo extraer sólo el texto de archivo html sin etiqueta HTML los111 UNIX for Dummies Preguntas y Respuestas 4 11-28-2007 04:40 AM
Búsqueda de texto en un espacio delimitado Archivo andyblaylock UNIX for Dummies Preguntas y Respuestas 6 11-27-2007 07:33 PM
html coverting datos a texto en 'c' phani_sree Programación de Alto Nivel 3 10-18-2007 11:06 AM
Analizar el archivo de texto delimitado por comas chengwei Programación de scripts de shell y 5 02-23-2007 05:38 AM
A través de bucle delimitada por tabuladores datos Tipsy Programación de scripts de shell y 6 10-17-2006 06:44 PM

Closed Thread
English Japanese Spanish French German Portuguese Italian Dutch Swedish Russian Norwegian Hungarian Hebrew Danish Bulgarian Greek Powered by Powered by Google
 
Linkback vínculo Herramientas de hilo Buscar en este Hilo Tasa de Hilo Modos de visualización
  #1 (Enlace permanente)  
Old 11-21-2008
macxcool macxcool is offline
Usuario Registrado
  
 

Fecha: noviembre 2008
Ubicación: Canadá
Publicaciones: 4
Post Su vez los datos en HTML de texto delimitado

Tengo un archivo que ya he podado parcialmente con grep que tiene como datos:

<a href\u003d"MasterDetailResults.asp?textfield\u003da&Application\u003d3D Inicio 4"> Arquitecto Arquitecto 3D Inicio 4 </ a> </ td>
Aprobado </ td>
--
<a href\u003d"MasterDetailResults.asp?textfield\u003da&Application\u003d3d Inicio 6"> Arquitecto Arquitecto 3d Inicio 6 </ a> </ td>
No Aprobado </ td>
--
<a href\u003d"MasterDetailResults.asp?textfield\u003da&Application\u003dA de la A a la Zap"> Zap </ a> </ td>
Aprobado </ td>
--

salvo mucho, mucho más de él ;-)

Quiero obtener el nombre de la aplicación (es decir, Arquitecto 3D Inicio 4) y el estado (es decir, no han sido aprobados o aprobados) y convertirlo en esto:

Arquitecto 3D Inicio 4 | Aprobado
Arquitecto 3d Inicio 6 | No Aprobado
A Zap | Aprobado
etc

para su uso como una base de datos o importar a Excel

Quiero utilizar scripts con bash sed gawk o hacerlo en el menor número de líneas (número de líneas no es crítico, por supuesto ;-)

Gracias de antemano por su ayuda.
  #2 (Enlace permanente)  
Old 11-21-2008
Franklin52 Franklin52 is offline Forum Staff  
Moderador
  
 

Fecha: febrero 2007
Mensajes: 4.307
Pruebe esto:

Código:
awk -F"\"" '/Application=/{sub(".*a&","",$2);s=$2;getline;FS=" ";$0=$0;print s"|"$1}' file
  #3 (Enlace permanente)  
Old 11-21-2008
macxcool macxcool is offline
Usuario Registrado
  
 

Fecha: noviembre 2008
Ubicación: Canadá
Publicaciones: 4
Gracias Franklin52, eso es un comienzo. Tengo:
Aplicación \u003d 3D Arquitecto Principal 4 | Aprobado
Aplicación \u003d 3d | No
Aplicación \u003d A | Aprobado
cuando corrió la misma. Voy a seguir trabajando en ella.
  #4 (Enlace permanente)  
Old 11-21-2008
Christoph Spohr Christoph Spohr is offline
Usuario Registrado
  
 

Fecha: Sep 2008
Puestos: 205
Hola,

intentar

Código:
sed -n '/Application/{N;s/.*Application=\([^"]*\).*\n\(.*\)<.*/\1 | \2/p}' file
Si sed no soporta \ n tiene que escribir

Código:
sed -n '/Application/{N;s/.*Application=\([^"]*\).*\
\(.*\)<.*/\1 | \2/p}' file
en vez de.

Chris HTH
  #5 (Enlace permanente)  
Old 11-22-2008
Franklin52 Franklin52 is offline Forum Staff  
Moderador
  
 

Fecha: febrero 2007
Mensajes: 4.307
Cita:
Publicado originalmente por macxcool View Post
Gracias Franklin52, eso es un comienzo. Tengo:
Aplicación \u003d 3D Arquitecto Principal 4 | Aprobado
Aplicación \u003d 3d | No
Aplicación \u003d A | Aprobado
cuando corrió la misma. Voy a seguir trabajando en ella.
Esto debería funcionar:
Código:
awk -F"\"" '
/Application=/{
  sub(".*=","",$2); s=$2
  getline; sub(" <.*","")
  print s "|" $0
}' file
  #6 (Enlace permanente)  
Old 11-23-2008
summer_cherry summer_cherry is offline Forum Advisor  
Usuario Registrado
  
 

Fecha: junio 2007
Ubicación: Beijing China
Mensajes: 1.088
perl:

Código:
undef $/;
open FH,"<d:/a.txt";
$str=<FH>;
@arr=split("--",$str);
map {s/<a.*>(.*)<\/a>(.*)<\/td>\n(.*)<\/td>/$1|$3/} @arr;
print "@arr";
close FH;
  #7 (Enlace permanente)  
Old 11-24-2008
macxcool macxcool is offline
Usuario Registrado
  
 

Fecha: noviembre 2008
Ubicación: Canadá
Publicaciones: 4
Gracias a todos por sus soluciones. Voy a usar Christoph Spohr es porque estoy más cómodo con sed que yo estoy con awk (aunque sé que es muy potente). Obtener una salida con los espacios después de la cañería porque hay espacios al comienzo de la línea. ¿Cómo puedo modificar
Código:
sed -n '/Application/{N;s/.*Application=\([^"]*\).*\n\(.*\)<.*/\1 | \2/p}' file
para deshacerse de esos espacios.
Además, ¿qué pasa si mi archivo de entrada tiene otra línea entre las dos líneas en cuestión:
Código:
    <tr> 
      <td height="23" align="default" valign="top"> 
        <a href="MasterDetailResults.asp?textfield=a&Application=3D Home Architect 4">3D Home Architect 4</a> </td>
      <td align="default" valign="top"> 
        Approved </td>
    </tr>
Una vez más, necesitamos: Nombre de la aplicación | Estado de mi salida. He sido la eliminación de la
align\u003d"default" <td valign\u003d"top">
línea con sed antes de terminar las cosas con la sed el código de seguridad.
Closed Thread

Marcadores

Etiquetas
bash, csv, delimitado, html, sed awk shell bash

Herramientas de hilo Buscar en este Hilo
Buscar en este Hilo:

Búsqueda avanzada
Modos de visualización Vota a este hilo
Vota a este hilo:

Normas de envío
puede que no nuevo puesto de hilos
puede que no enviar respuestas
puede que no enviar archivos adjuntos
puede que no editar sus puestos

Código BB es Encendido
Emoticones son Encendido
[IMG] código Encendido
Código HTML es Apagado
Trackbacks son Encendido
Pingbacks son Encendido
Refbacks son Encendido




Todas las horas son GMT -4. La hora es 12:29 AM.


Powered by: vBulletin, Copyright © 2000 - 2006, Jelsoft Enterprises Limited. Traducciones de idiomas Powered by .
vBCredits v1.4 Copyright © 2007 - 2008, PixelFX Estudios
El UNIX y Linux Foros Contenido Copyright © 1993-2009. Todos los derechos Reserved.Ad Gestión por RedTyger

Las direcciones URL de contenido vBSEO 3.2.0