していると3Dのホームアーキテクト4剪定したファイルがある< / a >を" /> 区切りのテキストにターンHTMLデータ- UNIXおよびLinuxフォーラム
The UNIX and Linux Forums  

Go Back   UNIXおよびLinuxフォーラム > トップフォーラム > シェルプログラミングとスクリプティング
Googleのunix.com



シェルプログラミングとスクリプティング KSH 、 CSH 、 shに、 bashの、はPerl 、 PHPは、削除するsed 、 Awkの、他のシェルスクリプトやシェルスクリプト言語についての質問の投稿はこちら。

その他のUNIXおよびLinuxフォーラムトピックは参考にすること
スレッド スレッドスターター フォーラム 返信 最後の投稿
どうすればいいだけのHTMLタグをHTMLファイルからテキストを抽出する los111 UNIXのダミー質問と回答のため 4 2007年11月28日 04:40午前
テキストには、スペース区切りのファイルの検索 andyblaylock UNIXのダミー質問と回答のため 6 2007年11月27日 07:33午後
テキストに'でHTMLデータcoverting c 'に phani_sree 高レベルのプログラミング 3 2007年10月18日 11:06午前
カンマ区切りのテキストファイルの解析 chengwei シェルプログラミングとスクリプティング 5 2007年2月23日 05:38午前
タブで区切られたデータをループ ほろ酔い シェルプログラミングとスクリプティング 6 2006年10月17日 06:44午後

Closed Thread
English Japanese Spanish French German Portuguese Italian Dutch Swedish Russian Norwegian Hungarian Hebrew Danish Bulgarian Greek を搭載 Powered by Google
 
LinkBack スレッドツール このスレッドを検索 スレッドを評価 表示モード
  #1固定リンク)  
Old 2008年11月21日
macxcool macxcool is offline
登録ユーザー
  
 

参加日: 2008年11月
場所:カナダ
投稿数: 4
Post 区切りのテキストにターンHTMLデータ

私は、私はすでにそのようなデータを持っている部分はgrepを剪定したファイルがある:

『 <a 4"> 3Dのホームhref\u003d"MasterDetailResults.asp?textfield\u003da&Application\u003d3Dホーム建築家建築家4 < / a >を< /のTD >
<承認/のTD >
-
『 <a < / a >を< /のTDホーム建築6"> 3Dのホーム建築家6 href\u003d"MasterDetailResults.asp?textfield\u003da&Application\u003d3d >
されていない<承認/のTD >
-
『 <aザップへのZap">に変更< / a > < / href\u003d"MasterDetailResults.asp?textfield\u003da&Application\u003dAのTD >
<承認/のTD >
-

を除いては、多くはもっと;-)

私は(つまり、 3Dのホーム建築4 )は、ステータスは、アプリケーション名を取得する(または未承認承認)つまり、この作品に作り変える:したい

3Dのホーム建築4 |承認
3Dのホーム建築家6 |未承認
のザップ|承認


検索データベースやExcelにインポートとして使用するために

私はbashスクリプトを使用する セッド または気の利かない線の最小の数の行(番号これを行うには、もちろん重要ではありません;-)

お客様のご協力に感謝する。
  #2固定リンク)  
Old 2008年11月21日
Franklin52 Franklin52 is offline Forum Staff  
モデレータ
  
 

参加日: 2007年2月
投稿数:4342
このお試しください:


コード:
awk -F"\"" '/Application=/{sub(".*a&","",$2);s=$2;getline;FS=" ";$0=$0;print s"|"$1}' file

  #3固定リンク)  
Old 2008年11月21日
macxcool macxcool is offline
登録ユーザー
  
 

参加日: 2008年11月
場所:カナダ
投稿数: 4
は、スタートのおかげでFranklin52 、 。私が得た:
アプリケーション\u003d 3Dのホーム建築4 |承認
アプリケーション\u003d 3次元|なし
アプリケーション\u003d |承認
ときに私が走った。私はそれで作業をしておこう。
  #4固定リンク)  
Old 2008年11月21日
クリストフシュポーア Christoph Spohr is offline
登録ユーザー
  
 

参加日: 2008年09月
投稿数: 205
やあ、

挑戦する


コード:
sed -n '/Application/{N;s/.*Application=\([^"]*\).*\n\(.*\)<.*/\1 | \2/p}' file

場合 セッド サポートされていません\を記述する必要Ñ


コード:
sed -n '/Application/{N;s/.*Application=\([^"]*\).*\
\(.*\)<.*/\1 | \2/p}' file

代わりに。

HTH返答クリス
  #5固定リンク)  
Old 2008年11月22日
Franklin52 Franklin52 is offline Forum Staff  
モデレータ
  
 

参加日: 2007年2月
投稿数:4342
引用:
当初の投稿 macxcool View Post
は、スタートのおかげでFranklin52 、 。私が得た:
アプリケーション\u003d 3Dのホーム建築4 |承認
アプリケーション\u003d 3次元|なし
アプリケーション\u003d |承認
ときに私が走った。私はそれで作業をしておこう。
この動作するはずです:

コード:
awk -F"\"" '
/Application=/{
  sub(".*=","",$2); s=$2
  getline; sub(" <.*","")
  print s "|" $0
}' file

  #6固定リンク)  
Old 2008年11月23日
summer_cherry summer_cherry is offline Forum Advisor  
登録ユーザー
  
 

参加日: 2007年6月
所在地:中国北京
投稿数:1092
perlの


コード:
undef $/;
open FH,"<d:/a.txt";
$str=<FH>;
@arr=split("--",$str);
map {s/<a.*>(.*)<\/a>(.*)<\/td>\n(.*)<\/td>/$1|$3/} @arr;
print "@arr";
close FH;

  #7固定リンク)  
Old 2008年11月24日
macxcool macxcool is offline
登録ユーザー
  
 

参加日: 2008年11月
場所:カナダ
投稿数: 4
すべてのソリューションをご利用いただきありがとうございます。私クリストフシュポアのため、私はもっと快適に使用するつもりだよ セッド awkは私よりも(とはいえ、私は非常に強力なの)知っている。理由は、行の先頭にスペースが私は、パイプの後にスペースが出力されます。どうすれば変更することができます

コード:
sed -n '/Application/{N;s/.*Application=\([^"]*\).*\n\(.*\)<.*/\1 | \2/p}' file

これらのスペースを除去する。
また、私の入力ファイルに問題の2行の間に別の行をしています:

コード:
    <tr> 
      <td height="23" align="default" valign="top"> 
        <a href="MasterDetailResults.asp?textfield=a&Application=3D Home Architect 4">3D Home Architect 4</a> </td>
      <td align="default" valign="top"> 
        Approved </td>
    </tr>

再び、私が必要:アプリケーション名|状況私の出力として。私は削除されている
align\u003d"default" <td valign\u003d"top">
行で セッド と仕上げのことをする前に セッド コードをご確認ください。
Closed Thread

ブックマーク

タグ
bashのcsvファイル区切りHTMLの削除するsed awkはbashシェル

スレッドツール このスレッドを検索
このスレッドを検索

高度な検索
表示モード このスレッド
このスレッド

投稿ルール
あなた ことができない。 新しいスレッドを投稿
あなた ことができない。 返信の投稿
あなた ことができない。 添付ファイルの投稿
あなた ことができない。 自分の投稿を編集

BBコード なる 〜の上に
スマイリー なる 〜の上に
[イメージ] コードは 〜の上に
HTMLコードは、 オフ
トラックバック なる 〜の上に
ピングバック なる 〜の上に
Refbacks なる 〜の上に




すべてGMT -4です。現在の時刻は 07:58午後


提供: vBulletin、著作権© 2000 - 2006、Jelsoft企業株式会社。言語翻訳による電源
vBCredits v1.4著作権© 2007 - 2008 、 PixelFXスタジオ
は、 UNIXおよびLinuxフォーラムのコンテンツ著作権© 1993 〜 2009 。すべての権利を管理しReserved.Ad RedTyger

コンテンツ関連のURLで vBSEO 3.2.0