The UNIX and Linux Forums  

Go Back   UNIXおよびLinuxフォーラム > トップフォーラム > UNIXのダミー質問と回答のため
Googleのunix.com



UNIXのダミー質問と回答のため もしUNIXやLinuxについての質問があれば、ここに投稿してください。すべてのUNIXおよびLinux初心者歓迎!

その他のUNIXおよびLinuxフォーラムトピックは参考にすること
スレッド スレッドスターター フォーラム 返信 最後の投稿
HTML形式のデータのうち休憩するには phip シェルプログラミングとスクリプティング 1 2008年5月20日 04:23午前
HTMLデータをスプレッドシートに変換する garric シェルプログラミングとスクリプティング 4 2008年4月22日 午前11:00
どうすればいいだけのHTMLタグをHTMLファイルからテキストを抽出する los111 UNIXのダミー質問と回答のため 4 2007年11月28日 04:40午前
テキストに'でHTMLデータcoverting c 'に phani_sree 高レベルのプログラミング 3 2007年10月18日 11:06午前
テーブルの行データのテーブルの列に変換する justthisguy シェルプログラミングとスクリプティング 7 2007年7月16日 05:42午後

Closed Thread
English Japanese Spanish French German Portuguese Italian Dutch Swedish Russian Norwegian Hungarian Hebrew Danish Bulgarian Greek を搭載 Powered by Google
 
LinkBack スレッドツール このスレッドを検索 スレッドを評価 表示モード
  #1固定リンク)  
Old 2008年3月19日
Streetrcr Streetrcr is offline
登録ユーザー
  
 

参加日: 2008年3月
投稿: 10
HTMLのテーブルからデータを抽出

やあ

私はUnixのテーブルをHTML形式で符号化にはいくつかの行からデータを抽出するために使用する必要があります。私は、テーブルの行のタグが知っている<tr> < /トランジスタ>とは、私の最初のステップはすべて、これらのタグ内に含まれていませんが、他のHTMLコードを削除するのがあるはずだと思った。私は再度このメソッドを使用していないことが、すべてを削除<td> < /のTD >タグ。大きな問題は、どうすればよいですか?私は必要があると思う セッド 私があまりにも多くの混乱は、現時点では 任意のでしょうか?
  #2固定リンク)  
Old 2008年3月19日
バクーニン bakunin is offline Forum Staff  
昆虫学者臨時
  
 

参加日: 2005年5月
場所:は/ devの左端のバイト/ kmem
投稿数: 1,641
原則的にあなたの言うとおりです。次のスクリプト間の全てを展開すると、 " <tr> "と" < /トランジスタ> "タグ。それがない複数の" <tr> - < /トランジスタ> "のペアを1行にされているすべてのタグを小文字( " <TR> " )していると見なします。

その結果、あなたは、私たちは、何があるので、ここから入手する必要があるのサンプルを提供することも必要なものがないかもしれない。これにより、より良い支援に役立つと思います。


コード:
sed 's/.*<tr>//;s/<\/tr>.*//' /path/to/your/file

私はこの役立ちますほしい。

バクーニン
  #3固定リンク)  
Old 2008年3月19日
drl's Avatar
drl drl is offline Forum Advisor  
登録ユーザー
  
 

参加日: 2007年4月
場所:サンパウロ、分アメリカ/ BSDのは、 CentOSのは、 Debianで、 OS X 、 Solarisの
投稿数: 717
やあ。

見る CSVファイルをHTMLのテーブル 別のアプローチを使用するため リンクス-ダンプ

一般的に、お客様と同様のスレッドへのリンクは、スレッドの一番下に掲載されている...歓声、 drl
  #4固定リンク)  
Old 2008年3月19日
Streetrcr Streetrcr is offline
登録ユーザー
  
 

参加日: 2008年3月
投稿: 10
おかげでバクーニンは本当に便利です。様々な理由で私はカントの投稿は、 HTMLページのサンプル。あなたのソリューションを持つ唯一の問題は、ほとんどの<tr>タグを自分のHTMLページに複数行に渡っている。つまり、タグラインを7日にオープンすることができるし、行を20日に終了した。それゆえそれに可能性があります セッド (ライン)が、ストップを含む<tr>タグを設定するときに取得し、再び開始されるときに上のすべての行を削除するには< /トランジスタ> ?交互にするための方法です セッド HTMLページ全体が1つのライン上だと思いますか?

私は、機能に慣れていないのですが セッドは、このタスクを完了するのは私にとって何が最善の方法を知っているハードになります。
  #5固定リンク)  
Old 2008年3月19日
ShawnMilo ShawnMilo is offline
登録ユーザー
  
 

参加日: 2006年6月
投稿数: 252
引用:
当初の投稿 Streetrcr View Post
おかげでバクーニンは本当に便利です。様々な理由で私はカントの投稿は、 HTMLページのサンプル。あなたのソリューションを持つ唯一の問題は、ほとんどの<tr>タグを自分のHTMLページに複数行に渡っている。つまり、タグラインを7日にオープンすることができるし、行を20日に終了した。それゆえそれに可能性があります セッド (ライン)が、ストップを含む<tr>タグを設定するときに取得し、再び開始されるときに上のすべての行を削除するには< /トランジスタ> ?交互にするための方法です セッド HTMLページ全体が1つのライン上だと思いますか?

私は、機能に慣れていないのですが セッドは、このタスクを完了するのは私にとって何が最善の方法を知っているハードになります。
またどのようなHTMLページを模擬できないという理由の1つの場合で作業しているが、これは機密情報が含まれていません。誰も暗い部屋にダーツを投げに興味を持っている。

もし何か後、誰かのコードを掲載する予定です。そうでなければ、自分でやらなければならないわけです。スペースでは、ファイル内で、各分割ファイルを交換する前に、すべての改行のようなものをお試しください<または各後> 、 、そこからだろう。場合は、データは、 <または>で、ちょっと余分な仕事をしていく必要があります。これは、私はあなたのためにできることは、現時点で最高だ。

ShawnMilo
  #6固定リンク)  
Old 2008年3月20日
Streetrcr Streetrcr is offline
登録ユーザー
  
 

参加日: 2008年3月
投稿: 10
ここに私自身の質問に答えるためには、まだ苦しんでいるイム このdoesn't作業を模擬して私の例は、私だけは私の説明をしては十分なwithough時間を無駄にするテーブルの例を考えていることがあります。

私はこのサイトで発見 削除するsed -概要とチュートリアル は、パターンの範囲を作成することができます。の例のコードです:


コード:
sed '/start/,/stop/ s/#.*//'

私は私を起動してみました<tr> < /トランジスタ>私を止めるんだけど、取得エラーを続けた。さらに、私はしなければならない( ! )の代わりにこのようにすべてのタグを削除すると、それ以外のすべてのタグを削除します。
誰かがこれを支援してください セッド コマンドの作業ですか?

ありがとう

編集Streetrcrで最終; 2008年3月20日に 04:05午前..理由:コードタグ
  #7固定リンク)  
Old 2008年3月20日
バクーニン bakunin is offline Forum Staff  
昆虫学者臨時
  
 

参加日: 2005年5月
場所:は/ devの左端のバイト/ kmem
投稿数: 1,641
引用:
あなたのソリューションを持つ唯一の問題は、ほとんどの<tr>タグを自分のHTMLページに複数行に渡っている。つまり、タグラインを7日にオープンすることができるし、行を20日に終了した。
まあ、そんなことに例がないこと- -私はいくつかの前提になったことを語った。ここでタグを複数行にわたって動作するには新しいバージョンです。まだいくつかの" <tr> ...</トランジスタの場合はキャッチ> "のペアを1行には起きていない。


コード:
sed -n '/<tr>/,/<\/tr> {
           s/.*<tr>//
           s/<\/tr>.*//
           p
           }' /path/to/your/file

どのように動作します: " - N "の句を停止します セッド 読んでいるすべての行を印刷すると、これからは何も印刷する場合は、スクリプトを削除します。これは、 (暗黙的に)は、指定された範囲内にされていないすべての行を投げている。

中括弧の間にすべての場合にのみ実行される範囲内の1行目に指定されました。の場合は、中括弧内の最後のコマンドを見ることのできる" p "が、この範囲内のすべてが印刷されます。 2つの場合は"削除/...."-とは何か、この印刷コマンド秒:


コード:
something....<tr> content of the tr-tag
some more content
even more content</tr> something else....

あなたは、あなたが望むの一部ではないの太字の部分を削除する必要が見ることができます。 2 " )は、自身のタグと一緒に世話をする/..."-コマンド(秒\u003d代用。最後には、 p ( rint ) 、コマンドプロンプトで、すべてのトリミングの結果を出力します。

ため、私は、自分で正規の研究をしていた感謝の1つ以上の単語は:あなたは私から2番目の答えを得た。このため、ほとんどの場合この回答は没収:

引用:
一例を表withough時間を無駄にすること[...]
あなただけのスクリプトを書いていないが、 "無駄な時間"を持っても、より多くの時間をどのように説明するの手でこの問題を解決するだけではないが、同時にお客様のご理解を高め無駄な私の希望で働く場合もあります。は、 i "の上で私の最初の記事で誰もが障害の仮定に基づいている必要が起こっているのは、スクリプトを書くことがいくつかのより多くの時間"を無駄にした。一例はこれまでのすべての私は"無駄な時間"で作成で仕事をすることができたと仮定条件での欠陥がないかもしれない。

私は今も"どうしてあなたにはすべて使用することはできませんか、答えを得るかもしれないいくつかの回答では説明していくつかのより多くの時間を"無駄だ。図に戻る。

私はこの役立ちますほしい。

バクーニン
Closed Thread

ブックマーク

スレッドツール このスレッドを検索
このスレッドを検索

高度な検索
表示モード このスレッド
このスレッド

投稿ルール
あなた ことができない。 新しいスレッドを投稿
あなた ことができない。 返信の投稿
あなた ことができない。 添付ファイルの投稿
あなた ことができない。 自分の投稿を編集

BBコード なる 〜の上に
スマイリー なる 〜の上に
[イメージ] コードは 〜の上に
HTMLコードは、 オフ
トラックバック なる 〜の上に
ピングバック なる 〜の上に
Refbacks なる 〜の上に




すべてGMT -4です。現在の時刻は 03:18午前


提供: vBulletin、著作権© 2000 - 2006、Jelsoft企業株式会社。言語翻訳による電源
vBCredits v1.4著作権© 2007 - 2008 、 PixelFXスタジオ
は、 UNIXおよびLinuxフォーラムのコンテンツ著作権© 1993 〜 2009 。すべての権利を管理しReserved.Ad RedTyger

コンテンツ関連のURLで vBSEO 3.2.0