![]() |
|
|
Googleのunix.com
|
|||||||
| UNIXのダミー質問と回答のため もしUNIXやLinuxについての質問があれば、ここに投稿してください。すべてのUNIXおよびLinux初心者歓迎! |
その他のUNIXおよびLinuxフォーラムトピックは参考にすること
|
||||
| スレッド | スレッドスターター | フォーラム | 返信 | 最後の投稿 |
| HTML形式のデータのうち休憩するには | phip | シェルプログラミングとスクリプティング | 1 | 2008年5月20日 04:23午前 |
| HTMLデータをスプレッドシートに変換する | garric | シェルプログラミングとスクリプティング | 4 | 2008年4月22日 午前11:00 |
| どうすればいいだけのHTMLタグをHTMLファイルからテキストを抽出する | los111 | UNIXのダミー質問と回答のため | 4 | 2007年11月28日 04:40午前 |
| テキストに'でHTMLデータcoverting c 'に | phani_sree | 高レベルのプログラミング | 3 | 2007年10月18日 11:06午前 |
| テーブルの行データのテーブルの列に変換する | justthisguy | シェルプログラミングとスクリプティング | 7 | 2007年7月16日 05:42午後 |
![]() |
|
|
LinkBack | スレッドツール | このスレッドを検索 | スレッドを評価 | 表示モード |
|
|
|
||||
|
HTMLのテーブルからデータを抽出
やあ
私はUnixのテーブルをHTML形式で符号化にはいくつかの行からデータを抽出するために使用する必要があります。私は、テーブルの行のタグが知っている<tr> < /トランジスタ>とは、私の最初のステップはすべて、これらのタグ内に含まれていませんが、他のHTMLコードを削除するのがあるはずだと思った。私は再度このメソッドを使用していないことが、すべてを削除<td> < /のTD >タグ。大きな問題は、どうすればよいですか?私は必要があると思う セッド 私があまりにも多くの混乱は、現時点では 任意のでしょうか? |
|
||||
|
原則的にあなたの言うとおりです。次のスクリプト間の全てを展開すると、 " <tr> "と" < /トランジスタ> "タグ。それがない複数の" <tr> - < /トランジスタ> "のペアを1行にされているすべてのタグを小文字( " <TR> " )していると見なします。 その結果、あなたは、私たちは、何があるので、ここから入手する必要があるのサンプルを提供することも必要なものがないかもしれない。これにより、より良い支援に役立つと思います。 コード:
sed 's/.*<tr>//;s/<\/tr>.*//' /path/to/your/file 私はこの役立ちますほしい。 バクーニン |
|
||||
|
おかげでバクーニンは本当に便利です。様々な理由で私はカントの投稿は、 HTMLページのサンプル。あなたのソリューションを持つ唯一の問題は、ほとんどの<tr>タグを自分のHTMLページに複数行に渡っている。つまり、タグラインを7日にオープンすることができるし、行を20日に終了した。それゆえそれに可能性があります セッド (ライン)が、ストップを含む<tr>タグを設定するときに取得し、再び開始されるときに上のすべての行を削除するには< /トランジスタ> ?交互にするための方法です セッド HTMLページ全体が1つのライン上だと思いますか?
私は、機能に慣れていないのですが セッドは、このタスクを完了するのは私にとって何が最善の方法を知っているハードになります。 |
|
||||
|
引用:
もし何か後、誰かのコードを掲載する予定です。そうでなければ、自分でやらなければならないわけです。スペースでは、ファイル内で、各分割ファイルを交換する前に、すべての改行のようなものをお試しください<または各後> 、 、そこからだろう。場合は、データは、 <または>で、ちょっと余分な仕事をしていく必要があります。これは、私はあなたのためにできることは、現時点で最高だ。 ShawnMilo |
|
||||
|
ここに私自身の質問に答えるためには、まだ苦しんでいるイム このdoesn't作業を模擬して私の例は、私だけは私の説明をしては十分なwithough時間を無駄にするテーブルの例を考えていることがあります。 私はこのサイトで発見 削除するsed -概要とチュートリアル は、パターンの範囲を作成することができます。の例のコードです: コード:
sed '/start/,/stop/ s/#.*//' 私は私を起動してみました<tr> < /トランジスタ>私を止めるんだけど、取得エラーを続けた。さらに、私はしなければならない( ! )の代わりにこのようにすべてのタグを削除すると、それ以外のすべてのタグを削除します。 誰かがこれを支援してください セッド コマンドの作業ですか? ありがとう 編集Streetrcrで最終; 2008年3月20日に 04:05午前..理由:コードタグ |
|
||||
|
引用:
コード:
sed -n '/<tr>/,/<\/tr> {
s/.*<tr>//
s/<\/tr>.*//
p
}' /path/to/your/file
どのように動作します: " - N "の句を停止します セッド 読んでいるすべての行を印刷すると、これからは何も印刷する場合は、スクリプトを削除します。これは、 (暗黙的に)は、指定された範囲内にされていないすべての行を投げている。 中括弧の間にすべての場合にのみ実行される範囲内の1行目に指定されました。の場合は、中括弧内の最後のコマンドを見ることのできる" p "が、この範囲内のすべてが印刷されます。 2つの場合は"削除/...."-とは何か、この印刷コマンド秒: コード:
something....<tr> content of the tr-tag some more content even more content</tr> something else.... あなたは、あなたが望むの一部ではないの太字の部分を削除する必要が見ることができます。 2 " )は、自身のタグと一緒に世話をする/..."-コマンド(秒\u003d代用。最後には、 p ( rint ) 、コマンドプロンプトで、すべてのトリミングの結果を出力します。 ため、私は、自分で正規の研究をしていた感謝の1つ以上の単語は:あなたは私から2番目の答えを得た。このため、ほとんどの場合この回答は没収: 引用:
私は今も"どうしてあなたにはすべて使用することはできませんか、答えを得るかもしれないいくつかの回答では説明していくつかのより多くの時間を"無駄だ。図に戻る。 私はこの役立ちますほしい。 バクーニン |
![]() |
| ブックマーク |
| スレッドツール | このスレッドを検索 |
| 表示モード | このスレッド |
|
|