キーワードからキーワードまでの文字列を抜き出す方法 †htmlのあるタグからあるタグまでという感じで指定したキーワードから指定したキーワードまでの文字列を抽出する方法を以下に記します。 関連資料 †
sedコマンドによりキーワード間の文字列を取得する †以下のようなhtmlファイルがあったとして、文字列を抽出します。 $ cat sample.html <html> <head> <title>hello world</title> </head> <body> hello konnichiwa nihao </body> </html> 実行例 - <body>〜</body>までを抽出 †sed -n '/キーワード/,/キーワード/p' ファイル名 または cat ファイル名 | sed -n '/キーワード/,/キーワード/p' 以下の実行例は、<body>〜</body>を抽出しています。
$ sed -n '/<body>/,/<\/body>/p' sample.html <body> hello konnichiwa nihao </body> 実行例 - 指定行からキーワードまで †sed -n '指定行,/キーワード/p' ファイル名 または cat ファイル名 | sed -n '指定行,/キーワード/p' 以下の実行例は上記のhtmlファイルを利用して7行目から</body>までを抽出しています。 $ cat sample.html | sed -n '7,/<\/body>/p' konnichiwa nihao </body> |