tse - Pythonによるテキスト整形ユーティリティ

tse Text Stream Editor

Python によるテキスト整形ユーティリティ2015/10/10 PyCon JP 2015Atsuo Ishimoto

自己紹介

いしもと石本敦夫あつお

python.jp ドメインの管理者@atsuoishimoto著書

Python ライブラリ厳選レシピPython 文法詳解パーフェクト Python

Unix のテキスト処理といえば

sed, awk, perl などのワンライナーが定番Python でもワンライナーを書きたい使い慣れたモジュール群を手軽に活用したいいちいちスクリプトファイルを作成したくないシェルのヒストリーから呼び出したい

Python はワンライナー向き？向きません

インデントと改行が必須sys, re などの import など、タイプ量が多いワンライナー用のコマンドラインオプションがない (Python2) Unicode(Encode|Decode)Error$ python -c 'print u" あ "'|less 等。。。

tse Text Stream Editor

Python によるテキスト整形ツールPython スクリプトをコマンドラインで指定一般的なモジュール (sys, re など ) の自動インポートファイルを読み込み、スクリプトを実行入出力エンコーディングの指定

インストール方法pip install tse

Python2.7 以降Python3.3 以降

tse の動作 1 ．テキストファイルを一行ずつ読み込み、 2. 行に一致するパターンがあれば、 3. 行を変数に代入し、 4. 対応するアクションを実行する

$ tse -s '^\d+' 'print(L.lower())' \ -s '^\w+' 'print(L.upper())'

パターンとアクションパターン入力行を検索する、正規表現式アクションパターンの検索が成功した時に実行するスクリプト

パターンアクション-s オプションで指定

サンプル'spam' を含む行を、小文字に変換して出力tse -s "spam" "print(L.lower())" < s.txt

サンプル行ごとに、すべての数字列の和を出力

tse -s ".*" "print(sum(int(s) for s in re.findall(r"\d+", L)))"" < s.txt

パターン

例• spam|ham 'spam' または 'ham' を含む行 • ^\d+ 数字列で始まる行

re モジュールを利用入力テキストを検索する正規表現式

アクション例• print('hello') 'hello' と出力• print(L.upper()) 行を大文字に変換して出力

パターンがヒットした行で実行するスクリプト

複数行のアクション

例$tse -s '^\w' 'if L:' ' print(L)' < spam.txt

パターンには複数のアクションを指定できる。 2 番目以降のアクションは、先頭のアクションの次の行として実行される。

if L: print(a)

インデント$ tse -s '.*' 'if len(L)>5:{{print(1)}}'

{{ と }} でインデントするブロックを指定する

if len(L)>5: print(1)

文字列・コメント中の "{{}}" はインデントとして扱わない例 ) 'print("{{spam}}{{ham}}")

入力ファイルの指定-ｓオプションに続けてファイル名を指定するときは、オプションとファイル名を -- で区切る

ファイル名が - のときは、標準入力から読み込む$tse -s '^\d' 'print(S)' -- a.txt b.txt

$tse -s '^\d' 'print(L)' -- -

変数処理中のテキストは、変数に格納される変数名内容L 現在処理中のテキスト行全体L0 テキスト行を空白で区切った文字列

の配列L1, L2,... テキスト行を空白で区切った文字列

の 1 番目、 2 番目、…N L0 の長さ

マッチ文字列正規表現にマッチした文字列も変数に格納変数名内容S 正規表現にマッチしたグループの配列S0 正規表現にマッチした部分文字列全

体S1, S2,... () で囲んだグループの部分文字列グループ名 '(?P< グループ名 >)' で指定したグ

ループの部分文字列M Re モジュールの Match オブジェクト

変数のサンプル$ echo 'ab cd ef'| tse -s '.*' 'print(L3, L2, L1)'ef cd ab

空白区切りの単語を出力

$ echo '123abc' \| tse -s '(?P<num>\d+)(.*)' 'print(num, S2)'123 abc

パターンの部分文字列

変数のサンプル$ls -l|tse -s '' 'if N>2 and int(L5)>=1024:print(L9)'

サイズ >=1024のファイル名を出力

$ ls -ltotal 168-rw-r--r-- 1 ishimoto staff 698 10 6 12:58 HISTORY-rw-r--r-- 1 ishimoto staff 1064 10 6 12:39 LICENSE-rw-r--r-- 1 ishimoto staff 35 10 6 12:39 MANIFEST.in

1 2 3 4 5 6 7 8 9

その他の変数変数名内容FILENAME 処理中のファイル名。標準入力の場

合は '<stdin>'LINENO 処理中の行番号 (1, 2, 3,…)

省略時のパターン

$ tse -s '' 'print(L)'

パターンが空文字列の場合、 '.*' と同じ

$ tse -s '.*' 'print(L)'

省略時のアクション

$ tse -s '.*' ''

アクションが空文字列の場合、 'print(L)' と同じ

$ tse -s '.*' 'print(L)'

begin アクションと end アクション--begin オプション起動直後に実行するアクション--end オプションファイル読み込み終了後に実行するアクション$ tse --begin 's=0' \ --end 'print(s)' \ -s '.*' 's+=len(L)' *.txt

例 ) *.txt ファイル全文字数を出力する

インポート済みモジュール$ tse -s '.*' 'os.mkdir(L)'

sys, re, os, os.path はインポート不要

os.path は、 from os import path 形式$ tse -s '.*' 'print(path.splitext(L)[1])'

モジュールのインポート--module/-m オプション

実行前にモジュールをインポートする例 ) $tse -m math --begin 'print(math.sqrt(2))'

--module-star/-ms オプションfrom モジュール名 import * 形式でインポートする例 ) $tse -ms math --begin 'print(sqrt(2))'

エンコーディング指定--input-encoding/-ie オプション

入力ファイルのエンコーディングを指定する例 ) $tse -ie cp932 -s '' ''

--output-encoding/-oe オプション出力ファイルのエンコーディングを指定する例 ) $tse -ie cp932 -s '' ''

--inplace オプション入力ファイルを、出力で上書きする。

$tse --inplace .bak -s '' 'print(L.lower())' -- spam.txt

元のファイルは、指定した拡張子を付加したファイルに保存

--script-file/-f オプション起動前に実行するスクリプトファイルを指定する。

$tse -f scr.py -s '' '' < spam.txt

デフォルトでは、 ~/.tserc ファイルが存在すれば実行する。

拡張子ごとにファイルサイズ集計$ find . -type f | \tse -ms collections -b 'c=defaultdict(int)' \-s '' 'c[path.splitext(L)[1]]+=path.getsize(L)' \-e 'for r in c.items():print(r)'

ip アドレスからホスト名逆引き$ cat log | tse -ms socket -s '' \'try:print(gethostbyaddr(L1)[0], L1)' \'except:print("unknown", L1)'

HTML から a 要素を抽出$ curl www.python.jp | tse -ms 'bs4' -b 'for a in BeautifulSoup(sys.stdin.read(), "lxml").find_all("a"):{{url=a.get("href", ""){{}}if url.startswith("http"):print(a["href"])'

ご清聴ありがとうございました

tse - Pythonによるテキスト整形ユーティリティ

Career

Navodila za uporabo - beko-si.com · Navodila za uporabo HLADILNIK TSE 1230 TSE 1260 TSE 1243 TSE 1280 TSE 1254 TSE 1282. Kazalo Najprej o varnosti 1 Navodila za transportiranje 2

4 ユーティリティ操作ガイド - Ymobile42 4 ユーティリティ操作ガイド EMOBILE HWユーティリティのメイン画面 1 6 2 7 4 3 8 9 5 EMOBILE HWユーティリティメニュー

Oracle Databaseユーティリティ, 10gリリー …otndnld.oracle.co.jp/document/products/oracle10g/102/doc...Oracle Database ユーティリティ, 10g リリース2（10.2）

BPC-0827 - InterfaceBPC-0827 Help for Windows 第4章ユーティリティ以下、ユーティリティの概要を説明します。本ユーティリティは「調整用スイッチ」と「調整用つまみ」を使用して、直接ハードウェアの設

HP ROMベースセットアップユーティリティユーザガイド...HP ROMベースセットアップユーティリティユーザガイド HP ProLiant Generation 5サーバおよびBLサーバ

Spültechnik - TSE

Informativo TSE - tmp.mpce.mp.brtmp.mpce.mp.br/.../2010/InformativoTSE_ano_XII_39.pdf · Informativo TSE 1 Informativo TSE Assessoria Especial (Asesp) Ano XII – No 39 Brasília,

Oracle Hyperion Planning, Fusion Edition管理者ガイドPlanning ユーティリティの操作 ..... 44 Planning ユーティリティでパスワード・プロンプトを抑制

· TS EN 933-5 TS EN '367-3 TS EN 42350-2 TS EN -12350-6 - TSE TSE TSE TSE TS AGREGA TSE TSE TSETSE EBETON BE-TOIV (BETON BETOM BETONí BE-TON tBETONf BETON KARMA SUYU- 'ÊÉiOWkARMASUYU

Mukharji TSE

Código Ética TSE

Kin Pang Tse

Tse Portaria Tse 28 Plano de Contas Dos Partidos

Önsöz - TSE

Painel tse clad

11 Taka dibopeho jwalo ka ho 11 22 - CIMT · 2016. 6. 8. · bolou tse lekanang ka palo, tse ding di tshehla. A ka ba le dikoloi tse tse kgubedu, bolou le tse tshehla. 44444 Tlatselletsa

Standard - TSE

tse.gob.dotse.gob.do/transparencia/ComprasYContrataciones/Licitacion_Publica/TSE... · Expediente TSE-CCC-LPN-OI -021-2016. Equipos y Servicios de Informática. TSE - SIMPAPEL, SRL

デバイスモニタユーティリティ...10デバイスモニタユーティリティ 10.2 操作手順 10.2.1 ユーティリティを起動する 10 - 2 9 CC IE Control ユーティリティ

コンピュータセットアップ（F10 ユーティリティ …...コンピュータセットアップ（F10）ユーティリティコンピュータセットアップ（F10）ユーティリティ