正規表現の応用

トークン化されたテキストの検索

NLTKのfindall()メソッドを使用。

text=nltk.Text(sample)
text.findall(r"a <.*> <man>")
a nervous man; a dangerous man;