
在这个本应该是宁静祥和的早上,德克萨斯大学奥斯汀分校发生了枪击案。不知道是不是听说 84 年生人的金正银当上大将嫉妒坏了心,一个 19 岁的数学系学生(update: 竟然是我 TA 课上的学生)拿着 AK 47 爆了自己的头。他应该是不想伤害任何人的,不然那个开车的法律系教授、Jester 楼上的两个墨西哥外来务工人员,还有 21 街上早起勤奋的同学们就不会有机会做目击证人了。看着头顶上盘旋的直升机和呼啸而过的装甲车,我们是有做记者的冲动的。但是在学校的外围,我们就被杰克在盒子里的老板拦下,成了不明真像的围观群众。而最具有讽刺意味的是,当天《more guns, less crime》一书的作者原计划到本校演讲签售,什么叫计划赶不上变化,恐怕是没有更好的实例了。
庆幸完劫后余生,不禁感叹最近的奇怪事件特别多。时间在向前流,许多原本不相信会发生的事儿,竟然一件件切切实实的发生了。有人辞职有人去非洲;有人在伦敦找到了好归宿,有人在另一个大城市再相逢;Apple 市值超过 China Mobile,Geely 收购 Volvo,Microsoft 的 live space 转到 wordpress 旗下(当年为两个平台争论不休的同学们终于可以和谐了)。而最最搞笑的一则来自 Economist,是关于色情片行业如何在衰退期创新和发展
… some studios have seen sales drop by 30-40% in the past two years. For an industry that once thought itself recession-proof, that is shocking. But Peter Acworth of Kink.com, an online outfit that specialises in bondage, reckons that the best way to beat the tubes is to innovate more. His firm is experimenting with technology that lets viewers interact with performers in real time. And it plans to launch a social network, which will no doubt bind its members together very tightly.
这一切都是正在经历的历史,但留给感受的时间却像读曼彻斯特《光荣与梦想》中的一则那样短,历史翻页的速度就像在诺兰的第四层梦境一样快。经过这个流血的早晨,仿佛是上天在哀悼,奥斯汀似乎一天之间进入了秋天。连续七八十度的天气不期而至,就像大跃进一样的不真实,希望不要是 2012 发生的前兆才好。
这里是一个把搜狐读书里的《蔡澜谈日本 – 日本电影》下载整编为 txt 电子书的例子。
- 首先把《蔡澜谈日本:日本电影》的首页下载并转化为 UTF-8 编码。
wget -c "http://lz.book.sohu.com/serialize-id-12171.html" -O index.raw
iconv -f GBK -t UTF-8 index.raw > index.raw.utf
mv -f index.raw.utf index.raw
- 第二步是从首页的 html 文件中找出每一章节的链接和目录名。
# find lines containing chapter links
sed -n '/<ul class="clear">/,/</ul>/p' index.raw | grep 'chapter.*html' > links.raw
# find links
awk -F 'href="' '{print $2}' links.raw | cut -d'"' -f1 | sed 's@^@http://lz.book.sohu.com/@' > chapterlinks.raw
# find chapter titles
awk -F '">' '{print $2}' links.raw | cut -d'<' -f1 | sed 's@$@.txt@' > chaptertitles.raw
# put links and titles together
paste chapterlinks.raw chaptertitles.raw > chapter_to_dl.raw
得到的一个内容如下的文件
http://lz.book.sohu.com/chapter-12171-111059829.html 片冈千惠藏.txt
http://lz.book.sohu.com/chapter-12171-111059833.html 冈崎宏三.txt
http://lz.book.sohu.com/chapter-12171-111059837.html 胜新太郎(一).txt
http://lz.book.sohu.com/chapter-12171-111059845.html 胜新太郎(二).txt
- 这一步是将 chapter_to_dl.raw 文件里第一列的链接下载并存为第二列所示的文件名。这里用到一个 awk 脚本 download.awk。然后再把每一节都从 GBK 编码转为 UTF-8 编码。
awk -f download.awk chapter_to_dl.raw
for mftxt in $(ls *.txt)
do
iconv -f GBK -t UTF-8 "$mftxt" > "$mftxt".utf
mv -f "$mftxt".utf "$mftxt"
done
- 第四步是从每个章节中的 html 文件中提取真正的文本内容。
for mftxt in $(ls *.txt)
do
sed -n '/<div .* id="txtBg">/,/</div>/p' "$mftxt" | grep '<p>' | sed 's/<[^>]*>//g;s/ /n/g' > "$mftxt".part
mv -f "$mftxt".part "$mftxt"
done
- 最后一步是将全文连接起来。
for mfchpt in $(cat chaptertitles.raw)
do
echo "$mfchpt" | sed 's/.txt$//' >> book.txt
echo >> book.txt
cat "$mfchpt" >> book.txt
echo >> book.txt
done
最后得到的这个 book.txt 便是想要的《蔡澜谈日本 – 日本电影》了,我的偏好是放在 Stanza 或者 Good Reader 里。脚本在这里。