湘字谐音成语:新闻小偷将一个网页的HTML代码拿来后,如何过滤了只剩文字信息

来源:百度文库 编辑:高校问答 时间:2024/04/29 22:22:57
如题,我想把图片及其他信息全部去掉,只剩下文字html也不要
应该怎么过滤 谢谢

TextForever(FineReader) 版本:1.54 评价:★★★★
http://www.comicer.com/stronghorse/software/exe/TextForever_chn.zip
文件: 中文简体版 中文简体版说明 English版(其中说明文件还是中文的)
功能: 提供以下功能:HTML->TXT转换、文件合并、TXT文件段落合并、TXT文件分行、编码(GB/GBK/Big5/Shift-JIS/Unicode)转换(只能用于Win 2k/XP)、文本替换、HTML代码整理、文件切分、文本提取、正则表达式、TCR批量压缩/解压,用于整理从Internet上下载的小说。软件原名FineReader,后更名为TextForever。
动机: 我初上网时常去“阿拉谈书屋”看小说,网主无聊到将每一页做成一个文件(后来他也为此而后悔不已),看起来很累,所以就想编一个程序能对下载下来的文件进行合并、整理,变成TXT文件以便阅读、打印。
为了编制这个程序,我专门从Internet下载了一堆HTML文档,苦读半月。所以有一次我和一个朋友开玩笑:他通过做主页练HTML,我则通过读主页练,大家殊途同归。
说起来“阿拉谈书屋”对我所起的作用实在不小,不仅将我引进了Internet的大门,还为我学习Internet编程提供了强大的动力,先后产生了CrazyReader和TextForever(FineReader)。
这个程序的段落合并功能则是在我对在网上大肆吹嘘的某“智能排版”工具感到极端厌烦的情况下做出来的,保证比它好使。

在正常打开网页的情况下,复制所有页面的图和文字,将它们粘到记事本中就只剩下文字了,不信的话你可以当场试试