写爬虫是一个发送请求提取数據,清洗数据存储数据的过程。在这个过程中不同的数据源返回的数据格式各不相同,有 JSON 格式有 XML 文档,不过大部分还是 HTML 文档HTML 经常會混杂有转移字符,这些字符我们需要把它excel转义字符的使用成真正的字符
在 HTML 中 <
、>
、&
等字符有特殊含义(<,> 用于标签中& 用于excel转义字符的使用),他们不能在 HTML 代码中直接使用如果要在网页中显示这些符号,就需要使用 HTML 的excel转义字符的使用字符串(Escape
excel转义字符的使用字符(Escape Sequence)由彡部分组成:第一部分是一个 & 符号第二部分是实体(Entity)名字,第三部分是一个分号 比如,要显示小于号(<)就可以写<
。
推荐最后一種写法因为 HTMLParser.unescape 方法在 Python3.4 就已经被废弃掉不推荐使用,意味着之后的版本有可能会被彻底移除
另外,sax 模块也有支持反excel转义字符的使用的函数
當然你完全可以实现自己的反excel转义字符的使用功能,不复杂当然,我们崇尚不重复造轮子