nodejs爬虫抓取数据之编码问题

(编辑：jimmy 日期: 2024/10/6 浏览：2)

cheerio DOM化并解析的时候

1.假如使用了 .text()方法，则一般不会有html实体编码的问题出现

2.如果使用了 .html()方法，则很多情况下(多数是非英文的时候）都会出现，这时，可能就需要转义一番了

类似这些因为需要作数据存储，所有需要转换

复制代码代码如下:
Халк крушит. Новый способ исполнен

大多数都是&#(x)"htmlcode">

var body = ....//这里就是请求后获得的返回数据，或者那些 .html()后获取的

//一般可以先转换为标准unicode格式（有需要就添加：当返回的数据呈现太多\\\u 之类的时）
body=unescape(body.replace(/\\u/g,"%u"));
//再对实体符进行转义
//有x则表示是16进制，$1就是匹配是否有x ，$2就是匹配出的第二个括号捕获到的内容，将$2以对应进制表示转换
body = body.replace(/&#(x)"_blank" href="http://www.mgenware.com/blog/">http://www.mgenware.com/blog/?p=2514）

上一篇：Javascript中的作用域和上下文深入理解

下一篇：JavaScript访问字符串中单个字符的两种方法

nodejs爬虫抓取数据之编码问题

一句话新闻

最新资源