中文网页可能是什么编码？

ming997hk 发表于 2019-2-15 21:12:36

在处理一批中文网页数据，显示为乱码，我尝试用gbk、gb2312和utf8解析，都是乱码，还有什么可能的编码啊？

忘江湖 发表于 2019-2-15 21:13:27

地址什么，发来瞅瞅。。

ming997hk 发表于 2019-2-15 21:14:28

忘江湖发表于 2019-2-15 21:13

地址什么，发来瞅瞅。。
没地址啊大佬，是一批已经下载好的数据，只有内容，分给我处理的

三思而后折腾 发表于 2019-2-15 21:13:00

很大可能你拿到的已经是乱码了，

wolfewong 发表于 2019-2-15 21:48:18

以下是常见的汉字字符集编码：
GB2312编码：1981年5月1日发布的简体中文汉字编码国家标准。GB2312对汉字采用双字节编码，收录7445个图形字符，其中包括6763个汉字。
BIG5编码：台湾地区繁体中文标准字符集，采用双字节编码，共收录13053个中文字，1984年实施。
GBK编码：1995年12月发布的汉字编码国家标准，是对GB2312编码的扩充，对汉字采用双字节编码。GBK字符集共收录21003个汉字，包含国家标准GB13000-1中的全部中日韩汉字，和BIG5编码中的所有汉字。
GB18030编码：2000年3月17日发布的汉字编码国家标准，是对GBK编码的扩充，覆盖中文、日文、朝鲜语和中国少数民族文字，其中收录27484个汉字。GB18030字符集采用单字节、双字节和四字节三种方式对字符编码。兼容GBK和GB2312字符集。
Unicode编码：国际标准字符集，它将世界各种语言的每个字符定义一个唯一的编码，以满足跨语言、跨平台的文本信息转换。
不知道你数据怎么来的，很有可能是读写编码不一致，你再读如果编码再不一致只会更乱

hawk 发表于 2019-2-15 21:57:44

实在不行就靠猜

jiderlesi 发表于 2019-2-15 22:06:46

一般都是utf-8，中文出错还短少，写传统蒙古语各种出错，utf-8

页: [1]

全球主机交流论坛's Archiver

中文网页可能是什么编码？