python3对文件编码的转换处理

前言：

数据来源有高斯和ORACLE, 数据文件保存格式有UTF-8和GBK。

当我在做测试导入的时候发现SQLSERVER 2008数据库的WITH选项不支持CODEPAGE=‘65001’, 即UTF-8文件编码格式导入。所以需要把UTF-8编码的文件统一转换成GBK，代码如下。

示例一：

在转换生产数据的时候还算好用，但有些字符还是无法很好的识别，导致转换失败。在网上又看到了一个专门用来编码转换的包:codecs, 用法大同小异

示例二：

通过 Unicode 编码来进行不同编码之间的相互转化

1、不同的编码之间不能互相识别，不能相互转化，会报错或出现乱码

2、国际通用标准：文字通过网络传输、或硬盘存储等不能使用 Unicode 编码方式，因为 Unicode 使用的是升级版 32 位的，太费流量和空间

3、在 Python3 版本中，唯独 string 在内存中的编码方式是 Unicode，所以字符串不能直接进行网络传输及进行文件的存储

4、bytes：也是一种数据类型，不是字节，与 string 类型就像是孪生兄弟

5、为啥要有 bytes ？—— bytes 内部编码不是 Unicode 方式，因此可以进行网络传输和文件的存储

6、不同编码之间相互转化都需要先变成unicode编码, encode编码， decode解码

示例：

在python3版本中, 字符串的编码方式就是Unicode，所以中国==u"中国"

各系统的默认编码方式

WINDOWS: GBK

LINUX: UTF-8

IOS: UTF-8

示例：

如果encoding不对，打开内容是乱码

python3对文件编码的转换处理

牛弹琴：中国人还在过节世界有2个好消息和2个坏消息

俄罗斯政府暂时禁止食糖出口

拜登向杨紫琼授予"总统自由勋章" 还把她名字说错了

“堵车到崩溃，眼睁睁看着飞机飞走了……”今天中午，杭州也将进入高峰

日本1-0绝杀乌兹别克！时隔8年再夺亚洲杯冠军，加冕双冠王创历史

杂谈：献给所有不关心政治的人

小男孩在景区玩耍被路过的鹈鹕“偷袭”一口夹住脑袋

服务区一新能源车电量耗尽大人小孩弯着腰推车走

绍伊古：俄方正在南千岛群岛建立观察哨所

为何后来没有人歌颂曼德拉？如今的南非30年前它是一个发达国家

连沙漠里都“堵人了”！游客攻占多个旅游城市，本地人：最大贡献就是把景点让出来

现实版惊掉下巴！游客参观洛阳龙门石窟，“哇”一声惊叹美景下巴脱臼

豁哦！统统炒掉，一天8人离队，13年换7人，湖人这是要变天啊

现场：一台乌军坦克迎击三台俄军坦克并将其全部摧毁

独家调查：河南大学失火涉事公司及校方称当晚礼堂没有施工人员

广东中山暴雨洪水齐腰深，大量汽车被淹没至车顶！

国铁集团回应高铁票价将上涨

美国援乌的战车抵达波兰一辆接一辆望不到头

武当山景区几名大人互殴俩孩子被压到身下

肇庆取消公摊面积？政策前后房源总价无变化

python3对文件编码的转换处理

牛弹琴：中国人还在过节 世界有2个好消息和2个坏消息

俄罗斯政府暂时禁止食糖出口

拜登向杨紫琼授予"总统自由勋章" 还把她名字说错了

“堵车到崩溃，眼睁睁看着飞机飞走了……”今天中午，杭州也将进入高峰

日本1-0绝杀乌兹别克！时隔8年再夺亚洲杯冠军，加冕双冠王创历史

杂谈：献给所有不关心政治的人

小男孩在景区玩耍 被路过的鹈鹕“偷袭”一口夹住脑袋

服务区一新能源车电量耗尽 大人小孩弯着腰推车走

绍伊古：俄方正在南千岛群岛建立观察哨所

为何后来没有人歌颂曼德拉？如今的南非30年前它是一个发达国家

连沙漠里都“堵人了”！游客攻占多个旅游城市，本地人：最大贡献就是把景点让出来

现实版惊掉下巴！游客参观洛阳龙门石窟，“哇”一声惊叹美景下巴脱臼

豁哦！统统炒掉，一天8人离队，13年换7人，湖人这是要变天啊

现场：一台乌军坦克迎击三台俄军坦克 并将其全部摧毁

独家调查：河南大学失火 涉事公司及校方称当晚礼堂没有施工人员

广东中山暴雨洪水齐腰深，大量汽车被淹没至车顶！

国铁集团回应高铁票价将上涨

美国援乌的战车抵达波兰 一辆接一辆望不到头

武当山景区几名大人互殴 俩孩子被压到身下

肇庆取消公摊面积？政策前后房源总价无变化

牛弹琴：中国人还在过节世界有2个好消息和2个坏消息

小男孩在景区玩耍被路过的鹈鹕“偷袭”一口夹住脑袋

服务区一新能源车电量耗尽大人小孩弯着腰推车走

现场：一台乌军坦克迎击三台俄军坦克并将其全部摧毁

独家调查：河南大学失火涉事公司及校方称当晚礼堂没有施工人员

美国援乌的战车抵达波兰一辆接一辆望不到头

武当山景区几名大人互殴俩孩子被压到身下