阅读内容

Linux对一个3G的文本进行编码转换全过程

[日期:2008-09-21] 来源:Linux社区  作者:Linux编辑


本过程中涉及到的Linux的命令有:split, iconv, cat

问题:有一个3G的文本a.txt,编码格式为gbk,现在需要对其进行转换成为utf-8。

难点:iconv的转换是在内存中进行的,因此3G大小的文本,无法进行直接转换。

思路:先利用split进行文件切分,然后对每一个字文件进行ivonv转换,最后进行cat合并。


具体操作如下:

1) ll -h a.txt 查看文件的大小,2.9G

2) wc -l a.txt 查看文件的行数,9千200万行

3) split -l 20000000 a.txt chunk 按照每个文件2千万行进行切割,共分成5个文件

4) 进行转换
iconv -f gbk -t utf-8 chunka > chunka_utf8 -c
iconv -f gbk -t utf-8 chunkb > chunkb_utf8 -c
iconv -f gbk -t utf-8 chunkc > chunkc_utf8 -c
iconv -f gbk -t utf-8 chunkd > chunkd_utf8 -c
iconv -f gbk -t utf-8 chunke > chunke_utf8 -c

5) rm chunka chunkb chunkc chunkd chunke 删除原文件

6) cat chunk* > a.txt_utf8 进行合并

至此,工作完成。 




相关资讯       LINUX命令  Linux教程 
本文评论       全部评论
发表评论
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款


点评: 字数
姓名:

L
I
N
U
X


GOOGLE搜索
Google