有码农来解惑吗?为什么相同的内容WPSexcel导出的txt文本比新建一个txt文本还要大?

ZF-avatar

ZF

2021-06-21T11:21:31+00:00

比如在WPSexcel里在第一个单元格输入A,然后导出txt格式,大小是4字节;但是新建一个txt文本输入一个A大小只有1字节,为什么呢?

下午导入数据进软件结果几个小时了一直报错说格式不对,花了几个小时找问题才发现WPSexcel导出的txt和新建txt内容看起来一样但是大小竟然差很多,还必须多花一步把导出的txt内容再复制粘贴到新建的txt里面才能被软件读取,这txt隐藏了啥东西看不到?编码?
jakee-avatar

jakee

文本里有额外的信息
Ryker-avatar

Ryker

[quote][tid=27297512]Topic[/tid] Post by [uid=41573855]onsomnia[/uid] (2021-06-21 19:26):

比如在WPSexcel里在第一个单元格输入A,然后导出txt格式,大小是4字节;但是新建一个txt文本输入一个A大小只有1字节,为什么呢?

下午导入数据进软件结果几个小时了一直报错说格式不对,花了几个小时找问题才发现WPSexcel导出的txt和新建txt内容看起来一样但是大小竟然差很多,还必须多花一步把导出的txt内容再复制粘贴到新建的txt里面才能被软件读取,这txt隐藏了啥东西看不到?编码?[/quote]一般是编码不同,你另存为试试,有个编码选项,ANSI和Unicode保存后是不同的
WEEBSENPAI-avatar

WEEBSENPAI

[s:ac:哭笑]一眼扫过去看到一个单词让我误以为开错了网站
Glumsday-avatar

Glumsday

[quote][pid=526256056,27297512,1]Reply[/pid] Post by [uid=60811378]ifrappuccino[/uid] (2021-06-21 19:31):

[s:ac:哭笑]一眼扫过去看到一个单词让我误以为开错了网站[/quote]Sex[s:ac:瞎]
LSP在此[s:a2:大哭]
OG_timo-avatar

OG_timo

也许是 不可见字符 的锅[s:a2:不明觉厉]
NightraGaming-avatar

NightraGaming

有很多不显示,不占显示空间的字符啊
BaldManWithBeard-avatar

BaldManWithBeard

格式信息也要占空间
Fr4nki3-avatar

Fr4nki3

纯文本和带字体、字号、颜色、排版、插图、超链的体积比?!

办公室文员这点都不清楚吗?!
Pablo5759-avatar

Pablo5759

编码问题。32位机器上,一个广义字符就是4字节左右(32÷8=4,取决于编码方式)。一个ascii字符占1字节。
ZF-avatar

ZF

[quote][pid=526255699,27297512,1]Reply[/pid] Post by [uid=1260473]lqyeer[/uid] (2021-06-21 19:29):

一般是编码不同,你另存为试试,有个编码选项,ANSI和Unicode保存后是不同的[/quote]好像确实是这个的原因,ANSI的编码文件大小比unicode小很多,但是这个是怎么影响软件读取数据的呢?为什么ANSI格式的能被读取,unicode格式的就读取不了?
DiploDingus-avatar

DiploDingus

[img]https://img.nga.178.com/attachments/mon_202106/21/-7Q2o-7sv7K3ToS3s-1z.jpg[/img]
我刚拿Excel试了下,这个文件占3字节
可以看到有一个换行符,换行符在windows下是占用2字节的
JackO-avatar

JackO

来人 上010editor
ZF-avatar

ZF

[quote][pid=526257819,27297512,1]Reply[/pid] Post by [uid=1700432]手机登陆专用马甲[/uid] (2021-06-21 19:40):

[img]https://img.nga.178.com/attachments/mon_202106/21/-7Q2o-7sv7K3ToS3s-1z.jpg[/img]
我刚拿Excel试了下,这个文件占3字节
可以看到有一个换行符,换行符在windows下是占用2字节的[/quote]可以确定不是换行符的原因,因为我把相同的文本用unicode和ANIS互相另存为转化后文本大小一样改变
Spahgoots-avatar

Spahgoots

可能是文件头问题?最近遇到程序无法读取excel的问题,报的就是文件头问题,当时百度说是前两个字节就是文字头。

得另存为,另存为的时候可以看到默认格式是htm,即使后缀都是xlsx。这两个文件用记事本打开确实显示的差别很大
Pulvinar-avatar

Pulvinar

[quote][pid=526257651,27297512,1]Reply[/pid] Post by [uid=41573855]onsomnia[/uid] (2021-06-21 19:39):

好像确实是这个的原因,ANSI的编码文件大小比unicode小很多,但是这个是怎么影响软件读取数据的呢?为什么ANSI格式的能被读取,unicode格式的就读取不了?[/quote]Unicode用什么软件读取不了?
Psylent-avatar

Psylent

可能是3字节的bom
Draff-avatar

Draff

Wps的文件经常莫名其妙体积很大,受不了然后花几块钱买了淘宝office
Ryker-avatar

Ryker

[quote][pid=526257651,27297512,1]Reply[/pid] Post by [uid=41573855]onsomnia[/uid] (2021-06-21 19:39):

好像确实是这个的原因,ANSI的编码文件大小比unicode小很多,但是这个是怎么影响软件读取数据的呢?为什么ANSI格式的能被读取,unicode格式的就读取不了?[/quote]说明你接收导入的那个软件不认Unicode编码,两种编码对应的同一个字符的数据长度是不同的。
记事本打开后能正确使用对应编码去显示,是因为Windows记事本会在Unicode文件开头插入一个隐藏的标记,告诉记事本这是个Unicode编码的文本文件,而ANSI编码的文本文件没那个标记。
ロケットラクーン-avatar

ロケットラクーン

这种找个二进制文件打开器看一下编码