我需要编写一个函数来测量文件大小(以字节为单位)。这是发生的事情:
#include <stdio.h>
#include <stdint.h>
uint64_t file_size(char *file_path) {
FILE *file = fopen(file_path, "rb");
uint64_t size = 0;
for (; fgetc(file) != EOF; size++);
fclose(file);
return size;
}
int main() {
printf("%llu\n", file_size("file"));
return 0;
}
一切正常。然后我就产生了兴趣EOF
。毕竟,它只是一个等于 的常数-1
。如果文件将包含一个字节-1
(即FF
)怎么办?
我编写了一个程序,它创建一个三个字节的文件,每个字节都是FF
.
fputc(-1, file); fputc(-1, file); fputc(-1, file);
用 hexdump'om 重新检查该文件确实包含 3 个字节 ( FF FF FF
)。
然后我使用函数检查了文件大小,该函数的代码是我一开始写的。该函数返回正确的大小 - 3 个字节。
我将函数中的循环从
for (; fgetc(file) != EOF; size++);
在
for (char c = fgetc(file); c != EOF; c = fgetc(file), size++);
我又查了一下——函数开始返回文件大小为0,因为第一个字节等于EOF
,即文件结束常量。客观地说,这个功能应该和它一样工作。怎么了?这个怎么运作?文件结尾常量 EOF 如何等于文件中的字节之一?这是谁想出来的?也许我错过了什么?我检查了一切10次。魔法。
该函数
fgetc
返回一个 int,即 EOF 不是 0xFF,而是 0xFFFFFFFF(好吧,或者在 16 位平台上为 0xFFFF)。很明显,这样的值不适合字节,也不能包含在文件中。有一个细微差别,标准似乎允许 char 和 int 的大小相等。但就个人而言,我没有听说过这样的平台,所以我不能说这个话题有什么。
按标准:
sizeof(char) < sizeof(int)
fgetc
返回 type ,但如果可以读取下一个字节,则int
该值可以在 type 的范围内,否则为常量。常量的值不属于范围,如果我不混淆,它等于-1。char
EOF
char
所以你的例子
不正确,因为 将 char 0xFF 与 int -1 (EOF) 进行比较返回 true(根据扩展有符号类型的规则)。在 unsigned char 平台上,您最终会陷入无限循环。
在示例中
fgetc(file)
返回0x00FF
,即 有符号 +255 不等于 -1UPD对 Qwertiy 的评论
在上述链接的答案中,有一个指向标准的链接,上面写着:
sizeof(char) == 1
short
最小范围 -32768 … 32767。int
:这种情况
sizeof(char) == sizeof(short)
仅适用于字节为 16 位的平台。这样的异国情调极为罕见。sizeof(short) == sizeof(int)
仅当处理器具有仅针对 16 位数字的指令时,这种情况才可能发生。但
sizeof(char) == sizeof(int)
仅在架构上,同时两个字节都是 16 位并且没有 32 位命令。这种类型的通用处理器已经 30 多年没有出现过,微控制器也极为罕见。所以是的,理论上,
sizeof(char)
它可能等于sizeof(int)
,但这太不可能了。在实践中,存在以下情况
sizeof(char) < sizeof(short) <= sizeof(int)
不是答案,而是查找文件末尾的选项。
这是在 C 中获取文件大小的一个最小示例。不需要循环,很久以前为此发明了 fseek,根本不需要 EOF,SEEK_END 随库的不同而不同。