RError.com

RError.com Logo RError.com Logo

RError.com Navigation

  • 主页

Mobile menu

Close
  • 主页
  • 系统&网络
    • 热门问题
    • 最新问题
    • 标签
  • Ubuntu
    • 热门问题
    • 最新问题
    • 标签
  • 帮助
主页 / 问题 / 1597136
Accepted
Mik
Mik
Asked:2024-10-18 23:06:22 +0000 UTC2024-10-18 23:06:22 +0000 UTC 2024-10-18 23:06:22 +0000 UTC

如何计算我的字符串在 Java 中将占用字符集中的字节数?

  • 772

我如何在 Java 中计算我的 String 占用了多少字节,例如在 中US_ASCII? C# 有它Encoding.GetByteCount,这就是我需要的,也就是说,我需要在 UI 中快速验证字节长度,并且我不想创建字节数组,但我想在不分配内存的情况下进行计数

java
  • 1 1 个回答
  • 88 Views

1 个回答

  • Voted
  1. Best Answer
    Stanislav Volodarskiy
    2024-10-19T04:56:16Z2024-10-19T04:56:16Z

    ByteCounter计算指定编码中字符串的字节数。内存是在对象创建时分配的。计算本身几乎不分配内存。

    用过的CharsetEncoder.encode。输入缓冲区是一个字符,输出缓冲区是十个字节。如果encode它抱怨输出缓冲区溢出,则会分配一个新的缓冲区,大小是两倍。

    NB encode永远不应该抱怨缓冲区溢出,十个字节对每个人来说应该足够了。对于 UTF-8,最长的字节序列是 4。您甚至不需要更多的表情符号。最大的编码单元是代理对,它总是适合四个字节。

    示例中有两个实例ByteCounter。第一个忽略编码错误,就像String.getBytes.第二个可以检测错误并引发异常。

    import java.nio.ByteBuffer;
    import java.nio.CharBuffer;
    import java.nio.charset.CharacterCodingException;
    import java.nio.charset.Charset;
    import java.nio.charset.CharsetEncoder;
    import java.nio.charset.CoderResult;
    import java.nio.charset.CodingErrorAction;
    import java.util.Scanner;
    
    public class Temp {
        public static void main(String[] args) {
            Charset cs = Charset.forName(args[0]);
            ByteCounter bc1 = new ByteCounter(cs.newEncoder()
                .onMalformedInput     (CodingErrorAction.REPLACE)
                .onUnmappableCharacter(CodingErrorAction.REPLACE)
            );
            ByteCounter bc2 = new ByteCounter(cs.newEncoder());
    
            Scanner sc = new Scanner(System.in);
            while (sc.hasNextLine()) {
                String s = sc.nextLine();
                System.out.print(s.getBytes(cs).length);
                System.out.print(" ");
                try {
                    System.out.print(bc1.countBytes(s));
                } catch (CharacterCodingException e) {
                    System.out.print("N/A");
                }
                System.out.print(" ");
                try {
                    System.out.print(bc2.countBytes(s));
                } catch (CharacterCodingException e) {
                    System.out.print("N/A");
                }
                System.out.print(" ");
                System.out.println(s);
            }
        }
    
        private static class ByteCounter {
            private final CharsetEncoder ce;
            private final CharBuffer in = CharBuffer.allocate(1);
            private ByteBuffer out = ByteBuffer.allocate(10);
            public ByteCounter(CharsetEncoder ce) {
                this.ce = ce;
            }
            public int countBytes(String s) throws CharacterCodingException {
                int bytes = 0;
    
                ce.reset();
                for (int i = 0; i < s.length(); ++i) {
                    char c = s.charAt(i);
                    in.put(0, c);
                    in.position(0);
                    for (; ;) {
                        out.position(0);
                        CoderResult cr = ce.encode(in, out, false);
                        if (cr.isError()) {
                            cr.throwException();
                        }
                        bytes += out.position();
                        if (!cr.isOverflow()) {
                            break;
                        }
                        out = ByteBuffer.allocate(2 * out.capacity());
                    }
                }
                return bytes;
            }
        }
    }
    
    $ javac Temp.java
    
    $ java Temp US-ASCII << EOF
    Hello!
    Привет!
    こんにちは!
    你好!
    EOF
    
    6 6 6 Hello!
    7 7 N/A Привет!
    6 6 N/A こんにちは!
    3 3 N/A 你好!
    
    
    $ java Temp UTF-8 << EOF
    Hello!
    Привет!
    こんにちは!
    你好!
    EOF
    
    6 6 6 Hello!
    13 13 13 Привет!
    18 18 18 こんにちは!
    9 9 9 你好!
    

    PPS我答应用一个字节凑合,但我做不到。如果CharsetEncoder.encode报告溢出,则需要提供更大的缓冲区。他拒绝一次给出一个字节的编码字符串。因此制作了一个十字节的缓冲区,并添加了一种机制来在溢出时增加缓冲区。可以通过将初始缓冲区大小设置为 1 来测试。

    • 4

相关问题

  • wpcap 找不到指定的模块

  • 如何以编程方式从桌面应用程序打开 HTML 页面?

  • Android Studio 中的 R.java 文件在哪里?

  • HashMap 初始化

  • 如何使用 lambda 表达式通过增加与原点的距离来对点进行排序?

  • 最大化窗口时如何调整元素大小?

Sidebar

Stats

  • 问题 10021
  • Answers 30001
  • 最佳答案 8000
  • 用户 6900
  • 常问
  • 回答
  • Marko Smith

    我看不懂措辞

    • 1 个回答
  • Marko Smith

    请求的模块“del”不提供名为“default”的导出

    • 3 个回答
  • Marko Smith

    "!+tab" 在 HTML 的 vs 代码中不起作用

    • 5 个回答
  • Marko Smith

    我正在尝试解决“猜词”的问题。Python

    • 2 个回答
  • Marko Smith

    可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件?

    • 1 个回答
  • Marko Smith

    Python解析野莓

    • 1 个回答
  • Marko Smith

    问题:“警告:检查最新版本的 pip 时出错。”

    • 2 个回答
  • Marko Smith

    帮助编写一个用值填充变量的循环。解决这个问题

    • 2 个回答
  • Marko Smith

    尽管依赖数组为空,但在渲染上调用了 2 次 useEffect

    • 2 个回答
  • Marko Smith

    数据不通过 Telegram.WebApp.sendData 发送

    • 1 个回答
  • Martin Hope
    Alexandr_TT 2020年新年大赛! 2020-12-20 18:20:21 +0000 UTC
  • Martin Hope
    Alexandr_TT 圣诞树动画 2020-12-23 00:38:08 +0000 UTC
  • Martin Hope
    Air 究竟是什么标识了网站访问者? 2020-11-03 15:49:20 +0000 UTC
  • Martin Hope
    Qwertiy 号码显示 9223372036854775807 2020-07-11 18:16:49 +0000 UTC
  • Martin Hope
    user216109 如何为黑客设下陷阱,或充分击退攻击? 2020-05-10 02:22:52 +0000 UTC
  • Martin Hope
    Qwertiy 并变成3个无穷大 2020-11-06 07:15:57 +0000 UTC
  • Martin Hope
    koks_rs 什么是样板代码? 2020-10-27 15:43:19 +0000 UTC
  • Martin Hope
    Sirop4ik 向 git 提交发布的正确方法是什么? 2020-10-05 00:02:00 +0000 UTC
  • Martin Hope
    faoxis 为什么在这么多示例中函数都称为 foo? 2020-08-15 04:42:49 +0000 UTC
  • Martin Hope
    Pavel Mayorov 如何从事件或回调函数中返回值?或者至少等他们完成。 2020-08-11 16:49:28 +0000 UTC

热门标签

javascript python java php c# c++ html android jquery mysql

Explore

  • 主页
  • 问题
    • 热门问题
    • 最新问题
  • 标签
  • 帮助

Footer

RError.com

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

帮助

© 2023 RError.com All Rights Reserve   沪ICP备12040472号-5