initial commit

2 years ago · f07fc58d1f
commit f07fc58d1f
4 changed files with 140 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1 @@
 /target
--- a/Cargo.lock
+++ b/Cargo.lock
@ -0,0 +1,7 @@
 # This file is automatically @generated by Cargo.
 # It is not intended for manual editing.
 version = 3
 [[package]]
 name = "tpstrutil"
 version = "0.1.0"
--- a/Cargo.toml
+++ b/Cargo.toml
@ -0,0 +1,8 @@
 [package]
 name = "tpstrutil"
 version = "0.1.0"
 edition = "2021"
 # See more keys and their definitions at https://doc.rust-lang.org/cargo/reference/manifest.html
 [dependencies]
--- a/src/lib.rs
+++ b/src/lib.rs
@ -0,0 +1,124 @@
 pub fn truncate_str_to_array<const N: usize>(s: &str) -> ([u8; N], usize) {
    let mut buf = [0u8; N];
    let tr_len = truncated_str_len(s, N);
    // SAFETY:
    // `truncated_str_len` is guaranteed to return a length less than or equal to both the string
    // length and the maximum truncated length `N`.
    let src = unsafe { s.as_bytes().get_unchecked(..tr_len) };
    let dst = unsafe { buf.get_unchecked_mut(..tr_len) };
    dst.copy_from_slice(src);
    (buf, tr_len)
 }
 pub fn truncated_str_len(s: &str, n: usize) -> usize {
    let bs = s.as_bytes();
    if bs.len() <= n {
        return bs.len();
    }
    let mut tr_len = n;
    // Repeatedly check if the byte `bs[tr_len]` (the byte immediately after the end of the
    // candidate truncated string) is a continutation byte. We are splitting the string at a
    // codepoint boundary (and therefore have a valid truncated string) iff this byte is not a
    // continuation byte. There can be a maximum of 3 consecutive continuation bytes, so if the
    // `is_utf8_continutation` check returns true 3 times in a row then we know the next byte will
    // not be a continutation without the need to check; therefore, we can use `take` and hopefully
    // allow the compiler to unroll the loop. `bs.len() > n` must hold here, so the slice will
    // never panic.
    for b in bs[..=tr_len].iter().copied().rev().take(3) {
        if !is_utf8_continutation(b) {
            break;
        }
        // This would underflow if `tr_len == 0`, but the first byte of a utf8 string is guaranteed
        // not to be a continuation byte so this cannot happen.
        tr_len -= 1;
    }
    tr_len
 }
 pub fn is_utf8_continutation(b: u8) -> bool {
    b & 0b11000000 == 0b10000000
 }
 #[cfg(test)]
 mod tests {
    use std::str;
    use super::{truncated_str_len, truncate_str_to_array};
    #[test]
    fn test_truncate_str_len() {
        assert_eq!(truncated_str_len("", 0), 0);
        assert_eq!(truncated_str_len("", 1), 0);
        assert_eq!(truncated_str_len("", 2), 0);
        assert_eq!(truncated_str_len("", 3), 0);
        assert_eq!(truncated_str_len("", usize::MAX), 0);
        assert_eq!(truncated_str_len("hi", 0), 0);
        assert_eq!(truncated_str_len("hi", 1), 1);
        assert_eq!(truncated_str_len("hi", 2), 2);
        assert_eq!(truncated_str_len("hi", 3), 2);
        assert_eq!(truncated_str_len("hi", usize::MAX), 2);
        assert_eq!(truncated_str_len("日本", 0), 0);
        assert_eq!(truncated_str_len("日本", 1), 0);
        assert_eq!(truncated_str_len("日本", 2), 0);
        assert_eq!(truncated_str_len("日本", 3), 3);
        assert_eq!(truncated_str_len("日本", 4), 3);
        assert_eq!(truncated_str_len("日本", 5), 3);
        assert_eq!(truncated_str_len("日本", 6), 6);
        assert_eq!(truncated_str_len("日本", 7), 6);
        assert_eq!(truncated_str_len("日本", 8), 6);
        assert_eq!(truncated_str_len("日本", 9), 6);
        assert_eq!(truncated_str_len("日本", usize::MAX), 6);
        assert_eq!(truncated_str_len("cafe\u{0301}s", 0), 0);
        assert_eq!(truncated_str_len("cafe\u{0301}s", 1), 1);
        assert_eq!(truncated_str_len("cafe\u{0301}s", 2), 2);
        assert_eq!(truncated_str_len("cafe\u{0301}s", 3), 3);
        assert_eq!(truncated_str_len("cafe\u{0301}s", 4), 4);
        assert_eq!(truncated_str_len("cafe\u{0301}s", 5), 4);
        assert_eq!(truncated_str_len("cafe\u{0301}s", 6), 6);
        assert_eq!(truncated_str_len("cafe\u{0301}s", 7), 7);
        assert_eq!(truncated_str_len("cafe\u{0301}s", 8), 7);
        assert_eq!(truncated_str_len("cafe\u{0301}s", usize::MAX), 7);
    }
    #[test]
    fn test_truncate_str_to_array() {
        fn array_to_str<const N: usize>(x: &([u8; N], usize)) -> &str {
            str::from_utf8(&x.0[..x.1]).unwrap()
        }
        assert_eq!(array_to_str(&truncate_str_to_array::<0>("")), "");
        assert_eq!(array_to_str(&truncate_str_to_array::<1>("")), "");
        assert_eq!(array_to_str(&truncate_str_to_array::<2>("")), "");
        assert_eq!(array_to_str(&truncate_str_to_array::<3>("")), "");
        assert_eq!(array_to_str(&truncate_str_to_array::<0>("hi")), "");
        assert_eq!(array_to_str(&truncate_str_to_array::<1>("hi")), "h");
        assert_eq!(array_to_str(&truncate_str_to_array::<2>("hi")), "hi");
        assert_eq!(array_to_str(&truncate_str_to_array::<3>("hi")), "hi");
        assert_eq!(array_to_str(&truncate_str_to_array::<0>("日本")), "");
        assert_eq!(array_to_str(&truncate_str_to_array::<1>("日本")), "");
        assert_eq!(array_to_str(&truncate_str_to_array::<2>("日本")), "");
        assert_eq!(array_to_str(&truncate_str_to_array::<3>("日本")), "日");
        assert_eq!(array_to_str(&truncate_str_to_array::<4>("日本")), "日");
        assert_eq!(array_to_str(&truncate_str_to_array::<5>("日本")), "日");
        assert_eq!(array_to_str(&truncate_str_to_array::<6>("日本")), "日本");
        assert_eq!(array_to_str(&truncate_str_to_array::<7>("日本")), "日本");
        assert_eq!(array_to_str(&truncate_str_to_array::<0>("cafe\u{0301}s")), "");
        assert_eq!(array_to_str(&truncate_str_to_array::<1>("cafe\u{0301}s")), "c");
        assert_eq!(array_to_str(&truncate_str_to_array::<2>("cafe\u{0301}s")), "ca");
        assert_eq!(array_to_str(&truncate_str_to_array::<3>("cafe\u{0301}s")), "caf");
        assert_eq!(array_to_str(&truncate_str_to_array::<4>("cafe\u{0301}s")), "cafe");
        assert_eq!(array_to_str(&truncate_str_to_array::<5>("cafe\u{0301}s")), "cafe");
        assert_eq!(array_to_str(&truncate_str_to_array::<6>("cafe\u{0301}s")), "cafe\u{0301}");
        assert_eq!(array_to_str(&truncate_str_to_array::<7>("cafe\u{0301}s")), "cafe\u{0301}s");
        assert_eq!(array_to_str(&truncate_str_to_array::<8>("cafe\u{0301}s")), "cafe\u{0301}s");
    }
 }