扣丁书屋

Golang 过滤 emoji 表情

有朋友说:最近也被腾讯云MySQL存储emoji给坑了。不过处理的方法是转义0x1F000~0x1FA00这一段的emoji表情

在 Ruby 中,我们可以直接调用 str.length 来判断字符串的长度。

在 Golang 中,不能直接调用 len 函数来统计字符串字符长度,这是因为在 Go 中,字符串是以 UTF-8 为格式进行存储的,在字符串上调用 len 函数,取得的是字符串包含的 byte 的个数。

例如字符串:"Hello, 世界" 包含 9 个字符。使用 len("Hello, 世界") 得到的结果为 13,因为这个字符串占用 13 个字节:

s := "Hello, 世界"
fmt.Println(len(s)) // 13
fmt.Println([]byte(s)) // [72 101 108 108 111 44 32 228 184 150 231 149 140]

那么如何统计 Golang 字符串长度呢?有下面几种方法:

  • 使用 bytes.Count() 统计
  • 使用 strings.Count() 统计
  • 将字符串转换为 []rune 后调用 len 函数进行统计
  • 使用 utf8.RuneCountInString() 统计

对应代码如下:

package count

import "bytes"
import "strings"
import "unicode/utf8"

func f1(s string) int {
    return bytes.Count([]byte(s), nil) - 1
}

func f2(s string) int {
    return strings.Count(s, "") - 1
}

func f3(s string) int {
    return len([]rune(s))
}

func f4(s string) int {
    return utf8.RuneCountInString(s)
}

用上面 4 个函数计算字符串"Hello, 世界" 都会得到正确的字符个数:9。那究竟哪个方法更好一些呢?做一下测试看看:

创建文件:count_test.go,内容如下:

package count

import "bytes"
import "strings"
import "unicode/utf8"
import "testing"

func f1(s string) int {
    return bytes.Count([]byte(s), nil) - 1
}

func f2(s string) int {
    return strings.Count(s, "") - 1
}

func f3(s string) int {
    return len([]rune(s))
}

func f4(s string) int {
    return utf8.RuneCountInString(s)
}

var s = "Hello, 世界"

func Benchmark1(b *testing.B) {
    for i := 0; i < b.N; i++ {
        f1(s)
    }
}

func Benchmark2(b *testing.B) {
    for i := 0; i < b.N; i++ {
        f2(s)
    }
}

func Benchmark3(b *testing.B) {
    for i := 0; i < b.N; i++ {
        f3(s)
    }
}

func Benchmark4(b *testing.B) {
    for i := 0; i < b.N; i++ {
        f4(s)
    }
}

在命令行中运行命令:go test count_test.go -bench ".*",输出如下内容:

testing: warning: no tests to run PASS Benchmark1 10000000 118 ns/op Benchmark2 20000000 63.7 ns/op Benchmark3 10000000 248 ns/op Benchmark4 20000000 59.9 ns/op ok command-line-arguments 6.635s

从测试结果来看,速度最快的是 utf8.RuneCountInString()。

另:大家应该都知道 MySQL >= 5.5.3版本才支持 emoji 表情,如果不做处理直接保存的话,会发生MySQL 异常:Error 1366: Incorrect string value: '\xF0\x9F\x98\x84\xF0\x9F...' for column 如果要让 DB 直接支持,只需要升级 MySQL 版本,然后字符集设置为utf8m4,注意:对于旧表必须将字段的字符也做utf8m4更改才能生效。

如果 MySQL 升级比较麻烦,那么我们还可以通过过滤 emoji 表情,不支持它的存储来达到正常使用的效果。

// 过滤 emoji 表情 
func FilterEmoji(content string) string {
    new_content := "" 
    for _, value := range content {
        _, size := utf8.DecodeRuneInString(string(value)) 
        if size <= 3 { 
            new_content += string(value) 
        }
    }
    return new_content 
}

有朋友说:最近也被腾讯云MySQL存储emoji给坑了。不过处理的方法是转义0x1F000~0x1FA00这一段的emoji表情

SHELL快速入门

shell是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。Ken Thompson的sh是第一种Unix Shell,Windows Explorer是一个典型的图形界面Shell。

发布于:4月以前  |  250次阅读  |  详细内容 »

移动设备怎样定位

解释说明移动设备的定位原理

发布于:4月以前  |  263次阅读  |  详细内容 »

node-sass在Mac下安装失败(下载失败)的解决方案

使用命令`npm install node-sass --save-dev` 在 mac下无法安装的解决方案

发布于:9月以前  |  413次阅读  |  详细内容 »

px、em、rem区别

本文通过说明px,em,rem的关系,指导如何使用字体单位。

发布于:9月以前  |  337次阅读  |  详细内容 »

rm -rf * 删除操作报 “Argument list too long”的处理方法

当目录下有很多文件时,`rm *`删除文件会失败。

发布于:9月以前  |  322次阅读  |  详细内容 »

使用olivere对ElasticSearch进行简单搜索

使用github.com/olivere/elastic进行简单搜索。

发布于:9月以前  |  718次阅读  |  详细内容 »

使用"github.com/olivere/elastic"操作Elasticsearch的简单示例

github.com/olivere/elastic的简单示例,包括增,删,改,查。

发布于:9月以前  |  1393次阅读  |  详细内容 »

罗振宇2017-2018跨年演讲::中国式机会的六个“脑洞”

“时间的朋友”2017年罗振宇跨年演讲如约而至。罗振宇从一个问题开启,对你来说,2017年哪一天你认为很重要?

发布于:9月以前  |  586次阅读  |  详细内容 »

罗振宇2018-2019跨年演讲:黑天鹅、小趋势、5G、人工智能、创新......

2018年12月31日20:30,深圳“春茧”体育馆,罗振宇2018“时间的朋友”跨年演讲如约而至。

发布于:9月以前  |  533次阅读  |  详细内容 »

罗振宇2020-2021跨年演讲:中国的优势、数字化、新变量……

2020年12月31日20:30,武汉光谷国际网球中心,罗振宇“时间的朋友”跨年演讲如约而至。

发布于:9月以前  |  940次阅读  |  详细内容 »

手机扫码阅读