网站app简单做,潍坊百度网站快速排名,包头网站建设多少钱,西地那非片的功效是多长时间背景
用户输入的搜索关键词可能是包含中英文、特殊字符混合的字符串#xff0c;如果长度超长#xff0c;可能会导致下游服务的报错#xff0c;需要提前对keyword做截断。
版本一 (只考虑中英文) bool CutOff(std::string keyword){int query_length keyword.length();// …背景
用户输入的搜索关键词可能是包含中英文、特殊字符混合的字符串如果长度超长可能会导致下游服务的报错需要提前对keyword做截断。
版本一 (只考虑中英文) bool CutOff(std::string keyword){int query_length keyword.length();// 空结果直接返回if(keyword 0){LOG(WARNING) bad query, the length of query is zero;return false;}auto query_max_lengthConfig::GetMaxKeywordQueryLength()*3;// 超过最大长度截断 注一个汉字长度为3if (query_length query_max_length) {const char* query keyword.c_str();int end 0;while (end query_max_length end strlen(query)) {int one_word ((unsigned int)query[end] 0x80) ? 3 : 1;if (end one_word query_max_length) {end one_word;} else {break;}}keyword keyword.substr(0, end);}
}版本二考虑所有字符
上线后发现请求下游rpc服务时会有INTERNAL错误。原因是keyword中可能包含特殊字符只按照3字节和1字节的方式取有可能出现将一个字符截取一半出现乱码的情况。
为了覆盖所有的字符类型需要了解UTF-8的特点。
UTF-8是一种变长字节编码方式。 对于某一个字符的UTF-8编码如果只有一个字节则其最高二进制位为0如果是多字节其第一个字节从最高位开始连续的二进制位值为1的个数决定了其编码的位数其余各字节均以10开头。UTF-8最多可用到6个字节。
读取每个字符的时候需要根据其首位字节的大小确定该字符占用了多少字节再往后取多少字节。
bool CutOff(std::string keyword) {int query_length keyword.length();// 空结果直接返回if (query_length 0) {LOG(WARNING) bad query, the length of query is zero;return false;}auto query_max_length 300;// 超过最大长度截断if (query_length query_max_length) {const char* query search_context-query.c_str();int end 0;int one_word 0;while (end query_max_length end strlen(query)) {unsigned char str (unsigned int)query[end];if (str 252) { // 六个字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxxone_word 6;} else if (str 248) { // 五个字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxxone_word 5;} else if (str 240) { // 四个字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxxone_word 4;} else if (str 224) { // 三字节 1110xxxx 10xxxxxx 10xxxxxxone_word 3;} else if (str 192) { // 两字节 110xxxxx 10xxxxxxone_word 2;} else { // 单字节 0xxxxxxxone_word 1;}if (end one_word query_max_length) {end one_word;} else {break;}}keyword keyword.substr(0, end);}
}