异常信息:TiDB 节点 [网卡接收流量][异常:+1] - [网卡接收流量:7238.37 Mbps,超过阈值:6000Mbps]
集群版本信息 :5.7.25-TiDB-v3.0.13
集群架构 :负载均衡haproxy+3TiDB + nTiKV +3PD
1、开启haproxy访问日志、开启tidb session节点的general log
2、观察 node_exporter 得到异常流量时间段
3、观察另一个监控面板
找到对应异常时间段 峰值最高的tikv机器 获得他的ip 端口
4、在异常tidb节点上 查找对应时间段的 tidb.log和tidb_slow_query.log
查看经常发送消息到该tikv的时间戳 ,是否经常性重复
[root@ log]# cat tidb-2020-11-26T14-38-01.423.log|grep ‘10.64.126.38’|less
找对对应的sql 再次确认是否批量中查询
[root@ log]# cat tidb-2020-11-26T14-38-01.423.log|grep ‘421100675562733590’|wc -l
9162
5、查看了慢查询日志找到对应的sql语句
select * from audit_result where doc_id=389611123;
6、查看该sql的表结构:该查询字段存在索引,但是该字段格式为varchar
explain分析该sql发现 不带引号扫了全表 没有走索引
由于引号引起的坑 记录一下#