序号 | 数据类型 | 示例 | 清洗策略 |
1 | 测试数据 | ts全流程测试A,勿报名招标公告 mmj + slsd (测试项目,请勿报名) 国泰测试】水利远程异地测…… 这是一条测试数据国泰测试–稠州银行(请勿报名) epointtest2 双城区五家街道办事处五家村邮储测试合作社1.00亩旱田使用权测试请勿报名 怒江州泸水市测试测试测试 恒瑞通-xmm流程验证项目test测试–测试项目(勿投) 北京筑龙公告审核测试测试测试-BWW-新资格预审公告 招商局天翼漏洞修复–测试测试测试–不接受投标招标公告 3.0测试-1105招标项目流程验证测试测试测试1资格预审公 | 自动清除 |
2 | 重复数据 | 大连海警局中山工作站外电路改造项目竞争性磋商公告,系统采集了至少五个来源:大连市中山区人民政府、全国公共资源交易平台(辽宁省)、大连市政府采购网、辽宁大连市公共资源交易平台、中国政府采购网 | 多重规则去重 程序识别,去重 |
3 | 低价值数据 | 公众号、电子卖场成交与履约信息,数据量大,价值低 | 识别后降低权重 |
4 | 格式异常数据 | 中国招标投标公共服务平台,陕西省招标与采购网等,文本为PDF附件 | 文本识别后加入 |
5 | 特定格式数据 | 采购意向、开标信息、候选人信息等以表格为主的信息 | 表格单独提取或转换成规范文本 |