第302章 数据挖掘 (2/6)
bsp; • 数据源整合:接入“Wind金融终端”(公开财报、股东户数)、“同花顺Level-2”(盘口挂单、成交量脉冲)、“龙虎榜数据库”(机构席位动向)、“隐形账户实时数据”(亲属账户盘口观察),形成“四维数据池”;
• 噪音过滤:用“钱荒逆行21.0”的“异常值剔除算法”,过滤“ST股”(监管**险)、“日均成交额<5000万”(流动性不足)、“近3个月有重大资产重组”(基本面扰动)等无效数据,将初始3000只股票压缩至2000只“有效样本”。
(2)二阶:五维特征“匹配引擎”
• 基于第301章“五维特征模型”(流通盘5-20亿、股东户数降>20%、脉冲成交量>5倍、盘口挂单撤单率>40%、筹码集中度<15%),开发“特征匹配算法”:
◦ 流通盘:自动抓取“总股本”与“流通股本”,筛选“5亿≤流通盘≤20亿”标的(如“凤竹纺织”8亿流通盘);
◦ 股东结构:比对“季度股东户数”与“户均持股”,计算“户数降幅”与“户均增幅”(如“柘中股份”户数降25%);
◦ 量能脉冲:识别“单日换手率\/日均换手率>5”且“股价波动<3%”的脉冲(如“上海凤凰”25%换手率仅涨1.2%);
◦ 盘口语言:统计“千手挂单占比”与“撤单率”(如“慧球科技”挂单撤单率42%);
◦ 筹码分布:调用“筹码集中度(90%)”指标(如“柘中股份”12%)。
(3)三阶:关联规则“排伪滤网”
• 用“Apriori关联规则算法”识别“伪庄股”(如游资短炒股伪装庄股):
◦ 排除“涨停敢死队”标的:若标的近1个月“涨停次数>5次”且“涨停次日换手率>20%”,判定为“游资短炒”(非庄股);
◦ 排除“消息驱动”标的:若标的近期有“政策利好”“业绩预增”公告,且股价上涨伴随“机构研报密集发布”,判定为“消息驱动”(非庄股);
◦ 案例:2017年“天山股份”因“一带一路”利好暴涨,数据挖掘模块通过“消息驱动”规则将其排除,避免误判为庄股。
(4)四阶:人工复核“终审法庭”
• 林静团队对87只候选股进行“人工终审”:
◦ 盘口复现:调取“隐形账户”观察的“挂单序列”(如“凤竹纺织”的“8888手托单”),验证算法识别准确性;
◦ 庄家风格匹配:结合“温州帮”(爱炒小盘次新)、“山东帮”(爱炒国企改革)、“游资庄”(爱炒题材热点)的历史数据,标注每只候选股的“疑似庄家类型”;
◦ 风险评级:按“控盘度(高\/中\/低)”“拉升概率(>70%\/50%-70%\/<50%)”“监管风险(高\/中\/低)”分为“S\/A\/B\/C”四级,优先推荐“S级”(高控盘、高概率、低风险)。
二、实战应对:以“数据熔炉”为炉,以“特征匹配”为火
1. 第一道防线:“2000只样本”的“清洗熔炉实战”
团队用“数据挖掘四阶流程
本章未完,请点击下一页继续阅读