超级关键词URL采集工具:superl-url

日期: 栏目:工具 浏览:1524 评论:0

superl-url 关键词URL采集

一款基于Python的开源免费关键词URL采集工具

  • 根据关键词,对搜索引擎内容检索结果的网址内容进行采集的一款轻量级软程序。

  • 程序主要运用于安全渗透测试项目,以及批量评估各类CMS系统0DAY的影响程度

  • 同时也是批量采集自己获取感兴趣的网站的一个小程序~~

  • 可自动从搜索引擎采集相关网站的真实地址与标题等信息,可保存为文件,自动去除重复URL。

  • 同时,也可以自定义忽略多条域名。

  • 超级关键词URL采集工具:superl-url-第1张图片-Ceacer网络


程序特色

  • 支持同时采集多个搜索引擎(已内置了百度,搜狗,360),结构模块化,很方便进行扩展,可以无限添加。

  • 获取到的是搜索引擎的搜索结果的真实URL地址

  • 跨平台,采用Python开发,所有代码完整开源.并且无捆绑后门风险,更新方便。

  • 网上大部分URL采集软件为WINDOWS下的可执行文件,并且很多都在搜索引擎更新后无法正常使用。

  • 强大的过滤功能。可过滤多种顶级域名,可过滤指定标题中包含某关键子的URL

  • 比如搜索结果中过滤属于youku.com的子域名URL。支持TXT配置过滤。

  • 可自动去除重复URL

  • 可灵活的通过配置文件自定义要保存的结果格式。比如只输出带参数的原始真实URL

  • 或者只输出域名,或者同时输出标题,搜索引擎名称。

  • 可灵活的开启与关闭参与采集的搜索引擎,比如只想使用百度,就把其他搜索引擎参数设置为False即可。

  • 同时兼容python3和python2版本运行!良心开源小产品啊~~~

  • 可分别自定义不同搜索引擎每页显示数量(如果搜索引擎自身支持的话)

  • 支持多进程同时采集,每个索引擎一个进程

  • 可自定义每页采集时间间隔,防止被屏蔽

  • 实时显示采集到的网页的【真实URL】以及【标题】。

  • 前面的【ID】对应的是当前页搜索引擎结果的第X条数据

  • 保存类型可自定义,目前支持保存为本地txt,以及写入远程MYSQL数据库!

superl-url安装与使用

安装依赖

  • python3: pip install ConfigParser pip install tldextract

  • Python2: pip install tldextract pip install -i https://pypi.tuna.tsinghua.edu.cn/simple configparser

  • 如果提示模块不存在,则根据提示进行安装!

使用说明

  • 如果要采集关键词为“hacker”的相关网站,采集搜索结果的前3页,则输入如下:

  • please input keyword:hacker

  • Search Number of pages:3

配置文件说明 config.cfg

节点参数示例值说明globalsave_typemysql保存类型 可选择file或者mysql 如果是file则保存为本地txtglobalsleep_time1每次搜索处理完一页后的等待时间,防止太频繁被搜索引擎屏蔽urlurl_typerealurl保存文件txt里面显示的url类型。realurl=真实网站地址 baseurl=原始搜索引擎地址 urlparam=带参数的真实网站地址filterfilter_statusTrue是否开启过滤器,如果开启,则过滤域名和标题都不生效filterfilter_domainTrue是否过滤域名filterfilter_titleTrue是否过滤标题logwrite_titleTrue是否显示标题logwrite_nameTrue是否显示搜索引擎名称enginebaiduTrue百度搜索引擎模块是否开启enginesougouTrue搜狗模块是否开启enginesoFalse搜搜模块是否开启 (搜搜现在抓取不到了)pagesizebaidu_pagesize50每页条数pagesizesougou_pagesize50每页条数pagesizeso_pagesize10每页条数mysqlhost127.0.0.1如果保存类型为Mysql,则此节点必须配置正确mysqlport3306端口mysqluserroot用户名mysqlpasswordroot密码mysqldatabasesuperldb数据库名称mysqltablesearch_data表名称filesave_pathdirresult如果保存类型为file,则这里设置的是保存的路径,当前为程序根目录的result文件夹pluginprTrue预留的插件功能,暂时不支持

数据库创建表sql语句

项目下载地址:https://github.com/super-l/superl-url

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。发布前请先查看评论规则:点我查看