首席律师徐新明

13910160652

ciplawyer@163.com

关于我们

在线咨询

专利

更多 >>
商标

更多 >>
版权

更多 >>
商业秘密

更多 >>
反不正当竞争

更多 >>
植物新品种

更多 >>
地理标志

更多 >>
集成电路布图设计

更多 >>
技术合同

更多 >>
传统文化

更多 >>

点击展开全部

律师动态

更多 >>

2026.05.11

徐新明律师接受《天津日报》采访：解读2025年度天津市专利行政保护案例

2026.03.09

著名知识产权律师徐新明接受《中国经营报》采访：技术革新下知识产权保护面临新挑战与应对策略

2026.02.10

徐新明律师经典案例：刘某与西安某生物科技有限公司技术合作开发合同纠纷案

知产速递

更多 >>

审判动态

更多 >>

案例聚焦

更多 >>

法官视点

更多 >>

裁判文书

更多 >>

法律宝库

更多 >>

中国法库

法律法规立法动态政策指引
国际法库

他国法律国际公约

返回列表

首页 > 互联网 > 数据算法

数据库数据来源的法律风险分析报告

发布时间：2025-06-26 来源：中国知识产权律师网作者：苑琳

标签：学术查重数据爬取法律风险数据库

字号: +-

563

在数字经济时代，数据资源已成为商业竞争的核心资产，而数据获取与使用的合法性边界亟待厘清。本文聚焦学术查重服务中的三类典型数据来源——知网下载论文、淘宝购买数据库及网络爬虫抓取公开数据，系统剖析其侵权风险与司法认定逻辑。通过解构“阳光数据库诉霸才案”“大众点评诉百度案”“抖音数据侵权案”等典型判例，揭示数据使用中隐含的著作权法、反不正当竞争法及个人信息保护法合规雷区。尤其针对当前普遍存在的“数据爬取即自由”认知误区，结合杭州互联网法院确立的公共数据使用四原则（来源合法、时效保障、质量管控、敏感校验），指明技术中立原则下的行为责任边界。研究旨在为数据驱动型业务提供可操作的合规路径，规避高额赔偿与刑事风险。

一、数据来源的侵权风险分析

1. 知网下载的论文数据：确定侵权

知网论文受《著作权法》保护，其授权仅限个人学习使用，而商业性查重服务属于“复制+信息网络传播”行为，需获得知网及作者的双重授权，未经许可使用将面临高额赔偿。

类似侵犯著作权的行为在司法实践中已有判例，如“网络爬虫非法抓取电子书”侵犯著作权罪案，被告单位鼎阅公司在覃某某等12名被告人负责管理或参与运营下，自2018年起未经权利公司许可，利用网络爬虫技术爬取正版电子图书，在其推广运营的多个App中展示供他人访问下载阅读，并通过广告收入、付费阅读等方式牟利。

一审法院认为鼎阅公司及覃某某等12名被告人以营利为目的，未经著作权人许可，复制发行他人享有著作权的文字作品，情节特别严重，均构成侵犯著作权罪。

2. 淘宝购买的数据库：侵权风险较高

淘宝上售卖的论文数据库大多是通过盗用高校知网账号或非法爬取数据而来，而知网已明确声明其检测系统仅面向机构开放，未授权任何个人销售相关服务。

购买此类数据可能触犯多项法律，一方面，依照《著作权法》第五十三条之规定，未经著作权人许可复制、通过信息网络向公众传播其作品等行为，需承担民事责任，损害公共利益的还会被主管部门责令停止侵权、警告、没收违法所得及侵权相关物品等，违法经营额达一定数额可并处罚款，构成犯罪的还将依法追究刑事责任。

另一方面，若数据库包含个人信息，还可能涉嫌违反《个人信息保护法》第十条规定的“任何组织、个人不得非法收集、使用、加工、传输、买卖、提供或公开他人个人信息”；此外，若用户在淘宝购买时明知数据是非法爬取所得，还可能被认定为共同犯罪中的共犯。

3. 爬虫爬取的公开数据：有限合法性——网络公开数据绝不等于爬虫可以在网络上自由的抓取数据。

(1) 合法范围：少量、低频，仅限无需登录即可访问的数据（如政府公开报告、开放存取的学术摘要）；

须留意，绝大多数网站服务条款都明确禁止未经授权的爬取行为，即便数据处于公开状态；而且在数据传播过程中若给企业带来不利影响，使用者仍应承担相应责任。

以杭州互联网法院审理的“浙江蚂蚁小微金融服务集团诉苏州朗动网络科技案”为例，该案作为2020年度知识产权司法保护十大典型案例，明确公共数据使用者须遵循“来源合法、信息时效性保障、数据质量管控及敏感信息校验”四项原则。

裁判文书指出，即便数据源于公共开放平台，若使用者未尽必要注意义务（如未核验数据真实性或未合理脱敏），导致原始数据主体商誉或经济利益受损，依照《反不正当竞争法》法仍构成不正当竞争行为。

该案涉及大数据生态系统中公共数据使用者与数据原始主体因数据使用质量引发的纠纷，以及大数据商业模式下公共数据使用行为的正当性问题。尽管数据源自公共数据，但信息发布和推送应客观公正反映企业信息，不应损害原始主体商业利益。

本案被告行为虽不是《反不正当竞争法》第二章规定的具体竞争行为，但判决依据该法第二条，从原告是否享有受保护权益、被诉行为是否不正当及主观过错、双方是否属竞争关系、被诉行为是否造成损害五个方面进行了评价。

由此可见，即便是公开的公共数据，也不得损害国家、社会及其他主体尤其是原始主体的合法权益，若使用中未尽注意义务，违反诚实信用原则、商业道德、扰乱市场竞争秩序，仍可能具有违法性。

(2) 侵权风险

a. 抓取开放网站的数据库中的数据可能构成侵权

我们通过对案件进行梳理发现，对于网络数据的爬取行为通常适用《反不正当竞争法》进行规制。虽然该法的第十二条作为互联网专条，但是其规定的行为模式并不能完全涵盖互联网侵权行为，实践中法官多适用《反不正当竞争法》第二条对法律漏洞进行填补。

从相关案例来看，我国第一例依反不正当竞争法审理的有关电子数据库的案件是1998年的北京阳光数据库公司诉上海霸才收集信息有限公司案。本案中，阳光公司（原告）以自己的SIC数据格式对其获取的原始行情数据进行整理、汇编形成综合行情信息流，并与霸才公司（被告）订立了信息使用合同，约定原告许可被告以数据格式为基础开发有关分析软件，但不得对外转发原告的数据。后来被告从原告的综合数据流中萃取了行情信息，并将其汇进被告的综合数据流中转发给自己的客户。

法院认为阳光公司的"SIC实时金融"电子数据库在数据编排和选择上无独创性，不构成著作权法意义上的作品，因此无法通过著作权法保护，只能转向反不正当竞争法的一般条款寻求保护，最终认定霸才公司的行为违反了经营者在市场交易中应当遵循的诚实信用原则和公认的商业道德，损害了阳光公司的合法权益，已构成不正当竞争。

本案开创性地将电子数据库保护纳入《反不正当竞争法》保护范围，为后续类似案件提供了重要参考。

在2016年的大众点评诉百度地图案中，大众点评网收集大量商户信息及点评信息，百度地图大量使用这些点评信息，法院认为虽数据公开，但爬取行为对原平台服务构成实质性替代，损害其竞争优势，结合原平台对数据的实质性投资及竞争损害，依据反不正当竞争法第二条判定百度行为构成实质性损害、违反诚实信用原则和商业道德。

在2021年上海市杨浦区人民法院审理的“用药助手”APP案里，原告为制作药品说明书数据库付出大量成本，被告软件数据库内容与原告高度相似且上线数据更新异常。法官认为，虽药品说明书本身属公开信息，但经人工收集整合后的数据库能带来市场利益，被告行为超出正当竞争界限；但是由于该行为模式不属于“技术手段妨碍网络服务”，因此不适用《反不正当竞争法》第十二条，且药品说明书不具独创性因此无法受著作权法保护，故通过《反不正当竞争法》第二条认定构成不正当竞争；

由此可见，即便涉案数据本身来源于公共领域，其后续的获取或使用行为仍可能构成侵权。在审理涉及公开数据的侵权纠纷时，法院通常会遵循递进式审查路径：首先甄别数据库在数据选择或编排上是否具备独创性，以此判断其能否纳入《著作权法》保护范畴；其次考察数据信息是否满足秘密性、价值性及保密措施三大要件，判定其是否构成受法律保护的商业秘密；再次依据《反不正当竞争法》第十二条关于网络不正当竞争行为的具体规定，分析数据获取或使用的技术手段（如利用技术手段破坏、妨碍他人产品或服务正常运行）是否构成该条所列举的禁止性行为；最后，若前述具体条款难以适用，则回归《反不正当竞争法》第二条的诚实信用原则与商业道德，综合考量行为是否损害原告竞争利益、构成对原告产品或服务的实质性替代，以及是否违背公认的商业道德。

b. 违反网站robots协议或服务条款，采取一定的技术手段抓取网站数据，可能构成不正当竞争

Robots协议，又称爬虫协议或机器人协议，是国际互联网界广泛认可的道德规范，旨在保护网站数据与敏感信息，保障用户个人信息和隐私，网站通过该协议规定爬虫抓取内容的范围，网络爬虫据此自动决定是否抓取特定网页内容，它是网站表明爬虫抓取偏好的行业标准。

虽然Robots协议非直接法律，但违反它常被当作“未经授权”或“恶意行为”的证据，法院在很多判决中将其视为行业惯例。实践中，若违反网站Robots协议采取一定技术手段进行爬取，通常被认定为构成不正当竞争。例如2019年的腾讯诉字节案中，腾讯指控字节跳动公司未经授权使用爬虫抓取微信公众平台数据并在“今日头条”平台使用，认为其违反Robots协议构成不正当竞争，要求赔偿1亿元，字节跳动公司反驳称行为合理合法，最终法院认定构成不正当竞争，判决字节跳动公司赔偿腾讯公司经济损失及合理开支共计300万元。

但是，并非任何违反robots协议或服务条款的行为都会构成反不正当竞争，robots协议的效力更多是一种“君子协定”，在认定时也需综合考虑其他因素。

如2017年的奇虎诉百度案中，虽然奇虎违反了Robots协议，但是法院认定百度构成不正当竞争。这是因为百度通过设置robots协议限制奇虎360搜索引擎抓取网页内容，此行为与robots协议初衷相悖。该协议本为指引搜索引擎有效抓取有用信息、促进信息共享，而百度公司却人为设置信息流动障碍。

判决认定，从互联网搜索行业发展现状看，百度搜索引擎市场份额占优，限制360搜索引擎抓取会降低360搜索用户满意度、损害奇虎公司权益，同时增强百度搜索引擎市场优势地位。将网站比作对公众开放的博物馆，robots 协议如提示牌，限制通用搜索引擎抓取应有合理、正当理由，如保护内部或敏感信息、维护网站正常运行、保护社会公共利益。本案中百度公司限制抓取的内容不属于上述情况。综上，法官认定百度公司的涉案行为损害了奇虎公司权益、扰乱市场秩序、损害网络用户利益，构成不正当竞争。

c. 抓取需登录才可查看的内容，或采取一定的技术手段，属于突破技术措施的非法获取

抓取需登录才可查看的内容，如知网全文、付费论文，或采取破解验证码、伪造User-Agent、使用代理池规避IP封锁、绕过登录限制等技术手段获取数据，属于突破技术措施的非法获取行为，此类行为涉嫌违反《网络安全法》第二十七条规定、《反不正当竞争法》第二条、第十二条规定。

例如抖音数据侵权案中，被告六界公司开发的“小葫芦”产品通过技术手段非法抓取抖音直播间的用户打赏记录及主播收益数据，并以付费形式向第三方提供。同时扒块腹肌公司在“淘宝网”平台上开设店铺，推广、宣传、销售包含“抖音”直播平台打赏数据内容的“小葫芦大数据”产品子账号。

法院认为，六界公司通过技术手段抓取抖音平台的非公开数据（如用户打赏金额、主播收益等），并将其整理后进行商业性展示和销售违反了《反不正当竞争法》第十二条第四项的规定，即利用技术手段妨碍、破坏其他经营者合法提供的网络产品或服务的正常运行。法院指出，六界公司获取和展示的数据涉及用户隐私和数据安全，其行为可能侵犯抖音用户和主播的隐私，同时也破坏了抖音平台的正常运营秩序。

二、展示原文片段

在未获得授权的情况下，在查重报告中展示原文片段，涉嫌侵犯复制权。展示原文片段属于“部分复制”，合理引用需限于评论、研究且注明出处，该复制超出《著作权法》第二十四条规定的“合理使用”的范围；此外还涉嫌侵犯信息网络传播权，用户通过报告获取原文内容，构成对原作品的传播。

可以采取的服务模式：

1. 模糊化处理：在报告中不直接展示原文片段，而是用相似度百分比或其他统计数据代替。例如，仅显示重复率，而不显示具体的文本内容。

2. 来源匿名化：不显示具体的来源文献，而是提供一个通用的参考类别，如“学术数据库”或“网络资源”，以保护来源的版权和用户隐私。

3. 报告生成方式调整：将原文片段替换为摘要或引用格式，确保符合合理使用原则。例如，仅显示引用部分，并正确标注来源。

三、数据库合规的构建

1. 法定许可与合理使用不适用于商业盈利性质的数据库查重服务。

在“赵德馨诉知网案”中，法院明确否定了知网通过期刊声明获得信息网络传播权法定许可的主张，强调网络环境不适用报刊转载法定许可规则。

法院通常认为商业性数据库“直接复制全文”并提供检索服务，不属于合理使用，须获授权。例如，判例中知网虽声称“为高校无偿提供查重”，但其通过数据库订阅、查重收费获利，被质疑利用学术资源商业化。即使采用TDM技术，若初始复制作品未获授权，仍可能侵犯复制权。欧盟要求TDM需基于“合法获取的作品”，我国司法实践亦强调数据来源合规。

现行框架下，法定许可无法直接适用于查重数据库的论文搜集。商业数据库（如知网）必须通过逐项授权或分层协议解决著作权问题；若服务于公益查重（如高校内部系统），可尝试主张合理使用，但需以技术手段限制作品传播。

2. 合规构建

a. 作者自愿入库授权

作者在期刊投稿、学位论文提交时与其签署著作权许可协议，授权将其文献纳入比对数据库。协议明确限定文献仅用于学术检测（如查重），不得用于商业传播。

b. 机构批量授权合作

可以与高校、期刊等学术机构签订资源共建协议，批量获取学位论文、期刊文献的检测使用权。例如：学信网向应届毕业生提供免费查重服务，学生在使用服务时需勾选《服务协议》，其中通常包括条款“同意将本次检测论文自动纳入万方‘应届毕业生论文对比库’，用于后续查重对比“，该论文仅用作数据对比，不对外公开全文；再如，期刊社对作者投稿的期刊予以录用时，签署的《版权转让协议》通常包括将论文收录其合作的数据库的条款，同步解决查重底库版权与学术传播需求。此外，授权范围需限定在数据仅用于查重算法匹配，禁止全文公开或二次销售。

四、结语

综合分析表明，学术查重服务的数据合规面临三重挑战。在来源合法性方面，存在诸多缺陷，如知网将论文直接商用构成对复制权与信息网络传播权的双重著作权侵权，淘宝数据链涉及盗用账号或非法爬取数据，面临著作权追责与共犯风险，即便爬虫抓取针对公开数据，也需严守“非实质性替代”与“技术手段正当性”红线。在使用方式上，查重报告展示原文片段突破了《著作权法》第二十四条合理使用范围，需通过片段模糊化、来源匿名化及摘要化处理来重构服务模式。在商业模式上，“赵德馨诉知网案”彻底否定了商业查重数据库援引法定许可的可能性，在现行法律框架下必须构建双层授权体系，即在作者端投稿或毕业时签署限定于查重用途的专项授权，在机构端与高校或期刊建立资源共建协议（如学信网 - 万方模式）。此外，司法实践已形成公开数据侵权认定的递进式审查规则，即从独创性（著作权法）、秘密性（商业秘密）、技术手段合法性（反法第12条）到竞争秩序损害（反法第2条）。企业须以此规则为基准，在数据获取、处理、展示等流程中全方位合规。

互联网--时代革命

首席律师 徐新明

专利

商标

版权

商业秘密

反不正当竞争

植物新品种

地理标志

集成电路布图设计

技术合同

传统文化

律师动态

徐新明律师接受《天津日报》采访：解读2025年度天津市专利行政保护案例

著名知识产权律师徐新明接受《中国经营报》采访：技术革新下知识产权保护面临新挑战与应对策略

徐新明律师经典案例：刘某与西安某生物科技有限公司技术合作开发合同纠纷案

知产速递

知识产权环球资讯 | 重庆虬龙在美赢得近9000万赔偿及永久禁令；华...

WIPO发布《2026世界知识产权报告》 含报告全文

全球5G标准必要专利及标准提案研究报告（2026年）全文发布

知识产权律师须读！最高法举行2026年知识产权宣传周新闻发布会 附...

浙江省市场监督管理局关于规范数据知识产权作价出资（入股）的通...

审判动态

假印章炮制“真”协议 地理标志申请岂容造假？

法院依法确认“陆地航母”不侵权

植物新品种侵权案件中土地承包经营者的责任认定和停止侵害诉请的...

涉“试题”数据不正当竞争案

利用“AI换脸”对他人作品局部合成处理，构成侵权吗？

案例聚焦

最高人民法院发布第六批人民法院种业知识产权司法保护典型案例 含...

上海高院发布依法打击新型网络犯罪典型案例

国家发展改革委、最高人民法院联合发布贯彻实施民营经济促进法典...

2025年度全国打击侵权盗版十大案件

上海知产法院集中宣判多起商标侵权上诉案

法官视点

作品独创性理论的司法适用研究

知识产权侵权案件计量赔偿的标准化审理路径

数据赋权的纵向展开与区分登记制度

新司法解释实施背景下侵犯服务商标类刑事案件的审判要点

商业数据爬取行为司法审查的路径优化

裁判文书

法律宝库

中国法库

国际法库

数据库数据来源的法律风险分析报告

相关文章

建设企业专利专题数据库意义之分析

建设企业专利专题数据库意义之分析

我国商标数据库实现免费开放共享

Design Class数据库正式上线

中国科研人员急需一款类似Google专利的免费数据库

评论

首席律师徐新明

WIPO发布《2026世界知识产权报告》含报告全文

知识产权律师须读！最高法举行2026年知识产权宣传周新闻发布会附...

假印章炮制“真”协议地理标志申请岂容造假？

最高人民法院发布第六批人民法院种业知识产权司法保护典型案例含...