智能摘要

前言：为什么你需要自定义TVBox数据源

TVBox作为一款开源影视播放器，其核心魅力在于数据源的灵活性。通过爬虫接口，你可以从各类网站提取视频资源，摆脱对固定源站的依赖。本教程将从零开始，带你搭建一个完整的TVBox爬虫数据源，涵盖目标分析、代码实现、调试优化全流程。

无论你是编程新手还是有一定经验的开发者，只要跟着步骤一步步操作，就能掌握TVBox爬虫的开发方法。我们将以实战项目为主线，穿插关键概念讲解，确保每个环节都可落地。

一台笔记本电脑屏幕显示TVBox主界面，背景是代码编辑器和终端窗口，色调为深色科技蓝，采用俯拍构图，突出操作环境与工具组合

第一步：理解TVBox爬虫的工作机制

爬虫在TVBox中的角色

TVBox的爬虫本质上是一个Python脚本，遵循固定的接口规范。它负责从目标网站抓取视频列表、分类、详情和播放地址，并将数据格式化为TVBox能识别的JSON结构。爬虫被放置在TVBox的jar包或插件目录中，应用启动时会自动加载。

核心接口方法

一个完整的TVBox爬虫必须实现以下方法：

init(self, extend)：初始化爬虫，加载配置
homeContent(self, filter)：返回首页分类和推荐视频
homeVideoContent(self)：返回首页推荐视频列表
categoryContent(self, tid, pg, filter, extend)：返回分类页视频列表
detailContent(self, ids)：返回视频详情，包括播放源
searchContent(self, key, quick, pg)：根据关键词搜索视频
playerContent(self, flag, id, vipFlags)：解析播放地址

每个方法都有固定的返回格式，我们将在后续步骤中逐一实现。

第二步：准备工作环境

安装必要工具

你需要一个Python 3.8+的运行环境，并安装以下依赖：

lxml：用于解析HTML
requests：用于发送HTTP请求（虽然是TVBox内置，但本地调试需要）
TVBox爬虫调试工具：建议使用spider_runner工具或模拟器

创建爬虫项目结构

在本地创建一个文件夹，例如tvbox_spider，内部新建一个Python文件，命名为demo_spider.py。后续所有代码都写在这个文件中。

tvbox_spider/
├── demo_spider.py
└── (其他调试文件)

文件夹结构截图，左侧为文件树，右侧为demo_spider.py的初始代码，色调简洁明亮，采用左右分割构图，突出项目布局

第三步：编写爬虫基架

导入模块与定义类

按照TVBox规范，爬虫必须继承Spider基类。首先导入必要的模块：

from base.spider import Spider

然后定义爬虫类：

class Spider(Spider):
    def __init__(self):
        super().__init__()
        # 这里可以初始化一些变量，比如headers、base_url等
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
        }

实现init方法

init方法在爬虫加载时被调用，通常用于接收外部配置参数。我们将其留空，后续可根据需要扩展。

def init(self, extend=""):
    pass

第四步：实现首页内容接口

分析目标网站结构

假设我们要爬取一个影视网站（示例网址：https://example-movie.com）。首先需要了解它的首页布局：分类导航在顶部，视频列表在下方。每个视频项包含封面图、标题和链接。

使用浏览工具获取页面结构：

[TC:browse_page, url=https://example-movie.com]
[/TC:browse_page]

编写homeContent方法

该方法返回两个主要部分：分类列表和推荐视频。分类通常从导航栏提取，推荐视频从首页列表提取。

def homeContent(self, filter):
    # 请求首页
    html = self.fetch('https://example-movie.com', headers=self.headers).text
    doc = self.html(html)
    
    # 提取分类
    classes = []
    nav_items = doc.xpath('//ul[@class="nav"]/li/a')
    for item in nav_items:
        type_name = item.xpath('./text()')[0].strip()
        type_id = item.xpath('./@href')[0].strip()
        classes.append({'type_id': type_id, 'type_name': type_name})
    
    # 提取推荐视频
    videos = []
    video_items = doc.xpath('//div[@class="video-list"]/div[@class="video-item"]')
    for item in video_items:
        vod_name = item.xpath('./a/@title')[0].strip()
        vod_id = item.xpath('./a/@href')[0].strip()
        vod_pic = item.xpath('./a/img/@src')[0].strip()
        vod_remarks = item.xpath('./span[@class="remark"]/text()')
        vod_remarks = vod_remarks[0].strip() if vod_remarks else ''
        videos.append({
            'vod_id': vod_id,
            'vod_name': vod_name,
            'vod_pic': vod_pic,
            'vod_remarks': vod_remarks
        })
    
    return {'class': classes, 'list': videos, 'filters': {}}

注意：xpath路径需要根据实际网站结构调整，这里仅作示例。

实现homeVideoContent方法

该方法通常返回首页最新或推荐的视频列表，与homeContent中的list部分类似，可以复用逻辑。

def homeVideoContent(self):
    # 直接调用homeContent获取推荐视频部分
    result = self.homeContent(False)
    return {'list': result['list']}

第五步：实现分类内容接口

分析分类页结构

分类页通常通过参数传递分类ID和页码。例如：https://example-movie.com/list/1-2.html，其中1是分类ID，2是页码。

使用浏览工具查看分类页源码：

[TC:browse_page, url=https://example-movie.com/list/1-1.html]
[/TC:browse_page]

编写categoryContent方法

该方法接收分类ID(tid)和页码(pg)，返回该分类下的视频列表和分页信息。

def categoryContent(self, tid, pg, filter, extend):
    # 构建分类页URL
    url = f'https://example-movie.com/list/{tid}-{pg}.html'
    html = self.fetch(url, headers=self.headers).text
    doc = self.html(html)
    
    # 提取视频列表
    videos = []
    video_items = doc.xpath('//div[@class="video-list"]/div[@class="video-item"]')
    for item in video_items:
        vod_name = item.xpath('./a/@title')[0].strip()
        vod_id = item.xpath('./a/@href')[0].strip()
        vod_pic = item.xpath('./a/img/@src')[0].strip()
        vod_remarks = item.xpath('./span[@class="remark"]/text()')
        vod_remarks = vod_remarks[0].strip() if vod_remarks else ''
        videos.append({
            'vod_id': vod_id,
            'vod_name': vod_name,
            'vod_pic': vod_pic,
            'vod_remarks': vod_remarks
        })
    
    # 提取总页数（假设从分页控件获取）
    page_info = doc.xpath('//div[@class="pagination"]/a[last()]/@href')[0]
    # 假设最后一项的href包含总页数，例如/list/1-10.html
    import re
    match = re.search(r'-(d+).html', page_info)
    pagecount = int(match.group(1)) if match else 1
    
    return {
        'list': videos,
        'page': pg,
        'pagecount': pagecount,
        'limit': 24,
        'total': 0
    }

第六步：实现详情与播放接口

分析详情页结构

详情页通常包含视频名称、简介、封面和播放源。播放源可能有多个，例如“线路1”、“线路2”等，每个线路下有多集。

使用浏览工具查看详情页：

[TC:browse_page, url=https://example-movie.com/detail/123.html]
[/TC:browse_page]

编写detailContent方法

该方法接收视频ID，返回视频的详细信息，包括所有播放源和集数。

def detailContent(self, ids):
    vid = ids[0]  # ids是一个数组，通常只传一个ID
    url = f'https://example-movie.com{vid}'
    html = self.fetch(url, headers=self.headers).text
    doc = self.html(html)
    
    # 提取基本信息
    vod_name = doc.xpath('//h1[@class="title"]/text()')[0].strip()
    vod_pic = doc.xpath('//img[@class="poster"]/@src')[0].strip()
    vod_content = doc.xpath('//div[@class="desc"]/text()')
    vod_content = vod_content[0].strip() if vod_content else ''
    
    # 提取播放源和集数
    # 假设播放源以表格形式存在，每个源是一行，每集是一个链接
    play_from = []
    play_url = []
    source_tabs = doc.xpath('//div[@class="source-tabs"]/a')
    for tab in source_tabs:
        source_name = tab.xpath('./text()')[0].strip()
        play_from.append(source_name)
        # 获取该源下的所有集数链接
        episodes = doc.xpath(f'//div[@id="{source_name}"]/ul/li/a')
        episode_parts = []
        for ep in episodes:
            ep_name = ep.xpath('./text()')[0].strip()
            ep_url = ep.xpath('./@href')[0].strip()
            episode_parts.append(f'{ep_name}${ep_url}')
        play_url.append('#'.join(episode_parts))
    
    vod_play_from = '$'.join(play_from)
    vod_play_url = '$'.join(play_url)
    
    return {
        'list': [{
            'vod_id': vid,
            'vod_name': vod_name,
            'vod_pic': vod_pic,
            'vod_content': vod_content,
            'vod_play_from': vod_play_from,
            'vod_play_url': vod_play_url
        }]
    }

编写playerContent方法

该方法用于解析最终的播放地址。某些网站可能需要从页面中提取真实播放链接或解密。这里假设链接是直接的视频地址。

def playerContent(self, flag, id, vipFlags):
    # flag是线路标识，id是集数链接
    # 如果需要解析，可以在这里处理，否则直接返回
    return {'parse': 0, 'url': id, 'header': {}}

第七步：实现搜索接口

分析搜索页结构

搜索通常通过GET或POST请求，返回视频列表。例如：https://example-movie.com/search?keyword=test。

编写searchContent方法

该方法接收关键词和页码，返回搜索结果。

def searchContent(self, key, quick, pg="1"):
    url = f'https://example-movie.com/search?keyword={key}&page={pg}'
    html = self.fetch(url, headers=self.headers).text
    doc = self.html(html)
    
    videos = []
    video_items = doc.xpath('//div[@class="video-list"]/div[@class="video-item"]')
    for item in video_items:
        vod_name = item.xpath('./a/@title')[0].strip()
        vod_id = item.xpath('./a/@href')[0].strip()
        vod_pic = item.xpath('./a/img/@src')[0].strip()
        vod_remarks = item.xpath('./span[@class="remark"]/text()')
        vod_remarks = vod_remarks[0].strip() if vod_remarks else ''
        videos.append({
            'vod_id': vod_id,
            'vod_name': vod_name,
            'vod_pic': vod_pic,
            'vod_remarks': vod_remarks
        })
    
    return {'list': videos, 'page': int(pg), 'pagecount': 1, 'limit': 24, 'total': 0}

第八步：调试与测试

使用spider_runner测试

将爬虫文件保存后，使用spider_runner工具进行测试。先测试首页：

[TC:spider_runner, path=demo_spider.py, method=homeContent]
[/TC:spider_runner]

然后测试分类页：

[TC:spider_runner, path=demo_spider.py, method=categoryContent, tid=1, pg=1]
[/TC:spider_runner]

如果遇到错误，根据报错信息调整xpath或逻辑。常见问题包括：

xpath路径错误：检查网站结构是否变化
请求被拦截：添加合适的User-Agent或Cookie
编码问题：指定正确的字符编码

本地调试建议

在本地编写爬虫时，可以先写一个测试脚本来模拟TVBox环境：

import requests
from lxml import etree

# 模拟fetch和html方法
class MockSpider:
    def fetch(self, url, headers=None):
        return requests.get(url, headers=headers or {})
    def html(self, content):
        return etree.HTML(content)

然后实例化你的爬虫类，调用各个方法并打印结果。

终端窗口显示爬虫测试运行结果，包含JSON输出和错误提示，色调以黑白终端为主，红色报错信息突出，采用居中构图，强调调试过程

第九步：集成到TVBox

打包爬虫

TVBox通常使用jar包或py文件作为插件。将你的爬虫文件放入TVBox的插件目录（如/data/plugins/），然后在TVBox设置中配置数据源地址。

配置数据源接口

在TVBox首页的“设置”->“配置地址”中，输入你的爬虫文件路径（本地路径或远程URL）。TVBox会自动加载并显示爬虫提供的内容。

如果爬虫部署在远程服务器，需要确保服务器支持Python运行环境，并提供HTTP接口供TVBox调用。不过最简单的做法是直接将py文件放在TVBox设备本地。

进阶优化：提升爬虫稳定性

添加缓存机制

为了避免频繁请求导致IP被封，可以在爬虫内部添加简单缓存：

def __init__(self):
    self.cache = {}
    self.cache_timeout = 60  # 缓存60秒

def fetch_with_cache(self, url):
    import time
    if url in self.cache and time.time() - self.cache[url]['time'] < self.cache_timeout:
        return self.cache[url]['response']
    response = self.fetch(url, headers=self.headers)
    self.cache[url] = {'response': response, 'time': time.time()}
    return response