名奢网 › 名表› 名表日报 › 查看内容

一种基于图片搜索视频的计划

2023-3-19 19:13| 发布者: 夏梦飞雨| 查看: 112| 评论: 0

放大缩小

简介：作者：京东批发谷伟1.商品搜索1.1网络购物的搜索伎俩随着移动互联网展开，手机端购物已成为人们生活的常态。人们在搜索商品时采用的伎俩也越来越丰厚，当前的主要搜索方式是文本搜索与拍照搜索。1.2文本搜索文本搜 ...

作者：京东批发谷伟

1.商品搜索

1.1网络购物的搜索伎俩

随着移动互联网展开，手机端购物已成为人们生活的常态。人们在搜索商品时采用的伎俩也越来越丰厚，当前的主要搜索方式是文本搜索与拍照搜索。

1.2文本搜索

文本搜索应用比较普遍，较为常用的是关键字匹配，针对商品信息的相关描画中止分词，并对分词树立索引库，从而抵达查找的目的。随着人工智能的展开，语义搜索得到了快速的展开，它经过用户输入的搜索内容来了解用户真正的企图，从而取得更有价值的内容。其实质是将一切要搜索的内容转化为高维数学向量，用统一的特征向量来描画不同内容，把检索输入的内容向量化，并与要搜索的内容中止向量匹配，把相似度最高的结果展示出来。

1.3拍照搜索

拍照搜索也就是以图搜图，是近几年的视觉AI展开的一个产物。用户登录电商平台，能够经过上传图片，经过图像剖析与辨认来查找相似的商品主图，从而找出相关的商品。其基本原理是经图像剖析抽取图像的颜色、外形、纹理等特征，树立特征索引库，对用户上传的图像中止特征化描画，从索引库中查找出与之近似的特征图像。

2. 现状剖析

2.1需求专业人员参与

文本搜索需求文本描画的支持，也就是需求对短视频中止文本描画，需求人员对短视频中止精确的文本描画，特别描画中要含有代表其商品的关键词，否则可能难以被搜索引擎所命中，这对视频的发布人员产生了一定的门槛，增加搜索命中的难度。

拍照搜索主要是对商品的主图中止特征匹配，这也就需求商品发布人员要制造尽可能与之匹配的图片，特别需求美工设计人员的参与，从而增加了人力成本。

2.2难以支持短视频搜索

随着近几年自媒体的展开，短视频逐步成为互联网信息传播的主要伎俩。而短视频能够以为是大量图片的汇合，不可能对短视频的每张图片树立特征索引，由于这会糜费大量的计算机算力。

3. 技术计划

3.1 技术问题

以前商品引见主要以图文方式来展示商品，不只需展示商品主图还要配细节图，以及产品参数，从而抵达全面涵盖产品信息的才干。而短视频能够全方位的展示商品，并搭配言语描画以及背景音乐，可进一步形象的给消费者引见商品的功用，给顾客更直观的体验，有助于促进下单。同时商家制造的短视频可将其推送到自媒体平台上，便于给商品引流，进步商品销量，从而拓宽了销售市场。

因而短视频营销相关于图文营销更有优势，如何让顾客能够更快更方便地搜索到其感兴味的商品短视频，是本发明所要处置的主要问题。本计划主要处置的是商品短视频搜索，依照类目维度对商品短视频中止选择，并进步视频搜索的命中率，为商品短视频搜索树立桥梁。

3.2 技术计划

3.2.1 流程图

流程图：

一种基于图片搜索视频的计划

3.2.2 细致描画

1.关键帧提取

卖家在制造好商品引见的短视频后，在发布商品时对短视频中止上传，视频时长不能超越2分钟。对该视频中止关键帧提取。视频是由一组连续的图像组成，假如每张图片都存储下来，则会招致视频文件过大，因而视频都会被紧缩，在紧缩过程中，产生了I帧、P帧、B帧。I帧是画面的完好保存，它尽可能去除了图像空间的冗余信息；P帧则是记载与前一个关键帧的差别；B帧是记载本帧与上一帧和下一帧的差别。

因而只需提取出I帧即可。在MPEG-4规范中，stss部分标识了哪些sample是关键帧，假如没有stss则全部sample是关键帧。当获取的关键帧太多时，以时间轴维度，随机选取20帧的图像供商家选择，把商家选取的5张图片与视频文件一同保存到文件数据库中。

Mp4规范

Box类型阐明ftyp文件类型moov记载媒体信息mvhd视频文件信息，如时长、创建时间等track寄存视频的容器tkhd媒体总体信息，如宽高等mdia媒体容器mdhd换算真实事情hdlr媒体类型，指明是video、audio、hintminf媒体信息容器stbl偏移映射关系表stsdsample描画stts时戳-sample序号映射表stscsample与chunk的映射表stszsample的大小stz2另一种存储sample的大小，更俭省空间stss关键帧列表（从该处取得I帧）stco每个chunk的偏移co6464位chunk的偏移mdat细致的媒体数据2.特征向量计算

本次的特征向量计算采用的是VGG16模型。由于关键帧的图片都是彩色图片，因而采用3通道。卷积核为3×3，池化核为2×2。以224×224的视频图像为例，过程如下：

输入图像大小为224×224×3，经64个通道的卷积核3×3，步长为1，共卷积2次，输出尺寸为224×224×64的特征向量。中止池化，采用池化核2×2，步长为2，输出尺寸为112×112×64的特征向量。
经128个3×3的卷积核，步长为1，卷积2次，尺寸变为112×112×128，中止池化，步长为2，输出尺寸为56×56×128。
经256个3×3的卷积核，步长为1，卷积3次，尺寸变为56×56×256，中止池化，步长为2，输出尺寸为28×28×256。
经512个3×3的卷积核，步长为1，卷积3次，尺寸变为28×28×512，中止池化，步长为2，输出尺寸为14×14×256。
经512个3×3的卷积核，步长为1，卷积3次，尺寸变为14×14×512，中止池化，步长为2，输出尺寸为7×7×256。
将数据拉平成一维数组，7×7×256=25088。
经两层1×1×4096与一层1×1×1000的全衔接层，最终输出1×1000的特征向量。

一种基于图片搜索视频的计划