Detecting Oriented Text in Natural Images by Linking Segments ---0 汇报人:盛驰云 ---
Detecting Oriented Text in Natural Images by Linking Segments 汇报人:盛驰云
l 背景介绍 Dreifalfigkeilsplalz 文本检测: 即用单词或文本行的边界框定位文本,可以看作 是应用于文本的目标检测。 文本特点: (1)文本的高度宽度比值特别大或者小, (2)自然场景中的文本通常存在一定的旋转角度
背景介绍 文本检测: 即用单词或文本行的边界框定位文本,可以看作 是应用于文本的目标检测。 文本特点:(1)文本的高度宽度比值特别大或者小, (2)自然场景中的文本通常存在一定的旋转角度
li 背景介绍 本文提出:引入旋转角度0学习参数,回归参数(x,y,w,h)→(xy,w,h,0) Segment(段):文本行的一部分(可以是字符或者文本行中任意某部分) Linkng(连接):用以连接每个Segment CfCS + CS crocs crocs Segments Links Combined (yellow boxes) (green edges) detection boxes
背景介绍 本文提出:引入旋转角度θ学习参数,回归参数(x,y,w,h) (x,y,w,h,θ) Segment(段):文本行的一部分(可以是字符或者文本行中任意某部分) Linkng(连接):用以连接每个Segment
li SegLink:网络结构 conv4-conv11间的尺寸依次减少(每一层是前一层的 1/2),从6个特征图上检测多尺度的Segm㎡ent和Link 1=1 1=2 1=3 1=4 1=5 1=6 crocs crocs crocs s Clipes crocs Combining Segments 3x3 conv predictors crocs VGG16 i through convl crocs 4.3 conv7 pool5 te刀 conv 64 32 82 conv 16 92 conv 10.2 com 11 512 1024 1024 512 256 256 Input Image (512x512) 1024.k3s1 256,k1s1 128.k1s1 128.k1s1 256,k3s2 Detections 1024.k1s1 512k32 256.k32 256.k32 借鉴SSD思路,采用VGG16作为backbone进行特征提取
SegLink:网络结构 借鉴SSD思路,采用VGG16作为backbone进行特征提取 conv4-conv11间的尺寸依次减少(每一层是前一层的 1/2),从6个特征图上检测多尺度的Segment和Link
l Segment检测 Segment类似于SSD中的回归box,表达形式如下: s=(s,Vs,Ws,hs:0s) default box个数,本文每个feature map的每个位置只采用了一个 aspect ratio=l的default box,scale size设置结合当前层感受野: a where =1.5. Segment计算公式:xs=au△xs+xa ys=au△ys+ya ws=ar exp(△ws) hs=ar exp(△hs 0s=△0s
Segment检测 Segment类似于SSD中的回归box,表达形式如下: default box个数,本文每个feature map的每个位置只采用了一个 aspect ratio=1的default box,scale size设置结合当前层感受野: Segment计算公式:
li Link检测 (a)Within- Layer Links 16 crees conv8 2 表示在同一层特征图里,每个Segment-与8邻域内的Segment 的连接状况,每个Link输出两通道,一通道是正分(两个Segment 属于同一文本),另一通道是负分(两个Segment不属于同一文本)。 每个predictor输出8×2=l6维向量
Link检测 表示在同一层特征图里,每个Segment与8邻域内的Segment 的连接状况,每个Link输出两通道,一通道是正分(两个Segment 属于同一文本),另一通道是负分(两个Segment不属于同一文本)。 每个predictor输出8×2=16维向量
li Link检测 conv9_2 8 T2x 绿色的线代表cross- I size layer link有连接 (b)Cross- crecs (属于同一文本) Layer Links 后续combine算法中 16 会将他们融合,即 去除冗余。 conv8_2 crosS--layer link连接了两个相邻特征图上的Segments。定义一个 Segmentl的cross-layer邻居为前一层4邻域更小的segment,即前 一层是后一层的邻居,但后一层不是前一层的邻居,故conv43 的feature layer没有cross-layer邻居
Link检测 cross-layer link连接了两个相邻特征图上的Segments。定义一个 Segment的cross-layer邻居为前一层4邻域更小的segment,即前 一层是后一层的邻居,但后一层不是前一层的邻居,故conv4_3 的feature layer没有cross-layer邻居。 绿色的线代表crosslayer link 有连接 (属于同一文本), 后续combine算法中 会将他们融合,即 去除冗余
li 预测输出的维度 (I)Segment的4个位置信息+旋转角度; (2)每个Segment框内是否存在字符的分数; segment segment within-layer cross-layer scores offsets link scores link scores (3)同层(within-layer)的每个Segment的 Link的分数,表示该方向是否有Link(共 2 5 16 8 8个方向),参数共2×8=16个: (4)相邻层(croSS-layer)之间也存在Link, 同样是该方向有Link还是没Link(共4个 ttoa:/blog 方向),参数共2×4=8个
预测输出的维度 (1)Segment的4个位置信息+旋转角度; (2)每个Segment框内是否存在字符的分数; (3)同层(within-layer)的每个Segment的 Link的分数,表示该方向是否有Link(共 8个方向),参数共2×8=16个; (4)相邻层(cross-layer)之间也存在Link, 同样是该方向有Link还是没Link(共4个 方向),参数共2×4=8个
Combining Segments with Links算法 Algorithm 1 Combining Segments : Input:Bisa set of segments connected 首先通过人工设定的α和 by links,where s()=()). β(这两个值是采用网格搜索找到 Find the average angle: 2: 3: For a straight line (tan)z+b,find the b that min- 最优),对网络预测的Segments imizes the sum of distances to all segment centers 和Links进行滤除,将每个 (9,9. Segment看成node,Link看成 4:Find the perpendicular projections of all segment cen- ters onto the straight line. edge,建立图模型,再用 5:From the projected points,find the two with the longest DFS(depth first search)找到连通 distance.Denote them by(zp,p)and(rg,g) 6:=(p+q) 分量,每个连通分量包含一系 7:%= (期+】 列Segments(用B表示),用如下 8:wB:=V(p-xq)2+(Up-yq)2+(wp +wg) 实h=肉∑sh 算法进行融合输出单词的box。 10:b=(xb,h,ub,hb,8%) 11:Output:b is the combined bounding box
Combining Segments with Links算法 首先通过人工设定的 α 和 β(这两个值是采用网格搜索找到 最优),对网络预测的Segments 和 Links 进行滤除 , 将每个 Segment 看 成 node , Link 看 成 edge , 建 立 图 模 型 , 再 用 DFS(depth first search)找到连通 分量,每个连通分量包含一系 列Segments(用B表示),用如下 算法进行融合输出单词的box
Combining Segments with Links算法 该算法其实就是一个平均 的过程。先计算所有的Segment 的平均0作为文本行的0,再根 据已求的0为己知条件,求出最 x4,q) 可能过每个Segment的直线(线 段,),以其中点作为word的 中心点,最后用线段长度加上 xp,yp) 首尾Segment的平均宽度作为 word的宽度,用所有Segment的 高度的平均作为word的高度
Combining Segments with Links算法 该算法其实就是一个平均 的过程。先计算所有的Segment 的平均θ作为文本行的θ,再根 据已求的θ为已知条件,求出最 可能过每个Segment的直线(线 段,),以其中点作为word的 中心点,最后用线段长度加上 首尾Segment的平均宽度作为 word的宽度,用所有Segment的 高度的平均作为word的高度