[PDF] Identificação automática de pichação a partir de imagens urbanas

Abstract

Graffiti tagging is a common issue in great cities an local authorities are on the move to combat it. The tagging map of a city can be a useful tool as it may help to clean-up highly saturated regions and discourage future acts in the neighbourhood and currently there is no way of getting a tagging map of a region in an automatic fashion and manual inspection or crowd participation are required. In this work, we describe a work in progress in creating an automatic way to get a tagging map of a city or region. It is based on the use of street view images and on the detection of graffiti tags in the images.

Full PDF

IIdentiﬁcac¸ ˜ao autom ´atica de pichac¸ ˜ao a partir deimagens urbanas

Eric K. Tokuda and Roberto M. Cesar-Jr.

Institute of Mathematics and StatisticsUniversity of S˜ao Paulo (USP)Brazil

Claudio Silva

Tandon School of EngineeringNew York University (NYU)USA

Abstract —Grafﬁti tagging is a common issue in great citiesan local authorities are on the move to combat it. The taggingmap of a city can be a useful tool as it may help to clean-up highly saturated regions and discourage future acts in theneighbourhood and currently there is no way of getting a taggingmap of a region in an automatic fashion and manual inspectionor crowd participation are required. In this work, we describe awork in progress in creating an automatic way to get a taggingmap of a city or region. It is based on the use of street viewimages and on the detection of grafﬁti tags in the images.

Resumo —A pichac¸ ˜ao ´e um problema comum em grandescidades e autoridades locais se esforc¸am para combatˆe-la. O mapade pichac¸ ˜ao de uma regi˜ao pode ser um recurso muito ´util, poispode auxiliar no combate ao vandalismo em regi˜oes com alton´ıvel de pichac¸ ˜oes e tamb´em a limpeza de regi˜oes saturadaspara desestimular atos futuros na mesma regi˜ao. Atualmenten˜ao existe uma maneira autom´atica de se obter o mapa depichac¸ ˜ao de uma regi˜ao e atualmente ele ´e obtido pela inspec¸ ˜aomanual da pol´ıcia ou pela participac¸ ˜ao popular. Nesse sentido,descrevemos um trabalho em andamento no qual propomos umaforma autom´atica de obter um mapa de grafﬁti de uma regi˜aogeogr´aﬁca. Ele se baseia no uso de imagens com vista de rua ena detecc¸ ˜ao de pichac¸ ˜ao nas imagens.

I. I

NTRODUC ¸ ˜ AO Atualmente o graﬁte j´a faz parte do cen´ario das gran-des cidades. Pode ser categorizado como graﬁte art´ıstico oupichac¸ ˜ao, como exempliﬁcado na Figura 1, e enquanto ograﬁte ´e considerado uma express˜ao art´ıstica e, como tal,requer habilidades espec´ıﬁcas, a pichac¸ ˜ao ´e geralmente umato n˜ao autorizado que as pessoas simplesmente exibemfrases ou nomes e a aceitac¸ ˜ao sobre pichac¸ ˜ao como arte ´econtroversa [1], [2]. Em 2017, a prefeitura de S˜ao Paulo,Brasil decretou uma lei que que deﬁnia uma multa deat´e R$ . , aos autores de crimes de pichac¸ ˜ao contrapatrimˆonios p´ublicos.Atualmente n˜ao existe uma modo autom´atico de se criaro mapa de pichac¸ ˜ao de uma regi˜ao geogr´aﬁca e a criac¸ ˜aopor inspec¸ ˜ao manual ´e uma tarefa dispendiosa. Neste trabalhodescrevemos o trabalho em curso de uma metodologia para acriac¸ ˜ao de um mapa de pichac¸ ˜ao baseado na segmentac¸ ˜ao deregi˜oes pichadas em imagens urbanas de p´ublico acesso. II. T

RABALHOS RELACIONADOS

Trabalhos anteriores exploraram a tarefa de identiﬁcac¸ ˜aode pichac¸ ˜ao em uma imagem [4]–[7] e paralelamente umas´erie de trabalhos utiliza dados geolocalizados para an´alisessociais, econˆomicas e culturais [8]–[10]. Nenhum trabalho,por´em, investigou a variac¸ ˜ao da concentrac¸ ˜ao de pichac¸ ˜ao nosdiferentes bairros da cidade e sua correlac¸ ˜ao com indicadoressocio-econˆomicos e culturais.Ferramentas de combate `a pichac¸ ˜ao [4]–[7] utilizamparticipac¸ ˜ao colaborativa e permitem que usu´arios equipadoscom telefones celulares reportem atos de pichac¸ ˜ao. Algunstrabalhos [11]–[13] atacam o problema de uma maneira di-ferente e tentam identiﬁcar o ato de pichar. Outros trabalhosrecuperam pichac¸ ˜oes similares em um banco de dados de re-ferˆencia [14] usando componentes conexos e pontos-chave cor-respondentes em uma tentativa de associar pichac¸ ˜ao a gangues.Outra abordagem busca identiﬁcar a autoria do pichac¸ ˜ao [15]dada uma imagem de teste atrav´es da recuperac¸ ˜ao de imagenssimilares, c´alculo de uma m´etrica baseada nos s´ımbolos conti-dos, anotac¸ ˜ao manual e correspondˆencia entre os pontos-chavedas imagens de pichac¸ ˜ao e as da gangue.Como um sinal da relevˆancia do tema em n´ıvel global, aUni˜ao Europ´eia tem um projeto [16] dedicado `a an´alise dosprincipais atores envolvidos nos atos de pichac¸ ˜ao, incluindoescritores, cidad˜aos, autoridades policiais e administrac¸ ˜aop´ublica. Este projeto inclui entrevistas com as partes interessa-das e o estabelecimento de uma plataforma web que permitem a r X i v : . [ c s . C V ] N ov discuss˜ao e o compartilhamento de id´eias sobre o tema dediferentes perspectivas. No Brasil, cidades altamente densascomo S˜ao Paulo tamb´em enfrentam a presenc¸a generalizadade pichac¸ ˜oes na cidade [17].A segmentac¸ ˜ao semˆantica ´e uma tarefa de Vis˜ao Computa-cional que visa dividir a imagem em classes conhecidas [18].´E uma tarefa complexa quando comparada com a classiﬁcac¸ ˜aode imagens e a detecc¸ ˜ao de objetos, pois requer a classiﬁcac¸ ˜aode cada pixel. A pesquisa nesta ´area ´e ativa e trabalhos recen-tes alcanc¸am altos n´ıveis de acur´acia [18]–[22]. Uma tarefarelacionada ´e a segmentac¸ ˜ao de instˆancias , onde o objetivo´e adicionalmente identiﬁcar as instˆancias. Por exemplo, nocaso de dois objetos com intersecc¸ ˜ao, o m´etodo deve sercapaz de identiﬁcar os limites de duas instˆancias. Trabalhosanteriores [23], [24] atacaram o problema precedendo o est´agiode detecc¸ ˜ao de objetos com um est´agio de segmentac¸ ˜ao.Trabalhos de aprendizagem profunda ( deep learning ) vˆematingindo os melhores resultados em diversas ´areas da Vis˜aoComputacional [19], [25]–[27], o que se observa tamb´emna tarefa de segmentac¸ ˜ao. O trabalho de Mask-RCNN [28],aborda a tarefa de segmentac¸ ˜ao de instˆancias executandoas propostas de classiﬁcac¸ ˜ao e de segmentac¸ ˜ao de maneiraparalela. [28] baseia-se na arquitetura Faster-RCNN [29], mascom uma ramiﬁcac¸ ˜ao adicional para segmentac¸ ˜ao de instˆancia.Servic¸os como [3], [30] fornecem acesso p´ublico a imagenscom vista de rua. As imagens s˜ao obtidas em diferenteslocalizac¸ ˜oes geogr´aﬁcas, per´ıodos de aquisic¸ ˜ao e pontos devista. Uma s´erie de trabalhos j´a utilizaram esse tipo deimagem para ﬁns de an´alise urbana [31]–[33]. Os autoresde [8] utilizam imagens de vista da rua para comparar oselementos arquitetˆonicos de diferentes regi˜oes geogr´aﬁcas. Otrabalho [34] prop˜oe a avaliac¸ ˜ao da vegetac¸ ˜ao urbana usandoo mesmo tipo de imagens.III. M ATERIAIS E M ´ ETODOS

Para estimar com conﬁanc¸a o n´ıvel de pichac¸ ˜ao em umaregi˜ao geogr´aﬁca, propomos uma m´etrica, o n´ıvel de pichac¸ ˜ao ,calculada utilizando a segmentac¸ ˜ao das ´areas pichadas emimagens de vista de rua.

A. Aquisic¸ ˜ao

Uma regi˜ao geogr´aﬁca de interesse ´e inicialmente deﬁnidae as imagens dessa regi˜ao s˜ao adquiridas. Idealmente, toda aregi˜ao deve ser mapeada, mas devido a limitac¸ ˜oes da coberturadas imagens fornecidas e a restric¸ ˜oes computacionais, apenasuma amostra ´e considerada. Existem diferentes maneiras derealizar a amostragem [35], podendo ser classiﬁcadas emamostragem aleat´oria e sistem´atica . A amostragem aleat´oriaremove o vi´es da selec¸ ˜ao, mas n˜ao garante cobertura, dife-rentemente da sistem´atica que garante cobertura com precis˜aoarbitr´aria, mas adiciona vi´es.Uma vez que a amostra geogr´aﬁca ´e deﬁnida, consideram-se as vistas de rua em cada ponto amostrado sendo queidealmente toda a cena vis´ıvel em torno do observador deveser considerada. Uma ´unica vista panorˆamica de ◦ podeser usada, mas neste caso haver˜ao distorc¸ ˜oes presentes nas imagens obtidas. Alternativamente, pontos de vista comple-mentares para cada local podem ser consideradas (veja aFigura 2). Figura 2. Quatro visualizac¸ ˜oes da mesma localizac¸˜ao geogr´aﬁca. Imagensobtidas de [3].

B. Identiﬁcac¸ ˜ao de pichac¸ ˜ao

Dado o objetivo de quantiﬁcar o n´ıvel de pichac¸ ˜ao em umdeterminado local, uma maneira simples e direta seria classiﬁ-car binariamente uma imagem se esta cont´em ou n˜ao pichac¸ ˜ao.No entanto, esta abordagem nos daria uma informac¸ ˜ao discretae imprecisa de cada regi˜ao e assim deﬁnimos o n´ıvel depichac¸ ˜ao P ( l ) de uma localizac¸ ˜ao geogr´aﬁca l como a somadas ´areas pichadas A em cada foto. Essa abordagem pode serafetada pelo projec¸ ˜ao e pela profundidade da cena. Assumimosque regi˜oes distintas, dado uma amostra de tamanho m´ınimo,tˆem distribuic¸ ˜ao similar de projec¸ ˜oes e de distˆancia at´e osanteparos e, com essa suposic¸ ˜ao, P ( l ) pode ser usado paracomparar regi˜oes geogr´aﬁcas diferentes. Como representamoscada local l por um conjunto de k vis˜oes, deﬁnimos P ( l ) como a soma das ´areas das regi˜oes que contˆem pichac¸ ˜ao emcada exibic¸ ˜ao. Podemos ent˜ao agregar o n´ıvel de pichac¸ ˜ao porregi˜ao geogr´aﬁca e calcularmos a m´edia dos n´ıveis de pichac¸ ˜aoem nossa amostra de tamanho n (veja Equac¸ ˜ao 1). P ( R ) = (cid:80) nj =1 (cid:80) ki ∈ l j A i n (1)N´os optamos pelo m´etodo Mask-RCNN [28] para nossatarefa de segmentac¸ ˜ao, dado seu alto desempenho relatadoem importantes benchmarks [36], [37]. Apesar de produzirsegmentac¸ ˜ao e informac¸ ˜ao de instˆancias, neste trabalho esta-mos apenas interessados na segmentac¸ ˜ao produzida.Dada a inexistˆencia de bases de dados de pichac¸ ˜ao dis-pon´ıveis, criamos um conjunto de dados com imagens ano-tadas manualmente. Estes foram usados para treinar nossomodelo. IV. E XPERIMENTOS

Inicialmente, coletamos uma amostra piloto de 10.000 ima-gens da cidade e as regi˜oes que contˆem pichac¸ ˜ao foramidentiﬁcadas manualmente. Nosso conjunto de treinamento ´ecomposto de 632 imagens anotadas manualmente. Usamosuma arquitetura de redes residuais de 101 camadas [38] eum modelo pr´e-treinado no conjunto de dados COCO [37].Utilizamos uma taxa de aprendizado de 0,001 e um momentode 0,9 e treinamos por 80 ´epocas. Usamos o modelo obtidona iterac¸ ˜ao de n´umero 30, dado o seu menor erro de validac¸ ˜ao(ver Figura 3). Utilizando a m´etrica de precis˜ao m´edicaproposto em VOC 2007 [39], nosso modelo apresentou umarecis˜ao m´edia de , . A Figura 4 apresenta uma amostradas detecc¸ ˜oes avaliadas. O tempo para o processamento deuma ´unica imagem foi de , s em uma Geforce GTX 1050. Figura 3. Perda do modelo durante a etapa de treinamento.

Na Figura 5 podemos ver a cobertura heterogˆenea dasimagens fornecidas por [3]. Os dois distritos inferiores apre-sentaram pouca cobertura no momento de nossa aquisic¸ ˜ao,dada a natureza predominantemente rural e despovoada dessasregi˜oes e, portanto, n˜ao foram considerados neste estudo.Usamos quatro visualizac¸ ˜oes para cada localizac¸ ˜ao ge-ogr´aﬁca, espac¸adas por ◦ . Observe na Figura 2 comoelementos de ﬁguras adjacentes se cruzam, o que indica umaampla cobertura de cada localizac¸ ˜ao geogr´aﬁca. dasimagens consideradas s˜ao de 2017, como pode ser visto naTabela I. Tabela IA

NO DE AQUISIC ¸ ˜

AO DA AMOSTRA ANALISADA

Year

Pontos

Criamos uma malha sobre a extens˜ao espacial da cidadecom 134.624 pontos. Adotamos um espac¸amento vertical ehorizontal de 102 metros da nossa malha. Depois de eliminarpontos cujas imagens s˜ao de provedores externos e regi˜oes n˜aomapeadas (ver Figura 5), obtivemos uma cobertura geogr´aﬁcade 68.752 pontos geogr´aﬁcos e 275.339 imagens no total.V. C

ONSIDERAC ¸ ˜

OES FINAIS

Este trabalho apresenta uma projeto em curso sobre o ma-peamento autom´atico de pichac¸ ˜ao em uma regi˜ao geogr´aﬁca.Utilizamos imagens de rua de uma regi˜ao amostrada sistema-ticamente a partir da base do Google Maps [3] e identiﬁcamosas pichac¸ ˜oes em cada imagem. Propomos uma m´etrica para on´ıvel de pichac¸ ˜ao de uma regi˜ao geogr´aﬁca. Importante ressaltar que a m´etrica de pichac¸ ˜ao proposta ´esensitiva `a amostragem considerada, pois ela ´e calculada comouma m´edia sobre os pontos amostrados . O m´etodo propostotamb´em ´e sensitivo a escolha da abordagem de segmentac¸ ˜aoutilizada, cuja acur´acia impacta diretamente o resultado ﬁnal.Etapas em andamento incluem o teste com outros algoritmosde segmentac¸ ˜ao e uma an´alise de pichac¸ ˜ao na cidade de S˜aoPaulo. Passos futuros incluem a utilizac¸ ˜ao do m´etodo com umaamostragem mais densa, comparac¸ ˜ao de diferentes regi˜oesgeogr´aﬁcas e identiﬁcac¸ ˜ao de pichac¸ ˜oes recentes atrav´es dautilizac¸ ˜ao de bases espac¸o-temporais [40].A

GRADECIMENTOS

Os autores agradecem `a Fundac¸ ˜ao de Amparo `a Pesquisa doEstado de S˜ao Paulo, processos

EFER ˆ ENCIAS[1] C. McAuliffe, “Grafﬁti or street art? negotiating the moral geographiesof the creative city,”

Journal of urban affairs , vol. 34, no. 2, pp. 189–206,2012.[2] A. Young,

Street art, public city: Law, crime and the urban imagination

ACM Transactions on Graphics , vol. 31, no. 4,2012.[9] B. Zhou, L. Liu, A. Oliva, and A. Torralba, “Recognizing city identityvia attribute analysis of geo-tagged images,” in

European conference oncomputer vision . Springer, 2014, pp. 519–534.[10] S. M. Arietta, A. A. Efros, R. Ramamoorthi, and M. Agrawala, “Cityforensics: Using visual elements to predict non-visual city attributes,”

IEEE transactions on visualization and computer graphics , vol. 20,no. 12, pp. 2624–2633, 2014.[11] D. Angiati, G. Gera, S. Piva, and C. S. Regazzoni, “A novel method forgrafﬁti detection using change detection algorithm,” in

Advanced Videoand Signal Based Surveillance, 2005. AVSS 2005. IEEE Conference on .IEEE, 2005, pp. 242–246.[12] L. Di Stefano, F. Tombari, A. Lanza, S. Mattoccia, and S. Monti, “Graf-ﬁti detection using two views,” in

The Eighth International Workshopon Visual Surveillance-VS2008 , 2008.[13] F. Tombari, L. Di Stefano, S. Mattoccia, and A. Zanetti, “Grafﬁtidetection using a time-of-ﬂight camera,” in

International Conferenceon Advanced Concepts for Intelligent Vision Systems . Springer, 2008,pp. 645–654.[14] C. Yang, P. C. Wong, W. Ribarsky, and J. Fan, “Efﬁcient grafﬁti imageretrieval,” in

Proceedings of the 2nd ACM International Conference onMultimedia Retrieval . ACM, 2012, p. 36.[15] W. Tong, J.-E. Lee, R. Jin, and A. K. Jain, “Gang and moniker iden-tiﬁcation by grafﬁti matching,” in

Proceedings of the 3rd internationalACM workshop on Multimedia in forensics and intelligence

Computer Visionand Pattern Recognition (CVPR), 2012 IEEE Conference on . IEEE,2012, pp. 3378–3385.[19] O. Ronneberger, P. Fischer, and T. Brox, “U-net: Convolutional networksfor biomedical image segmentation,” in

International Conference onMedical image computing and computer-assisted intervention . Springer,2015, pp. 234–241.[20] V. Badrinarayanan, A. Kendall, and R. Cipolla, “Segnet: A deep con-volutional encoder-decoder architecture for image segmentation,” arXivpreprint arXiv:1511.00561 , 2015.[21] B. Zhou, H. Zhao, X. Puig, S. Fidler, A. Barriuso, and A. Torralba,“Scene parsing through ade20k dataset,” in

Computer Vision and PatternRecognition (CVPR), 2017 IEEE Conference on , 2017.[22] J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks forsemantic segmentation,” in

Computer Vision and Pattern Recognition(CVPR), 2015 IEEE Conference on , 2015, pp. 3431–3440.[23] P. O. Pinheiro, R. Collobert, and P. Doll´ar, “Learning to segment objectcandidates,” in

Advances in Neural Information Processing Systems ,2015, pp. 1990–1998.[24] J. Dai, K. He, Y. Li, S. Ren, and J. Sun, “Instance-sensitive fullyconvolutional networks,” in

European Conference on Computer Vision .Springer, 2016, pp. 534–549.[25] P. Hu and D. Ramanan, “Finding tiny faces,” in

Computer Vision andPattern Recognition (CVPR), 2017 IEEE Conference on . IEEE, 2017,pp. 1522–1530.[26] E. R. de Rezende, G. C. Ruppert, A. Theophilo, E. K. Tokuda, andT. Carvalho, “Exposing computer generated images by using deep con-volutional neural networks,”

Signal Processing: Image Communication ,2018.[27] D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. VanDen Driessche, J. Schrittwieser, I. Antonoglou, V. Panneershelvam,M. Lanctot et al. , “Mastering the game of go with deep neural networksand tree search,” nature , vol. 529, no. 7587, p. 484, 2016.[28] K. He, G. Gkioxari, P. Doll´ar, and R. Girshick, “Mask r-cnn,” in

Computer Vision (ICCV), 2017 IEEE International Conference on .IEEE, 2017, pp. 2980–2988.[29] S. Ren, K. He, R. Girshick, and J. Sun, “Faster r-cnn: Towards real-timeobject detection with region proposal networks,” in

Advances in NeuralInformation Processing Systems

American Journal of Preventive Medicine , vol. 40, no. 1, pp. 94–100,2011.[32] A. Torii, M. Havlena, and T. Pajdla, “From google street view to 3d citymodels,” in

Computer vision workshops (ICCV Workshops), 2009 IEEE12th international conference on . IEEE, 2009, pp. 2188–2195.[33] E. K. Tokuda, G. B. A. Ferreira, C. Silva, and R. M. Cesar-Jr, “Anovel semi-supervised detection approach with weak annotation,” in

Image Analysis and Interpretation, 2018. SSIAI 2018. IEEE SouthwestSymposium on . IEEE, 2018.[34] X. Li, C. Zhang, W. Li, R. Ricard, Q. Meng, and W. Zhang, “Assessingstreet-level urban greenery using google street view and a modiﬁed greenview index,”

Urban Forestry & Urban Greening , vol. 14, no. 3, pp. 675–685, 2015.[35] S. V. Stehman, “Basic probability sampling designs for thematic mapaccuracy assessment,”

International Journal of remote sensing , vol. 20,no. 12, pp. 2423–2441, 1999.[36] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Be-nenson, U. Franke, S. Roth, and B. Schiele, “The cityscapes datasetfor semantic urban scene understanding,” in

Proceedings of the IEEEconference on computer vision and pattern recognition , 2016, pp. 3213–3223.[37] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan,P. Doll´ar, and C. L. Zitnick, “Microsoft coco: Common objects incontext,” in

European Conference on Computer Vision . Springer, 2014,pp. 740–755.[38] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for imagerecognition,” in

Proceedings of the IEEE conference on computer visionand pattern recognition , 2016, pp. 770–778.[39] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and A. Zisser-man, “The pascal visual object classes (voc) challenge,”

InternationalJournal of Computer Vision , vol. 88, no. 2, pp. 303–338, 2010.[40] E. K. Tokuda, Y. Lockerman, G. B. A. Ferreira, E. Sorrelgreen, D. Boyle,R. M. Cesar-Jr., and C. T. Silva, “A new approach for pedestrian densityestimation using moving sensors and computer vision,” arXiv preprintarXivarXiv preprintarXiv