Top Baneris

Dirbtinis intelektas ir automatinis mokymasis – saugiems miestams projektuoti

2018 spalio 18 d.
Dirbtinis intelektas
Asociatyvi nuotr. Pixabay.com nuotr.
Pasidalykite straipsniu

Dirbtinis intelektas (angl. Artificial Intelligence, AI) įdomus tuo, kad jame naudojami algoritmai iš pradžių apmoko sistemą (arba kompiuterį), kad vėliau ji pati galėtų priimti sprendimus, tarsi „mimikuodama“ žmogaus mąstymą sprendimų priėmimo procese. Dirbtinio intelekto algoritmai leidžia sudaryti ateities prognozes, naudojant turimus duomenis (pavyzdžiui, duomenis apie miestus). Automatinis mokymasis (angl. Machine Learning, ML) yra lyg įrankis dirbtiniam intelektui įgyvendinti. ML algoritmai leidžia sudaryti ateities prognozes, naudojant duomenis (pavyzdžiui, duomenis apie miestus), spręsti duomenų klasifikavimo ir klasterizavimo problemas, rasti duomenyse modelius, kurie nepastebimi akimi ir kurių neatskleidžia net klasikiniai duomenų analizės ir statistiniai metodai.

Rėmėsi miestų patirtimi

AI ir ML taikymas urbanistiniuose tyrimuose yra naujas požiūris į duomenų naudojimą, taikomas planuojant pėsčiųjų ir transporto srautus (pavyzdžiui, viešojo transporto juostų su pertrūkiais projektavimas Lisabonoje, Portugalijoje, kai jutikliai aptinka viešojo transporto judėjimą juostoje ir rezervuoja tą eismo juostą viešajam transportui, arba mobiliųjų operatorių duomenų naudojimas srautams planuoti ir miesto bendrajam planui rengti, kaip tai šiuo metu daroma Andoroje), saugumo ir kitose srityse, kuriant sumanųjį miestą (pavyzdžiui, naudojant objektų atpažinimą gatvėse arba prognozuojant įvykius mieste) (1 pav.). Šiuolaikiniai miestai „gamina“ terabaitus TB duomenų, įvairaus tipo (struktūrinius, nestruktūrinius, teksto, foto, audio, vaizdo ir t. t.), mastelio, istorinius ir realaus laiko – miesto didžiuosius duomenis. JAV, Jungtinėje Karalystėje, Singapūre ir kai kuriose ES šalyse šie duomenys jau pasitelkiami miestams planuoti ir modernizuoti – tiek valstybiniuose miestų planavimo departamentuose, tiek nevyriausybinėse organizacijose, privačiose kompanijose (ypač startuoliuose) ir mokslo (tyrimų) institutuose.

1 pav. Objektų atpažinimas, kaip AI ir ML taikymas naudojamas urbanistinių tyrimų ir planavimo, gyventojų elgsenos analizės, nusikalstamumo prognozavimo ir kt. srityse.

1 pav. Objektų atpažinimas, kaip AI ir ML taikymas naudojamas urbanistinių tyrimų ir planavimo, gyventojų elgsenos analizės, nusikalstamumo prognozavimo ir kt. srityse.

Vykdydami projektą „CPTED taikymas visuomenės saugumui didinti“ (tyrimą finansavo Lietuvos mokslo taryba (sutarties Nr. GER- 010/2017), vadovė dr. Irina Matijošaitienė), kurio dalis buvo įgyvendinta Didžiųjų duomenų laboratorijoje, Saint Peter‘s universitete, JAV, taikome tokius AI ir ML metodus bei algoritmus, kurie leido mums nustatyti urbanistinės aplinkos savybes, atsakingas už įvyksiantį nusikaltimą, ir prognozuoti nusikalstamumą: K-NN k-artimiausio kaimyno metodas (angl. K-NN Nearest Neighbors), SVM atraminių vektorių klasifikavimo algoritmas (angl. Support Vector Machines), Naivaus Bejeso algoritmas (angl. Naive Bayes algorithm), sprendimų medis (angl. Decision Tree), atsitiktinis miško klasifikatorius (angl. Random Forest Classifier), logistinė regresija (angl. Logistic regression), taip pat svarbiausių savybių atranka (angl. Feature Selection), pasikartojantis savybių šalinimas (angl. Recursive Feature Elimination) su logistine regresija ir principinių komponentų analizė PCA (angl. Principal Component Analysis). Naudodami atrinktas urbanistines savybes, atsakingas už įvyksiantį nusikaltimą, sukūrėme nusikaltimų prognozavimo mašiną, arba dirbtinio intelekto mechanizmą, kuris pagal jam užduotus (esamus arba projektuojamus) aplinkos parametrus apskaičiuoja ir parodo, ar nusikaltimas įvyks tam tikroje miesto erdvėje, ir kokia tikimybė, kad jis įvyks.

Apie AI ir ML metodus

Urbanistinių savybių analizei, taikant AI ir ML algoritmus, naudojome duomenų programavimą „Python“. Duomenys suskirstomi į mokomąjį ir testavimo rinkinius tam, kad galima būtų sukurti ir apmokyti sistemą, naudojant mokomąjį rinkinį (kuris būna 2–4 kartus didesnis už testavimo rinkinį), o vėliau patikrinti, kaip teisingai algoritmas veikia, pasitelkiant naujus nematytus (testavimo rinkinio) duomenis. Sistema buvo apmokoma, naudojant tokius ML ir AI algoritmus:

Logistinė regresija naudoja logistinę funkciją (sigmoidą) duomenų klasifikacijai į 0 arba 1. Tam, kad būtų išvengta klasifikatoriaus „per tikslaus“ pritaikymo prie duomenų vienetų (ypač mūsų atveju, kai duomenys turi daug dimensijų – urbanistinių veiksnių, kuriuos siekiame įvertinti) (angl. overfitting), taikomas reguliarizacijos parametras C, kai sukuriama „log tikimybės nuobaudų funkcijos“ modifikacija (angl. Penalized log likehood function), kuri keičia kintamųjų svorius W logistinės regresijos modelyje.

K-NN k-artimiausio kaimyno metodo algoritmas naudoja informaciją apie k artimiausius kaimynus (duomenų vienetus) tam, kad klasifikuotų duomenis į klases (pagal daugumos principą), pavyzdžiui, saugi ir nesaugi miesto erdvė. Pirmiausia reikia nustatyti tinkamiausią k kaimynų skaičių, su kuriuo pasiekiami geriausi klasifikacijos rezultatai ir aukščiausias tikslumas. Tam naudojame „alkūnės metodą“, pagal kurį tikslumas turi būti didžiausias. Testuojamas k galimas kaimynų skaičius tam tikrame diapazone, pavyzdžiui, [1:20], tokiu būdu randant didžiausią k prieš tai, kai tikslumo kreivė pradeda slinkti žemyn.

SVM atraminių vektorių klasifikavimo algoritmas naudoja atraminius vektorius duomenų vienetams atskirti į grupes (klases) tokiu būdu, kad atstumas tarp vektorių yra kuo didesnis (t. y. skirtumas tarp klasių kuo didesnis), tuo tarpu atstumas tarp duomenų vienetų klasių viduje kuo mažesnis (t. y. duomenų taškai yra kuo labiau panašesni vienas į kitą). Išbandėme SVM su linijiniu branduoliu (angl. linear Kernel) ir su nelinijiniu branduoliu (angl. non-linear Kernel) – rbf, arba kitaip vadinamo Gauso (angl. Radial Basis Function, or Gaussian Kernel).

Naivaus Bejeso algoritmas remiasi Bejeso teorema, kur galioja prielaida apie prognozuojančių veiksnių nepriklausomybę vienam nuo kito, pavyzdžiui, turint kintamąjį h ir priklausomąjį d, Bejeso teorema rodys tokią h ir d priklausomybę: P(h|d) = (P(d|h) * P(h)) / P(d). Naivaus Bejeso klasifikatorius taria, kad klasėje esančių tam tikrų savybių buvimas yra nesusijęs su kitų savybių buvimu.

Sprendimų medis naudoja medžio pavidalo grafą arba sprendimų modelį ir jų galimus rezultatus.

Atsitiktinis miško klasifikatorius apima daug sprendimų medžių. Dažniausiai atsitiktinio miško klasifikatorius, būdamas pažangiu dirbtinio intelekto algoritmu, naudojamu robotikoje, „Google“ ir „Amazon“ kompanijų produktams kurti, duoda aukštą tikslumą ir gerus prognozavimo rezultatus. Tačiau jis gerai veikia, turint aukštus duomenis.

Apskaičiuotas tikslumas tiek mokomajam, tiek testavimo rinkiniams parodo, ar gerai sudarytas klasifikatorius ir ar galima jį naudoti nusikaltimams prognozuoti. Kuo tikslumas arčiau 1, tuo modelis teisingiau prognozuoja įvykius, kuo jis arčiau 0, tuo labiau modelio prognozuojamoji galia tampa bevertė. Klasifikavimo klaidas įvertinome, apskaičiuodami preziciją (angl. Precision), atkūrimą (angl. Recall) ir F1-metriką. Svarbiausių urbanistinių savybių atrankai naudojome pasikartojantį savybių šalinimą RFE (angl. Recursive Feature Elimination) – ši pasikartojanti procedūra – tai atgalinio savybių šalinimo pavyzdys (angl. Backward Feature Elimination) (Kohavi, 2000). Ji apima tris pasikartojančias stadijas: klasifikatoriaus mokymas (optimizuojant veiksnių svorius W atsižvelgiant į J funkciją), apskaičiavimas rangavimo kriterijų visoms savybėms (DJ(i) arba w(i)2), pašalinimas savybės su mažiausiu rangavimo kriterijumi. Verta paminėti, kad RFE neturi poveikio koreliacijos metodams, nes rangavimo kriterijus apskaičiuojamas turint informaciją apie kiekvieną savybę (Guyon etc., 2002). Urbanistinių savybių dimensijoms mažinti taikoma principinių komponentų analizė PCA (angl. Principal Component Analysis), kur naudojama ortogonalinė duomenų transformacija, siekiant konvertuoti galimai susijusių savybių rinkinį į tiesiškai nesusijusių savybių rinkinį, vadinamą principiniais komponentais.

Urbanistiniai duomenys gauti atliekant CPTED (angl. Crime Prevention Through Environmental Design) nusikaltimų prevencijos per aplinkos planavimą auditą, įvertinant Šnipiškių rajoną Vilniuje, Gričiupio mikrorajoną Kaune ir Krėvės prospektą Kaune (Matijosaitiene et al., 2018). Šie objektai pasirinkti tyrimui kaip vieni nesaugiausių abiejuose miestuose ir turintys didesnę urbanistinio užstatymo ir dizaino įvairovę. CPTED auditui buvo sudarytas klausimynas, bendradarbiaujant su Mičigano universitetu (University of Michigan), JAV. Klausimyną sudaro 51 „Taip/Ne“ klausimas, jie suskirstyti į penkis blokus pagal CPTED strategijas: stebėjimas, prieigos kontrolė (taikinio grūdinimas), teritorijų tvirtinimas, įvaizdžio gerinimas (priežiūra), aktyvumo palaikymas. Vėliau CPTED audito duomenys sujungti su duomenimis apie įvykdytus nusikaltimus tyrimo objektuose, tokiu būdu sukuriant unikalią nusikaltimų geoerdvinę duomenų bazę.

Urbanistiniai sprendimai, kuriantys saugesnę aplinką

Mūsų duomenims, geriausias rezultatas pasiektas, naudojant logistinės regresijos klasifikatorių su reguliarizacijos parametru C=0,4: mokomojo duomenų rinkinio tikslumas 0,79 ir testavimo duomenų rinkinio tikslumas 0,67. Toliau naudodami RFE su logistinės regresijos klasifikatoriumi, apskaičiavome kiekvienai savybei įtakos nusikaltimo tikimybei koeficientą ir savybės rangą, arba svarbos klasę. 51 savybė pasiskirsto į 32 svarbos klases. Galima paminėti tokias svarbiausias urbanistines savybes, lemiančias saugumą mieste (įtakos nusikaltimo tikimybei (svarbos klasės) mažėjimo tvarka).

• Nėra aklų taškų ar vietų, kuriose galima pasislėpti.
• Kvartale yra įvairus vietos naudojimo diapazonas.
• Prižiūrėta veja, gėlynai.
• Kvartale nėra nesuderinamų erdvės naudojimų.
• Gatvės pavadinimas ir namo numeris gerai matomas nuo gatvės pusės.
• Pėsčiųjų takai aiškūs ir tvarkingi.
• Erdvės tarp pastatų suformuotos taip, kad skatintų bendravimą ir žmonių judėjimą tarp pastatų.
• Pagrindinės įėjimo durys į pastatą gerai matomos nuo gatvės.
• Aktyviai naudojamos zonos yra tokiose vietose, iš kurių yra gerai matoma gatvė ir viešosios erdvės.
• Kvartale yra erdvių su įvairiomis funkcijomis, kurios skatina stebėjimą dieną ir naktį.
• Pastatai geros būklės.
• Kiekvienos erdvės numatytoji funkcija yra aiškiai suvokiama.
• Geros būklės lauko baldai, suoliukai, vaikų sūpynės ir kt.
• Nėra tuščių neaiškios paskirties vietų.
• Durų spynos įrengtos apie 1 m nuo gretimų langų.
• Vaikų žaidimo aikštelės gerai matomos pro langus.
• Kvartale yra pakankamai pramogų ir poilsio įrenginių (erdvių), kurie sukurtų socialinę sanglaudą.
• Gatvės pavadinimas ir namo numeris mažiausiai 12,7 cm aukščio ir pagaminti iš neatspindinčios medžiagos.
• Kvartale yra vietų, į kurias negali patekti pašaliniai žmonės.
• Nėra jokių vandalizmo ženklų.

Dirbtinio intelekto mechanizmas, prognozuojantis nusikaltimus

2 pav. Dirbtinio intelekto (AI), gebančio prognozuoti nusikaltimus, prototipas (ištrauka).

2 pav. Dirbtinio intelekto (AI), gebančio prognozuoti nusikaltimus, prototipas (ištrauka).

Suderintą logistinės regresijos klasifikatorių, apmokytą, naudojant turimus duomenis, ir apimantį atskleistas urbanistines savybes, didinančias saugumą mieste, ir jų svorio koeficientus, naudojame kurdami AI mechanizmo, gebančio prognozuoti nusikaltimus, prototipą (2 pav.). AI mechanizmas veikia tokiu principu: i) pirmiausia urbanistinėje erdvėje išmatuojamos urbanistinės savybės (kurias nustatėme šio tyrimo metu, dalis jų išvardytos anksčiau); ii) įvedus duomenis apie išmatuotas urbanistines savybes į mūsų sukurtą mechanizmą, suderintas klasifikatorius apskaičiuoja tikimybę, kad nusikaltimas įvyks; iii) spustelėjus žemėlapyje ant dominančios miesto erdvės, galima pamatyti, ar ji prognozuojama saugi (žalia spalva), ar nesaugi (raudona spalva), kur algoritmas priima sprendimą apie erdvės saugumą, vadovaudamasis tokiu principu – jeigu apskaičiuota tikimybė P(nusikaltimas įvyks) < 0,50, tai „Nusikaltimas neįvyks“, ir jeigu tikimybė P(nusikaltimas įvyks) >= 0,50, tai „Nusikaltimas įvyks“. Šis punktas, kur miesto erdvės žemėlapyje pažymėtos spalva pagal saugumą, galioja (kol kas) tik toms erdvėms, apie kurias surinkome urbanistinius duomenis CPTED audito metu. Testuojamas klasifikatorius pademonstravo gerus rodiklius (f1-score, precision, recall, accuracy). Todėl į šį AI mechanizmą „užkrovus“ naujų duomenų apie kitas (naujas) urbanistines erdves, jis gana tiksliai prognozuos, kuri miesto erdvė bus saugi, o kuri ne. Tokiu būdu, turint duomenis apie bet kurią urbanistinę erdvę, galima patikrinti, ar ji linkusi generuoti nusikaltimus, ar ji bus saugi. Galima iš anksto prognozuoti nusikaltimo tikimybę projektuojamame rajone. Turint teritorijos projektą (planus, 3D vaizdus ar kitokias detalias vizualizacijas), erdvė įvertinama pagal nustatytas urbanistines svybes. Duomenys nuskaitomi į AI (kai erdvių yra daugiau) arba įvedami ranka į programą (kai domina patikrinti tik vieną ar kelias erdves). AI mechanizmas apskaičiuoja ir parodo prognozuojamą nusikaltimo tikimybę. Taip pat galima keisti erdvės urbanistinius parametrus ir stebėti, kaip kinta jos saugumas, tokiu būdu parinkti optimalius parametrus ir juos realizuoti.

Duomenys nuskaitomi į AI (kai erdvių yra daugiau) arba įvedami ranka į programą (kai domina patikrinti tik vieną ar kelias erdves). AI mechanizmas apskaičiuoja ir parodo prognozuojamą nusikaltimo tikimybę. Papildomai, spustelėjus prototipo žemėlapyje ant dominančios miesto erdvės, galima pamatyti visų susijusių urbanistinių savybių reikšmes, ar ši erdvė prognozuojama saugi (žalia spalva), ar nesaugi (raudona spalva) – šis duomenų vizualizavimas apima tik jau išmatuotas ir mūsų sukurtoje duomenų bazėje aprašytas erdves.

Literatūra

GUYON, I., WESTON, J., BARNHILL, S., VAPNIK, V. Gene Selection for Cancer Classification using Support Vector Machines. Machine Learning, 46, 1-3, 389-422, 2002.

KOHAVI, R., JOHN, G. Wrappers for feature subset selection. Artificial Intelligence journal, 2000, 97, 1-2, 273-324.

MATIJOSAITIENE, I., DAMBRIUNAS, M., CIVINSKAITE, J. CPTED in Lithuanian Residential Areas. Proceedings of ISER International Conference, New York, USA, 16-17 May, 2018, 12-17, 2018.

Straipsnis paskelbtas žurnale „SA.lt“ (Statyba. Architektūra) | 2018 rugsėjis.


Pasidalykite straipsniu
Komentarai

Rekomenduojami video