Automatic Control and Computer Sciences | 2010
Arnis Kirshners; Serge Parshutin; Arkady Borisov
A joint analysis of continuous (time series demand observations) and discrete (well-describing parameters) data is studied. Such data mining techniques as data collection, preprocessing, clustering analysis, and classification are considered. Upon continuous data preprocessing and clustering, images of possible sales development are constructed. A new product’s demand is searched for using inductive decision trees built on well-describing data.
Scientific Journal of Riga Technical University. Computer Sciences | 2010
Maria Kashkur; Serge Parshutin; Arkady Borisov
Research into Plagiarism Cases and Plagiarism Detection Methods In the age of information technology intellectual property becomes especially valuable. This is one of the causes why the cases of the plagiarism appear more frequently in all vital sectors. Due to that, there is a growing need for different instruments for the protection and verification of copyright for finding plagiarism. Before checking the document for plagiarism, reviewing algorithms and approaches for searching plagiarism, you must know and understand what constitutes the plagiarism. Therefore, in this paper we discuss definitions of plagiarism itself and give a look into most important types of plagiarism. As also the paper describes the most common plagiarism detection systems, methods used in those systems, and provides a description of several programs designed to compare documents and detect plagiarism. Plagiāta gadījumu un to noteikšanas metožu pētīšana Informācijas tehnologiju laikmetā intelektuālais īpašums kļūst īpaši vērtīgs. Tas ir viens no iemesliem, kāpēc plagiāta gadījumi arvien biežāk notiek dažādās būtiskās nozarēs, tādās kā literatūra, zinātne, mūzika, dažādi mākslu veidi u.c. Sakarā ar to pieaug nepieciešamība pēc dažādu plagiāta noteikšanas, autortiesību aizsardzības un apstiprināšanas instrumentu izstrādes un ieviešanas. Atkarībā no pēc plagiāta pārmeklētas sfēras, dinamiski mainās paša plagiāta definīcija, un ar to mainās pārmeklēšanas telpa un metožu, kuru ir iespējams pielietot, kopa. Tāpēc ir svarīgi pirms uzsākt dažādu plagiāta noteikšanas metožu un pieeju izskatīšanu un pirms uzsākt plagiāta meklēšanu dažādās sfēras - dokumenti, mākslas darbi, programmu pirmkods, projekti u.c., ir nepieciešams saprast kas vispār ir plagiāts, kas būs plagiāts mūsu izvēlētajā gadimacr;jumā un kādām plagiāta pārmeklēšanas metodēm ir vērts pievērst vairāk uzmanības. Līdz ar to šajā rakstā ir izskatīti dažādi plagiāta definējumi un plagiāta svarīgākie veidi, tajā skaitā studentu plagiāts. Tiek diskutēts par studentu plagiāta parādīšanas iemesliem. Rakstā ir piedāvāti populārāko plagiāta noteikšanas sistēmu, kas tika izstrādāti un ir pielietoti tādās ASV universitātēs, kā Stenforda universitāte, Kalifornijas universitāte u.c., apraksti. Aprakstītas apskatītās plagiāta noteikšanas sistēmās pielietoto algoritmu īpašības un dažas plagiāta noteikšanai izmantojamas programmas, kas tiek pielietoti dokumentu salīdzināšanai. Исследование случаев плагиата и методов их обнаружения В эпоху информационных технологий интеллектуальная собственность становится всё более ценной.Это является одной из причин проявления случаев плагиата в различных сферах таких, как литература, наука, музыка, различные виды искусства и др. В связи с этим возрастает потребность в разработке и внедренииразличных инструментах для защиты и подтверждения авторских прав и выявления плагиата. В зависимости от исследуемой на возможность плагиата сферы, меняется и само определение термина ‘плагиат’, и, соответственно, изменяются пространство поиска и методы, которые можно применять. Поэтому прежде, чем приступать к рассмотрению различных методов и подходов для выявления плагиата и поиску плагиата в различных областях - документах, произведениях искусства, проектах и т. д., необходимо чётко представлять, что в конкретном случае будет являться плагиатом и, соответственно, на какие подходы и методы обнаружения плагиата следует делать акцент. В данной работе рассматриваются различные определения плагиата иобсуждаются наиболее важные типы плагиата, в частности, студенческий плагиат, и возможные причины появления плагиата среди студентов. Также представлены описания наиболее распространённых систем выявления плагиата, разработанных и используемых в университетах США, таких, как Стэнфорд (Stanford), Калифорнийский университет (University of California) и др. Приведены описания особенностей методов, применяемых в выбранных системах обнаружения плагиата, а также - описания нескольких программ, используемых для сравнения документов при поиске плагиата.
international conference on data mining | 2009
Serge Parshutin; Ludmila Aleksejeva; Arkady Borisov
Management of the product life cycle and of the corresponding supply network largely depends on information in which specific phase of the life cycle one or another product currently is and when the phase will be changed. Finding a phase of the product life cycle can be interpreted as forecasting transition points between phases of life cycle of these products. This paper provides a formulation of the above mentioned task of forecasting the transition points and presents the structured data mining system for solving that task. The developed system is based on the analysis of historical demand for products and on information about transitions between phases in life cycles of those products. The experimental results with real data display information about the potential of the created system.
international conference on data mining | 2012
Arnis Kirshners; Serge Parshutin; Marcis Leja
Constantly evolving technologies bring new possibilities for supporting decision making in different areas - finance, marketing, production, social area, healthcare and others. Decision support systems are widely used in medicine in developed countries and show positive results. This research reveals several possibilities of application of data mining methods to diagnosing gastric cancer, which is the fourth leading cancer type in incidence after the breast, lung and colorectal cancers. A simple decision support system model was introduced and tested using gastric cancer inquiry form statistical data. The obtained results reveal both the benefits and potential of application of DSS aimed to support a medical expert decision, and some shortcomings mainly connected with performing an appropriate data preprocessing before mining knowledge and building the model. The paper presents the technologies behind the DSS and shows the detailed evaluation process with discussions.
Automatic Control and Computer Sciences | 2012
Arnis Kirshners; E. Liepinsh; Serge Parshutin; J. Kuka; Arkady Borisov
This work considers the results of laboratory investigations carried out to create a system for predicting cardiac necrosis risks that would be based on algorithms and procedures of data mining. Continuous data that indicated changes in the heartbeat and descriptive characteristics of the test animals were used. The procedures of data mining used included the selection of attributes, preprocessing, clusterization, classification, forecasting, and the data analysis. The belonging of an object to a particular group is found out during the clusterization and preprocessing of continuous data. Correlation among different descriptive characteristics of the animals is determined. The correlation between the continuous data and descriptive characteristics is found using a classification whose results are integrated in the form of conditional rules with the evaluation of the cardiac necrosis risks obtained in the laboratory. The resulted conditional rules and descriptive characteristics of the test animals provide the basis for predicting the cardiac necrosis risks.
Scientific Journal of Riga Technical University. Computer Sciences | 2011
Anna Galinina; Serge Parshutin
Mining Online Store Client Assessment Classification Rules with Genetic Algorithms The paper presents the results of the research into algorithms that are not meant to mine classification rules, yet they contain all the necessary functions which allow us to use them for mining classification rules such as Genetic algorithm (GA). The main task of the research is associated with the application of GA to classification rule mining. A classic GA was modified to match the chosen classification task and was compared with other popular classification algorithms - JRip, J48 and Naive Bayes classifier. The paper describes the algorithm proposed and the application task as well as provides a comparative analysis of the obtained results with other algorithms. Klasifikācijas likumu ieguve ar genētiskajiem algoritmiem e-veikala klientu novērtēšanai Darba mērķis bija izpētīt genētiskā algoritma (ĢA) iespējas, lai piemērotu klasifikācijas likumu ieguvei no statistikas datiem. Ģenētiskais algoritms ir evolucionāras optimizācijas algoritms un var būt pielietots vairākās sfērās, taču klasifikācijas likumu ieguve nav klasiskais uzdevums genētiskā algoritma pielietošanai. Darbā izpētīts ĢA darbības princips un noteikts, ka genētiskajam algoritmam piemīt visas nepieciešamās īpašības klasifikācijas likumu ieguvei no datiem. Ģenētiskā algoritma efektivitātes praktiskajai novērtēšanai klasifikācijas likumu ieguves uzdevumā, tika modificēts ĢA pamata algoritms un piedāvāta metode indivīdu piemērotības novērtēšanai. Izstrādāta metode klasifikācijas likumu kopas veidošanai, izmantojot likumu kopu, kas atlasīta ar genētisko algoritmu. Piedāvātā metode aprobēta ar iepriekš sagatavotu datu kopu, kuru izsniedza starptautiskajā konkursā Data Mining Cup 2010. Pielietojot izvēlēto datu kopu, tika novērtēta arī efektivitāte šādiem klasifikācijas algoritmiem: J48, JRip un Naïve Baiyes. Rezultāti parādīja, ka genētiskā algoritma precizitāte atrodas vienā līmenī ar citu izmantoto klasifikācijas algoritmu precizitāti. Salīdzinot algoritmu efektivitāti arī pēc iegūto likumu skaita, var secināt, ka piedāvātais genētiskais algoritms ir efektīvāks pār citiem algoritmiem. Pēc iegūtajiem rezultātiem var secināt, ka piedāvātais modificētais genētiskais algoritms nav sliktāks par citiem izmantotajiem klasifikācijas algoritmiem un to var pielietot klasifikācijas likumu ieguvei no statistikas datiem. Par piedāvātā algoritma nepilnību var minēt to, ka tas spēj apstrādāt tikai kategoriskus atribūtus. Turpmāko pētījumu mērķis būs nepārtraukto atribūtu apstrādes iespējas pievienošana piedāvātajam genētiskajam algoritmam. Извлечение правил классификации с помощью генетических алгоритмов для оценки клиентов интернет магазина Целью работы являлось изучение возможностей генетического алгоритма (ГА) применительно к извлечению правил классификации из имеющихся статистических данных. ГА является эволюционным алгоритмом оптимизации различных решений, тем не менее, извлечение правил из данных не является классической задачей для применения генетического алгоритма. В рамках проведённых исследований был изучен принцип действия ГА и установлено, что генетический алгоритм обладает всеми свойствами, необходимыми для извлечения правил из данных. С целью практической оценки ГА в рамках решения упомянутой задачи был модифицирован основной алгоритм действия ГА и предложен метод оценки пригодности индивидов. Также разработан алгоритм формирования конечного множества правил на основе отобранных генетическим алгоритмом. Предложенный метод был опробован на предварительно подготовленном множестве данных, использованном на международном конкурсе Data Mining Cup 2010. Также на выбранном множестве данных была оценена эффективность таких алгоритмов классификации, как J48, JRip и Nave Bayes. Результаты показали, что по точности классификации ГА находится на одном уровне с остальными классификаторами. Сравнивая эффективность по числу сформированных правил, ГА также оказался более эффективен, нежели остальные алгоритмы. Имея данные результаты, можно заключить, что предложенный модифицированный генетический алгоритм не хуже остальных использованных алгоритмов и может быть использован для извлечения правил классификации из данных. Недостатком предложенного алгоритма является то, что он способен обрабатывать только категорийные атрибуты. Целью дальнейших исследований станет устранение данного недостатка.
international conference on data mining | 2010
Serge Parshutin
Production planning is the main aspect for a manufacturer affecting an income of a company. Correct production planning policy, chosen for the right product at the right time, lessens production, storing and other related costs. The task of choosing a production policy in most cases is solved by an expert group, what not an every company can support. Thus a topic of having an intelligent system for supporting production management process becomes actual. The main tasks such system should be able to solve are defining the present Product Life Cycle (PLC) phase of a product as also determining a transition point - a moment of time (period), when the PLC phase is changed; as the results obtained will affect the decision of what production planning policy should be used. The paper presents the MultiAgent Data Mining system, meant for supporting a production manager in his/her production planning decisions. The developed system is based on the analysis of historical demand for products and on the information about transitions between phases in life cycles of those products. The architecture of the developed system is presented as also an analysis of testing on the real-world data results is given.
agents and data mining interaction | 2009
Serge Parshutin; Arkady Borisov
Production planning is the main aspect for a manufacturer affecting an income of a company. Correct production planning policy, chosen for the right product at the right moment in the product life cycle (PLC), lessens production, storing and other related costs. This arises such problems to be solved as defining the present a PLC phase of a product as also determining a transition point - a moment of time (period), when the PLC phase is changed. The paper presents the Agents Based Data Mining and Decision Support system, meant for supporting a production manager in his/her production planning decisions. The developed system is based on the analysis of historical demand for products and on the information about transitions between phases in life cycles of those products. The architecture of the developed system is presented as also an analysis of testing on the real-world data results is given.
Scientific Journal of Riga Technical University. Computer Sciences | 2009
Irina Provorova; Serge Parshutin; Sergejs Provorovs
Using Genetic Algorithm to Optimize Weights in Data Mining Task This paper considers an application of genetic algorithm (GA) to optimize weights in data mining task. Data mining tasks usually have datasets containing a large number of records and features that will be processed using, for example, created classification rules. As a result, by using classical method to classify a large number of records and features, a high classification error value will be obtained. To solve this problem, the genetic algorithm was applied to find for each feature the weight that would reduce classification error value. As a classical method, the k-nearest neighbour (KNN) classifier was chosen and the modified genetic algorithm was applied to optimize the weight. Based on the joint application of genetic and k-nearest neighbour algorithms, the GA/KNN hybrid algorithm was developed. As a result, the developed hybrid algorithm provides a stable classification error reducing regardless of the number of records and features, and also of the chosen number of neighbours. In the GA block the modified crossover and mutation works in each generation with identical intensity and cannot provide debasing of the individual.
Archive | 2011
Serge Parshutin; Arnis Kirshners