ВИЗНАЧЕННЯ ІНФОРМАЦІЙНОГО ЯДРА ПРИ КЛАСИФІКАЦІЇ ДОКУМЕНТІВ

Манзюк Едуард Андрійович, кандидат технічних наук, доцент Хмельницького національного університету
Бармак Олександр Володимирович, доктор технічних наук, професор Хмельницького національного університету
Крак Юрій Васильович, член-кореспондент НАН України, доктор фізико-математичних наук, професор, зав. кафедрою Київського національного університету ім. Тараса Шевченка, зав. лабораторією Інституту кібернетики ім. В.М. Глушкова НАН України, м. Київ
Касьянюк Веда Станіславівна, кандидат фізико-математичних наук, зав. лабораторією Київського національного університету ім. Тараса Шевченка Київського національного університету ім. Тараса Шевченка

pages 78–86

DOI: 10.1615/JAutomatInfScien.v50.i4.30

Проведено аналіз оцінок класифікаторів на підставі визначення інформаційної цінності ознак класифікації. Розглянуто етапи попередньої обробки документів та їх класифікації на базі сучасних підходів. Класифікація проводиться з використанням як окремих класифікаторів, так і компонентного підходу асамблеї. Асамблеї класифікаторів використовують композицію зі зміною навчальної вибірки та поєднанням класифікаторів різного типу. Запропоновано підхід, який дозволяє визначити елементи класифікації, що мають інформаційну цінність, та узагальнюючі властивості шляхом оцінки міри подібності між ними на підставі результатів класифікації.

  1. Автоматическая обработка текстов на естественном языке и анализ даннях / Е.И. Большакова, К.В. Воронцов, Н.Э. Ефремова, Э.С. Клышинский, Н.В. Лукашевич, А.С. Сапин. — М. : Изд-во НИУ ВШЭ, 2017. — 269 с.
  2. Yang Y., Liu X. A re-examination of the text categorization methods // Proceeding of SIGIR-99, 22-nd ACM International Conference on Research and Development in Information Retrieval. — Berkeley, CA. — 1999. — P. 42–49.
  3. High relevance keyword extraction facility for Bayesian text classification on different domains of varying characteristic / L.H. Lee, D. Isa, W.O. Choo, W.Y. Chue // Expert Systems with Applications. — 2012. — N 39. — P. 1147–1155.
  4. Ландэ Д.В., Снарский А.А. Компактифицированный горизонтальный граф видимости для сети слов // Труды Международной научной конференции «Интеллектуальный анализ информации ИАИ-2013. Знания и рассуждения». — Киев, 2013. — C. 158–164.
  5. A comparison of word- and sense-based text categorization using several classification algorithms / A. Kehagias, V. Petridis, V.G. Kaburlasos, P. Fragkou // Journal of Intelligent Information Systems. — 2003. — 21, N 3. — P. 227–247.
  6. Lee C.H., Yang H.C. Construction of supervised and unsupervised learning systems for multilingual text categorization // Expert Systems with Applications. — 2009. — 36, N 2, Part 1. — P. 2400–2410.
  7. Pan S., Zhang Y., Li X. Dynamic classifier ensemble for positive unlabeled text stream classification // Knowledge Information System. — 2012. — 33, N 2. — P. 267–287.
  8. Schapire R.E., Singer Y. BoosTexter: A boosting-based system for text categorization // Machine Learning. — 2000. — N 39. — P. 135–168.
  9. Kupervasser O. The mysterious optimality of Naive Bayes: Estimation of the probability in the system of «classifiers» // Pattern Recognition and Image Analysis. — 2014. — 40, N 24. — P. 1–10.
  10. Kirichenko N.F., Krak Yu.V., Polishchuk A.A. Pseudo inverse and projection matrices in problems of synthesis of functional transformers // Cybernetics and Systems Analysis . — 2004. — 40, N 3. — P. 407–419.
  11. Анализ и синтез ситуаций в системах принятия решений / Ю.Г. Кривонос, Ю.В. Крак, Н.Ф. Кириченко, В.С. Донченко, А.И. Куляс. — Киев : Наук. думка, 2009. — 365 с.