В.С. Рогоза, д-р техн. наук, Г.В. Іщенко
Національний технічний університет України
«Київський політехнічний інститут ім. Ігоря Сікорського»
Україна, 03056, Київ, пр-т Берестейський, 37
тел. +380674676553, e-mail:
тел. +380677402774, e-mail:
Èlektron. model. 2024, 46(6):08-28
https://doi.org/10.15407/emodel.46.06.008
АНОТАЦІЯ
Інформаційний пошук у вебі, базах даних та інших джерелах текстових документів включає задачі, які вимагають аналізу відношень між документами і складовими елементами документів. Встановлення таких відношень дозволяє користувачам пошукових систем отримувати потрібні їм документи серед нескінченних джерел інформації за допомогою лаконічних пошукових запитів, а також вибирати ефективні методи обробки знайдених документів для розв’язання різноманітних задач аналізу вмісту документів. Запропоновано класифікацію методів обробки текстових документів з використанням прямих та зворотних індексів, яка дозволяє узагальнювати властивості методів пошуку та обробки документів.
Наведено елементарні приклади застосування методів, що дозволяють читачеві швидко увійти в суть проблематики, яка обговорюється в статті, і краще зрозуміти принципи побудови цих методів та придатність їх для розв’язання конкретних задач інформаційного пошуку.
КЛЮЧОВІ СЛОВА:
інформаційний пошук, текстові документи, моделі прямої та зворотної індексації документів.
СПИСОК ЛІТЕРАТУРИ
- Bard G. Spelling-error tolerant, order-independent pass-phrases via the Damerau–Levenshtein string-edit distance metric. Proceedings of the fifth australasian symposium on ACSW frontiers: матеріали Міжнародної наукової конференції, Ballarat, 30 January — 2 February 2007. Darlinghurst, 2007. P. 117—124.
- Levandowsky M., Winter D. Distance between sets. Nature. 1971. Vol. 234, no. 5. P. 34—35.
- Big data. related technologies, challenges, and future prospects / C. Min et al. Springer, 2014. 100 p.
- Amer-Yahia S., Lalmas M. XML search: languages, INEX and scoring. SIGMOD record. 2006. Vol. 35, no. 4. P. 16—23.
- Zhang Z., Gentile A.L. and Ciravegna F. Recent advances in methods of lexical semantic relatedness — a survey. Natural Language Engineering, 2013.Vol. 19, no. 04, P. 411—479.
- The description logic handbook / ed. by F. Baader et al. New York : Cambridge University Press, 2003. 574 p.
- Goczyła K. Ontologie w systemach informatycznych. Warszawa : Akademicka Oficyna Wydawnicza EXIT, 2011. 310 p.
- Martin P. Translations between RDF+OWL, N3, KIF, UML, FL, FCG and FE. WebKB home page. URL: http://www.webkb.org/doc/model/comparisons.html (date of access: 20.09.2024).
- Leskovec J., Rajaraman A., Ullman J. Mining of Massive Datasets. New York : Cambridge University Press, 2014. 498 p.
- Mander U. Finding similar files in a large file systems. USENIX conference: матеріали Міжнародної наукової конференції, San Francisco, 17—21 January 1994. San Francisco, USA, 1994. P. 1—10.
- Павел. Триллион маленьких шинглов. Хабр. URL: https://habr.com/ru/companies/ antiplagiat/ articles/445952 (дата звернення: 20.09.2024).
- Andoni A., Indyk P. Near-optimal hashing algorithms for approximate nearest neighbor in high dimensions. ACM. 2008. Vol. 51, no. 1. P. 117—122.
- Min-wise independent permutations (extended abstract) / A.Z. Broder et al. The thirtieth annual ACM symposium: матеріали Міжнародної наукової конференції, Dallas, USA, 24—26 May 1998. P. 327—336.
- Wooldridge M. An Introduction to multi-agent systems. John Wiley & Sons Ltd., 2009. 488
- Hensinger M. Finding near-duplicate web pages: a large-scale evaluation of algorithms. 29th SIGIR conf.: матеріали Міжнародної наукової конференції, Seattle Washington, 6—11 August 2006. New York, USA, 2006. P. 284—291.
- Gionis A., Indyk P., Motwani, R.R. Similarity search in high dimensions via hashing. int. conf. on very large databases: матеріали Міжнародної наукової конференції, San Francisco, USA, 7—10 September 1999. P. 518—529.
- Deans J., Ghemawat S. Mapreduce: simplified data processing on large clusters. ACM. 2008. Vol. 51, no. 1. P. 107—113.
- Manning C.D., Ragnavan P., Schütze H. Introduction to Informal Retrieval. New York : Cambridge University Press, 2008. 581 p.
- Havelivala T.H. Topic-sensitive PageRank. 11th int. world-wide-web conference: матеріали Міжнародної наукової конференції, Honolulu Hawaii, 7—11 May 2002. New York, USA, 2002. P. 517—526.
- Gyöngi Z., Garcia-Molina H., Pedersen J. Combating link spam with trust-rank. Proc. 30th intl. conf. on very large databases : матеріали Міжнародної наукової конференції, Toronto, 31 August — 3 September 2004. 2004. P. 576—587.
РОГОЗА Валерій Станіславович, д-р техн. наук, професор, професор Національного технічного університету України «Київський політехнічний інститут ім. Ігоря Сікорського». В 1971 р. закінчив Київський політехнічний інститут. Область наукових досліджень — інформаційний пошук неструктурованих даних, мультиагентні системи, аналітичні методи обробки надвеликих масивів даних.
ІЩЕНКО Ганна Валеріївна, ст. викладач Національного технічного університету України «Київський політехнічний інститут ім. Ігоря Сікорського». В 2002 р. закінчила Київський політехнічний інститут. Область наукових досліджень — інтелектуальна обробка даних, гібридні інтелектуальні системи, штучний інтелект.