Прямі та зворотні задачі інформаційного пошуку текстових документів

В.С. Рогоза, д-р техн. наук, Г.В. Іщенко
Національний технічний університет України
«Київський політехнічний інститут ім. Ігоря Сікорського»
Україна, 03056, Київ, пр-т Берестейський, 37
тел. +380674676553, e-mail: Ця електронна адреса захищена від спам-ботів. Вам необхідно увімкнути JavaScript, щоб побачити її.;
тел. +380677402774, e-mail: Ця електронна адреса захищена від спам-ботів. Вам необхідно увімкнути JavaScript, щоб побачити її.

Èlektron. model. 2024, 46(6):08-28

https://doi.org/10.15407/emodel.46.06.008

АНОТАЦІЯ

Інформаційний пошук у вебі, базах даних та інших джерелах текстових документів включає задачі, які вимагають аналізу відношень між документами і складовими елементами документів. Встановлення таких відношень дозволяє користувачам пошукових систем отримувати потрібні їм документи серед нескінченних джерел інформації за до­помогою лаконічних пошукових запитів, а також вибирати ефективні методи обробки знайдених документів для розв’язання різноманітних задач аналізу вмісту документів. Запропоновано класифікацію методів обробки текстових документів з використанням прямих та зворотних індексів, яка дозволяє узагальнювати властивості методів пошуку та обробки документів.

Наведено елементарні приклади застосування методів, що дозволяють читачеві швидко увійти в суть проблематики, яка обговорюється в статті, і краще зрозуміти принципи побудови цих методів та придатність їх для розв’язання конкретних задач інформаційного пошуку.

КЛЮЧОВІ СЛОВА:

інформаційний пошук, текстові документи, моделі прямої та зворотної індексації документів.

СПИСОК ЛІТЕРАТУРИ

  1. Bard G. Spelling-error tolerant, order-independent pass-phrases via the Damerau–Leven­shtein string-edit distance metric. Proceedings of the fifth australasian symposium on ACSW frontiers: матеріали Міжнародної наукової конференції, Ballarat, 30 January — 2 February 2007. Darlinghurst, 2007. P. 117—124.
  2. Levandowsky M., Winter D. Distance between sets. Nature. 1971. Vol. 234, no. 5. P. 34—35.
  3. Big data. related technologies, challenges, and future prospects / C. Min et al. Springer, 2014. 100 p.
  4. Amer-Yahia S., Lalmas M. XML search: languages, INEX and scoring. SIGMOD record. 2006. Vol. 35, no. 4. P. 16—23.
  5. Zhang Z., Gentile A.L. and Ciravegna F. Recent advances in methods of lexical semantic relatedness — a survey. Natural Language Engineering, 2013.Vol. 19, no. 04, P. 411—479.
  6. The description logic handbook / ed. by F. Baader et al. New York : Cambridge University Press, 2003. 574 p.
  7. Goczyła K. Ontologie w systemach informatycznych. Warszawa : Akademicka Oficyna Wydawnicza EXIT, 2011. 310 p.
  8. Martin P. Translations between RDF+OWL, N3, KIF, UML, FL, FCG and FE. WebKB home page. URL: http://www.webkb.org/doc/model/comparisons.html (date of access: 20.09.2024).
  9. Leskovec J., Rajaraman A., Ullman J. Mining of Massive Datasets. New York : Cambridge University Press, 2014. 498 p.
  10. Mander U. Finding similar files in a large file systems. USENIX conference: матеріали Міжнародної наукової конференції, San Francisco, 17—21 January 1994. San Francisco, USA, 1994. P. 1—10.
  11. Павел. Триллион маленьких шинглов. Хабр. URL: https://habr.com/ru/companies/ antiplagiat/ articles/445952 (дата звернення: 20.09.2024).
  12. Andoni A., Indyk P. Near-optimal hashing algorithms for approximate nearest neighbor in high dimensions. ACM. 2008. Vol. 51, no. 1. P. 117—122.
  13. Min-wise independent permutations (extended abstract) / A.Z. Broder et al. The thirtieth annual ACM symposium: матеріали Міжнародної наукової конференції, Dallas, USA, 24—26 May 1998. P. 327—336.
  14. Wooldridge M. An Introduction to multi-agent systems. John Wiley & Sons Ltd., 2009. 488
  15. Hensinger M. Finding near-duplicate web pages: a large-scale evaluation of algorithms. 29th SIGIR conf.: матеріали Міжнародної наукової конференції, Seattle Washington, 6—11 August 2006. New York, USA, 2006. P. 284—291.
  16. Gionis A., Indyk P., Motwani, R.R. Similarity search in high dimensions via hashing. int. conf. on very large databases: матеріали Міжнародної наукової конференції, San Francisco, USA, 7—10 September 1999. P. 518—529.
  17. Deans J., Ghemawat S. Mapreduce: simplified data processing on large clusters. ACM. 2008. Vol. 51, no. 1. P. 107—113.
  18. Manning C.D., Ragnavan P., Schütze H. Introduction to Informal Retrieval. New York : Cambridge University Press, 2008. 581 p.
  19. Havelivala T.H. Topic-sensitive PageRank. 11th int. world-wide-web conference: матеріали Міжнародної наукової конференції, Honolulu Hawaii, 7—11 May 2002. New York, USA, 2002. P. 517—526.
  20. Gyöngi Z., Garcia-Molina H., Pedersen J. Combating link spam with trust-rank. Proc. 30th intl. conf. on very large databases : матеріали Міжнародної наукової конференції, Toronto, 31 August — 3 September 2004. 2004. P. 576—587.

РОГОЗА Валерій Станіславович, д-р техн. наук, професор, професор Національного тех­нічного університету України «Київський політехнічний інститут ім. Ігоря Сікорсь­кого». В 1971 р. закінчив Київський політехнічний інститут. Область наукових дослід­жень — інформаційний пошук неструктурованих даних, мультиагентні системи, аналі­тичні методи обробки надвеликих масивів даних. 

ІЩЕНКО Ганна Валеріївна, ст. викладач Національного технічного університету України «Київський політехнічний інститут ім. Ігоря Сікорського». В 2002 р. закінчила Київсь­кий політехнічний інститут. Область наукових досліджень — інтелектуальна обробка даних, гібридні інтелектуальні системи, штучний інтелект.

Повний текст: PDF