Современные методы извлечения ключевой информации из нормативных документов
https://doi.org/10.33293/1609-1442-2021-2(93)-101-114
Аннотация
В статье демонстрируется подход к устранению сложностей, возникающих при анализе правовых документов в рамках экономических и междисциплинарных исследований. В условиях роста объема и постоянного обновления информации и (или) появления новой области исследований наиболее целесообразным на первом этапе является получение общей структуры всей коллекции документов, некая семантическая компрессия информации. Цель работы – продемонстрировать возможности применения методов анализа естественного языка для анализа нормативных документов, регламентирующих вопросы продовольствия и питания, в частности связанные с предупреждением развития железодефицитной анемии (ЖДА). Подход включает выделение ключевой информации объемных текстов (ключевых слов и предложений) на основе графового алгоритма TextRank. Важным звеном, способствующим познанию, является также визуализация семантических связей между словами внутри документов. По нашему мнению, именно комбинация смысловой компрессии и визуализации информации как крупный план текстовых документов, а также возможности дальнейшей детализации путем линейного чтения и анализа являются наиболее актуальным подходом в условиях перенасыщения информации и дефицита внимания. Особенно актуально активное внедрение методов текстовой аналитики для систем, которые не борются за внимание потребителей. Удобство именно таких систем существенно отстает при извлечении значимой информации. Приемы улучшения понимания больших объемов нормативных документов принесут существенную пользу аналитикам, ведущим экономические, юридические или мультидисциплинарные исследования.
Ключевые слова
Journal of Economic Literature (JEL): D80, D83
Об авторах
Мария Александровна МилковаРоссия
научный сотрудник
Иван Викторович Неволин
Россия
к.э.н., ведущий научный сотрудник
Дмитрий Павлович Пигорев
Россия
к.э.н., научный сотрудник
Список литературы
1. Ванюшкин А. С., Гращенко Л. А. (2016). Методы и алгоритмы извлечения ключевых слов // Новые информационные технологии в автоматизированных системах. № 19. С. 85–93.
2. Варшавский А. Е. (2015). Инновационные риски в области продуктов питания для России в условиях глобализации и либерализации рынков // Экономическая наука современной России. № (4). С. 91–108.
3. Гусев А. А. (2019). Экономические и институциональные основы обеспечения экологической безопасности // Экономическая наука современной России. № 1 (84). С. 70–81. doi: 10.33293/1609-1442-2019-1(84)-70-81
4. Исаков В. Б. (2018). Правовая аналитика как информационный процесс // Право и информация: вопросы теории и практики: сб. матер. междунар. науч.-практ. конф. / науч. ред. Н. А. Шевелёва. 271 с.
5. Милкова М. А. (2018). Извлечение ключевых терминов направления «Цифровая экономика»: графоориентированный подход // Цифровая экономика. № 4 (4). С. 57–65.
6. Милкова М.А. (2019). Теория подталкивания и ее искажения в информационной среде // Цифровая экономика. № 4 (8). С. 21–26.
7. Милкова М. А. (2020а). Инновационный подход к поиску информации на примере патентного анализа плана импортозамещения // Экономическая наука современной России. № 1 (88). С. 143–157. https://doi.org/10.33293/1609-1442-2020-1(88)-143-157
8. Милкова М. А. (2020б). OpenTalks.AI: Конференция 20–21 февраля 2020 года // Цифровая экономика. № 1 (9). С. 76–79.
9. Моретти Ф. (2016). Дальнее чтение / пер. с англ. А. Вдовин, О. Собчук, А. Шели; научн. ред. И. Кушнарева. М.: Издательство Института Гайдара. 352 с.
10. Недумов Я. Р., Кузнецов С. Д. (2018). Исследовательский поиск научных статей // Труды ИСП РАН. Т. 30. Вып. 6. С. 171–198.
11. Тарасова И. (2011). Железодефицитная анемия у детей и подростков // Вопросы современной педиатрии. № 10 (2). С. 40–48.
12. Чернов В. М., Тарасова И.С. (2013). Профилактика железодефицитной анемии: обоснование, принципы проведения, эффективность // Поликлиника. № 4. С. 9–12.
13. Aries A., Zegour D., Hidouci W.K. (2019). Automatic text summarization: What has been done and what has to be done // arXiv:1904.00688
14. Ashley K. (2017). Legal text analytics. Artificial intelligence and legal analytics: New tools for law practice in the digital age. Cambridge: Cambridge University Press. 446 p.
15. Barrios F., López F., Argerich L., Wachenchauzer R. (2015). Variations of the similarity function of TextRank for automated summarization. Anales de las 44JAIIO. Jornadas Argentinas de Informática. Argentine Symposium on Artificial Intelligence, 2015.
16. Beliga S., Martincic-Ipsic S., Meštrović A. (2015). An overview of graph-based keyword extraction methods and approaches. Journal of Information and Organizational Sciences, no. 39 (1).
17. Bengio Y., Ducharme R., Vincent P. (2003). A neural probabilistic language model. Journal of Machine Learning Research, no. 3, pp. 1137–1155.
18. Bird S., Klein E., Loper E. (2009). Natural language processing with Python: Analyzing text with the natural language toolkit. Sebastopol: O’Reilly. 504 p.
19. Bougouin A., Boudin F., Daille B. (2013). TopicRank: Graph-based topic ranking for keyphrase extraction. Proceedings of the Sixth International Joint Conference on Natural Language Processing. Nagoya, Japan, pp. 543–551.
20. Brin S., Page L. (1998). The anatomy of a large-scale hypertextual Web search engine. Computer Networks and ISDN Systems, no. 30 (1–7).
21. Card S.K., Mackinlay J.D., Shneiderman B. (1999). Readings in information visualization: Using vision to think. San Francisco: Morgan Kaufmann.
22. Feldman R., Sanger J. (2007). The text mining handbook: Advanced approaches in analyzing unstructured data. Cambridge: Cambridge University Press. 410 p.
23. Firoozeh N., Nazarenko A., Alizon F., Daille B. (2019). Keyword extraction: Issues and methods. Natural Language Engineering, no. 26 (3), pp. 259–291.
24. Horton S., Ross J. (2003). The economics of iron deficiency. Food Policy, no. 28, pp. 51–75.
25. Heer J., Bostock M., Ogievetsky V. (2010). A tour through the visualization zoo. Queue, no. 8 (5), 20.
26. Mihalcea R., Tarau P. (2004). TextRank: Bringing order into texts. Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, pp. 404–414.
27. Moens M.F. (2007). Summarizing court decisions. Information Processing and Management, vol. 43, pp. 1748–1764.
28. Pagallo U., Palmirani M., Casanovas P., Sartor G., Villata S. (2018). Introduction: Legal and Ethical Dimensions of AI, NorMAS, and the Web of Data. Pagallo U., Palmirani M., Casanovas P., Sartor G., Villata S. (eds). Lecture Notes in Artificial Intelligence. Cham.: Springer.
29. Page S., Brin S., Motwani R, Winograd T. (1998). The PageRank Citation Ranking: Bringing order to the web. Technical Report. Stanford: Stanford University.
30. Patterson L.E., Blaha L.M., Grinstein G.G., Liggett K.K., Kaveney D.E., Sheldon K.C., Havig P.R., Moore J.A. (2014). A human cognition framework for information visualization. Computers & Graphics, no. 42, pp. 42–58.
31. Pazienza M.T., Pennacchiotti M., Zanzotto F.M. (2006). Terminology Extraction: An analysis of linguistic and statistical approaches. Sirmakessis S. (ed.) Knowledge Mining. Studies in Fuzziness and Soft Computing, vol. 185. Berlin: Springer, Heidelberg. Р. 255–279.
32. Rizoiu M.-A., Velcin J. (2011). Topic extraction for ontology learning. Ontology Learning and Knowledge Discovery Using the Web: Challenges and Recent Advances. Wilson Wong, Wei Liu, Mohammed Bennamoun (eds.). Hershey: IGI Global. Р. 38–60
33. Robertson S.E., Sparck K. J. (1976). Relevance weighting of search terms. Journal of the American Society for Information Science, no. 27(3), pp. 129–146.
34. Robertson S., Zagaroza H. (2009). The probabilistic relevance framework: BM25 and Beyond. Foundations and Trends in Information Retrieval, vol. 3, no. 4, pp. 333–389.
35. Saad S., Salim N., Omar N. (2008). Keyphrase extraction for Islamic Knowledge ontology. International Symposium on Information Technology. ITSim, 26–28 Aug., Kuala Lumpur, Malaysia.
36. Salton G., Buckley C. (1988). Term-weighting approaches in automatic text retrieval. Information Processing and Management, no. 5 (24), pp. 513–523.
37. Schmedding F., Klügl P., Baehrens D., Simon C., Simon K., Tomanek K. (2018). EuroVoc-Based Summarization of European Case Law. Pagallo U., Palmirani M., Casanovas P., Sartor G., Villata S. (eds). AI Approaches to the Complexity of Legal Systems. AICOL 2015, AICOL 2016, AICOL 2016, AICOL 2017, AICOL 2017. Lecture Notes in Computer Science, vol. 10791. Springer, Cham. https://doi.org/10.1007/978-3-030-00178-0_13
38. Simon H.A. (1971). Designing organizations for ab information-rich world. In: M. Greenberger (ed.). Computers, communications, and the public interest. Baltimore: The Johns Hopkins Press.
39. Wu C., Marchese M., Jiang J., Ivanyukovich A., Liang Y. (2007). Machine learning-based keywords extraction for scientific literature. Journal of Universal Computer Science, vol. 13, no. 10, pp. 1471–1483.
40. Ying Y., Qingpinga T., Qinzheng X., Ping Z., Panpan L. (2017). A graph-based approach of automatic keyphrase extraction. International Congress of Information and Communication Technology (ICICT 2017). Procedia Computer Science, no. 107, pp. 248–255.
41. Zhang A.X., Verou L., Karger D. (2017). Wikum: Bridging discussion forums and wikis using recursive summarization. ACM Conference on Computer Supported Cooperative Work and Social Computing (CSCW 2017).
Рецензия
Для цитирования:
Милкова М.А., Неволин И.В., Пигорев Д.П. Современные методы извлечения ключевой информации из нормативных документов. Экономическая наука современной России. 2021;(2):101-114. https://doi.org/10.33293/1609-1442-2021-2(93)-101-114
For citation:
Milkova M.A., Nevolin I.V., Pigorev D.P. Modern Methods of Extracting Key Information From Regulatory Documents. Economics of Contemporary Russia. 2021;(2):101-114. (In Russ.) https://doi.org/10.33293/1609-1442-2021-2(93)-101-114