Анализируй то, анализируй это

Лингвистика на big data: cтарые страхи на новый лад

Опубликовано пт, 03/10/2023 - 02:47 пользователем dmitry.alekseev

Примечательно, что идеи в духе Cybersyn и моделей World возникают в очередной экономико-кризисный и демографико-циклоспадный период, когда "все идет ко дну" и "летит к чертям". И на этом же фоне снова всплыла тема широкого внедрения компьютерной лингвистики на уровне больших данных.

Но, еще раз, на новый лад. Да, эти технологии "компьютерной лингвистики" давно известны, изучены и относительно развиты. Они были таковы, когда я ими особо плотно занимался в период с 2008 по 2012 год.

Подобное широкое внедрение предполагает изменение парадигмы интернет-поиска: не то, чтобы он при этом стал "менее коммерческим", но, скорее, изменил бы характер извлечения доходов в сети. Подобное применение старых добрых (скорее даже речь следует вести не столько о старых, сколько о становящихся уже классическими) технологий, предполагает ни много, ни мало, как массовизацию OSINT - так же, как где-то примерно в "нулевые годы" происходила массовизация журналистской профессии через распространение и усложнение "пользовательского контента" (UGC) через получение им рыночной и административной значимости.

Велик ли смысл в том, чтобы дата-центры и суперкомпьютеры сами майнили терабайты текстов, анализировали и сами в себе хранили их согласно неким алгоритмам обеспечения целей и задач (например, коммерческих или стратегических)? Скорее, речь должна идти о живом человеческом интересе, реализуемым через человеко-машинную многопользовательскую и межпользовательскую среду.

Именно здесь кроется реализация того самого "социального компьютинга", о котором вещали футурологи ИТ-отрасли в те самые "нулевые годы" (большей частью в первой их половине). Когда предметом пользовательских настроек в личном кабинете оказываются параметры краулинга и поиска, а также визуализации данных, их онтологического картирования и локального экспертного анализа с выдачей рекомендации на основе прозрачных для самого пользователя и высоко кастомизированных алгоритмов. С привлечением средств облачного хранения, где уже как раз подключается (или нет) та самая инфраструктура дата-центров и суперкомптьютеров, для которой ее владельцы должны создать соответствующие, массовые же, клиентские решения. И вести работу уже с информационным продуктом более глубокой лингвоаналитической переработки, осуществленной по заказу или под задачи конкретных личностей.

Следует подчеркнуть, здесь имеется в виду машинная работа не с пресловутыми "психологическими портретами" личностей (в пользу total control), но с обработанными данными как предметами и содержаниями отдельных пользовательских интересов - подобно тому, как банковские продукты имеют дело не с личностями заемщиков или вкладчиков, а с их платежеспособностью и текущими интересами, связанными с займами и вкладами исключительно в рыночном измерении (личностные аспекты могут быть интересны в ограниченном объеме исключительно в смысле due diligence банка).
Понимая, что составляющий основу живой человеческой активности в интернете поиск связан с запросами и способами их удовлетворения, имеющими именно натурально-текстовую, то есть живую человеческую, природу, следует ориентироваться на то, что процесс коммуникации в этой форме предполагает и собственную эволюцию в плане как качества общения, так и аналитической обработки информации с использованием более продвинутых, но массово же наиболее интуитивных, софтверных средств. И что (опять же, в массовом плане) наиболее платежеспособной (и заинтересованной в финансовых сервисах, включая "новые денежные") категорией пользователей будет именно та, что ориентирована на такую эволюцию. В противном случае придется привлекать экономические факторы - драйверы ИТ-отрасли - за рамками собственно ИТ среды.

(Сразу стоит отметить, что их придется привлекать в любом случае: за рамками "виртуальной реальности" всегда есть если не "базовая", то хотя бы "другая виртуальная". А если ее нет, то, опять же, возникает проблема снижения платежеспособности в данной.)

То, что сейчас наблюдается - все то же производство ради производства и рост ради роста, но не управление структурой спроса с позиции его источника и в принципе хоть сколь-нибудь сложного поиска его предмета. Спроса, представляющего собой основное, исходное благо. Даже более фундаментальное, чем деньги, ради которых существует движущая ИТ-отрасль электронная коммерция. (Госзаказ с его тотальным контролем, опять же, здесь не рассматриваем: он заканчивается там, где и когда заканчиваются "накопленные непосильным внеэкономическим / налоговым трудом" деньги и где рано или поздно приходится "выключать государя-регулятора").

Готовы ли перечисленные в статье мейджеры ИТ к такому повороту дел? Если нет, то все эти чаяния и фобии с фрустрациями а-ля периодизация от Gartner - не более, чем хайп, представляющий психологическую реакцию на сюжетную классику мировой экономики, имеющую лишь срочную биржевую значимость. Потому, что прохождение периодов может обрываться шоками, а тему "прерванных процессов" мировая эпистемология так, похоже, и не освоила.

LLM