Взвешенный

Блог

ДомДом / Блог / Взвешенный

Oct 17, 2023

Взвешенный

Scientific Reports, том 13, номер статьи: 14061 (2023) Цитировать эту статью Подробности о показателях В современной цифровой культуре, основанной на данных, существует острая потребность в оптимизированных решениях, которые по существу

Том 13 научных докладов, Номер статьи: 14061 (2023) Цитировать эту статью

Подробности о метриках

В современной цифровой культуре, основанной на данных, существует острая потребность в оптимизированных решениях, которые существенно сокращают операционные расходы и одновременно повышают производительность. Объем памяти и время обработки, которые можно использовать для обработки огромных объемов данных, подлежат ряду ограничений. Это, несомненно, было бы еще большей проблемой, если бы набор данных содержал избыточную и неинтересную информацию. Например, многие наборы данных содержат ряд неинформативных функций, которые в первую очередь вводят в заблуждение данный алгоритм классификации. Чтобы решить эту проблему, исследователи разрабатывают различные методы выбора признаков (FS), целью которых является удаление ненужной информации из необработанных наборов данных перед их передачей в алгоритм машинного обучения (ML). Алгоритмы метаэвристической оптимизации часто являются хорошим выбором для решения NP-сложных задач, таких как FS. В этом исследовании мы представляем метод FS-обертки, основанный на алгоритме поиска воробья (SSA), типе метаэвристики. SSA — это метод роевого интеллекта (SI), который выделяется своей быстрой сходимостью и повышенной стабильностью. У SSA есть некоторые недостатки, такие как меньшее разнообразие роев и слабая исследовательская способность на поздних итерациях, как и у большинства алгоритмов SI. Итак, используя десять хаотических карт, мы пытаемся улучшить SSA тремя способами: (i) начальное формирование роя; (ii) замена двух случайных величин в SSA; и (iii) фиксация воробьев, пересекающих зону поиска. В результате мы получаем CSSA — хаотичную форму SSA. Обширные сравнения показывают, что CSSA превосходит с точки зрения разнообразия роя и скорости сходимости при решении различных репрезентативных функций из набора тестов Конгресса Института инженеров по электротехнике и электронике (IEEE) по эволюционным вычислениям (CEC). Кроме того, экспериментальный анализ CSSA на восемнадцати междисциплинарных многомасштабных наборах данных машинного обучения из хранилища данных Калифорнийского университета в Ирвине (UCI), а также на трех многомерных наборах данных микрочипов показывает, что CSSA превосходит двенадцать современных алгоритмов. в задаче классификации на основе дисциплины FS. Наконец, статистический апостериорный анализ с уровнем значимости 5%, основанный на знаковом ранговом критерии Уилкоксона, ранговом тесте Фридмана и тесте Неменьи, подтверждает значимость CSSA с точки зрения общей пригодности, точности классификации, размера выбранных признаков, времени расчета, трассы сходимости. и стабильность.

Двадцать первый век стал эрой данных, когда анализ и использование данных видны повсюду во всех аспектах жизни, и эти данные часто носят многомерный характер1,2,3,4,5. Однако неизбежно, что эти данные будут содержать значительное количество избыточных и нерелевантных характеристик, что увеличивает вычислительные затраты и риск переобучения при обработке традиционными алгоритмами машинного обучения (ML)6,7,8. В результате, чтобы лучше использовать данные, необходимо разработать эффективные процедуры, такие как выбор признаков (FS), для обработки бесполезных признаков9,10,11. Оболочки, фильтры и встроенные методы FS обычно используются для их дифференциации на основе оценки подмножеств функций12. Подходы на основе оберток полагаются на заранее определенные алгоритмы машинного обучения для получения более высокой точности классификации, но их вычисления очень дороги, поскольку алгоритмы машинного обучения необходимо запускать множество раз13. Напротив, при оценке подмножеств признаков подходы на основе фильтров не используют какие-либо алгоритмы машинного обучения, что снижает вычислительные затраты, но может снизить точность классификации14. Встроенные методы включают FS в обучение модели, учитывая влияние алгоритмической модели и одновременно снижая вычислительную нагрузку; однако эти методы имеют плохую способность к обобщению и значительную вычислительную сложность15.

Поскольку количество подмножеств признаков варьируется геометрически из-за размерности данных, сложно получить адекватные результаты с помощью традиционных методов, особенно при работе с многомерными данными. Чтобы снизить высокие вычислительные затраты, вызванные проклятием размерности, можно разработать новые подходы к выбору подмножества функций на основе алгоритмов роевого интеллекта (SI) благодаря их надежности и настраиваемости16,17,18. Алгоритмы SI обладают тремя важными характеристиками: гибкостью, самоорганизацией и устойчивостью. Эти алгоритмы часто основаны на групповом поведении в природе, например, поиске пищи, борьбе с хищничеством и миграции19. Типичными алгоритмами SI являются оптимизация колонии муравьев (ACO)20, оптимизация роя частиц (PSO)21, оптимизатор серого волка (GWO)22, искусственная пчелиная колония (ABC)23, алгоритм оптимизации кита (WOA)24, алгоритм оптимизации кузнечика (GOA). 25, оптимизация Харриса Хоукса (HHO)26 и алгоритм роя птиц (BSA)27. Другие алгоритмы оптимизации включают алгоритм летучей мыши (BA)28, оптимизацию поиска атомов (ASO)29 и оптимизацию растворимости газа Генри (HGSO)30. В целом, метаэвристические алгоритмы могут эффективно решать проблемы FS, снижая вычислительную сложность и одновременно достигая большей точности классификации, и поэтому подходы SI последовательно применяются к проблемам FS31,32,33,34. Например, Хуссейн и др.35 интегрировали синус-косинусный алгоритм (SCA) в HHO, чтобы сбалансировать разведочные и эксплуатационные возможности HHO, а экспериментальные результаты по нескольким численным оптимизациям, а также задачам FS показали конкурентное преимущество предложенного алгоритма перед другие алгоритмы SI. Неггаз и др.36 впервые применили HGSO для решения проблем FS. Экспериментальные результаты на наборах данных с разными размерами объектов (от 13 до 15009) показали, что HGSO эффективно минимизирует размер объектов, особенно для многомерных данных, сохраняя при этом максимальную точность классификации.

N/2\) indicates that scroungers need to fly elsewhere to get food; otherwise, scroungers get food form around producers./p>f({\mathbf{g}}_{best}^{t})\) indicates that the sparrow is at risk of predation and needs to change its location according to the current best individual, whereas when \(f({\textbf{x}}_i^{t})=f({\mathbf{g}}_{best}^{t})\), a sparrow needs to strategically move closer to other safe individuals to improve its safety index./p>