[資料產品實作] 如何取得臉書使用頻率最高的文字 (Part 1)?
![[資料產品實作] 如何取得臉書使用頻率最高的文字 (Part 1)?](https://img.youtube.com/vi/vVBAHXBQets/0.jpg)
文章介紹了最近vonvon的人氣臉書文字分析服務,並提供了使用網路爬蟲(Python Crawler)來抓取用戶在Facebook上留下的所有訊息內容的教程。
開始上課文章介紹了最近vonvon的人氣臉書文字分析服務,並提供了使用網路爬蟲(Python Crawler)來抓取用戶在Facebook上留下的所有訊息內容的教程。
開始上課現今人工智慧的進步為我們的生活帶來了前所未有的變革。你或許已熟悉使用ChatGPT創作文章、寫信、翻譯或是使用MidJourney、DALL-E以文字產生千變萬化的圖片,但今天,我們要談論的不僅僅是生文、生圖,我們要談論的是如何利用文字生成音樂!有了AudioCraft,現在你不需要專業的音樂背景,只要提供文字,AudioCraft就能為您生成旋律,音樂家可以獲取新的靈感,而中小企業主也可以輕鬆地為他們的廣告增加配樂,相信有了AudioCraft,再搭配自己的音樂品味,相信在不久的將來,大家都可以成為音樂創作大師!
開始上課這篇文章講述了使用實價登錄資料來分析房市景氣的方法,並介紹了如何使用Python Pandas和Linux工具iconv進行資料讀取 編碼轉換和清理的步驟。
開始上課以前在Python中進行資料分析可能會讓你不得不依賴Pandas,但當需要進行資料修改或新增時,Excel總是那個得心應手的選擇,對吧?現在有一個令人興奮的消息!微軟和Anaconda攜手合作,將Anaconda帶入Excel的世界中。這意味著,現在你可以在Excel的熟悉界面中,發揮Python的強大威力,進行資料分析和機器學習。不再需要繁瑣的資料匯出和匯入,一切都在一個地方搞定!🔗🔢
開始上課本篇文章介紹了如何使用Python的Requests模組來抓取三大法人買賣金額統計表。這是建立自己交易系統前需要的資料之一,作者提供了一步步的教學來引導讀者完成這個任務。這個教學對於想要學習如何使用Python來獲取金融相關資料的人來說很有幫助。
開始上課這篇文章介紹了ISpark這個解決方案,讓使用者能夠在Ubuntu 14.04中使用Jupyter和Spark建立開發環境。這樣可以像Python一樣方便地記錄開發內容,提供了一個簡易好用的開發環境。
開始上課這篇文章介紹了如何使用OpenCv進行影像辨識,將台灣證券交易所買賣日報表上的五碼驗證碼分解成五個單一文字。這樣的分解可以讓後續的機器學習演算法更容易辨識圖像文字(OCR)。
開始上課本文介紹了如何使用Git的三種方法,分別是Git Bash Git GUI和命令提示字元。這些方法可以讓使用者在不同的環境下自由操作Git。學習使用Git是開發者必須熟悉的技能之一。
開始上課本教學將透過BeautifulSoup 4和css selector,來抓取三大法人買賣金額統計表的資訊。首先,我們需要導入requests和BeautifulSoup套件。然後,使用requests.get()函式來獲取網頁的HTML內容,將其存儲在一個變數中。接下來,使用BeautifulSoup的select()方法和正確的css選擇器,來定位我們要抓取的元素。最後,遍歷結果,將每個元素的文本打印出來或進一步處理。這樣,我們就可以輕鬆地獲取三大法人買賣金額統計表的資訊了。
開始上課這篇文章介紹了如何使用timedelta來生成不同的日期資訊,這對於接下來的資料爬取非常重要。透過timedelta,讀者可以學會在程式碼中設定不同的日期範圍,以方便後續的資料處理。
開始上課本文介紹了在使用程式語言連結到資料庫時可使用的兩種方法:ODBC和JDBC。同樣地,R語言也提供了RODBC和RJDBC兩種方法供使用者選擇。本文將教您如何下載JAR檔和設定連線資訊,使得R可以通過RJDBC連結到資料庫,並獲取資料庫中存放的三大法人買賣資訊。
開始上課聽說最近外資對台積電法說會的評價很高,不知道是真的還是假的呢?那麼就讓我ChatGPT來告訴你們答案吧!為了能夠快速探索外資對台積電法說會的看法,我們先蒐集了一堆外資對台積電的投資建議報告,並運用最近話題最熱的兩大神器:langchain 與 llama_index來將所有外資的建議報告索引起來。 而本教學不只是教學如何建立單篇的PDF索引,而是包含多篇PDF的索引服務。當我們將所有報告索引起來後,這項服務就比ChatPDF更加傑出!使用者只需要對索引提問,就可以輕輕鬆鬆得知每家外資對台積電法說會的看法了!
開始上課Ollama是一款能在個人電腦上輕鬆部署和使用語言模型的工具,透過Ollama,我們便能在終端機使用:1. 聯發科的 Breeze 7b 模型、2. 利用 Python 接合 Ollama 的端口,3. 甚至使用 Llava 模型智慧地重命名文件中的圖片。透過本地端部署的大型語言模型,便能在保障隱私與安全的前提下,有效能夠提高工作效率。
開始上課Google最近發布了新的開源大型語言模型Gemma,似乎是為了與Meta的Llama2與OpenAI展開競爭。Google 此次提供了2B和7B兩種模型,目的在應用於較低配置的運行環境上離線使用,彰顯了Google想在邊緣AI領域獨佔鰲頭的野心。以下我們將一起探討如何在個人電腦上快速利用LM Studio 部署Gemma 2B,讓大家親身體驗這款先進語言模型的卓越性能吧!
開始上課這篇文章介紹了如何使用Facebook Graph API探索個人隱私。透過連結到Facebook Developer Page,可以學習如何使用Graph API進行測試。
開始上課近期,DeepFakes技術被一些人拿來製作不雅影片,引發社會不安。然而,這並不意味著該技術應被責難,仍可以運用於有趣的應用。例如,透過DeepFakes技術,可以讓觀眾親身體驗全球轟動的魷魚遊戲。本教學影片將介紹DeepFakes技術的原理。
開始上課本教學將教您如何使用Selenium自動瀏覽Expedia網站,並利用LangChain和ChatGPT的Extraction功能,自動解析半結構化資料。最後,使用Pandas將半結構化資料轉換為結構化資訊。透過ChatGPT和LangChain的幫助,我們可以省去編寫網路爬蟲時需要觀察元素的麻煩。再加上Selenium可以模擬人類操作,我們能夠簡化網路爬蟲的過程,輕鬆地獲取所需的網頁資訊。期待著中秋節的到來,並希望能在日圓跌至新低的時候,節省機票費用,享受一趟愉快的旅程。
開始上課在 [ 如何使用ChatGPT 快速翻譯 PDF 文件? ] 的影片中,我們探討了如何使用ChatGPT來翻譯文件。許多觀眾提問,表示他們有大量的論文儲存在自己的電腦或Google Drive上。因此,今天我們將展示如何有效利用我們的程式來翻譯這些文件。我們將直接從Google Drive存取文件,並使用ChatGPT進行翻譯。今天的教程不僅是對之前程式的改良,我們還將介紹一種更強大的PDF解析器。以往,我們使用了PyPDF來處理PDF文件,但由於PDF的結構複雜,我們今天將引入一個更專業的工具—LamaParse,這是由知名的RAG套件Lama Index所提供。讓我們開始今天的教程吧!
開始上課今天要帶大家挑戰用 Whisper 和 PyAudio 打造即時字幕轉錄功能!😲 先安裝必要套件,寫個錄音函數把聲音切成小片段,讓 Whisper 辨識語音轉文字,最後用無窮迴圈讓錄音、辨識輪番上陣,就能創造即時語音轉文字的魔法!🎉 最後還用 OpenAI CEO Sam Altman 的片段實測給你看!想要更精準的結果可選用更大的模型,但要有 GPU 硬體才能兼顧速度和準確度喔!😉跟著這個教學,你也可以輕鬆用 Whisper 做出自己的即時語音轉文字應用!
開始上課為了減少檢測人力,作者介紹了一個口罩檢測系統的建構方法,使用YOLO (You only look once)來快速檢測是否每個人都有配戴口罩。文章提到了YOLO的介紹以及在Colab上安裝YOLO的步驟。作者也提供了相關的教學影片和程式碼連結。這個系統有助於確保大家的健康,尤其在新冠肺炎持續延燒的情況下。
開始上課本篇文章介紹了如何使用Python的requests和BeautifulSoup4函式庫來獲取並解析PTT網站的文章內容。透過requests的get方法可以將網頁內容取回,再使用BeautifulSoup4來解析原始碼,提取出有意義的結構化資訊,例如文章標題 作者和發文時間等。這對於進一步分析和處理PTT文章內容非常有用。
開始上課最近「爬蟲」話題又紅了起來,今天大數學堂不聊八卦,直接教你實用技術!我們要示範如何用 AI 輕鬆突破那些「我不是機器人」的圖片驗證,包括選紅綠燈、斑馬線、機車等各種 CAPTCHA 挑戰。使用 Google Gemini AI 搭配 Selenium 自動化工具,實現「魔法打敗魔法」- 用 Google 的 AI 來破解 Google 的驗證系統!
開始上課Pokemon GO 是一款線上遊戲,在台灣尚未發行。然而,已有國外玩家找到破解方法,能夠存取遊戲內的API資訊。本文將提供教學,讓玩家能輕鬆找到附近的神奇寶貝。
開始上課LLaMA-Efficient-Tuning 是一個簡易的大型語言模型微調框架,能夠進行PEFT並支援訓練多種大型語言模型,如LlaMA2、BLOOM、Falcon 和 Baichuan。微調步驟包括安裝 LLaMA-Efficient-Tuning、調整 dataset_info.json 加入自己的資料集描述、導入自己的監督式微調資料集、以及使用內建指令進行監督式微調和預測生成。有了Llama2,再搭配自己的資料集,相信在不久的將來,大家都可以使用LLaMA-Efficient-Tuning快速有效地微調Llama2模型以適應特定需求。
開始上課本文介紹了網路爬蟲的另一個功能,即抓取並存儲網路上的圖片。作者透過設定stream = TRUE後,使用shutil的copyfileobj功能將圖片存儲為檔案,並建立一個能夠存儲blob資料的資料表。這樣,我們便能夠將圖片存儲到資料庫中。
開始上課本教學將手把手教學如何從GoodInfo網站獲取臺積電財報數據外,還將進一步利用ChatGPT的GPT-4 API解讀財報,判斷公司是否值得投資。影片內容涵蓋了爬蟲、資料處理、API註冊、提示詞設計、財報分析等詳細步驟,幫助您掌握快速取得股票財報和AI輔助投資決策的方法。
開始上課Goodinfo台灣股市資訊網為投資者提供重要股票資訊,作者使用Python網路爬蟲自動化爬取各股票的歷年經營績效。作者通過設定user-agent以規避Goodinfo的防爬蟲機制,並使用Pandas整理資料。這樣的資料結構可以幫助投資者做出更好的投資決策。詳細的影片和程式碼連結都有提供。
開始上課爬蟲的定律就是目標網站一直在變!本教學示範如何突破集保網站的更新限制,成功抓取股權分散表資料。🔍 透過結合 requests 的 Session 管理、Synchronizer Token 驗證機制,並運用 BeautifulSoup 解析 HTML 與 Pandas 處理表格數據,輕鬆完成資料擷取。💡 整個過程展示了如何應對網站的變化,透過 POST 請求技巧實現穩定的爬蟲功能。🚀
開始上課Google最新推出的Gemini 2 Flash為AI即時翻譯領域帶來重大突破,開發者僅需撰寫約100行Python程式碼,就能實現即時影片和對話的翻譯功能。這套系統透過WebSocket實現即時通訊,採用每0.25秒分段處理音訊的機制,並整合了語音辨識與翻譯功能。儘管目前在中文語音輸出支援和翻譯精準度上還有改進空間,但系統已能在極低延遲的情況下提供高品質的翻譯結果。
開始上課自從看了GPT-4o的一個發表會以後,大家是不是對多模態模型都感到非常興奮呢?雖然我們現在可以在ChatGPT Plus使用到GPT-4o,但它並沒有展示會中所展示的語音輸入和輸出功能。 幸好的是,最近Google的Gemini也推出了多模態模型,而且也可以接受語音輸入。我就想,不如把這個技術結合語音合成,打造一個即時口語翻譯系統,而且更進一步,用自己的聲音翻譯!本影片將手把手教您如何使用Google的Gemini和ElevenLabs服務,讓AI自動翻譯您講的內容,並用你自己的聲音說出翻譯後的內容,大大降低溝通門檻。
開始上課2025 年被業界稱為「Agent 元年」,標誌著 AI 應用進入了一個嶄新的階段。本課程將展示如何運用 OpenAI Swarm 框架打造一個智慧股票分析系統,透過多個專業 Agent 的分工協作,實現即時股價查詢、技術指標分析和財務數據解讀等功能。課程採用 yfinance 和 pandas_ta 等實用工具,手把手帶領學習者從零開始建立自己的 AI 投資助手,讓投資決策更有效率。透過這個實戰案例,學習者不僅能掌握 2025 年最熱門的 AI Agent 技術,更能實際應用在投資分析領域。
開始上課Anthropic最新推出的Computer Use功能讓AI真正能控制電腦,引發業界高度關注。這項創新技術承諾能讓AI助手直接操作我們的電腦系統,為自動化領域帶來新的可能性。然而,實際測試結果顯示,Computer Use功能仍有待改進。主要問題在於系統會將原始畫面進行resize處理,導致滑鼠定位不夠精準,加上耗費大量Token的問題,使用成本偏高。值得一提的是,使用GPT-4V搭配PyAutoGUI,其實就能達到相似的效果。本次測試過程中,我們詳細展示了從環境建置、API設定到實際操作的完整流程,並以MOMO購物網站為例進行實測。儘管目前功能還不夠完善,但已展現出AI輔助人類的潛力,期待隨著技術演進能帶來更多突破性的應用。
開始上課本教學影片介紹如何在使用Selenium自動預購PS5的同時,自動登入momo購物網的使用者帳戶。透過保存與讀取Cookie資料,將其輸入至driver中,讓搶購變得更快又方便。影片和程式碼連結如下。
開始上課想使用網路爬蟲搜集資料,卻不會寫程式?Playwright-MCP 巧妙結合MCP與網頁自動化工具Playwright,讓你完全不需寫程式碼就能實現網頁爬蟲與自動操作功能!本影片實測如何不寫任何程式碼就能運用Playwright MCP自動搜尋台灣飛往東京賞櫻的機票,並比較各航班最佳票價。
開始上課DeepSeek 模型以其強大的671B參數引起開發者關注,但部署方式選擇成為關鍵問題。大數學堂介紹了四種部署方案:適合入門的Ollama和LM Studio、適合正式環境的vLLM,以及需要技術背景但資源需求較低的Llama.cpp。無論您是新手或專業開發者,都能根據自身需求和技術能力,選擇合適的部署方式來體驗DeepSeek的功能。
開始上課有了OpenAI的多模態功能,現在只需一個API呼叫就能輕鬆破解證交所買賣日報表的複雜驗證碼,完全取代傳統深度學習模型和OpenCV的繁瑣流程。透過Selenium自動化技術,本課程將展示從環境設置到驗證碼識別的完整爬蟲實作過程,輕鬆實現自動化資料擷取流程。
開始上課這篇文章介紹了如何使用Selenium撰寫一個爬蟲,將slides.com上製作的HTML網頁投影片自動轉換成圖檔,然後結合起來匯出成PDF檔。這樣一來,就可以不需要花錢升級會員,也能將投影片匯出為PDF檔。
開始上課這篇文章介紹了如何使用Playwright撰寫Python網路爬蟲程式,以爬取有道翻譯的翻譯結果。透過自動化程式,可以省下許多時間和麻煩,無需重複複製貼上文字。此外,文章還宣布大數軟體正在徵求一位資深前端工程師,成功推薦人的將獲得獎金。最後,文章提供了一些相關連結,包括徵才網頁 影片 程式碼和學習資源。
開始上課這篇文章主要是介紹如何透過突破台彩網站的防爬蟲機制,使用開發者工具觀察網頁並使用Python快速撰寫網路爬蟲,抓取世界杯足球賠率。文中也提到,台彩還有其他防範機制阻止抓取正確的數據,如果讀者對此有興趣,可以在文章下方留言,未來或許會再開視頻專門解說。文章中也附上了相關的影片和程式碼連結。
開始上課在網路爬蟲的世界裡,我們經常會遇到各種反爬蟲機制。🛡️其中,Cloudflare的5秒挑戰(5-second Cloudflare Challenge)是一個常見的障礙。當我們使用普通的requests請求時,往往會被擋下來,無法取得想要的內容。🚫這次,我們將介紹如何使用pyppeteer和pyppeteer_stealth 這兩個強大的工具來突破這個限制。
開始上課